1.1Kпросмотров
67.5%от подписчиков
15 января 2026 г.
📷 ФотоScore: 1.2K
Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks
Cunningham et al., Anthropic, 2026
Блог, статья, еще разбор от pwn.ai Anthropic выпустили новую статью про свою систему гардрейлов под названием Constitutional Classifiers++. Прошлая работа предполагала использование файнтюна над Claude Haiku 3.5, который, используя синтетические данные, учился детектировать недопустимые вводы и недопустимые выводы. Этот подход, как оказалось, уязвим перед двумя видами атак (названия приведены как в статье, суть понятна по скриншоту): 1. Reconstruction attacks: просьба собрать запрос из кусочков кода и вывести его в обфусцированном виде позволяла обойти защиту (это часто называют token smuggling).
2. Obfuscation attacks: использование метафор и общих знаний модели для сокрытия интента (похоже на KROP от HiddenLayer). Кроме того, гонять даже Haiku для каждого запроса — это дорого. Чтобы решить эти проблемы исследователи предлагают, во-первых, использовать весь контекст диалога, чтобы из классификатор вывода не работал без контекста промпта от пользователя. Они обучают Claude Haiku, аналогично предыдущей работе, на синтетических данных, сгенерированных по CBRN-конституции. В результате они получают 2 false negative кейса (из 226k объектов) на новом классификаторе против 13 на 695k для пары классификаторов из прошлой статьи. (Минута занудства: они называют это superior robustness, но если провести статтесты, то результат едва ли будет значимым). Однако есть нюанс — прошлый output-классификатор был маленькой моделью, поэтому новый классификатор потребляет на 50% больше вычислений. Поэтому исследователи обучают дополнительно маленький диалоговый классификатор, который калибруется так, чтобы срабатывать на 10% трафика, и лишь 10% отправляются в тяжелый классификатор. Результат получается аналогичным предыдущему эксперименту, но гораздо дешевле — 77% нагрузки приходится на первый классификатор. Вторая часть статьи посвящена линейным классификаторам над внутренними состояниями модели. Исследователи обучают простые линейные модели на конкатенации состояний всех слоев на момент t, но используют два интересных трюка: 1. Логиты усредняются по скользящему окну, чтобы единичные выбросы не влияли на вердикт — классификатор должен предсказывать недопустимость запроса по всему окну, чтобы диалог был признан недопустимым. В процессе инференса окно подменяется на EMA.
2. Лосс перевзвешивается в зависимости от того, насколько конкретный токен кажется классификатору характерным для недопустимого текста — то есть если модель на окне предсказывает минимальную недопустимость, то и лосс будет уменьшаться по сравнению с окном, в котором есть явно зловредные токены. Результирующая модель дает метрики лучше, чем маленький LLM-классификатор, но хуже, чем тюн Haiku, при этом корреляция с Haiku у нее меньше, чем у LLM. Исходя из этого наблюдения, исследователи реализуют следующий пайплайн: линейный классификатор работает на первой линии, при его срабатывании к нему подмешивается классификатор на тюне Haiku 4.5 с весом в 45%. Новый пайплайн дает на продовом трафике 0,05% срабатываний — гораздо меньше, чем 0,38% в прошлой статье (но тут и запросы другие, и Haiku поновее), при примерно в три раза меньшем количестве пропусков и всего 3,5% вычислительного оверхеда против 100%. Хотя идеальной защиты не бывает, никто не отменял модель швейцарского сыра: сильный элайнмент плюс гардрейлы, работающие на разных принципах, сильно усложняют атаки. Комбинация классификаторов на внутренних представлениях и на готовых текстах, выглядит многообещающе. К сожалению, пока работа с внутренностями доступна только тем, у кого свой инференс-стек, да и то с ограничениями — не уверен, что это тривиально с production-движками типа vllm. Но если такие системы будут набирать популярность, то и функционал наверняка подтянется.