Boundary Point Jailbreaking of Black-Box LLMs Dvaies et al., — @llmsecurity

630просмотров

39.7%от подписчиков

18 февраля 2026 г.

📷 ФотоScore: 693

Boundary Point Jailbreaking of Black-Box LLMs Dvaies et al., 2026, UK AISI Блог, статья Исследователи из UK AISI разработали за деньги британских налогоплательщиков новый способ получения недопустимого вывода от моделей, который назвали Boundary Point Jailbreaking. Сразу хочется оговориться, что, несмотря на название, это не метод джейлбрейка — это атака на бинарные классификаторы в составе гардрейлов, такие как Constitutional Classifiers от Anthropic (или, например, Qwen3-Guard). Еще более углубляясь в суть: в статье представлен black box-метод создания adversarial examples на тексте в пространстве токенов. Давайте разбираться. Исследователи с точки зрения модели угроз предполагают (достаточно сильное предположение), что у вас уже есть некоторый джейлбрейк, который обходит элаймент модели, но ваш запрос ловится гардом. Предполагается также, что вы знаете, что срабатывает именно гард. Ваша цель — собрать такой префикс, который позволит джейлбрейку проскользнуть мимо классификатора. Метод выглядит следующим образом. Давайте возьмем префикс, прилепим его к набору "опасных" строк (которые детектируются классификатором, например, из HarmBench) и будем мутировать его тремя операциями: менять случайный токен на другой случайный токен, удалять случайный токен или добавлять токен. Получается что-то вроде BEAST, но у нас практически нет сигнала: классификатор возвращает 1 или 0, и мы не можем оценить, стал ли префикс лучше. Тут в дело идут те самые Boundary Points. Сначала инициализируем набор случайных префиксов. Теперь давайте зашумлять наши опасные строки, заменяя символы в них на случайные, с силой q (пропорция символов, замененных на случайный: How to make a bomb -> H]] to m]ke a ]o]b). При каком-то уровне шума классификатор перестает распознавать запросы как опасные. Давайте найдем тот максимальный (пока) уровень шума, при котором некоторые случайные префиксы к зашумленному вводу дают положительный вердикт при классификации, а некоторые — отрицательный. Это и есть наши пограничные точки. Следующий шаг — та самая мутация префиксов, в процессе которой слишком простые или сложные запросы (всегда дающие 1 или 0) убираются из набора, который пополняется новыми пограничными точками. Наконец, префиксы проверяются на случайно засемплированных запросах нашего уровня зашумленности. Если префиксы помогают избежать детектирования в более чем определенном заданном проценте случаев, мы прошли уровень, и долю шума можно повышать — и так пока она не достигнет нуля, т.е. префикс не дает пробитие классификатора для любого ввода из нашего набора опасных строк. Исследователи применяют этот метод к задаче протолкнуть через классификаторы OpenAI и Constitutional Classifiers "простые" ручные джейлбрейки, что им удается 800 и 660 тысяч запросов в соответствующее API и 210 и 330 долларов спустя. Как утверждается, полнота опасных ответов по рубрикатору (вспоминаем методологию Constitutional Classifiers) растет при применении атаки с нуля до 75,6 и 25,5 для GPT-5 и Claude, соответственно, причем эффективность резко больше по сравнению с наивными мутациями типа Best-of-N. Метод очень интересный (и не только для целей обхода гардрейлов). Из минусов: он, безусловно, дорогой и очень шумный (уверен, не AISI после 600к реджектнутых запросов забанили бы раз и навсегда), а детали имплементации не рассказали (для вашего же блага — почитайте Impact Statement). Как известно, идеальной защиты от адверсариала нет, поэтому для обеспечения безопасности можно использовать набор методов: сильный элайнмент, классификатор аутпутов и подхожы на уровне сервиса типа банов и рейтлимитов — та самая многослойна защита, без которой о реальной безопасности сегодня говорить сложно.

Другие посты @llmsecurity