A
AI4Dev — AI for Development
@LLM4dev5.0K подп.
2.5Kпросмотров
51.2%от подписчиков
25 февраля 2026 г.
📷 ФотоScore: 2.8K
Пользователь атакует LLM с помощью промпта, пытаясь обойти внутренние фильтры модели и получить то, что разработчики не хотели открывать миру, — это называют «джейлбрейком». Есть много способов взломать систему, но один из самых эффективных кроется в стихосложении! Мощно и дешево. Ведь метафорой можно замаскировать вредоносную инструкцию... Поэтическая форма функционирует как универсальный оператор для взлома системы. Стилистические вариации позволяют обходить alignment. Метафорический язык и ритмическая структура искажают суждения моделей. Поэзия часто ассоциируется с доброжелательным контекстом, что дезориентирует guardrails. Доктор технических наук Владимир Крылов расскажет: → Как создавались атакующие стихи? → Как определялся «успех» атаки? → Какие модели оказались наиболее уязвимыми? → Почему этот способ джейлбрейка оказался эффективнее стандартных методов? (И почему он вообще работает?) Полностью предотвратить джейлбрейки невозможно, но их возникновение и последствия можно уменьшить. ⏰ Запускаем трансляцию завтра, 26 февраля, в 12:00. Смотрите на YouTube, в ВК или прямо в этом канале — и задавайте вопросы лектору! P.S. «Поэтические» атаки оказались особенно успешны в задачах по инъекции кода, взлому паролей и эксфильтрации весов самой модели.
2.5K
просмотров
1283
символов
Нет
эмодзи
Да
медиа

Другие посты @LLM4dev

Все посты канала →
Пользователь атакует LLM с помощью промпта, пытаясь обойти в — @LLM4dev | PostSniper