Пользователь атакует LLM с помощью промпта, пытаясь обойти в — @LLM4dev

2.5Kпросмотров

51.2%от подписчиков

25 февраля 2026 г.

📷 ФотоScore: 2.8K

Пользователь атакует LLM с помощью промпта, пытаясь обойти внутренние фильтры модели и получить то, что разработчики не хотели открывать миру, — это называют «джейлбрейком». Есть много способов взломать систему, но один из самых эффективных кроется в стихосложении! Мощно и дешево. Ведь метафорой можно замаскировать вредоносную инструкцию... Поэтическая форма функционирует как универсальный оператор для взлома системы. Стилистические вариации позволяют обходить alignment. Метафорический язык и ритмическая структура искажают суждения моделей. Поэзия часто ассоциируется с доброжелательным контекстом, что дезориентирует guardrails. Доктор технических наук Владимир Крылов расскажет: → Как создавались атакующие стихи? → Как определялся «успех» атаки? → Какие модели оказались наиболее уязвимыми? → Почему этот способ джейлбрейка оказался эффективнее стандартных методов? (И почему он вообще работает?) Полностью предотвратить джейлбрейки невозможно, но их возникновение и последствия можно уменьшить. ⏰ Запускаем трансляцию завтра, 26 февраля, в 12:00. Смотрите на YouTube, в ВК или прямо в этом канале — и задавайте вопросы лектору! P.S. «Поэтические» атаки оказались особенно успешны в задачах по инъекции кода, взлому паролей и эксфильтрации весов самой модели.

Другие посты @LLM4dev