Известно, что нейросети (большие языковые модели — LLM) имею — @trizofication

1.6Kпросмотров

82.0%от подписчиков

3 декабря 2025 г.

Score: 1.7K

Известно, что нейросети (большие языковые модели — LLM) имеют защиту от «опасных» запросов. Это запросы, связанные с оружием, химическими, биологическими угрозами и дезинформацией. Команда итальянской лаборатории Icaro Lab, созданной компанией DexAI провели интересный и результативный эксперимент по обходу встроенной в LLM защиты. Обходить защиту LLM помогает... поэзия! «В ходе эксперимента специалисты сочинили 20 стихотворений на английском и итальянском языках. Каждое из них завершалось просьбой, направленной на генерацию опасного контента — от призывов к насилию до инструкций по нанесению вреда. Эти стихи отправляли 25 языковым моделям от девяти ведущих компаний, включая Google, OpenAI, Meta*, Anthropic и других. Результаты исследования были опубликованы под названием «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models». Исследователи показали, что трансформация опасных запросов в стихотворную форму значительно повышает вероятность обхода встроенных систем безопасности. Таким образом выявлен новый класс уязвимостей актуальных нейросетей. 62% моделей сгенерировали вредоносные ответы, несмотря на встроенные защитные фильтры. Наихудший результат показала модель Gemini 2.5 pro от Google — она среагировала на все стихи. Лучшую устойчивость продемонстрировал GPT-5 nano от OpenAI — он не дал ни одного вредоносного ответа. Непредсказуемая структура поэтического текста затрудняет для ИИ идентификацию потенциальной угрозы. Алгоритмы языковых моделей обучены предсказывать наиболее вероятное следующее слово, но в стихах логика может быть неочевидной, а опасные запросы маскируются под художественные обороты. В исследовании было рассмотрено два сценария: авторская поэзия, созданная экспертами с использованием сложных литературных приёмов, и автоматическая генерация стихов через метапромпт. Авторские стихи демонстрировали высокую успешность обхода — более 60%, а в отдельных моделях и до 90%. Автоматическая поэзия уступала, но также обходила фильтры в среднем в 40–45% случаев, что существенно выше, чем при традиционных прозовых запросах. При этом меньшие языковые модели, обладающие менее развитым языковым пониманием, были менее уязвимы к поэтическим обходам фильтров. Это связано с тем, что ими сложнее анализируются сложные стилистические конструкции, что ограничивает эффективность «джейлбрейка» через поэзию.» via Skyread, Didius Media Тризофикация

Другие посты @trizofication