302просмотров
62.8%от подписчиков
8 февраля 2026 г.
Score: 332
InjectDefuser. Как сделать LLM безопаснее при работе с внешним контентом. Во всех security-кейсах с LLM есть общий риск 😏🙁: модель читает внешний контент, который контролирует атакующий.
Поскольку LLM не различает данные и инструкции, этот контент может использоваться для prompt injection (PI) - внедрения скрытых команд, незаметных для пользователя, но исполняемых моделью. Так внешний ввод превращается из объекта анализа в канал управления поведением LLM. Это фундаментальный риск дизайна. И с ним надо что-то делать! ⚠️ Почему стандартных мер недостаточно
LLM обрабатывает весь вход целиком, включая:
🔜скрытый HTML
🔜метаданные
🔜текст на изображениях
🔜служебные поля Если не выстроены границы доверия, модель начинает смешивать инструкции и данные - система становится управляемой извне.
Именно эту проблему рассмотрели/изучили/истребили в InjectDefuser 🔗 Архитектура, а не патч
InjectDefuser - это defense-in-depth фреймворк для LLM-систем, работающих с непроверенным контентом. Не то чтоб рекомендация к использованию, есть нюансы, но на заметку берем! И так, он строится из трёх обязательных слоёв:
1️⃣ Жёсткое разделение доверия (Prompt Hardening)
Система явно делит вход:
🔜 TRUSTED - инструкции разработчика,
🔜UNTRUSTED - HTML, URL, PDF, изображения. LLM запрещено исполнять любые инструкции из UNTRUSTED-блока.
Это устраняет целый класс атак и манипуляций (и абьюза) по определению. 2️⃣ Grounded-контекст вместо текста (Allowlist-RAG)
Модель не доверяет утверждениям контента. Сайт заявляет:
«Вы в личном кабинете банка» Система:
🔜 извлекает бренд
🔜 сверяет домен с allowlist
🔜 принимает решение на основе фактов, а не слов
Контекст становится проверяемым. 3️⃣ Fail-close контроль выхода (Output Validation)
Ответ модели
🔜обязан соответствовать схеме
🔜иметь корректные типы
🔜не содержать лишних полей Любое отклонение и ответ блокируется. Это защищает автоматические пайплайны от тихих сбоев. 📉 Эффект
В экспериментальной оценке:
🎼 InjectDefuser снижает успешность атак
с десятков процентов до <1%
🎼 работает даже против скрытых и визуальных манипуляций. Мы слишком быстро начали использовать ИИ как разумного помощника, хотя на самом деле это очень исполнительный парсер,
который честно читает всё подряд. InjectDefuser хорош тем, что возвращает нас к нормальной инженерной логике! Все!
🚽