InjectDefuser. Как сделать LLM безопаснее при работе с внешн — @okmlai

302просмотров

62.8%от подписчиков

8 февраля 2026 г.

Score: 332

InjectDefuser. Как сделать LLM безопаснее при работе с внешним контентом. Во всех security-кейсах с LLM есть общий риск 😏🙁: модель читает внешний контент, который контролирует атакующий. Поскольку LLM не различает данные и инструкции, этот контент может использоваться для prompt injection (PI) - внедрения скрытых команд, незаметных для пользователя, но исполняемых моделью. Так внешний ввод превращается из объекта анализа в канал управления поведением LLM. Это фундаментальный риск дизайна. И с ним надо что-то делать! ⚠️ Почему стандартных мер недостаточно LLM обрабатывает весь вход целиком, включая: 🔜скрытый HTML 🔜метаданные 🔜текст на изображениях 🔜служебные поля Если не выстроены границы доверия, модель начинает смешивать инструкции и данные - система становится управляемой извне. Именно эту проблему рассмотрели/изучили/истребили в InjectDefuser 🔗 Архитектура, а не патч InjectDefuser - это defense-in-depth фреймворк для LLM-систем, работающих с непроверенным контентом. Не то чтоб рекомендация к использованию, есть нюансы, но на заметку берем! И так, он строится из трёх обязательных слоёв: 1️⃣ Жёсткое разделение доверия (Prompt Hardening) Система явно делит вход: 🔜 TRUSTED - инструкции разработчика, 🔜UNTRUSTED - HTML, URL, PDF, изображения. LLM запрещено исполнять любые инструкции из UNTRUSTED-блока. Это устраняет целый класс атак и манипуляций (и абьюза) по определению. 2️⃣ Grounded-контекст вместо текста (Allowlist-RAG) Модель не доверяет утверждениям контента. Сайт заявляет: «Вы в личном кабинете банка» Система: 🔜 извлекает бренд 🔜 сверяет домен с allowlist 🔜 принимает решение на основе фактов, а не слов Контекст становится проверяемым. 3️⃣ Fail-close контроль выхода (Output Validation) Ответ модели 🔜обязан соответствовать схеме 🔜иметь корректные типы 🔜не содержать лишних полей Любое отклонение и ответ блокируется. Это защищает автоматические пайплайны от тихих сбоев. 📉 Эффект В экспериментальной оценке: 🎼 InjectDefuser снижает успешность атак с десятков процентов до <1% 🎼 работает даже против скрытых и визуальных манипуляций. Мы слишком быстро начали использовать ИИ как разумного помощника, хотя на самом деле это очень исполнительный парсер, который честно читает всё подряд. InjectDefuser хорош тем, что возвращает нас к нормальной инженерной логике! Все! 🚽

Другие посты @okmlai