467просмотров
28.9%от подписчиков
23 марта 2026 г.
Score: 514
Indirect Prompt Injection - невидимый удар [2/14]
#promptinjection #llm #rag Если Direct Injection — это ломиться в дверь, то Indirect — отравить воду в трубах. Атакующий прячет payload не в чат, а во внешние данные: веб-страницы, email, PDF, записи в БД. Пользователь payload не видит. Модель его послушно выполняет. Термин ввели Greshake et al. в феврале 2023 (arxiv 2302.12173). Они же показали атаку на Bing Chat с GPT-4 на борту и представили результаты на Black Hat US 2023. Как работает
1. Атакующий размещает инструкции в источнике, который LLM будет читать
2. Пользователь просит модель обработать эти данные (суммаризировать email, найти в вебе, запросить из БД)
3. Модель читает отравленный контент и выполняет встроенные инструкции
4. Результат: эксфильтрация через markdown-рендеринг картинок, подмена ответов, левые вызовы инструментов Реальные инциденты
Это не теория. В 2025-2026 indirect injection пошёл в продакшн: ➡️ MCP IDE (2025): безобидный Google Doc заставил агента в IDE выполнить Python payload и собрать секреты. Zero-click, без взаимодействия с пользователем
➡️ Cursor IDE (CVE-2025-59944): защита конфига проверяла путь с учётом регистра, но атакующий через prompt injection заставил агента записать конфиг с другим регистром (.cUrSoR/mcp.json). На case-insensitive FS (Windows/macOS) это перезаписало оригинал — RCE
➡️ GitHub Copilot: невидимые markdown-комментарии в PR утекали секреты репозитория
➡️ ServiceNow Now Assist (конец 2025): second-order атака — low-privilege агент обманул high-privilege агента, тот экспортировал файлы на внешний URL
➡️ CrowdStrike 2026 Global Threat Report: фиксирует массовые атаки с hidden prompt content в фишинговых email, нацеленных на AI-системы триажа почты Исследование 2025 года показало: 5 специально подготовленных документов манипулируют ответами AI в 90% случаев. Защита
➡️ Data provenance tagging — помечать полученный контент как untrusted
➡️ Content sanitization — вырезать потенциальные инструкции из данных
➡️ Human-in-the-loop — подтверждение на критические действия
➡️ Least privilege — read-only доступ для инструментов где можно Моё мнение
Indirect injection масштабируется так, как direct никогда не сможет. Одна отравленная веб-страница бьёт по тысячам пользователей через RAG. Индустрия подключает к LLM всё подряд — почту, календарь, код, базы, CRM — и каждое подключение это новая точка входа. Attack surface растёт быстрее, чем защита. Вот что неприятно: защититься от indirect injection на порядок сложнее. Нельзя просто фильтровать вход, потому что "вход" — вся внешняя информация, которую модель должна обрабатывать. Фильтровать контент = убить функциональность. Выбирай. 🔗Источники:
▪️ Greshake et al. (2023)
▪️ Black Hat US 2023 — whitepaper
▪️ CrowdStrike Global Threat Report 2026
▪️ OWASP LLM01 🌚 @poxek_ai