Indirect Prompt Injection - невидимый удар [2/14] #promptinj — @poxek_ai

467просмотров

28.9%от подписчиков

23 марта 2026 г.

Score: 514

Indirect Prompt Injection - невидимый удар [2/14] #promptinjection #llm #rag Если Direct Injection — это ломиться в дверь, то Indirect — отравить воду в трубах. Атакующий прячет payload не в чат, а во внешние данные: веб-страницы, email, PDF, записи в БД. Пользователь payload не видит. Модель его послушно выполняет. Термин ввели Greshake et al. в феврале 2023 (arxiv 2302.12173). Они же показали атаку на Bing Chat с GPT-4 на борту и представили результаты на Black Hat US 2023. Как работает 1. Атакующий размещает инструкции в источнике, который LLM будет читать 2. Пользователь просит модель обработать эти данные (суммаризировать email, найти в вебе, запросить из БД) 3. Модель читает отравленный контент и выполняет встроенные инструкции 4. Результат: эксфильтрация через markdown-рендеринг картинок, подмена ответов, левые вызовы инструментов Реальные инциденты Это не теория. В 2025-2026 indirect injection пошёл в продакшн: ➡️ MCP IDE (2025): безобидный Google Doc заставил агента в IDE выполнить Python payload и собрать секреты. Zero-click, без взаимодействия с пользователем ➡️ Cursor IDE (CVE-2025-59944): защита конфига проверяла путь с учётом регистра, но атакующий через prompt injection заставил агента записать конфиг с другим регистром (.cUrSoR/mcp.json). На case-insensitive FS (Windows/macOS) это перезаписало оригинал — RCE ➡️ GitHub Copilot: невидимые markdown-комментарии в PR утекали секреты репозитория ➡️ ServiceNow Now Assist (конец 2025): second-order атака — low-privilege агент обманул high-privilege агента, тот экспортировал файлы на внешний URL ➡️ CrowdStrike 2026 Global Threat Report: фиксирует массовые атаки с hidden prompt content в фишинговых email, нацеленных на AI-системы триажа почты Исследование 2025 года показало: 5 специально подготовленных документов манипулируют ответами AI в 90% случаев. Защита ➡️ Data provenance tagging — помечать полученный контент как untrusted ➡️ Content sanitization — вырезать потенциальные инструкции из данных ➡️ Human-in-the-loop — подтверждение на критические действия ➡️ Least privilege — read-only доступ для инструментов где можно Моё мнение Indirect injection масштабируется так, как direct никогда не сможет. Одна отравленная веб-страница бьёт по тысячам пользователей через RAG. Индустрия подключает к LLM всё подряд — почту, календарь, код, базы, CRM — и каждое подключение это новая точка входа. Attack surface растёт быстрее, чем защита. Вот что неприятно: защититься от indirect injection на порядок сложнее. Нельзя просто фильтровать вход, потому что "вход" — вся внешняя информация, которую модель должна обрабатывать. Фильтровать контент = убить функциональность. Выбирай. 🔗Источники: ▪️ Greshake et al. (2023) ▪️ Black Hat US 2023 — whitepaper ▪️ CrowdStrike Global Threat Report 2026 ▪️ OWASP LLM01 🌚 @poxek_ai

Другие посты @poxek_ai