313просмотров
19.4%от подписчиков
24 марта 2026 г.
Score: 344
Operator Web Injection — отравление RAG и веба [4/14]
#promptinjection #rag #webpoisoning Зачем взламывать пользователя, если можно отравить источник, из которого AI берёт информацию? Operator Web Injection — indirect prompt injection через RAG-базы и веб-контент. Как работает
1. Атакующий размещает injection payload на веб-странице, в документе или записи, индексируемой RAG
2. Payload замаскирован: invisible text (white-on-white), скрытые HTML-теги, metadata полей
3. Агент делает RAG-запрос или browse — получает отравленный контент в контекст
4. LLM выполняет встроенные инструкции: эксфильтрация, подмена ответов, левые tool calls Реальные кейсы ➡️ Palo Alto Unit 42 (декабрь 2025): зафиксировали real-world indirect prompt injection — обход AI-based ревью рекламы и SEO-манипуляция, продвигавшая фишинговый сайт через отравленные результаты
➡️ Basilisk Venom: отравленные GitHub-репозитории с injection payload в README и коде
➡️ OpenAI ChatGPT Atlas (декабрь 2025): внутренний red team OpenAI натравил RL-trained attacker на собственный браузерный агент. Атакующая модель научилась управлять агентом на протяжении сотен шагов через prompt injection на веб-страницах После этого OpenAI написала прямо: "Prompt injection, much like scams and social engineering, is unlikely to ever be fully solved." Защита
➡️ Content filtering — фильтрация retrieved контента на injection-паттерны
➡️ Source reputation — рейтинг доверия к источникам
➡️ Guardrail — отдельная модель фильтрует контент перед основной
➡️ Output monitoring — детекция аномалий в ответах агента Всё это снижает риск, но не закрывает вектор. Моё мнение
Web injection — самый масштабируемый вектор. Не нужно знать жертву. Отрави страницу, жди, пока чей-нибудь RAG её проглотит. SEO-poisoning для LLM — следующий фронт. Раньше атакующие оптимизировали страницы под Google. Теперь будут оптимизировать под embedding similarity и chunk retrieval. Attack surface бесконечный: каждая веб-страница, каждый документ в корпоративной wiki, каждый API response. Всё, что агент может прочитать, может содержать payload. 🔗Источники:
▪️ Unit 42 — Web-Based Indirect PI in the Wild
▪️ OpenAI — Hardening Atlas (2025)
▪️ OpenAI — Prompt Injections (2025)
▪️ OWASP LLM01 🌚 @poxek_ai