Operator Web Injection — отравление RAG и веба [4/14] #promp — @poxek_ai

313просмотров

19.4%от подписчиков

24 марта 2026 г.

Score: 344

Operator Web Injection — отравление RAG и веба [4/14] #promptinjection #rag #webpoisoning Зачем взламывать пользователя, если можно отравить источник, из которого AI берёт информацию? Operator Web Injection — indirect prompt injection через RAG-базы и веб-контент. Как работает 1. Атакующий размещает injection payload на веб-странице, в документе или записи, индексируемой RAG 2. Payload замаскирован: invisible text (white-on-white), скрытые HTML-теги, metadata полей 3. Агент делает RAG-запрос или browse — получает отравленный контент в контекст 4. LLM выполняет встроенные инструкции: эксфильтрация, подмена ответов, левые tool calls Реальные кейсы ➡️ Palo Alto Unit 42 (декабрь 2025): зафиксировали real-world indirect prompt injection — обход AI-based ревью рекламы и SEO-манипуляция, продвигавшая фишинговый сайт через отравленные результаты ➡️ Basilisk Venom: отравленные GitHub-репозитории с injection payload в README и коде ➡️ OpenAI ChatGPT Atlas (декабрь 2025): внутренний red team OpenAI натравил RL-trained attacker на собственный браузерный агент. Атакующая модель научилась управлять агентом на протяжении сотен шагов через prompt injection на веб-страницах После этого OpenAI написала прямо: "Prompt injection, much like scams and social engineering, is unlikely to ever be fully solved." Защита ➡️ Content filtering — фильтрация retrieved контента на injection-паттерны ➡️ Source reputation — рейтинг доверия к источникам ➡️ Guardrail — отдельная модель фильтрует контент перед основной ➡️ Output monitoring — детекция аномалий в ответах агента Всё это снижает риск, но не закрывает вектор. Моё мнение Web injection — самый масштабируемый вектор. Не нужно знать жертву. Отрави страницу, жди, пока чей-нибудь RAG её проглотит. SEO-poisoning для LLM — следующий фронт. Раньше атакующие оптимизировали страницы под Google. Теперь будут оптимизировать под embedding similarity и chunk retrieval. Attack surface бесконечный: каждая веб-страница, каждый документ в корпоративной wiki, каждый API response. Всё, что агент может прочитать, может содержать payload. 🔗Источники: ▪️ Unit 42 — Web-Based Indirect PI in the Wild ▪️ OpenAI — Hardening Atlas (2025) ▪️ OpenAI — Prompt Injections (2025) ▪️ OWASP LLM01 🌚 @poxek_ai

Другие посты @poxek_ai