Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks Cunningham et al., Anthropic, 2026 Блог, статья, еще разбор от pwn.ai Anthropic выпустили новую статью про свою систему гардрейлов под названием Constitutional Classifiers++. Прошлая работа предполагала использование файнтюна над Claude Haiku 3.5, который, используя синтетические данные, учился детектировать недопустимые вводы и недопустимые выводы. Этот подход, как оказалось, уязвим перед двумя видами...
llm security и каланы
🦦🔪🦜 контакт: @conversational_cat
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
10 из 10У Microsoft Copilot можно было грохнуть чат просьбой вызвать тул withdraw(), а у Claude 4.5 — вот такой строкой.
Безопасность SOTA-агентов общего назначения Наступает конец 2025 года, прошедшего под флагом Agentic AI. Среди бесконечного количества разной степени дырявости копайлотов выделяются два важных агентных сценария: агентные браузеры (ChatGPT Atlas, Perplexity Comet и так далее) и агенты для разработчиков (Claude Code, Codex, Cursor и другие). Эти агенты с точки зрения безопасности важны по следующим причинам: 1. Максимально общие сценарии Агент для разработчиков может делать все, что угодно: читать...
Notion AI: Unpatched Data Exfiltration PromptArmor, 2026 Блог Коротко про еще один пример эксфильтрации данных через умных помощников в исполнении PromptArmor, на этот раз в Notion. Исследователи обратили внимание, что ассистент Notion AI, если попросить его обновить заметку на основе загруженного пользователем контента (например, резюме, веб-страницы или письма) уязвим к indirect prompt injection. Атакующий может попросить ассистента положить полный контекст заметки, с которой работает пользова...
Безопасность SOTA-агентов общего назначения: защиты Как защищать агентов в IDE и браузерах? Давайте посмотрим, что лидеры индустрии писали в последние полгода. Понятно, что основой защиты является alignment, не зря модели типа o4-mini обучаются иерархии инструкций для отказа от выполнения внедренных в недоверенные документы промптов. Однако этого может быть недостаточно, и OpenAI для агентной модели, которая лежит в основе Atlas, применяет дополнительное обучение для устойчивости к промпт-инъекц...
OverThink: Slowdown Attacks on Reasoning LLMs Kumar et al., University of Massachusetts Amherst, 2025 Статья, код Sponge-атаки на LLM – использование промптов, которые вызывают повышенное потребление ресурсов путем генерации большого количества токенов – могут быть проблемой для операторов чат-ботов и пользователей API, т.к. приводят к повышенной нагрузку на инфраструктуру, потенциальной деградации сервиса и банальной потере денег. В direct-сеттинге, когда вы хотите испортить самому себе чат, эт...
DockerDash: Two Attack Paths, One AI Supply Chain Crisis Sasi Levi, Noma Security, 2026 Блог Очередная непрямая промпт-инъекция, но на этот раз не только с эксфильтрацией, но и с RCE, обнаружилась в Gordon, LLM-помощнике для Docker Desktop и CLI. Исследователи из Noma Security обнаружили, что Gordon, если задать ему вопрос про этот образ, читает метаданные, которые создатель может добавить командой LABEL и которые могут содержать произвольный текст в формате key-value. Как выяснилось, если добав...
Boundary Point Jailbreaking of Black-Box LLMs Dvaies et al., 2026, UK AISI Блог, статья Исследователи из UK AISI разработали за деньги британских налогоплательщиков новый способ получения недопустимого вывода от моделей, который назвали Boundary Point Jailbreaking. Сразу хочется оговориться, что, несмотря на название, это не метод джейлбрейка — это атака на бинарные классификаторы в составе гардрейлов, такие как Constitutional Classifiers от Anthropic (или, например, Qwen3-Guard). Еще более углу...
Manipulating AI memory for profit: The rise of AI Recommendation Poisoning Microsoft Defender Security Research Team, 2026 Блог В позапрошлом году мы рассказывали на Offzone, как непрямая промпт-инъекция в документе может отравлять память ChatGPT, и предсказывали, что если раньше вы чистили компьютер родителей от браузерных тулбаров, сейчас – смартфон от оптимизаторов батарей, то в будущем будете очищать память LLM-ассистентов от инструкций с рекламой финансовых пирамид и курсов успеха. Исследов...
Привет. Мы с известными вам авторами каналов по AI Security решили провести стрим по AI Security. Кто будет: Евгений Кокуйкин - @kokuykin Борис Захир - @borismlsec Владислав Тушканов - @llmsecurity И вы. Запись будет, но лучше конечно же в лайфе. Хотели бы поболтать, пообщаться, поотвечать на ваши интересные вопросы по теме и кое-что рассказать(не будем спойлерить, Борис) Когда: 19:00, в эту субботу. В зуме (ссылка будет во время стрима в этом посте). Кстати вопросы можете задавать сейчас в комм...