AI red teaming постепенно становится отдельным рынком. Это видно и по покупке команды PromptFoo гигантом OpenAI, и по тому, как российские ИБ-компании уже оценивают рост атак через ИИ-уязвимости. Это хорошо совпадает с тем, что мы видим на рынке сами. Полгода назад мы выпустили open source версию HiveTrace Red, а сегодня анонсируем запуск HiveTrace Red Enterprise 🚀 24 марта проведем вебинар, где подробно расскажем, как сегодня устроены проекты по тестированию ИИ-систем и как усилить практику пе...
Евгений Кокуйкин - Raft
Канал про то, как мы создаем Raft AI и разрабатываем приложения на GPT. Автор Евгений Кокуйкин, контакт @artmaro
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
18 из 18Новый инцидент, связанный с утечкой данных из AI-ассистента консалтинговой компании McKinsey. Исследователи из CodeWall во время red teaming-упражнений протестировали чат-бота для сотрудников и консультантов компании, который имел доступ к данным клиентов и другим конфиденциальным перепискам. Агент-хакер CodeWall обнаружил незащищенные API-эндпоинты приложения и подобрал SQL-инъекцию, которая дала доступ к продакшен базе данных. Случай для безопасности веб-приложений довольно обычный, но есть и ...
Деанонимизация с LLM стала дешевле и быстрее. В новой статье исследователей из ETH Zurich, при соавторстве небезызвестного Николаса Карлини, проведен эксперимент по сопоставлению активности на Hacker News с реальными личностями. Авторы взяли десятки тысяч профилей и проанализировали публичные тексты с помощью LLM, после чего смогли сопоставлять пользователей форума с профилями LinkedIn с высокой точностью и полнотой порядка 90% и 54% в обе стороны. Пару лет назад я писал про первые работы в этой...
Во вторник проведем вебинар об уязвимостях AI-систем и подходах к их тестированию. Поговорим про: 🔹 где именно в архитектуре возникают уязвимости и какие атаки реально работают против LLM 🔹 как выглядит процесс AI-пентеста: от гипотез и экспериментов до отчета об устойчивости 🔹 какие инструменты и подходы позволяют это автоматизировать, и покажем реальные атаки на примерах Приходите, если интересуетесь темой уязвимостей AI-систем и хотите обсудить актуальные вопросы в области тестирования AI-...
В свежем выпуске журнала AI Cyber вышла наша статья про новый релиз OWASP Top 10 for Agentic Applications. В статье мы собрали актуальные риски для агентных систем и показали несколько примеров инцидентов в реальных продуктах. Задача Agentic Security Initiative сделать агентный Top 10 практичным инструментом. Популярный OWASP Top 10 for LLM Applications вышел в 2023 году и уже не адресует проблемы новых систем. Мы рассчитываем, что новый фреймворк поможет в моделировании угроз и подборе мер и ин...
ИИ в агро: внедрять нельзя игнорировать — где ставить запятую? 🌾 Агросектор долго смотрел на ИИ с недоверием. Слишком высока цена ошибки: здесь не баг в коде, а потерянный урожай. Мы выступили на Cropwise Day в Сколково — 400+ человек, весь цифровой агро-промышленный комплекс в одном зале. Рассказали честно: GPT не нужен там, где справляется Excel. Беремся только если ИИ снимает >20% рутины, режет риски или растит выручку. Как это выглядит на практике — кейс Syngenta. Агроном открывает чат и за...
🆕 Новая порция МегаПользы: вторая часть лекций [AI] МегаШколы 2026 уже на YouTube и VK Погружаемся в более сложные темы ⬇️ ⏺️Оценка и тестирование LLM-агентов — Алексей Степин, AI researcher, ex Lead ML Engineer, магистрант AI Talent Hub Разбираем методы оценки и тестирования агентов. ⏺️Мультиагентные системы — Рустем Хакимуллин, ведущий ML Engineer в Chatboost, эксперт хакатонов, ALUMNI AI Talent Hub Строим сложные workflows и Curriculum Builder. ⏺️AI + Безопасность агентов — Евгений Кокуйкин,...
По следам нашего январского AI Security эфира Артём Семёнов собрал основные дискуссионные поинты и оформил их в статью на Хабре. Артём, спасибо за структурирование нашей местами хаотичной беседы 🙂
Помимо коллекции Elder Plinius, для тестирования GenAI-моделей могут быть полезны и другие наборы harm-запросов: aya_redteaming, AdvBench, XSTest, ToxicChat, WildJailbreak, Do-Not-Answer. С промпт-атаками на агентные системы всё сложнее из-за вариативности таких систем. Мы в AI Security Lab экспериментируем в этом направлении и как-нибудь напишем подробнее.
Как вы можете помнить - недавно мы провели подкаст. Мы сделали для вас его текстовую версию на хабр, с которой вы можете ознакомиться и подчеркнуть для себя что-то новое. Лично я тогда рассказал о том как потерял 200 долларов у Антропика, про слепые зоны в защите с использованием системного промпта и сделал некоторые прогнозы.