Ребята из Wiz запустили очередной интересный проект "Offensi — @alexredsec

1.5Kпросмотров

39.6%от подписчиков

13 февраля 2026 г.

📷 ФотоScore: 1.7K

Ребята из Wiz запустили очередной интересный проект "Offensive AI Benchmark", в рамках которого они измеряют насколько эффективно ИИ-инструменты справляются с задачами из области наступательной кибербезопасности. В ходе тестов было оценено 25 комбинаций агентов и языковых моделей по 257 подготовленным сценариям, разделенным на несколько категорий: от поиска зеродеев до эксплуатации мисконфигов облачных инфраструктур. Все подробности по методологии расчета и результатам лежат на странице проекта: также ожидается подробный технический отчет по испытаниям. Что интересного увидел из презентованных результатов бенчмарка: 🟠На успешность выполнения узкоспециализированных задач сильно влияет качество связки модели и ИИ-агента. Как видно из таблицы результатов, связки «родных» моделей с агентами оказались более эффективными. 🟠Обнаружение уязвимостей в API многим участникам далось вполне успешно — у лидеров по 84,2%. Это довольно высокий показатель для таких специфических задач. Возможно, дело в том, что логика API строго структурирована🤷‍♀️ 🟠В поиске зеродеев, ожидаемо, всё плохо: лучший результат у лидеров — всего 27,3% успеха. 🟠Можно сказать, что модель GPT-5.2 провалилась — впрочем, как и Grok 4. Весь топ-10 заняли различные комбинации моделей Gemini и Claude Opus. #ai #offensive #benchmark #api #zeroday #vulnerability #llm

Другие посты @alexredsec