1.5Kпросмотров
39.6%от подписчиков
13 февраля 2026 г.
📷 ФотоScore: 1.7K
Ребята из Wiz запустили очередной интересный проект "Offensive AI Benchmark", в рамках которого они измеряют насколько эффективно ИИ-инструменты справляются с задачами из области наступательной кибербезопасности. В ходе тестов было оценено 25 комбинаций агентов и языковых моделей по 257 подготовленным сценариям, разделенным на несколько категорий: от поиска зеродеев до эксплуатации мисконфигов облачных инфраструктур. Все подробности по методологии расчета и результатам лежат на странице проекта: также ожидается подробный технический отчет по испытаниям. Что интересного увидел из презентованных результатов бенчмарка:
🟠На успешность выполнения узкоспециализированных задач сильно влияет качество связки модели и ИИ-агента. Как видно из таблицы результатов, связки «родных» моделей с агентами оказались более эффективными.
🟠Обнаружение уязвимостей в API многим участникам далось вполне успешно — у лидеров по 84,2%. Это довольно высокий показатель для таких специфических задач. Возможно, дело в том, что логика API строго структурирована🤷♀️
🟠В поиске зеродеев, ожидаемо, всё плохо: лучший результат у лидеров — всего 27,3% успеха.
🟠Можно сказать, что модель GPT-5.2 провалилась — впрочем, как и Grok 4. Весь топ-10 заняли различные комбинации моделей Gemini и Claude Opus. #ai #offensive #benchmark #api #zeroday #vulnerability #llm