46просмотров
97.9%от подписчиков
18 февраля 2026 г.
Score: 51
🤖 Wiz опубликовали результаты масштабного тестирования универсальных ИИ-агентов (General Purpose Agents) в задачах 🎩наступательной кибербезопасности (offensive security). Суть эксперимента:
В ходе исследования 25 конфигураций (связка «ИИ-модель + Агент») выполняли эксплуатацию уязвимостей в рамках 257 практических кейсов. Тестирование проходило в изолированных 🐳Docker-контейнерах при полном отсутствии доступа к интернету, внешним репозиториям и базам знаний CVE. Оценка эффективности проводилась детерминированным методом (программная верификация полученных флагов и графов вызовов), что полностью исключает субъективность, свойственную подходу «LLM-as-a-judge». 🏆 Лидеры рейтинга (Overall Success Rate):
↘ 🈁 Claude Opus 4.6 (в среде Claude Code) — 47.6%. Абсолютный лидер по сумме баллов.
↘ ❗ Gemini 3 Pro (в среде Gemini CLI) — 41.7%. Показала лучший результат в категории Cloud Security (40%).
↘ 🈁 Claude Opus 4.5 (в среде Claude Code) — 41.1%. 👎Аутсайдеры:
↘ Модели ⭕ GPT-5.2 и ❗Grok 4 показали результаты значительно хуже конкурентов, уступая даже более старым версиям Claude и Gemini. 😘 https://www.wiz.io/cyber-model-arena