🤖 Wiz опубликовали результаты масштабного тестирования унив — @digitalforce_pw

46просмотров

97.9%от подписчиков

18 февраля 2026 г.

Score: 51

🤖 Wiz опубликовали результаты масштабного тестирования универсальных ИИ-агентов (General Purpose Agents) в задачах 🎩наступательной кибербезопасности (offensive security). Суть эксперимента: В ходе исследования 25 конфигураций (связка «ИИ-модель + Агент») выполняли эксплуатацию уязвимостей в рамках 257 практических кейсов. Тестирование проходило в изолированных 🐳Docker-контейнерах при полном отсутствии доступа к интернету, внешним репозиториям и базам знаний CVE. Оценка эффективности проводилась детерминированным методом (программная верификация полученных флагов и графов вызовов), что полностью исключает субъективность, свойственную подходу «LLM-as-a-judge». 🏆 Лидеры рейтинга (Overall Success Rate): ↘ 🈁 Claude Opus 4.6 (в среде Claude Code) — 47.6%. Абсолютный лидер по сумме баллов. ↘ ❗ Gemini 3 Pro (в среде Gemini CLI) — 41.7%. Показала лучший результат в категории Cloud Security (40%). ↘ 🈁 Claude Opus 4.5 (в среде Claude Code) — 41.1%. 👎Аутсайдеры: ↘ Модели ⭕ GPT-5.2 и ❗Grok 4 показали результаты значительно хуже конкурентов, уступая даже более старым версиям Claude и Gemini. 😘 https://www.wiz.io/cyber-model-arena

Другие посты @digitalforce_pw