N
Neurohive
@neurohive4.6K подп.
2.3Kпросмотров
49.2%от подписчиков
22 января 2026 г.
stats📷 ФотоScore: 2.5K
👨‍💻 Claude Sonnet 4.5 побеждает на backend-бенчмарке ABC-Bench, лучше всех справившись с кодом и настройкой окружения ABC-Bench — первый бенчмарк, который проверяет способность ИИ-агентов решать полноценные задачи backend-разработки: от изучения кода в репозитории до настройки окружения и запуска сервиса в контейнере. Исследователи опубликовали код платформы оценки на Github, а датасет доступен на Hugging Face. ABC-Bench проверяет полный цикл: агент должен изучить структуру репозитория, понять, что нужно исправить, написать код, настроить зависимости, создать Dockerfile, и в конце система запускает сервис в Docker-контейнере и проверяет его работу через HTTP-запросы к API. Бенчмарк содержит 224 задачи, покрывающие 8 языков программирования (C#, JavaScript, Python, Java, Ruby, PHP, Go, Rust) и 19 фреймворков (ASP.NET Core, Express, FastAPI, Spring Boot, Ruby on Rails и другие), включающие домены от аналитики и e-commerce до DevTools и систем аутентификации. Задачи собраны на основе данных из открытых репозиториев Github. На бенчмарке проверили 11 моделей с помощью фреймворка OpenHands, каждую задачу модель могла пробовать решить три раза. Лучший результат показал Claude Sonnet 4.5 с 63.2% решенных задач. DeepSeek-V3.2 набрал около 50%, GPT-5 — 49.4%. Маленькие модели вроде Qwen3-8B не дотянули даже до 10%. GPT-5 и DeepSeek-V3.2 демонстрируют дисбаланс: они отлично справляются с написанием кода (>80%), но проваливаются на этапе настройки окружения (<50%). #Benchmark
2.3K
просмотров
1496
символов
Нет
эмодзи
Да
медиа

Другие посты @neurohive

Все посты канала →
👨‍💻 Claude Sonnet 4.5 побеждает на backend-бенчмарке ABC-B — @neurohive | PostSniper