884просмотров
35.8%от подписчиков
2 марта 2026 г.
Score: 972
SkillsBench: как готовые навыки влияют на эффективность LLM-агентов Исследование SkillsBench (15+ университетов) протестировало 84 задачи из 11 доменов с 7 моделями – в трёх сценариях: без навыков, с готовыми навыками, с навыками, сгенерированными самой моделью. Всего – 7 308 траекторий, проверенных через pytest. 🔹 Готовые навыки повышают точность, но не везде одинаково
— Средний прирост pass rate: +16,2 п.п. (с 24,3% до 40,6%).
— В медицине: +51,9% – модели плохо обучены клиническим протоколам.
— В производстве: +41,9% – сложные воркфлоу не покрыты в обучении.
— В разработке ПО: всего +4,5% – модели уже хорошо знают этот домен. 🔹 Самогенерация навыков не работает
— Когда модель сначала писала навык, а потом использовала его – результат упал на 1,3% в среднем.
— GPT-5.2 показал падение на 5,6%.
— Только Claude Opus 4.6 дал небольшой рост (+1,4%).
— Вывод: модели умеют использовать навыки, но не умеют их надёжно создавать. 🔹 Объём навыков важен
— Оптимально: 2–3 навыка, тогда прирост составит +18,6%.
— 4+ навыка – прирост падает до +5,9%.
— Детальная документация снижает результат на – 2,9%, агент теряется в контексте. 🔹 Экономия и эффективность
— Haiku 4.5 с навыками обходит Opus 4.5 без них и выходит дешевле и точнее.
— Gemini 3 Flash: лучший результат – 48,7% с навыками, при цене $0,57 за задачу.
— Gemini 3 Pro: $1,06 за задачу, результат 45,1%. Подробнее на skillsbench и архив #SkillsBench #LLM #AIагенты #Бенчмарк