SkillsBench: как готовые навыки влияют на эффективность LLM- — @bitrix24mcp

884просмотров

35.8%от подписчиков

2 марта 2026 г.

Score: 972

SkillsBench: как готовые навыки влияют на эффективность LLM-агентов Исследование SkillsBench (15+ университетов) протестировало 84 задачи из 11 доменов с 7 моделями – в трёх сценариях: без навыков, с готовыми навыками, с навыками, сгенерированными самой моделью. Всего – 7 308 траекторий, проверенных через pytest. 🔹 Готовые навыки повышают точность, но не везде одинаково — Средний прирост pass rate: +16,2 п.п. (с 24,3% до 40,6%). — В медицине: +51,9% – модели плохо обучены клиническим протоколам. — В производстве: +41,9% – сложные воркфлоу не покрыты в обучении. — В разработке ПО: всего +4,5% – модели уже хорошо знают этот домен. 🔹 Самогенерация навыков не работает — Когда модель сначала писала навык, а потом использовала его – результат упал на 1,3% в среднем. — GPT-5.2 показал падение на 5,6%. — Только Claude Opus 4.6 дал небольшой рост (+1,4%). — Вывод: модели умеют использовать навыки, но не умеют их надёжно создавать. 🔹 Объём навыков важен — Оптимально: 2–3 навыка, тогда прирост составит +18,6%. — 4+ навыка – прирост падает до +5,9%. — Детальная документация снижает результат на – 2,9%, агент теряется в контексте. 🔹 Экономия и эффективность — Haiku 4.5 с навыками обходит Opus 4.5 без них и выходит дешевле и точнее. — Gemini 3 Flash: лучший результат – 48,7% с навыками, при цене $0,57 за задачу. — Gemini 3 Pro: $1,06 за задачу, результат 45,1%. Подробнее на skillsbench и архив #SkillsBench #LLM #AIагенты #Бенчмарк

Другие посты @bitrix24mcp