Вышло любопытное исследование SkillsBench. Они протестировал — @kisel_it

917просмотров

24.9%от подписчиков

20 февраля 2026 г.

Score: 1.0K

Вышло любопытное исследование SkillsBench. Они протестировали кучу LLM-агентов (от Claude 4.5 до Gemini 3 и GPT-5.2) на то, как они решают задачи с использованием Skills и без них. Главный инсайт: грамотно написанные скилы могут помочь даже младшим моделям обойти старших. Младшие и дешевые модели (например, быстрая Gemini Flash или Haiku) с правильной «обвязкой» в виде Skills обходят тяжеловесов (Pro/Opus), которые пытаются решить задачу без скилов. Прирост успешных решений с готовыми скиллами в среднем составил +16,2%. Но есть нюансы. 1. Самогенерация не работает. Как только модели предлагают сгенерировать Skills для себя, их результативность падает. 2. Больше — не значит лучше. Оптимальный объем для агента — 2–3 скилла (дает прирост +18,6%). Если напихать 4 и более, эффективность резко падает. Если закинуть агенту полную и подробную документацию, он в ней буквально тонет, и результат уходит в минус (–2,9%). Ссылочки: https://www.skillsbench.ai/ https://arxiv.org/pdf/2602.12670

Другие посты @kisel_it