917просмотров
24.9%от подписчиков
20 февраля 2026 г.
Score: 1.0K
Вышло любопытное исследование SkillsBench. Они протестировали кучу LLM-агентов (от Claude 4.5 до Gemini 3 и GPT-5.2) на то, как они решают задачи с использованием Skills и без них. Главный инсайт: грамотно написанные скилы могут помочь даже младшим моделям обойти старших. Младшие и дешевые модели (например, быстрая Gemini Flash или Haiku) с правильной «обвязкой» в виде Skills обходят тяжеловесов (Pro/Opus), которые пытаются решить задачу без скилов. Прирост успешных решений с готовыми скиллами в среднем составил +16,2%. Но есть нюансы. 1. Самогенерация не работает. Как только модели предлагают сгенерировать Skills для себя, их результативность падает. 2. Больше — не значит лучше. Оптимальный объем для агента — 2–3 скилла (дает прирост +18,6%). Если напихать 4 и более, эффективность резко падает. Если закинуть агенту полную и подробную документацию, он в ней буквально тонет, и результат уходит в минус (–2,9%). Ссылочки: https://www.skillsbench.ai/ https://arxiv.org/pdf/2602.12670
917
просмотров
996
символов
Нет
эмодзи
Нет
медиа

Другие посты @kisel_it

Все посты канала →
Вышло любопытное исследование SkillsBench. Они протестировал — @kisel_it | PostSniper