3.5Kпросмотров
28 октября 2025 г.
📷 ФотоScore: 3.9K
⚡️LIMI (Less is More for Agency) — очередной разрыв шаблонов. Как-то пропустил этот пейпер, но прям зацепил. Всего 78 высококачественных примеров решения задач с траекториями использования тулов при фантюнинге ростят метрики на AgencyBench c 45 до 73%. Примеры собрали для 2 доменов Vibe Coding и Research Workflows. 1. Реальные запросы из практики (60 запросов):
2. Синтез запросов из GitHub Pull Requests Потом собрали качественные траектории для этих задач.
Для каждого запроса аннотатор и GPT-5 работали вместе в SII CLI до тех пор, пока задача не была решена успешно. Из них выбирали лучшие еще.
В среднем каждая траектория содержала 42.4 тысячи токенов. Самая длинная достигла 152 тысяч токенов. Сделали файнтюн на этих данных. Про файнтюн совсем мало деталей. Выложили модели и датасет обучения. Очередной пример, что качество данных решает. Paper
HuggingFace
Датасет