2.4Kпросмотров
86.8%от подписчиков
23 декабря 2025 г.
Score: 2.6K
В рамках одного из проектов, где мы строим scaffolding-agnostic инфраструктуру, накопилось достаточно большое кол-во агентских траекторий, которые мы посчитали будет полезно выложить. И сразу же возник вопрос: а насколько можно прокачать модель в SWE, сделав простой rejection fine-tuning на траекториях Qwen3-480B-Coder. Оказалось, что очень даже неплохо – тянет на сильный бейзлайн в других экспериментах. Собрав множество деталей и багов запуска с OpenHands, сделали еще небольшой чеклист, как репортить замеры, чтобы было воспроизводимо – репортов вида openhands maxiter=100 недостаточно 😕️️️️️️ А главные цифры можно увидеть у Ибрагима 👆