1.7Kпросмотров
62.0%от подписчиков
23 декабря 2025 г.
statsScore: 1.9K
🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта. > Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях. > Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете. > Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов. > RFT на этих данных, SWE-bench Verified:
Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1.
Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1.
Также сильный рост на SWE-rebench September (цифры в блог посте) > Мы сделали много эвалов.
прогнали OpenHands с лимитом 100 и 500 шагов.
Запускаем на SWE-bench Verified и сентябрьском SWE-rebench. > Мы отдельно проверяем тесты, которые пишет модель.
Считаем, как часто тесты корректны.
Проверяем, как часто финальный патч модели проходит ее собственные тесты.
В итоге получаем пул данных в том числе для обучения верифаеров. Полностью Permissive License
Датасет и модели: https://huggingface.co/collections/nebius/openhands-trajectories Подробный блогпост: https://nebius.com/blog/posts/openhands-trajectories-with-qwen3-coder-480b Пост в x: https://x.com/ibragim_bad/status/2003423706861936856 P.S. Прошу поддержать пост в x, если у вас есть аккаунт!