A
AI[ex]Time
@AIexTime2.7K подп.
1.7Kпросмотров
62.0%от подписчиков
23 декабря 2025 г.
statsScore: 1.9K
🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта. > Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях. > Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете. > Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов. > RFT на этих данных, SWE-bench Verified: Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1. Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1. Также сильный рост на SWE-rebench September (цифры в блог посте) > Мы сделали много эвалов. прогнали OpenHands с лимитом 100 и 500 шагов. Запускаем на SWE-bench Verified и сентябрьском SWE-rebench. > Мы отдельно проверяем тесты, которые пишет модель. Считаем, как часто тесты корректны. Проверяем, как часто финальный патч модели проходит ее собственные тесты. В итоге получаем пул данных в том числе для обучения верифаеров. Полностью Permissive License Датасет и модели: https://huggingface.co/collections/nebius/openhands-trajectories Подробный блогпост: https://nebius.com/blog/posts/openhands-trajectories-with-qwen3-coder-480b Пост в x: https://x.com/ibragim_bad/status/2003423706861936856 P.S. Прошу поддержать пост в x, если у вас есть аккаунт!
1.7K
просмотров
1247
символов
Нет
эмодзи
Нет
медиа

Другие посты @AIexTime

Все посты канала →
🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT — @AIexTime | PostSniper