14просмотров
10 ноября 2025 г.
📷 ФотоScore: 15
RL не улучшает навыки ризонинга модели Тренд на негативные статьи о том, что "что-то не работает или работает не так, как мы думали", остается с нами. В этот раз хайпует китайская работа под названием "Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?". Мы все привыкли к тому, что в целом ризонинг – это про RL. Но в этой статье показано, что на самом деле ничего сверхъестественного RL не вносит, а просто переупаковывает то, что уже было в распределении базовой модели. Как это проверяли? Основная метрика – pass@k: задача считается решенной, если среди k попыток модели (сэмплов) есть хотя бы одна правильная. Для авторской гипотезы метрика как раз очень подходит, потому что отражает именно потенциал модели решать задачу при разумном числе попыток. И вот что получается. При малых k RLVR-модели действительно чаще попадают в правильный ответ (то есть у них выше pass@1), но при росте k базовые модели догоняют и превосходят RLVR практически на всех наборах задач и семейств моделей. Это значит, что эти методы не расширяют границы решаемости задач (в том числе математических и кодовых), они просто повышают эффективность семплирования уже существующих траекторий aka вероятность сразу пойти по нужному пути, и поэтому работают. Плохо ли это? Нет. Но означает, что и слишком больших надежд на RLVR возлагать не стоит: все равно все опять упирается в претрен. Дисклеймер: в статье речь именно про RLVR, то есть Reinforcement Learning with Verifiable Rewards. RLHF, например, сюда не относится, но вот куча других популярных алгосов, типа PPO/GRPO/Reinforce++ и тд – да.