803просмотров
22.9%от подписчиков
16 октября 2024 г.
📷 ФотоScore: 883
ReMax — метод обучения с подкреплением Использование ReMax для обучения модели Mistral-7B показало значительные улучшения. Модель достигла 94,78% успеха на leaderboard AlpacaEval и установила новый стандарт для моделей с 7 миллиардами параметров. Авторы метода предлагают ReMax как альтернативу популярному алгоритму Proximal Policy Optimization (PPO). NLP-разработчики разобрали метод, по их мнению, он действительно может стать заменой PPO для RLHF-задач, существенно снижая вычислительные затраты и повышая эффективность обучения LLM. #NLP #Development