Н
Нейроулей
@neurowave_tech3.5K подп.
803просмотров
22.9%от подписчиков
16 октября 2024 г.
📷 ФотоScore: 883
ReMax — метод обучения с подкреплением Использование ReMax для обучения модели Mistral-7B показало значительные улучшения. Модель достигла 94,78% успеха на leaderboard AlpacaEval и установила новый стандарт для моделей с 7 миллиардами параметров. Авторы метода предлагают ReMax как альтернативу популярному алгоритму Proximal Policy Optimization (PPO). NLP-разработчики разобрали метод, по их мнению, он действительно может стать заменой PPO для RLHF-задач, существенно снижая вычислительные затраты и повышая эффективность обучения LLM. #NLP #Development
803
просмотров
559
символов
Нет
эмодзи
Да
медиа

Другие посты @neurowave_tech

Все посты канала →