T
TensorFlow
@tensorflowblog1.5K подп.
1.7Kпросмотров
24 февраля 2025 г.
stats📷 ФотоScore: 1.8K
⚡️ EasyR1 – эффективный и масштабируемый фреймворк для обучения с подкреплением (RL) с поддержкой мультимодальных данных. Чем интересен EasyR1? EasyR1 сочетает в себе алгоритм GRPO, продемонстрированный в DeepSeek R1, и расширение системы veRL для поддержки vision-language моделей, таких как Qwen2.5-VL. Уже после 30 шагов обучения фреймворк показал прирост производительности на 5% в экспериментах на тестовом наборе Geometry3k. Это делает его привлекательным инструментом для исследователей и разработчиков, работающих с задачами, где объединяются визуальные и текстовые данные. Фреймворк спроектирован так, чтобы быть масштабируемым и легко интегрироваться с различными алгоритмами RL, что открывает широкие возможности для дальнейших исследований. Ожидайте будущих обновлений – в них планируется интеграция дополнительных алгоритмов RL и новых архитектур VLM. ▪ Github @ai_machinelearning_big_data #EasyR1 #opensource #GRPO #VLM
1.7K
просмотров
943
символов
Нет
эмодзи
Да
медиа

Другие посты @tensorflowblog

Все посты канала →
⚡️ EasyR1 – эффективный и масштабируемый фреймворк для обуче — @tensorflowblog | PostSniper