2.4Kпросмотров
16 апреля 2025 г.
📷 ФотоScore: 2.6K
Репозиторий RM моделей Код для обучения + блог посты Реализации всех основных RM — Bradley-Terry (pointwise моделька), Pairwise RM, RRM, Odin RM (борются с байесом длинных ответов) и другие https://github.com/RLHFlow/RLHF-Reward-Modeling