Р
РИСЕРЧОШНАЯ
@researchoshnaya2.3K подп.
2.0Kпросмотров
87.6%от подписчиков
3 ноября 2025 г.
stats📷 ФотоScore: 2.3K
4️⃣5️⃣6️⃣ Недавно прочитал в блоге Netflix очень занятную статью — про Advantage-Weighted Supervised Finetuning. Если коротко, это их новая техника пост-тренинга для генеративных рекомендательных моделей — такая, знаешь, “упрощённая альтернатива RLHF”, но сделанная очень по-инженерному и приземлённо. Значит они берут уже натренированную генеративную модель, которая умеет “писать” рекомендации и дообучают её не просто на пользовательских примерах, а с учётом преимущества (advantage) — насколько текущее предсказание лучше среднего по reward-модели. По сути это reward-learning без RLHF Это прикольно, потому что RLHF в рекомендациях — это боль. Нужно как-то разруливать шум, дефицит логов, инфраструктуру и дорогостоящие онлайн-итерации. Да и честно говоря RL в рексисе не особо приживается пока что. Кроме того от Netflix наконец-то говорят про генеративные Recsys… ➡️ Netflix Tech Blog — Post-Training Generative Recommenders with A-SFT ❗Ставьте ❤️‍🔥 сердечки если верите в генеративную персонализацию MADE IN @researchoshnaya
2.0K
просмотров
1044
символов
Нет
эмодзи
Да
медиа

Другие посты @researchoshnaya

Все посты канала →
4️⃣5️⃣6️⃣ Недавно прочитал в блоге Netflix очень занятную ст — @researchoshnaya | PostSniper