4️⃣5️⃣6️⃣ Недавно прочитал в блоге Netflix очень занятную ст — @researchoshnaya

2.0Kпросмотров

87.6%от подписчиков

3 ноября 2025 г.

stats📷 ФотоScore: 2.3K

4️⃣5️⃣6️⃣ Недавно прочитал в блоге Netflix очень занятную статью — про Advantage-Weighted Supervised Finetuning. Если коротко, это их новая техника пост-тренинга для генеративных рекомендательных моделей — такая, знаешь, “упрощённая альтернатива RLHF”, но сделанная очень по-инженерному и приземлённо. Значит они берут уже натренированную генеративную модель, которая умеет “писать” рекомендации и дообучают её не просто на пользовательских примерах, а с учётом преимущества (advantage) — насколько текущее предсказание лучше среднего по reward-модели. По сути это reward-learning без RLHF Это прикольно, потому что RLHF в рекомендациях — это боль. Нужно как-то разруливать шум, дефицит логов, инфраструктуру и дорогостоящие онлайн-итерации. Да и честно говоря RL в рексисе не особо приживается пока что. Кроме того от Netflix наконец-то говорят про генеративные Recsys… ➡️ Netflix Tech Blog — Post-Training Generative Recommenders with A-SFT ❗Ставьте ❤️‍🔥 сердечки если верите в генеративную персонализацию MADE IN @researchoshnaya

Другие посты @researchoshnaya