1.2Kпросмотров
28 декабря 2025 г.
📷 ФотоScore: 1.3K
Самый сложный домен в ML - это RecSys - цитата лида, который работает с рекомендациями. Какое-то время назад пришлось изучить что нового придумали в рекомендациях: • Для изучения базы и основных историй можно пройти курс от МТС, он достаточно емкий • Используемые модели. Так или иначе, все используют комбинацию самых разных методов. В продакшене RecSys end-to-end трансформеры редко используют as-is, тк всегда можно подмешать топ популярных товаров или последние взаимодействия, а это легко дает двузначный вклад в бизнес-метрики. В Лавке до 30% продаж • Стабильные предпочтения: то, что вам нравится годами. Тут всё еще отлично справляются классические методы вроде ALS (Matrix Factorization) на большой истории, например за год. При этом начинают исследовать и применять LLM как для поиска таких предпочтений, так и для их интерпретации. Но LLM пока слишком тяжелые, а прирост маловат относительно костов • Последние взаимодействия. Это главный драйвер роста метрик. В этой нише последовательно появляются новые подходы: SASRec, BERT4Rec, gSASRec и теперь HSTU. • Про HSTU (Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations) Про него услышал еще весной, хотя статья начала 2024-го. Глобально там удалось решить проблему масштабирования: раньше при накидывании compute в DLRM (Deep Learning Recommendation Models) метрики росли не так активно. В итоге авторы смогли обучить модель с триллионом параметров, перейдя к генеративной архитектуре. • Open-source решения. К сожалению, хороших готовых инструментов очень мало. LightFM не обновлялся больше двух лет. В итоге многие пишут свои решения, так как еще и задачи очень доменно специфичны. Из живого можно посмотреть RePlay • В Яндекс Музыке использовали подход, близкий к HSTU: начали предсказывать не просто будущие треки, но и реакции на них. Как итог метрики прокрасились +2.2% по времени прослушивания (TLT). Зато в Discovery-метриках (прослушивание незнакомого контента) рост составил +12% TLT. Там же про двухбашенные моделей. Тут есть презентация с доклада PS Осталось дождаться, когда мы наконец перестанем рекомендовать палатку пользователю, который её уже купил 🫡