Deep RecSys Course. Вчера прошло первое занятие нашего Deep RecSys курса в Вышке! Материалы выкладываются на гитхаб, а видеозаписи занятий — на ютуб, как и обещал :) Собственно, рассказывал доработанную (в)водную лекцию, слайды которой уже выкладывал на канале. Информационная перегрузка, тяжёлые хвосты, технофеодализм, коллаборативная фильтрация, матричная факторизация, bitter lesson, scaling hypothesis — вот это всё :) А на семинаре Артём Матвеев показывал различные метрики и обработку данных н...
Information Retriever
Author: @kkhrylchenko Рекламу не размещаю.
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
15 из 15xAI выложили в опенсорс код своей новой рекомендательной системы (X / Твиттера). https://github.com/xai-org/x-algorithm/ Код довольно простенький. Что можно сказать: используют jax постарались избавиться от эвристик и ручного feature engineering'а как и раньше, кандидаты набираются из двух источников — подписки и ML (раньше TwHIN, теперь двухбашенный трансформер) в качестве ранжирующей нейросети — тоже трансформер (раньше был MaskNet / DCN / etc) также выложили цельный многостадийный рекомендате...
На хабре появился пост от Антона Пилькевича про самое большое улучшение текстового поиска в Озоне за последние 4 года. Что сделали: query prediction — внедрили обратный индекс на основе предсказанных для документов токенов запроса (с помощью DL, разумеется). Ссылочка: https://habr.com/ru/companies/ozontech/articles/990180/. Пост супер крутой! Много отсылок на литературу, подробные объяснения всяких базовых концептов, даже отсылка на канал Миши и пост про GPU Retrieval есть :) В общем, всем интер...
Deep RecSys Course II. 1. На лекции поговорили про ML дизайн рекомендательных систем и немного про мой опыт работы в R&D. В своё время я придумывал формат последней итерации собеседования по рекомендательным системам в Яндексе, и при подготовке лекции мне этот опыт очень пригодился. В общем, думаю, что получился неплохой начальный материал для подготовки к ML дизайн рексис собеседованию в бигтех. Пользуйтесь :) 2. На семинаре Владимир Байкалов @ducks_recs рассказывал про классические алгоритмы р...
Погружение в академию. Прошло уже примерно полгода с тех пор, как я сменил деятельность на ресерч. Что могу рассказать: хорошенько отдохнул; но недостаточно, надо ещё :) взял себе девять студентов под научное руководство и слегка чувствую себя тимлидом =) готовил вместе с ребятами следующую итерацию рексис курса для ШАДа и первую итерацию рексис курса в Вышке; оба начинаются в первой половине февраля, поэтому ждите в ближайшее время посты с лекциями/семинарами доделал camera-ready статью про Арг...
Variable-Length Semantic IDs for Recommender Systems. Задумывались ли вы когда-нибудь почему все семантические айдишники одинаковой длины? Нет? А я задумывался! И даже написал на эту тему статью :) Недавно я наткнулся на область Emergent Communication (EC). Она никак напрямую не связана с рекомендательными системами — в ней исследуют как в рамках решения совместных задач агенты вырабатывают общий язык для коммуникаций. Самая популярная формулировка задачи — Lewis Game: один агент (sender) видит ...
Deep RecSys Course IV. 1. На четвертой неделе курса мы продолжили обсуждение двухбашенных моделей и нейросетевой генерации кандидатов. Если на прошлом занятии речь шла про базовую архитектуру и обучение двухбашенных моделей, то в этот раз детально разбрали архитектуру башен: Обучаемые эмбеддинги, плюсы и минусы Контентное кодирование и inductive bias Unsupervised representation learning как альтернатива для выучивания векторных представлений Методы кодирования пользователей Также немного поговор...
😎 P.S: про RecSys Substack уже писал вот здесь :)
Deep RecSys Course V. Новое занятие курса уже на ютубе (а слайды — на github). Начали тему нейросетевого ранжирования: 1. На лекции обсудили, когда и почему стоит использовать нейросети для ранжирования (вместо градиентного бустинга). Затем поговорили про формирование входного вектора для нейросети — как работать с категориальными и вещественными признаками, а также с выходами других моделей. 2. На семинаре Артём Матвеев разобрал статью Unified Embedding: Battle-Tested Feature Representations fo...
Получается, автор HSTU знает про Аргуса. Даже раньше Алибабы в списке упомянул :)