I
Information Retriever
@inforetriever3.8K подп.
3.3Kпросмотров
88.1%от подписчиков
19 февраля 2026 г.
📷 ФотоScore: 3.7K
Variable-Length Semantic IDs for Recommender Systems. Задумывались ли вы когда-нибудь почему все семантические айдишники одинаковой длины? Нет? А я задумывался! И даже написал на эту тему статью :) Недавно я наткнулся на область Emergent Communication (EC). Она никак напрямую не связана с рекомендательными системами — в ней исследуют как в рамках решения совместных задач агенты вырабатывают общий язык для коммуникаций. Самая популярная формулировка задачи — Lewis Game: один агент (sender) видит объект, описывает его (в случае языковой игры — символьно), другой агент (receiver) читает описание и пытается угадать, что это был за объект. Внезапно, это очень похоже на моё собственное видение обучения семантических айдишников — я смотрю на этот процесс как на языковую игру. По Витгенштейну, язык — это что-то сильно зависящее от контекста; он формируется под конкретные ситуации и цели. И вот как раз языковая игра — это такой концепт, в котором смысл слов определяется исключительно самой игрой. И, на мой взгляд, cемантические айдишники — это ни что иное как попытка создать язык для описания айтемов. Процесс, через который мы это делаем — ровно та же языковая Lewis Game, в которой энкодер описывает айтемы, а декодер восстанавливает их по описанию. И вот в области EC уже некоторое время (как минимум с 2017-го года) занимались похожей задачей, но в контексте всяких других объектов; например, картинок. Интересно, что методы и сам взгляд на задачу сильно отличались от recsys community — в EC на задачу смотрели как на MARL (multi-agent reinforcement learning), и для обучения моделей использовали REINFORCE. Были ранние попытки использовать гумбель-софтмакс релаксацию, и даже в какой-то момент (не так давно) заметили прямую аналогию с dVAE (discrete VAE) и решили попробовать максимизировать ELBO, но опять-таки использовали для этого REINFORCE =) Один из плюсов такого взгляда на задачу (через язык) в том, что ученые в EC также задавались и вопросом эффективности возникающих языков. И вопросом их сходства с естественным языком; одна из конечных целей — научить агентов разговаривать, прямо как у нас в рекомендациях. И вот в естественном языке есть такая штука, как ZLA (Zipf's Law of Abbreviation) — для часто возникающих сущностей (объектов, ситуаций, etc) мы используем более короткие описания. Оказалось, что чтобы получить такой же эффект для emergent language, нужно всего лишь добавить штраф на длину передаваемого сообщения, то есть заставить агентов эту длину минимизировать. А почему то же самое не должно быть верно для рекомендаций? Если мы описываем айтемы эффективно, то наверно у популярных айтемов, с которыми мы часто сталкиваемся, должны быть короткие описания. А у тяжелого хвоста и холодных айтемов — наоборот длинные. Это нам, во-первых, поможет сделать гораздо эффективней все модели, в которых используются семантические айдишники (за тот же бюджет в токенах можно уместить гораздо больше информации, а ещё сам generative retrieval ускорить). А во-вторых — для создания разговорных рексистем мы хотим совместить наш язык описания айтемов вместе с естественным языком, которым оперирует LLM (см. PLUM). И если естественный язык для всех сущностей использует описания переменной длины, то почему наш "язык айтемов" работает не также? Чтобы разговорные рексистемы заработали, нам нужно постараться максимально устранить этот vocabulary gap! В общем, tldr статьи: для рекомендаций это все тоже прекрасно работает, и как раз в статье я это и проверил а ещё — предложил новый метод для обучения дискретных представлений переменной длины, доформулировав задачу и её решение в виде dVAE с G-S (что, на самом деле, в EC до конца не довели). Spoiler: работает гораздо лучше и стабильней, чем REINFORCE * и еще показал, что такие "variable-length" семантические айдишники хорошо работают на downstream задачах типа sequential recommendation (относительно того же R-KMeans). Если дочитали до конца и не уснули — спасибо! И в качестве награды вам две ссыл
3.3K
просмотров
4000
символов
Нет
эмодзи
Да
медиа

Другие посты @inforetriever

Все посты канала →
Variable-Length Semantic IDs for Recommender Systems. Задумы — @inforetriever | PostSniper