✅ Любишь logQ применять — люби и частоты считать. Но мало кто знает, как решить одну из вечных болей — расчёт частот по миллиардам item_id. Вы все знаете этот кошмар, когда надо делать logQ-коррекцию или семплить негативы по популярности. Ты берёшь огромный словарь на Python и начинаешь его заполнять частотами. Особенно если вы сильно ограничены ресурсами, тогда у меня для вас плохая новость. Таблица частот для 10^9 ~ 4ГБ, и вроде бы не страшно, НО на каждый порядок она будет увеличиваться кратн...
РИСЕРЧОШНАЯ
Канал Дани Картушова о рекомендательных системах и AI. Более подробно — в первом сообщении. Автор — @redpf Каналы — @researchoshnaya · @danyatyping
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20✅ ACM начали выкладывать видео с RecSys 2025 Помните тот вайб, когда открываешь YouTube и случайно залипаешь на гайд какого-то индуса ML? Так вот, тут не случайно: ACM выкатили 67 записей RecSys 2025. Да, почти вся конференция теперь в открытом доступе. — YouTube: ACM RecSys — чтобы сразу включить «фоном». — SlidesLive — чтобы видеть графики, архитектуры и все те мелкие детали, за которые мы любим доклады #RECSYS MADE IN @researchoshnaya
4️⃣5️⃣6️⃣ Главный bottleneck в рекомендациях — embedding-таблицы Давно хотел рассказать про такую интересную штуку как unified embeddings, и кажется, что этот подход реально БАЗОЙ в генеративных рекомендациях. Если по-человечески, то раньше каждая фича жила в своей отдельной табличке с эмбеддингами, и, мягко говоря, при миллионах товаров или пользователей это была катастрофа. В отличие от LLM где вокабуляр составляет 40-50 тысяч токенов, мы оперируем миллионами товаров и пользователей. Поэтому м...
4️⃣5️⃣6️⃣ Как WB сделал «Поиск по фото» Продолжаю рассказывать про прикольные проекты коллег. В этот раз прикольную фичу — поиск по фото, которой я сам частенько пользуюсь. Особенно если нашел какую-то прикольную вещь в рилсах, или буквально недавно нашел чайник-термос в одном заведении. С точки зрения юзера схема супер простая: Заскринил — загрузил — выделил нужный объект — выбрал нужный товар. Кстати прикольно, что у нас есть OCR по объектам, я такого в других местах не встречал. Можно по одно...
✅ Как искать иголку в стоге миллиардов — и находить за миллисекунды Вы когда-нибудь задумывались, как векторные базы данных быстро находят похожие объекты в гигантских коллекциях? Есть такой алгоритм — Hierarchical Navigable Small World, который сегодня используют большинство векторных хранилищ. Он уже работает эффективно и останется релевантным по мере роста объёмов данных. HNSW строит многоуровневую сеть. На верхних уровнях остаются только дальние связи — это как авиамаршруты между крупными го...
4️⃣5️⃣6️⃣ На EMNLP 2025 в Китае представили новый способ быстрого обучения больших языковых моделей логике без особых финансовых затрат. Метод разработали наши исследователи из T-Bank AI Research и Центрального университета. Его главная фишка в том, что вместо полного “переписывания мозга” в нем используются векторы-настройки (steering vectors), которые точно усиливают логические цепочки в рассуждениях. В будущем метод может помочь сделать языковые модели более интерпретируемыми. На шести матема...
💎 А какие каналы читаете вы по рексису? Давайте соберем в комментариях как можно больше классных каналы по рексису, которые вы читаете! Я начну ➡️ @wildrecsys — канал нашей команды в WB ➡️ @recsys_for_all — канал Олега из Т-банка ➡️ @Recsys_IR_Travel — канал Саши из Spotify ➡️ @WazowskiRecommends — канал Мишы из Meta ➡️ @knowledge_accumulator — канал Саши из X Остальных напишу в комментариях 🤨
4️⃣5️⃣6️⃣ Недавно прочитал в блоге Netflix очень занятную статью — про Advantage-Weighted Supervised Finetuning. Если коротко, это их новая техника пост-тренинга для генеративных рекомендательных моделей — такая, знаешь, “упрощённая альтернатива RLHF”, но сделанная очень по-инженерному и приземлённо. Значит они берут уже натренированную генеративную модель, которая умеет “писать” рекомендации и дообучают её не просто на пользовательских примерах, а с учётом преимущества (advantage) — насколько т...
🏋️Вот что я узнал на Practical ML Conf На выходных был на конференции от Яндекса. Возможно, кто-то из вас даже видел меня там. Честно говоря, рексиса оказалось многовато, а по-настоящему сильных выступлений — меньше, чем хотелось бы. Ведущие (не спикеры) выглядели так, будто впервые вышли на сцену: сбивались, терялись, аудитория их почти не слушала. Зато было то, ради чего я всегда жду такие мероприятия. Например, доклад Коли про Argus (HSTU). Он как спикер очень силён: харизматичный, чёткий, а...
4️⃣5️⃣6️⃣ Недавно на архиве я прочитал работу с громким названием про «Massive Memorization…» и новую схему VISTA от Meta для генеративных рексистем. Если по-честному, меня зацепило простое обещание: учиться на пожизненной истории пользователя хоть до миллиона событий, но держать инференс по цене “фикс”. Типа, не страдать от длины хвоста и при этом не сжигать кластеры. Классические подходы делятся на “берём всё” как в HSTU и “берём релевантный срез” как SIM/TWIN, но оба упираются либо в дорогую ...