4️⃣5️⃣6️⃣ Недавно на архиве я прочитал работу с громким назв — @researchoshnaya

1.9Kпросмотров

82.1%от подписчиков

7 ноября 2025 г.

stats📷 ФотоScore: 2.1K

4️⃣5️⃣6️⃣ Недавно на архиве я прочитал работу с громким названием про «Massive Memorization…» и новую схему VISTA от Meta для генеративных рексистем. Если по-честному, меня зацепило простое обещание: учиться на пожизненной истории пользователя хоть до миллиона событий, но держать инференс по цене “фикс”. Типа, не страдать от длины хвоста и при этом не сжигать кластеры. Классические подходы делятся на “берём всё” как в HSTU и “берём релевантный срез” как SIM/TWIN, но оба упираются либо в дорогую полную прогонку, либо в линейный рост стоимости по числу кандидатов. Ну да, боль индустрии знакомая. Концептуальная идея VISTA — разнести обучение и инференс на два шага и закэшировать «суть» пользователя заранее. Сначала длиннющая UIH сжимается в пару сотен эмбеддингов с помощью виртуальных “seed”-токенов, потом на инференсе кандидаты смотрят только на этот компактный буфер. Короче Summary-как-сервис. Фишка в том, что эти summary-эмбеддинги выгружаются в отдельную систему доставки эмбеддингов и живут в KV-хранилище от терабайтов до петабайтов, а модель на проде просто их подтягивает и считает target-attention. Ну да, хранение дешевле GPU — звучит прагматично. Чтобы вся эта история не умерла на софтмаксе, они прикручивают quasi-linear attention: линейная по длине последовательности формулировка, без “перетекания” внимания между кандидатами, чтобы не ловить leakage. Что-то в духе Lightning/Mamba-лайна, но под рексисы. Плюс сверху кладут генеративный reconstruction-лосс, который заставляет summary реально «выписывать» исходную последовательность, а не делать вид. Такая, ну, дисциплина для памяти модели. В статье есть внятная схема двухступенчатой архитектуры и раздел про “Embedding Delivery System” — как говорится спасибо META за систем дизайн. Они пишут, что так держат стоимость инференса постоянной и уезжают в пожизненные истории до 1M событий. Есть офлайн-абляции: QLA даёт ускорение и позволяет ходить к 16k длине на блок больше при сопоставимых метриках. Да, детали по NE/AUC там свои, но тренд понятный. И главное — они гоняли онлайн A/B на 5% трафика 15 дней и заявляют значимый рост ключевых метрик потребления и онбординга против HSTU. Для меня это сильнее любого офлайна, сорри. ➡️ Ссылка на статью ❗Накидайте огоньков 🔥, говорят так посты выходят чаще MADE IN @researchoshnaya

Другие посты @researchoshnaya