✅ Любишь logQ применять — люби и частоты считать. Но мало кт — @researchoshnaya

3.0Kпросмотров

22 ноября 2025 г.

Score: 3.3K

✅ Любишь logQ применять — люби и частоты считать. Но мало кто знает, как решить одну из вечных болей — расчёт частот по миллиардам item_id. Вы все знаете этот кошмар, когда надо делать logQ-коррекцию или семплить негативы по популярности. Ты берёшь огромный словарь на Python и начинаешь его заполнять частотами. Особенно если вы сильно ограничены ресурсами, тогда у меня для вас плохая новость. Таблица частот для 10^9 ~ 4ГБ, и вроде бы не страшно, НО на каждый порядок она будет увеличиваться кратно. Так вот знакомьтесь — CMS (Count-Min Sketch). CMS — это маленькая таблица фиксированного размера, которая не растёт, даже если у тебя миллиард новых ID каждую неделю. Ты просто пропускаешь item’ы через несколько хэшей и обновляешь счётчики в таблице. Когда нужно узнать частоту — берёшь минимум из нескольких значений. cols → 0 1 2 3 4 5 ... h₁ [ 0 | 5 | 0 | 2 | 0 | 1 | ... ] h₂ [ 3 | 0 | 4 | 0 | 2 | 0 | ... ] h₃ [ 0 | 1 | 0 | 3 | 0 | 2 | ... ] Один и тот же ID каждый раз попадает в одни и те же клетки, аккуратно увеличивая их значения. В итоге у тебя всегда есть приблизительная частота, причём погрешность минимальна и даже полезна — слегка занижает популярность самых жирных item’ов, давая тебе бесплатную регуляризацию в logQ и sampled negatives. Конечно, если вы не считаете миллиарды айтемов будет проще посчитать линейным методом. Но если вы условный Pinterest — вам скорее всего придется искать приближенные методы. ❗Мне особенно понравилась эта статья, она похожа на Unified Embedding. Эти два поста напомнили мне подход ученых к астрономии, если вы не можете что-то посчитать точно, вам достаточно найти приближение. MADE IN @researchoshnaya

Другие посты @researchoshnaya