2.9Kпросмотров
50.4%от подписчиков
6 марта 2026 г.
📷 ФотоScore: 3.2K
#ML Флешбеков пост // можно скипнуть если хочется сути — суть «на пальцах» вынесу в следующий пост Прежде чем постить очередной набор корпоративных кейсов и историй с собеседований, как заведено в канале, расскажу про несколько забавных связей. В опросе я обещал рассказать про семантические айдишники в рекомендашках и VQ/RQ-VAE. Но, как водится, вместо объяснения на пальцах (будет постом-двумя ниже), захотелось уууух — найти что-то похожее в других кусочках ML. Например, выше в моей лекции по RAG есть слайд про Product Quntization (PQ, слайд 85) Названия PQ / VQ / RQ / AQ чем-то похожи, не правда ли? (Q значит квантизация) PQ — product quantization VQ — vector quantization RQ — residual quantization AQ — additive quantization И тут в голову полезли нехорошие мысли — почему вариационный автоэнкодер (VAE) именно вариационный? Несколько лет я рассказываю студентом его устройство (и заодно про VGAE —Variational Graph Auto-Encoder), даже в блиц включил вопрос про backprop градиента через слой со случайным сэмплированием (reparametrization trick), а дежавю словил только сейчас. Почему дежавю: в университете меня учили геофизике и сейсморазведке, в тч некорректным задачам геофизики (байессовский / вариационный вывод, регуляризация по Тихонову и Ляпунову, решению интегральных уравнений и пр и пр и пр ) и отдельно вариационному исчислению — (оба курса вроде годовые если не путаю). С другой стороны, вариационный автоэнкодер. Совпадение? Вот и я так не подумал. Если совсем коротко, вариационное исчисление изучает функционалы: функции, которые сопоставляют функции (на части диапазона значений или на всей области определения) число. Например, Сейсморазведка: найти оптимальную траекторию луча (нормаль к фронту волны в геометрической теории волн) среди всех возможных траекторий, вдоль которой время прохождения луча через неоднородную среду будет наименьшим. Время — функционал, траектория — функция Или VAE: найти оптимальную аппроксимацию апостериорного распределения латентной переменной среди заданного семейства распределений, при котором вариационная нижняя граница правдоподобия (variational lower bound — ELBO) будет наибольшей На этом совпадения не заканчиваются. После защиты кандидатской я занимался обработкой сигналов (signal processing) в Яндекс.Терре (сейчас Сейсмотек с другими собственниками), а в обработке сигналов есть очень похожая на RQ идея — matching pursuit: жадное разложение сигнала по словарю с вычитанием остатка (что концептуально очень близко к residual quantization) — и вот для разнообразия, ссылка не на архив а на NASA. Идея в том чтобы разложить сигнал на элементарные (хотел написать функции, но все же нет) составляющие — то есть повторяющиеся элементы (видели зубцы на ЭКГ?). А кремлевскую стену видели? Если вот эти замысловатые зубцы вычесть — будет стена как стена, ровная — вот мы и разложили «сигнал Кремля»: ровная стена + зубцы Например: — преобразование Фурье представляет сигнал как взвешенную сумму базисных гармонических функций (синусов и косинусов или только синусов или только косинусов — как захотим) — вейвлет-преобразование — раскладывает сигнал на сумму вейвлетов (семейство функций, которые мы выбираем заранее сами) — чирплет преобразование — еще более общее семейство функций (когда и частота внутри такого элементарного кусочка не постоянна) — кстати, в той статье я попал в англоязычную вики на радость маме и тд — интегральных преобразований достаточно много все же Итак, кажется, начинает вырисовываться структура следующего поста: — что такое RQ (residual quantization) и при чем она здесь — и как matching pursuit + product quantization до боли похожи на RQ — что такое вариация функционала и при чем она здесь (зачем V в VAE), причем здесь физика — как это ловко превращается в RQ-VAE и что он умеет — причем здесь семантические айдишники и зачем нужна токенизация вне NLP PS Пока писал вспомнил еще что и KLT и PCA — одно и то же, но об этом в другой раз
2.9K
просмотров
3973
символов
Нет
эмодзи
Да
медиа

Другие посты @datarascals

Все посты канала →
#ML Флешбеков пост // можно скипнуть если хочется сути — сут — @datarascals | PostSniper