438просмотров
59.3%от подписчиков
24 марта 2026 г.
📷 ФотоScore: 482
Google Research показали TurboQuant — и это способ экстремально ужимать векторы, KV-cache и индексы для векторного поиска. По сути кратко, это пайплайн квантования, помогающий реализовать длинный контекст, семантический поиск и инференс в целом сильно дешевле и эффективнее. Технически конструкция состоит из двух частей. PolarQuant берёт вектор, случайно его поворачивает и компактно кодирует основную массу информации, а затем QJL добивает остаточную ошибку буквально 1-битным хвостом, чтобы убрать смещение и сохранить корректность inner product / attention-оценок. Важный момент в том, что вся эта схема, по описанию авторов, работает онлайн, не требует dataset-specific тюнинга, retraining или fine-tune и при этом теоретически и практически обоснована. По цифрам выглядит бодро: в работе авторы пишут про лосслес на 3.5 bpc и лишь небольшую деградацию на 2.5 bpc, а в блоге Google отдельно показывают как минимум 6-кратное сжатие KV-cache на long-context тестах и до 8-кратного ускорения расчёта attention logits на H100 в 4-битном режиме. Хочется помечтать, что когда эта технология доедет до продакшена, Google снизит цены на инференс! 😅 arxiv