TurboQuant: оптимальное устранение оверхеда при векторной кв — @ai_n_hardware

10просмотров

4.3%от подписчиков

25 марта 2026 г.

🎬 ВидеоScore: 11

TurboQuant: оптимальное устранение оверхеда при векторной квантизации KV-cache Google представил TurboQuant (ICLR 2026) — алгоритм сжатия высокоразмерных векторов, который решает фундаментальную проблему: при классической векторной квантизации для каждого блока данных нужно хранить константы квантизации в полной точности. Это добавляет 1–2 бита на элемент, частично нивелируя выигрыш от сжатия. TurboQuant оптимально минимизирует этот оверхед, используя два вспомогательных метода: — Quantized Johnson-Lindenstrauss (QJL) — квантизованная проекция для сохранения расстояний между векторами — PolarQuant (AISTATS 2026) — полярная квантизация для эффективного кодирования Заявленные результаты: — Сжатие KV-cache: ≥6× — Ускорение инференса: до 8× — Деградация точности: не зафиксирована Область применения выходит за рамки LLM — техника применима к любому векторному поиску, где критична скорость поиска по сходству при ограниченной памяти. Для edge-устройств с NPU/TPU это означает возможность размещения моделей, ранее доступных только серверному оборудованию. ⚡ — 6× на KV-cache меняет правила 🤔 — хочу видеть ablation study @ai_n_hardware

Другие посты @ai_n_hardware