10просмотров
4.3%от подписчиков
25 марта 2026 г.
🎬 ВидеоScore: 11
TurboQuant: оптимальное устранение оверхеда при векторной квантизации KV-cache Google представил TurboQuant (ICLR 2026) — алгоритм сжатия высокоразмерных векторов, который решает фундаментальную проблему: при классической векторной квантизации для каждого блока данных нужно хранить константы квантизации в полной точности. Это добавляет 1–2 бита на элемент, частично нивелируя выигрыш от сжатия. TurboQuant оптимально минимизирует этот оверхед, используя два вспомогательных метода:
— Quantized Johnson-Lindenstrauss (QJL) — квантизованная проекция для сохранения расстояний между векторами
— PolarQuant (AISTATS 2026) — полярная квантизация для эффективного кодирования Заявленные результаты:
— Сжатие KV-cache: ≥6×
— Ускорение инференса: до 8×
— Деградация точности: не зафиксирована Область применения выходит за рамки LLM — техника применима к любому векторному поиску, где критична скорость поиска по сходству при ограниченной памяти. Для edge-устройств с NPU/TPU это означает возможность размещения моделей, ранее доступных только серверному оборудованию. ⚡ — 6× на KV-cache меняет правила
🤔 — хочу видеть ablation study @ai_n_hardware