Google сжала память LLM в шесть раз без потери точности — но — @mltimesofficial

795просмотров

32.0%от подписчиков

25 марта 2026 г.

📷 ФотоScore: 875

Google сжала память LLM в шесть раз без потери точности — новый алгоритм TurboQuant Google сжала KV-кэши языковых моделей в шесть раз без потери точности. Алгоритм TurboQuant квантизирует данные до 3 бит и на GPU Nvidia H100 даёт до восьмикратного ускорения при вычислении attention — без какого-либо дообучения модели. Фишка в том, что стандартные методы сжатия оставляют служебные биты, которые при больших контекстах накапливаются. TurboQuant избавляется от этого балласта через перевод векторов в полярные координаты и однобитовую коррекцию ошибок. Протестировано на Gemma и Mistral, статья выходит на ICLR 2026 в апреле. 🔗 Читать: https://mltimes.ai/google-szhala-pamyat-llm-v-shest-raz-bez-poteri-tochnosti-no/

Другие посты @mltimesofficial