M
MLTimes
@mltimesofficial2.5K подп.
795просмотров
32.0%от подписчиков
25 марта 2026 г.
📷 ФотоScore: 875
Google сжала память LLM в шесть раз без потери точности — новый алгоритм TurboQuant Google сжала KV-кэши языковых моделей в шесть раз без потери точности. Алгоритм TurboQuant квантизирует данные до 3 бит и на GPU Nvidia H100 даёт до восьмикратного ускорения при вычислении attention — без какого-либо дообучения модели. Фишка в том, что стандартные методы сжатия оставляют служебные биты, которые при больших контекстах накапливаются. TurboQuant избавляется от этого балласта через перевод векторов в полярные координаты и однобитовую коррекцию ошибок. Протестировано на Gemma и Mistral, статья выходит на ICLR 2026 в апреле. 🔗 Читать: https://mltimes.ai/google-szhala-pamyat-llm-v-shest-raz-bez-poteri-tochnosti-no/
795
просмотров
719
символов
Нет
эмодзи
Да
медиа

Другие посты @mltimesofficial

Все посты канала →
Google сжала память LLM в шесть раз без потери точности — но — @mltimesofficial | PostSniper