670просмотров
25 марта 2026 г.
📷 ФотоScore: 737
Тут Google выпустили TurboQuant - новый алгоритм сжатия, который сокращает объем кэш-памяти LLM как минимум в 6 раз и обеспечивает ускорение до 8 раз, при этом точность не снижается, что повышает эффективность работы ИИ. Если это правда, и все данные сходятся с реальностью, то это огромный прорыв. Решил получше разобраться и поделиться этим в небольшой статье:
https://habr.com/ru/articles/1015092