34просмотров
14.7%от подписчиков
25 марта 2026 г.
📷 ФотоScore: 37
Google представила TurboQuant, алгоритм сжатия для LLM, снижающий потребление памяти до 6 раз Google Research разработала TurboQuant, новый алгоритм сжатия, предназначенный для уменьшения использования памяти большими языковыми моделями (LLM) при одновременном повышении скорости и сохранении точности. Алгоритм фокусируется на оптимизации размера кэша ключ-значение. Ранние тесты показали 8-кратное увеличение производительности и 6-кратное сокращение потребления памяти без потери качества модели.С TurboQuant, ранние результаты Google показывают 8-кратное увеличение производительности и 6-кратное снижение потребления памяти в некоторых тестах без потери качества. Источник Перевод статьи на русский