408просмотров
1.5%от подписчиков
26 марта 2026 г.
📷 ФотоScore: 449
Google придумал, как ужать нейросети в 6 раз Google Research выпустил TurboQuant — алгоритм сжатия для LLM-моделей. Он уменьшает потребление памяти в 6 раз, а скорость работы увеличивает в 8 раз без потери точности. 🤖 TurboQuant — это новый метод квантизации, который вместо 8- и 16-битных чисел использует 2- и 4-битные, но с умной компенсацией ошибок квантования. В результате алгоритм TurboQuant позволяет либо запускать модель на одной видеокарте вместо шести, либо упаковать шесть копий модели на одну карту. Инвесторы уже сливают акции производителей памяти, а мы ждем понижения цен на ОЗУ. 🤩 @black_sci | Наш канал в MAX