1.3Kпросмотров
26.4%от подписчиков
26 марта 2026 г.
Score: 1.5K
⚡️ TurboQuant от Google: Сжатие ИИ в 6 раз🤯🤯🤯 Google выкатил красивый пресс-релиз про прошлогодний алгоритм TurboQuant, и инвесторы с перепугу тут же обвалили акции крупнейших производителей памяти (Samsung, SK Hynix, Micron) на 4-6%🤪 Главный боттлнек больших коммерческих LLM — это не вес самой модели, а KV-кэш (краткосрочная память, удерживающая контекст). В дата-центрах этот кэш уникален для каждого параллельного запроса. Когда тысячи юзеров одновременно отправляют огромные промпты, серверная видеопамять (VRAM) выгорает моментально. 🧠 Что за технология?
Это программный алгоритм экстремального сжатия «кратковременной памяти» нейросетей (KV-кэша). С помощью хитрых математических вращений матриц он ужимает данные в 4–6 раз (до 1–3 бит на параметр) вообще без потери логики и качества ответов модели✨ ⬆️ Кому и зачем это нужно?
Это спасательный круг для Big Tech и серверного Open Source. Скорость: Генерация ответов ускоряется до 8 раз💥 Экономия: Поддержание огромных контекстов (например, на миллион токенов, как у Gemini) перестанет сжирать сотни гигабайт дорогущей серверной памяти (VRAM) на каждый запрос. Затраты дата-центров на инференс кардинально снижаются. 🛠Лихорадка на GitHub (Что происходит прямо сейчас)
Пока корпорации только планируют внедрение для экономии бюджетов, в Open Source сообществе началась настоящая гонка. Энтузиасты уже доказали, что технология шикарно работает на открытых моделях: 🍎 Первый запуск на Mac: Разработчик переписал алгоритм на C и внедрил в форк популярного движка llama.cpp для Apple Silicon. Итог: тяжеленная модель Qwen 35B уже крутится на макбуке с 3-битным сжатием кэша. 🧪 Лабораторный стандарт: Чистая реализация на PyTorch. Тесты на реальной модели доказали математику Google: при экстремальном сжатии до 2-4 бит нейросеть идеально проходит тест «иголка в стоге сена» (оценка 9 из 9). 🤯 Драма с RotorQuant: Группа гиков взяла оригинальный код и заменила громоздкие матрицы Google на алгебру Клиффорда (Clifford rotors). Этот хак сократил количество параметров в 44 раза, заставив алгоритм работать в 10-19 раз быстрее. Сейчас сообщество яростно спорит, не сломает ли это математические гарантии на сложных задачах. 🔮 Что дальше?
Для дата-центров это экономия миллиардов долларов на железе. А для обычных юзеров и инди-разработчиков это значит, что "стена памяти" пробита. В перспективе пары месяцев этот алгоритм встроят в стабильные версии vLLM и llama.cpp. И тогда огромные нейросети, способные держать в памяти контекст размером с целую книгу, можно будет спокойно запускать на домашних ПК и ноутбуках. Верим🙏 ждём⌛️ надеемся⭐️