134просмотров
11.2%от подписчиков
26 марта 2026 г.
Score: 147
Новый алгоритм Google может обрушить рынок памяти и снизить спрос на GPU Речь про TurboQuant — метод сжатия KV-cache в больших языковых моделях. Если коротко: KV-cache — это краткосрочная память модели, которая быстро разрастается и становится дорогой. TurboQuant сжимает её до 3 бит на значение (вместо ~32), что даёт примерно 6-кратную экономию памяти и до 8-кратного ускорения inference без потери точности. На фоне этого акции производителей памяти просели (например, Micron и SanDisk). Логика простая: если моделям нужно меньше памяти — спрос падает. Но это довольно поверхностная интерпретация. Во-первых, KV-cache важен в основном для inference, а не для обучения моделей. Основные ресурсы по-прежнему уходят на тренировку и хранение весов. Во-вторых, ключевые ограничения никуда не делись — дефицит HBM-памяти и пропускной способности остаётся. И самое важное — классический парадокс Жевонса: рост эффективности не снижает потребление, а увеличивает его. Если inference становится дешевле и быстрее, это открывает новые сценарии — длинные контексты, агентные системы, массовый RAG. В итоге нагрузка на инфраструктуру только растёт. Поэтому текущие движения на рынке — скорее реакция на заголовки, чем фундаментальное изменение тренда.