977просмотров
6 сентября 2025 г.
📷 ФотоScore: 1.1K
Стоимость инференса LLM снижается до 10x каждый год
Cравниваются модели с похожим качеством на бенчмарках Год назад была статья от a16z.
В этом году тренд продолжается. Почему стоимость инференса падает?
1. Не столько инференс дешевеет, сколько модели становятся мощнее и quality-per-parameter растет.
2. Квантизации становятся продвинутее.
3. MoE/Model Router позволяют получать модели с производительностью огромных, но с фактически небольшим футпринтом (новые KIMI K2 с 1T параметров и с 32B активируемых; GPT5 который использует еще и model router). 4. GPU становятся мощнее. Но это всего условные ~х2 FLOPs per dollar за 2 года. Процесс обучения таких моделей сложнее, от того их создание становится дороже с каждым годом. Есть два позитивных последствия:
1. LLM будут шире использоваться, потому что будут лучше себя окупать. В Сбере говорят, что для массового распространения нужно еще сокращение в 7-10 раз. То есть, хотябы еще годик текущего тренда на снижение цен.
2. Модели, влезающие в одну игровую карту, становятся лучше и доступнее. @deploy_ml