Стоимость инференса LLM снижается до 10x каждый год Cравнива — @deploy_ml

977просмотров

6 сентября 2025 г.

📷 ФотоScore: 1.1K

Стоимость инференса LLM снижается до 10x каждый год Cравниваются модели с похожим качеством на бенчмарках Год назад была статья от a16z. В этом году тренд продолжается. Почему стоимость инференса падает? 1. Не столько инференс дешевеет, сколько модели становятся мощнее и quality-per-parameter растет. 2. Квантизации становятся продвинутее. 3. MoE/Model Router позволяют получать модели с производительностью огромных, но с фактически небольшим футпринтом (новые KIMI K2 с 1T параметров и с 32B активируемых; GPT5 который использует еще и model router). 4. GPU становятся мощнее. Но это всего условные ~х2 FLOPs per dollar за 2 года. Процесс обучения таких моделей сложнее, от того их создание становится дороже с каждым годом. Есть два позитивных последствия: 1. LLM будут шире использоваться, потому что будут лучше себя окупать. В Сбере говорят, что для массового распространения нужно еще сокращение в 7-10 раз. То есть, хотябы еще годик текущего тренда на снижение цен. 2. Модели, влезающие в одну игровую карту, становятся лучше и доступнее. @deploy_ml

Другие посты @deploy_ml