488просмотров
39.7%от подписчиков
20 августа 2025 г.
📷 ФотоScore: 537
В апреле google deepmind представили книгу «How to Scale Your Model» (ссылка), где подробно разбирают инференс на TPU и трансформерах. 📊 Интересные инсайты:
- Компромисс стоимость vs. задержка впечатляет: удвоение задержки на токен может дать ~100-кратное снижение стоимости.
- Задержка варьируется от 5,5 мс при маленьких пакетах до 20 мс при больших.
- Пропускная способность достигает плато (~1 токен/мс/чип) при BS 120, но при увеличении длины последовательности размер пакета ограничен памятью — полного насыщения не достичь.
- При больших пакетах задержка выше при той же пропускной способности, потому что доминирует загрузка KV, а не параметров. 💡 Вывод:
Книга — обязательна для всех, кто хочет понимать реальные компромиссы между скоростью, стоимостью и масштабируемостью LLM. Она полезна как для инженеров, оптимизирующих инференс, так и для исследователей, ищущих практические решения для больших моделей на TPU. 🚀 ©ТехноТренды