В апреле google deepmind представили книгу «How to Scale You — @technologies_trends

488просмотров

39.7%от подписчиков

20 августа 2025 г.

📷 ФотоScore: 537

В апреле google deepmind представили книгу «How to Scale Your Model» (ссылка), где подробно разбирают инференс на TPU и трансформерах. 📊 Интересные инсайты: - Компромисс стоимость vs. задержка впечатляет: удвоение задержки на токен может дать ~100-кратное снижение стоимости. - Задержка варьируется от 5,5 мс при маленьких пакетах до 20 мс при больших. - Пропускная способность достигает плато (~1 токен/мс/чип) при BS 120, но при увеличении длины последовательности размер пакета ограничен памятью — полного насыщения не достичь. - При больших пакетах задержка выше при той же пропускной способности, потому что доминирует загрузка KV, а не параметров. 💡 Вывод: Книга — обязательна для всех, кто хочет понимать реальные компромиссы между скоростью, стоимостью и масштабируемостью LLM. Она полезна как для инженеров, оптимизирующих инференс, так и для исследователей, ищущих практические решения для больших моделей на TPU. 🚀 ©ТехноТренды

Другие посты @technologies_trends