488просмотров
39.7%от подписчиков
20 августа 2025 г.
📷 ФотоScore: 537
В апреле google deepmind представили книгу «How to Scale Your Model» (ссылка), где подробно разбирают инференс на TPU и трансформерах. 📊 Интересные инсайты: - Компромисс стоимость vs. задержка впечатляет: удвоение задержки на токен может дать ~100-кратное снижение стоимости. - Задержка варьируется от 5,5 мс при маленьких пакетах до 20 мс при больших. - Пропускная способность достигает плато (~1 токен/мс/чип) при BS 120, но при увеличении длины последовательности размер пакета ограничен памятью — полного насыщения не достичь. - При больших пакетах задержка выше при той же пропускной способности, потому что доминирует загрузка KV, а не параметров. 💡 Вывод: Книга — обязательна для всех, кто хочет понимать реальные компромиссы между скоростью, стоимостью и масштабируемостью LLM. Она полезна как для инженеров, оптимизирующих инференс, так и для исследователей, ищущих практические решения для больших моделей на TPU. 🚀 ©ТехноТренды
488
просмотров
941
символов
Да
эмодзи
Да
медиа

Другие посты @technologies_trends

Все посты канала →
В апреле google deepmind представили книгу «How to Scale You — @technologies_trends | PostSniper