Как именно Alibaba ускорили на 84% мультимодельный инференс? — @deploy_ml

978просмотров

23 октября 2025 г.

question📷 ФотоScore: 1.1K

Как именно Alibaba ускорили на 84% мультимодельный инференс? TLDR: Alibaba Cloud представила Aegaeon (без кода 🙃) [paper] — по-токенный авто-скейлер для мультимодельного инференса. В проде (Alibaba Model Studio, >3 месяцев) он позволил снизить потребление GPU на 82%: с 1 192 до 213 H200, а «goodput» (RPS в рамках SLO) вырос в 1.5-9х. Продовый кластер состоит из 28 моделей размера 1.8–7B models (TP=1) и 19 моделей размера 32–72B models (TP=4) В реальности - сделали несколько инженерных оптимизаций: 1. Написали ручную аллокацию и менеджмент памяти (уже это дает ускорение, см. YaFSDP) 2. Ушли от кластерного автоскейлинга. Нет явного масштабирования машинами, они запущены один раз на одном образе (пуллинг одного образа - до 10-20 минут) и дальше разделяются между моделями. Поэтому они и взяли vLLM, чтобы у них зависимости не поехали 3. Залезли в внутрянку vLLM, инициализация делается один раз на старте (vllm/tensorrt - инициализируются около 30 секунд), загрузка-выгрузка модели и кешей делается руками (Figure 7) 4. Token-level шедулинг - это скорее вишенка на торте и не особо верю, что именно такая гранулярность дает много ускорения. SLA на TPOT измеряется в десятках миллисекунд, просто загрузка весов из CPU в GPU - от сотен миллисекунд для больших моделей. Потому шедулить разумно в лучшем случае чанками. Обратите внимание на картинку утилизации до/после С уровней ~30% они подскочили до ~60% (Figure 18) Так что над движками мультмодельного инференса еще работать и работать Я сейчас как раз исследую подобные системы — планирование в кластере и enterprise кейсы с переподпиской серверов на модели. Если у вас нагруженный инференс и готовы обсудить архитектуру/SLA/кэш-стратегии — пишите в лс (@svt_danny) или чат. @deploy_ml

Другие посты @deploy_ml