Д
Давай деплой ML!
@deploy_ml528 подп.
749просмотров
27 июня 2025 г.
Score: 824
Замеры MultiLoRA для оффлайн/асинхронного инференса Опубликовал статью на habr по сравнению функционала MultiLoRA в vllm и TensorRT-LLM. Интересно, что в релизных докерах результат не в ту сторону, которую вы могли бы подумать - vllm на всех сетапах круче. Думал, что дело в настройках TensorRT-LLM, ускорил в 1.2-1.5 раз, но vllm оно так и не догнало (на графиках и табличках замеры уже с оптимизацией) сравниваются python3 обертки в сетапе оффлайн/асинхронного инференса. Без интерактивности (потому без time-to-first-token) и сетевой обвязки. @deploy_ml
749
просмотров
562
символов
Нет
эмодзи
Нет
медиа

Другие посты @deploy_ml

Все посты канала →
Замеры MultiLoRA для оффлайн/асинхронного инференса Опублико — @deploy_ml | PostSniper