Замеры MultiLoRA для оффлайн/асинхронного инференса Опублико — @deploy_ml

@deploy_ml528 подп.

749просмотров

27 июня 2025 г.

Score: 824

Замеры MultiLoRA для оффлайн/асинхронного инференса Опубликовал статью на habr по сравнению функционала MultiLoRA в vllm и TensorRT-LLM. Интересно, что в релизных докерах результат не в ту сторону, которую вы могли бы подумать - vllm на всех сетапах круче. Думал, что дело в настройках TensorRT-LLM, ускорил в 1.2-1.5 раз, но vllm оно так и не догнало (на графиках и табличках замеры уже с оптимизацией) сравниваются python3 обертки в сетапе оффлайн/асинхронного инференса. Без интерактивности (потому без time-to-first-token) и сетевой обвязки. @deploy_ml

749

просмотров

562

символов

Нет

эмодзи

Нет

медиа

Другие посты @deploy_ml

Как именно Alibaba ускорили на 84% мультимодельный инференс? TLDR: Alibaba Cloud представила Aegaeo👁 978 Стоимость инференса LLM снижается до 10x каждый год Cравниваются модели с похожим качеством на бенчм👁 977 Летняя школа AIRI Приехал в Томск чтобы провести пару лекций на летней школе по ИИ от AIRI и замент👁 772 А вот и слайды. Небольшой обзор по эффективному обучению и релевантным тематикам для студентов с лет👁 763 Ещё немного о линейных трансформерах На прошлой неделе участвовал в воркшопе китайских коллег и выс👁 744

Все посты канала →

Аналитика канала База постов