484просмотров
12 ноября 2025 г.
📷 ФотоScore: 532
Отличная статья, которая на примере vLLM разбирает как работает LLM Inference Engine. Не самая легкая для прочтения (где-то 1-2 часа вдумчивого чтения мне понадобилось), но дает хорошее понимание того, какие приемы используются для эффективного сервинга LLM at scale в multi-gpu, multi-node сетапе. https://www.aleksagordic.com/blog/vllm