142просмотров
12.3%от подписчиков
16 февраля 2026 г.
Score: 156
NVIDIA добавила AutoDeploy в TensorRT‑LLM (beta) — автооптимизация инференса без ручного переписывания моделей. — компилирует PyTorch/Hugging Face модели в оптимизированные графы
— автоматом решает KV‑кеш, шардирование, фьюзинг, выбор kernels
— заявлена поддержка 100+ LLM (ранняя поддержка VLM/SSM) Почему важно: быстрее выводить новые/«длиннохвостые» архитектуры в прод без недель инженерии. Источник + подробнее: https://figure.media/nvidia-dobavila-autodeploy-v-tensorrt-llm-avtomatizacziya-optimizaczii-inferensa-beta/ Материал подготовлен с помощью ИИ.