2.3Kпросмотров
17 сентября 2025 г.
Score: 2.6K
DevOops - источники доклада GPU-инференс в K8s: ускорение, шеринг и скейлинг без боли Привет новоприбывшим! В этом сообщении опубликованы все источники в удобном формате, налетайте) 1. Инферес как веб-сервис Статья от Nvidia - Основные челленджи при приготовлении инференса 2. Ускоряем автоскейлинг Выносим кеш моделей в PVC S3 Harbor и Kuik для кеширования образов на ворклоудах Lazy loading образов - как помогает ускорить пуллинг контейнеров eStargz, SOCI, Nydus - снепшоттеры для ленивой загрузки образов ZSTD формат образов - быстрее чем gzip Интересный доклад про ускорение доставки образов 3. Скедулеры для GPU KAI-scheduler Kueue Volcano DRA driver Интересные доклады из KubeConf про DRA и шаринг ресурсов раз и два 4. Шеринг GPU MIG, MPS, Timeslicing - технологии шеринга GPU и их сравнение Бенчмарк для замера производительности GPU на основе YOLOv5 Hami-Project и статья по его настройке Автоскейлинг с MIG Динамический MIG с помощью InstaSlice, Nos и Hami Спасибо, что послушали доклад! В канале будет еще много интересного про инфраструктуру для ML🔥
2.3K
просмотров
1073
символов
Нет
эмодзи
Нет
медиа

Другие посты @mlops_infra

Все посты канала →
DevOops - источники доклада GPU-инференс в K8s: ускорение, ш — @mlops_infra | PostSniper