2.3Kпросмотров
17 сентября 2025 г.
Score: 2.6K
DevOops - источники доклада GPU-инференс в K8s: ускорение, шеринг и скейлинг без боли Привет новоприбывшим! В этом сообщении опубликованы все источники в удобном формате, налетайте) 1. Инферес как веб-сервис Статья от Nvidia - Основные челленджи при приготовлении инференса 2. Ускоряем автоскейлинг Выносим кеш моделей в PVC S3
Harbor и Kuik для кеширования образов на ворклоудах
Lazy loading образов - как помогает ускорить пуллинг контейнеров
eStargz, SOCI, Nydus - снепшоттеры для ленивой загрузки образов
ZSTD формат образов - быстрее чем gzip
Интересный доклад про ускорение доставки образов 3. Скедулеры для GPU KAI-scheduler
Kueue
Volcano
DRA driver
Интересные доклады из KubeConf про DRA и шаринг ресурсов раз и два 4. Шеринг GPU
MIG, MPS, Timeslicing - технологии шеринга GPU и их сравнение
Бенчмарк для замера производительности GPU на основе YOLOv5
Hami-Project и статья по его настройке
Автоскейлинг с MIG
Динамический MIG с помощью InstaSlice, Nos и Hami Спасибо, что послушали доклад! В канале будет еще много интересного про инфраструктуру для ML🔥