DevOops - источники доклада GPU-инференс в K8s: ускорение, шеринг и скейлинг без боли Привет новоприбывшим! В этом сообщении опубликованы все источники в удобном формате, налетайте) 1. Инферес как веб-сервис Статья от Nvidia - Основные челленджи при приготовлении инференса 2. Ускоряем автоскейлинг Выносим кеш моделей в PVC S3 Harbor и Kuik для кеширования образов на ворклоудах Lazy loading образов - как помогает ускорить пуллинг контейнеров eStargz, SOCI, Nydus - снепшоттеры для ленивой загрузки...
Anton Alekseev | Инфраструктура для AI и ML
Привет, я Антон @antonaleks Пишу здесь про инфраструктуру для AI/ML
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
16 из 16Друзья, всем привет! Вчера записали подкаст в ИТМО с Юрой Классеном - руководителем MLOps-направления в Купер - про карьерное развитие в MLOps. Запись была начата чуть позже, но ценность от этого ничуть не меньше! Будет интересно всем тем, кто задумавается перейти в MLOps, хочет узнать как проходит "типичный" день на работе, с какими болями сталкиваешься, а также какие навыки нужны сейчас на рынке) Во время подкаста порисовали кто такой MLOps и с чем работает, поэтому прикладываю также схемы для...
По следам подбора инфраструктуры для LLM Привет! Спасибо что послушали доклад❤️ С источниками, которые я использовал для подготовки материала, вы можете ознакомится в этом посте. Также я выложил в опенсорс целую лабораторию по подбору инфраструктуры LLM. Вы сами сможете подобрать себе нужную GPU и конфигурацию инференса за пару тестов (например у моих друзей - в облаке Selectel) Недавно кстати наткнулся на новый интересный проект от k8s-sigs inference-perf. Будет интересно посравнивать с genai. ...
Вспомним как готовить triton inference server Недавно вышла запись моего доклада про частную инсталляцию инференс платформы на канале Evrone. Самое время вспомнить особенности построения платформы тем, кто уже видел доклад, а также познакомиться с ним новеньким 🔥 Они записали целый плей-лист с лучшими докладами, чтобы расшарить знания с коммьюнити - красавчики! И спасибо конечно что позвали поучаствовать)
Анонс выступления на конференции «Я про бэкэнд» Всем привет! В эту субботу меня пригласили рассказать как я подбираю инфраструктуру с помощью GenAI Perf для LLM на конференции от Яндекса «Я про бэкенд» Конференция не только про бэкенд разработку, но и инфраструктуру для AI и ML, как мы с вами любим) Если кто в Москве в эту субботу (4 октября), приходите обязательно ❤️ Из нового в докладе - добавил блок как я автоматизировал подбор через terraform, vllm production stack и argoworkflows. А также п...
Друзья, всем привет! Как же долго мы не виделись, целых два месяца прошло 😅 Небольшие (и большие) перемены в жизни немного выбили меня из творческого процесса -) В этом посте поделюсь с вами ближайшими планами и анонсами: 1️⃣За это время приступил к написанию "базового" курса по MLOps с партнерской платформой, но об этом расскажу как мы закончим с материалом). Ждите обновлений и возможно рефералок🍓 2️⃣Ближайшие выступление - буду рассказывать про аллокацию GPU ворклоудов в K8S на конференции D...
Привет! Мы с Алексеем Обыскаловым, автором канала «CTO: порядок из хаоса», проводим исследование, чтобы понять, что реально происходит внутри ИТ-команд и какие закономерности можно в этом увидеть. Вот его исходный пост. Уже начали вылезать интересные корреляции. Например: – чем лучше настроен алертинг, тем выше удовлетворённость качеством релизов (не лежит на поверхности но ожидаемо) – чем быстрее пайплайны, тем слабее качество ревью (а это уже неожиданно) Есть и другие неожиданные зависимости, ...
Итоги 2025 Многие активно подводят итоги, поэтому я решил не оставаться в стороне и вспомнить, что происходило с нами за этот год) Я разделил их на несколько треков: 🎤 Доклады и выступления - Узнали с вами про скейлинг инференса в K8S, скедулеры для GPU нагрузок и шеринг GPU на датафесте ODS и Devoops Conf. - Стали настоящими викингами и приручили LLM на MLечном Пути и конференции от Яндекса - Я про бэкенд! На последней побил свой рекорд - 200+ слушателей и 56+ оценок за доклад. Спасибо каждому...