Как именно Alibaba ускорили на 84% мультимодельный инференс? TLDR: Alibaba Cloud представила Aegaeon (без кода 🙃) [paper] — по-токенный авто-скейлер для мультимодельного инференса. В проде (Alibaba Model Studio, >3 месяцев) он позволил снизить потребление GPU на 82%: с 1 192 до 213 H200, а «goodput» (RPS в рамках SLO) вырос в 1.5-9х. Продовый кластер состоит из 28 моделей размера 1.8–7B models (TP=1) и 19 моделей размера 32–72B models (TP=4) В реальности - сделали несколько инженерных оптимизац...
Давай деплой ML!
Пишу об ML инфраструктуре и алгоритмах, позволяющих ML системам работать эффективнее Занимаюсь исследованиями по ML инфре, аспирант сколтеха
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
14 из 14Стоимость инференса LLM снижается до 10x каждый год Cравниваются модели с похожим качеством на бенчмарках Год назад была статья от a16z. В этом году тренд продолжается. Почему стоимость инференса падает? 1. Не столько инференс дешевеет, сколько модели становятся мощнее и quality-per-parameter растет. 2. Квантизации становятся продвинутее. 3. MoE/Model Router позволяют получать модели с производительностью огромных, но с фактически небольшим футпринтом (новые KIMI K2 с 1T параметров и с 32B актив...
Летняя школа AIRI Приехал в Томск чтобы провести пару лекций на летней школе по ИИ от AIRI и заменторить проекты. Ну и поесть окрошку и варенье из шишек. 4 июля буду читать о практичных инженерных штуках в обучении моделей. Слайдами тут обязательно поделюсь)
А вот и слайды. Небольшой обзор по эффективному обучению и релевантным тематикам для студентов с летней школы. В начале прикладные материалы + материалы для начинающих. Для тех кто много знает - в конце начинается более инфровая часть и технические репорты. На многих слайдах внизу есть ссылки на статьи/технические блоги.
Замеры MultiLoRA для оффлайн/асинхронного инференса Опубликовал статью на habr по сравнению функционала MultiLoRA в vllm и TensorRT-LLM. Интересно, что в релизных докерах результат не в ту сторону, которую вы могли бы подумать - vllm на всех сетапах круче. Думал, что дело в настройках TensorRT-LLM, ускорил в 1.2-1.5 раз, но vllm оно так и не догнало (на графиках и табличках замеры уже с оптимизацией) сравниваются python3 обертки в сетапе оффлайн/асинхронного инференса. Без интерактивности (потом...
Ещё немного о линейных трансформерах На прошлой неделе участвовал в воркшопе китайских коллег и выступал на тему edge-cloud collaboration. Рассказывал, как мы ускоряли ARMT. Проблема edge-cloud: Смартфон есть почти у каждого, и их вычислительная мощность растёт. Сервер же один — и дорогой. Часто это приводит к подписке $10+ на любого LLM-ассистента. Цель — максимально задействовать сам телефон (хотя бы для спекулятивного декодинга), чтобы снизить нагрузку и цену. Преимущества линейных транс...
Как понять, что «тормозит» DataLoader? Недавно был задан классный вопрос: "Может ли малая утилизация CPU означать проблемы с DataLoader?" Утверждать нельзя, потому что в DataLoader: 1. Утилизируют CPU только аугментации и декодинг файла. Это, пожалуй, единственная вычислительная нагрузка в нем, и ее может не хватать для создания существенной утилизации. Декодинг файла - актуально для медиа-данных, хранящихся в сжатом виде. 2. Загрузка файлов - I/O-bound, т.к. представляет из себя ожидание получе...
У меня в последнее время подгорает на cursor, потому что 1. На запрос генерируется несколько файлов (код, тесты, readme, скрипты запуска). 2. Проект превращается в свалку файлов от разных запросов. 3. Лимиты на cursor улетают очень быстро. А ведь они недавно еще их и порезали. Проблема в том, что в одном продукте смешан функционал для разных целевых аудиторий: 1. Вайбкодеры Надо быстро и под ключ. Чтобы сразу весь проект сделало, скрипты сетапа и запуска. Те самые MVP, которые нужны, чтобы погля...
Как LLM становятся «самостоятельными исследователями» Наткнулся на статью Barbarians at the Gate: How AI is Upending Systems Research [link] из UC Berkeley. Тема на слуху, если не в курсе - рекомендую изучить, чтобы понимать применимость в ваших задачах. AI-Driven Research for Systems (ADRS): Многократный generate → verify → select → mutate → repeat. По сути то же самое, что делает человек при создании решения. Только тут LLM полностью генерирует варианты, вручную написанный верификатор/бенчмарк...
Обогнали, но "кого?" и "как?". Новые сетевые карточки AMD. Несколько дней назад вышла новость, что AMD в партнерстве с Oracle Cloud развернет свои UALink (Nvidia NVL72-like) стойки. У нас эту новость подхватили в контексте новой сетевой карточки AMD Pensando™ Pollara 400 AI, аналога infiniband. Кратко характеристики: 1. RoCE v2 + UEC 1.0 RDMA 2. До 4х портов. Можно подключить 1x400Gb/s, 2x200Gb/s, 4x100Gb/s И вы могли слышать, что заявляется выше эффективность по сравнению с конкурентами (так на...