Давай деплой ML!

@deploy_ml💻 Технологии🇷🇺 Русский📅 март 2026 г.

Пишу об ML инфраструктуре и алгоритмах, позволяющих ML системам работать эффективнее Занимаюсь исследованиями по ML инфре, аспирант сколтеха

📊 Полная статистика 📝 Все посты

##036

528

Подписчики

692,143

Ср. охват

131.1%

Вовлечённость

Постов

~0.1

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

14 из 14

deploy_ml

23 окт., 15:35

Как именно Alibaba ускорили на 84% мультимодельный инференс? TLDR: Alibaba Cloud представила Aegaeon (без кода 🙃) [paper] — по-токенный авто-скейлер для мультимодельного инференса. В проде (Alibaba Model Studio, >3 месяцев) он позволил снизить потребление GPU на 82%: с 1 192 до 213 H200, а «goodput» (RPS в рамках SLO) вырос в 1.5-9х. Продовый кластер состоит из 28 моделей размера 1.8–7B models (TP=1) и 19 моделей размера 32–72B models (TP=4) В реальности - сделали несколько инженерных оптимизац...

👁 978📷 photo

📊 Аналитика

deploy_ml

6 сент., 19:23

Стоимость инференса LLM снижается до 10x каждый год Cравниваются модели с похожим качеством на бенчмарках Год назад была статья от a16z. В этом году тренд продолжается. Почему стоимость инференса падает? 1. Не столько инференс дешевеет, сколько модели становятся мощнее и quality-per-parameter растет. 2. Квантизации становятся продвинутее. 3. MoE/Model Router позволяют получать модели с производительностью огромных, но с фактически небольшим футпринтом (новые KIMI K2 с 1T параметров и с 32B актив...

👁 977📷 photo

📊 Аналитика

deploy_ml

1 июл., 09:57

Летняя школа AIRI Приехал в Томск чтобы провести пару лекций на летней школе по ИИ от AIRI и заменторить проекты. Ну и поесть окрошку и варенье из шишек. 4 июля буду читать о практичных инженерных штуках в обучении моделей. Слайдами тут обязательно поделюсь)

👁 772📷 photo

📊 Аналитика

deploy_ml

8 июл., 07:20

А вот и слайды. Небольшой обзор по эффективному обучению и релевантным тематикам для студентов с летней школы. В начале прикладные материалы + материалы для начинающих. Для тех кто много знает - в конце начинается более инфровая часть и технические репорты. На многих слайдах внизу есть ссылки на статьи/технические блоги.

👁 763

📊 Аналитика

deploy_ml

27 июн., 10:21

Замеры MultiLoRA для оффлайн/асинхронного инференса Опубликовал статью на habr по сравнению функционала MultiLoRA в vllm и TensorRT-LLM. Интересно, что в релизных докерах результат не в ту сторону, которую вы могли бы подумать - vllm на всех сетапах круче. Думал, что дело в настройках TensorRT-LLM, ускорил в 1.2-1.5 раз, но vllm оно так и не догнало (на графиках и табличках замеры уже с оптимизацией) сравниваются python3 обертки в сетапе оффлайн/асинхронного инференса. Без интерактивности (потом...

👁 749

📊 Аналитика

deploy_ml

28 сент., 09:34

Ещё немного о линейных трансформерах На прошлой неделе участвовал в воркшопе китайских коллег и выступал на тему edge-cloud collaboration. Рассказывал, как мы ускоряли ARMT. Проблема edge-cloud: Смартфон есть почти у каждого, и их вычислительная мощность растёт. Сервер же один — и дорогой. Часто это приводит к подписке $10+ на любого LLM-ассистента. Цель — максимально задействовать сам телефон (хотя бы для спекулятивного декодинга), чтобы снизить нагрузку и цену. Преимущества линейных транс...

👁 744📷 photo

📊 Аналитика

deploy_ml

3 авг., 12:45

Как понять, что «тормозит» DataLoader? Недавно был задан классный вопрос: "Может ли малая утилизация CPU означать проблемы с DataLoader?" Утверждать нельзя, потому что в DataLoader: 1. Утилизируют CPU только аугментации и декодинг файла. Это, пожалуй, единственная вычислительная нагрузка в нем, и ее может не хватать для создания существенной утилизации. Декодинг файла - актуально для медиа-данных, хранящихся в сжатом виде. 2. Загрузка файлов - I/O-bound, т.к. представляет из себя ожидание получе...

👁 715📷 photo

📊 Аналитика

deploy_ml

17 авг., 19:34

У меня в последнее время подгорает на cursor, потому что 1. На запрос генерируется несколько файлов (код, тесты, readme, скрипты запуска). 2. Проект превращается в свалку файлов от разных запросов. 3. Лимиты на cursor улетают очень быстро. А ведь они недавно еще их и порезали. Проблема в том, что в одном продукте смешан функционал для разных целевых аудиторий: 1. Вайбкодеры Надо быстро и под ключ. Чтобы сразу весь проект сделало, скрипты сетапа и запуска. Те самые MVP, которые нужны, чтобы погля...

👁 708📷 photo

📊 Аналитика

deploy_ml

15 окт., 11:13

Как LLM становятся «самостоятельными исследователями» Наткнулся на статью Barbarians at the Gate: How AI is Upending Systems Research [link] из UC Berkeley. Тема на слуху, если не в курсе - рекомендую изучить, чтобы понимать применимость в ваших задачах. AI-Driven Research for Systems (ADRS): Многократный generate → verify → select → mutate → repeat. По сути то же самое, что делает человек при создании решения. Только тут LLM полностью генерирует варианты, вручную написанный верификатор/бенчмарк...

👁 699📷 photo

📊 Аналитика

deploy_ml

19 июн., 14:44

Обогнали, но "кого?" и "как?". Новые сетевые карточки AMD. Несколько дней назад вышла новость, что AMD в партнерстве с Oracle Cloud развернет свои UALink (Nvidia NVL72-like) стойки. У нас эту новость подхватили в контексте новой сетевой карточки AMD Pensando™ Pollara 400 AI, аналога infiniband. Кратко характеристики: 1. RoCE v2 + UEC 1.0 RDMA 2. До 4х портов. Можно подключить 1x400Gb/s, 2x200Gb/s, 4x100Gb/s И вы могли слышать, что заявляется выше эффективность по сравнению с конкурентами (так на...

👁 659📷 photo

📊 Аналитика

Типы хуков

Нейтральный9 | 693 просм.

Вопрос5 | 691 просм.

Длина постов

Очень длинные (1000+)9 | 715 просм.

Длинные (500-1000)3 | 574 просм.

Средние (200-500)2 | 768 просм.

Влияние эмодзи

745

С эмодзи (3)

678

Без эмодзи (11)

+9.9% охвата

Типы контента

📷

photo

705 просм.

📝

text

660 просм.

⚠️ 0/100

Подозрительно высокий охват

#8146

из 13,309 в Технологии