Отличная статья, которая на примере vLLM разбирает как работает LLM Inference Engine. Не самая легкая для прочтения (где-то 1-2 часа вдумчивого чтения мне понадобилось), но дает хорошее понимание того, какие приемы используются для эффективного сервинга LLM at scale в multi-gpu, multi-node сетапе. https://www.aleksagordic.com/blog/vllm
Neural Info
Рассказываю про ИИ, @Evgenii_Pishchik
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
12 из 12Наткнулся тут на видео, рассказывающее идею понижения размера контекста путем использования текстовых документов как изображений из статьи DeepSeek-OCR. Авторы DeepSeek-OCR говорят, что можно в >10 раз сжать размер контекста для трансформера, храня текстовый документ как изображение и используя визуальные трансформеры для его обработки, что приводит к меньшему количеству токенов, при этом не теряя в качестве (конечно же с использованием еще нескольких трюков и при определенной степени сжатия, но...
Современные модели компьютерного зрения видят только то, что у них "перед глазами", не вникая в абстрактный смысл изображения. Такой взгляд резко контрастирует со взглядом человека, который способен увидеть большее нежели конкретный объект. Авторы статьи Relational Visual Similarity попытались решить эту проблему. В основе их подхода лежит создание анонимных описаний для изображений, отражающих логику отношений между объектами в кадре вместо самих объектов. Пример создания описания: Конкретное о...
Хороший гайд про то как устроены non_blocking и pin_memory операции в PyTorch, наглядно демонстрирует как работает host2device, device2host копирование и рассказывает в каких ситуациях стоит использовать non_blocking и pin_memory, а в каких нет. https://docs.pytorch.org/tutorials/intermediate/pinmem_nonblock.html
OLMo 3 Это, пожалуй, самый честный и воспроизводимый релиз года. Тут выкатили вообще всё: от исходного кода и 6T токенов (Dolma 3) до каждого промежуточного чекпоинта и точного порядка данных в батчах. Для тех, кто занимается ресёрчем, это не просто модель, а идеальный полигон для экспериментов. В техрепорте много «вкусного» (и спорного): - Delta-DPO: Авторы подтвердили гипотезу, что для ризонинга важнее не качество выбранного ответа, а дельта между ним и отвергнутым. Они брали ответы от Qwen-3 ...
Вы просили — мы сделали 🤝 CLIP + LLM в проде: мультимодальный «Поиск по фото» для маркетплейса Никита Романов, Tech Lead продуктов «Поиск по фото» и «Похожие по фото», рассказал, как команда внедрила SigLIP 2, Qdrant и LLM в прод, обучила модель уточнять запросы текстом и улучшила качество поиска без потери скорости. В статье — архитектура продового пайплайна, обучение эмбединговой модели, генерация тегов через VLM и LLM, результаты A/B-тестов и ключевые инженерные решения, которые помогли выде...
Всех с наступающим Новым Годом! Прикладываю уже традиционную карточку с итогами года, спасибо что читаете! P.S. в этом году карточку сгенерировал через сервис от @neural_prosecco, как мне кажется выглядит интереснее чем от tgstat.
Обновление на канале, теперь с постами мне будут помогать еще несколько моих коллег. Каждый пост будет подписан автором в виде упоминания никнейма в телеграм. Помогают мне с каналом: • @r_656_a - Настя • @hegzom - Глеб • @fluke_88 - Костя
Совсем недавно ребята из Z.ai опубликовали техрепорт GLM-5. Что из важного можно сказать об их трейн инфре: Всё делалось на китайских чипах, - чуваки проделали большую работу чтобы адаптировать различные существующие GPU-кернелы под них. Партия довольна. Используют Pipeline Parallelism, - это когда модель делится на кусочки вертикально, и каждый PP-ранг обладает срезом слоёв всей модели. Пайплайнинг очень вкусный для 'распила' больших моделей по серверам, - ведь все коммуникации являются P2P, и ...
Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса. И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon. Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип. Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B. Это на порядок быстрее текущей SOTA GPU, при этом чи...