Neural Info

@neural_info💻 Технологии🇬🇧 English📅 март 2026 г.

Рассказываю про ИИ, @Evgenii_Pishchik

📊 Полная статистика 📝 Все посты

🔗 Связанные:@neural_prosecco

##39#paper#036

253

Подписчики

258,333

Ср. охват

102.1%

Вовлечённость

Постов

~0.1

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

12 из 12

neural_info

12 нояб., 17:16

Отличная статья, которая на примере vLLM разбирает как работает LLM Inference Engine. Не самая легкая для прочтения (где-то 1-2 часа вдумчивого чтения мне понадобилось), но дает хорошее понимание того, какие приемы используются для эффективного сервинга LLM at scale в multi-gpu, multi-node сетапе. https://www.aleksagordic.com/blog/vllm

👁 484📷 photo

📊 Аналитика

neural_info

21 окт., 22:47

Наткнулся тут на видео, рассказывающее идею понижения размера контекста путем использования текстовых документов как изображений из статьи DeepSeek-OCR. Авторы DeepSeek-OCR говорят, что можно в >10 раз сжать размер контекста для трансформера, храня текстовый документ как изображение и используя визуальные трансформеры для его обработки, что приводит к меньшему количеству токенов, при этом не теряя в качестве (конечно же с использованием еще нескольких трюков и при определенной степени сжатия, но...

👁 455

📊 Аналитика

neural_info

25 янв., 15:57

Современные модели компьютерного зрения видят только то, что у них "перед глазами", не вникая в абстрактный смысл изображения. Такой взгляд резко контрастирует со взглядом человека, который способен увидеть большее нежели конкретный объект. Авторы статьи Relational Visual Similarity попытались решить эту проблему. В основе их подхода лежит создание анонимных описаний для изображений, отражающих логику отношений между объектами в кадре вместо самих объектов. Пример создания описания: Конкретное о...

👁 314📷 photo

📊 Аналитика

neural_info

25 нояб., 21:58

Хороший гайд про то как устроены non_blocking и pin_memory операции в PyTorch, наглядно демонстрирует как работает host2device, device2host копирование и рассказывает в каких ситуациях стоит использовать non_blocking и pin_memory, а в каких нет. https://docs.pytorch.org/tutorials/intermediate/pinmem_nonblock.html

👁 308

📊 Аналитика

neural_info

19 дек., 09:38

OLMo 3 Это, пожалуй, самый честный и воспроизводимый релиз года. Тут выкатили вообще всё: от исходного кода и 6T токенов (Dolma 3) до каждого промежуточного чекпоинта и точного порядка данных в батчах. Для тех, кто занимается ресёрчем, это не просто модель, а идеальный полигон для экспериментов. В техрепорте много «вкусного» (и спорного): - Delta-DPO: Авторы подтвердили гипотезу, что для ризонинга важнее не качество выбранного ответа, а дельта между ним и отвергнутым. Они брали ответы от Qwen-3 ...

👁 293📷 photo

📊 Аналитика

neural_info

17 окт., 12:17

Вы просили — мы сделали 🤝 CLIP + LLM в проде: мультимодальный «Поиск по фото» для маркетплейса Никита Романов, Tech Lead продуктов «Поиск по фото» и «Похожие по фото», рассказал, как команда внедрила SigLIP 2, Qdrant и LLM в прод, обучила модель уточнять запросы текстом и улучшила качество поиска без потери скорости. В статье — архитектура продового пайплайна, обучение эмбединговой модели, генерация тегов через VLM и LLM, результаты A/B-тестов и ключевые инженерные решения, которые помогли выде...

👁 284📷 photo

📊 Аналитика

neural_info

30 дек., 16:40

Всех с наступающим Новым Годом! Прикладываю уже традиционную карточку с итогами года, спасибо что читаете! P.S. в этом году карточку сгенерировал через сервис от @neural_prosecco, как мне кажется выглядит интереснее чем от tgstat.

👁 282📷 photo

📊 Аналитика

neural_info

20 янв., 11:54

Обновление на канале, теперь с постами мне будут помогать еще несколько моих коллег. Каждый пост будет подписан автором в виде упоминания никнейма в телеграм. Помогают мне с каналом: • @r_656_a - Настя • @hegzom - Глеб • @fluke_88 - Костя

👁 245

📊 Аналитика

neural_info

24 февр., 20:51

Совсем недавно ребята из Z.ai опубликовали техрепорт GLM-5. Что из важного можно сказать об их трейн инфре: Всё делалось на китайских чипах, - чуваки проделали большую работу чтобы адаптировать различные существующие GPU-кернелы под них. Партия довольна. Используют Pipeline Parallelism, - это когда модель делится на кусочки вертикально, и каждый PP-ранг обладает срезом слоёв всей модели. Пайплайнинг очень вкусный для 'распила' больших моделей по серверам, - ведь все коммуникации являются P2P, и ...

👁 138

📊 Аналитика

neural_info

20 февр., 11:28

Это было неизбежно: рано или поздно должны были появиться специализированные решения для инференса. И вот, Taalas (бывшая команда из Tenstorrent) выкатили то, чего я так ждал — настоящий Direct-to-Silicon. Ребята не стали мелочиться и буквально «запекли» модель в кремний. Никакой внешней памяти, никакого HBM, никакой сложной упаковки. Веса модели и архитектура — это и есть сам чип. Цифры выглядят дико: 17,000 токенов в секунду на Llama 3.1 8B. Это на порядок быстрее текущей SOTA GPU, при этом чи...

👁 127📷 photo

📊 Аналитика

Типы хуков

Нейтральный11 | 255 просм.

Статистика1 | 293 просм.

Длина постов

Очень длинные (1000+)6 | 236 просм.

Средние (200-500)4 | 330 просм.

Длинные (500-1000)1 | 284 просм.

Влияние эмодзи

211

С эмодзи (2)

268

Без эмодзи (10)

-21.3% охвата

Типы контента

📷

photo

266 просм.

📝

text

247 просм.

⚠️ 0/100

Подозрительно высокий охват

#9978

из 13,313 в Технологии