NNLP Wanderer

NLP Wanderer

@nlpwanderer💻 Технологии🇷🇺 Русский📅 март 2026 г.

Попытки разобраться в бесконечном потоке NLP статей и моделей, а еще немного странных идей...

📊 Полная статистика📝 Все посты
##39
1.5K
Подписчики
1.5K
Ср. охват
101.1%
Вовлечённость
16
Постов
~0.1
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

16 из 16
Nnlpwanderer
nlpwanderer
6 июн., 19:51

Многие компании сёрвят LLM Кто-то использует готовые инструменты, которые предоставляют OpenAI-compatible эндпоинты: например, DeepSeek, развёрнутый через vllm serve. Кому-то не хватает OpenAI-compatible протокола. А кому-то хочется и того, и другого — например, нам в Точке. С одной стороны, мы хотим уметь ходить в LLM-провайдеры, которые поддерживают общепринятый формат. А с другой стороны у нас есть внутренняя LLM, которую нельзя полностью совместить с OpenAI-протоколом, потому что она поддерж...

👁 2.2K
Nnlpwanderer
nlpwanderer
30 мая, 20:59

Объемный и очень интересный тех репорт про модель под названием Skywork Open Reasoner 1. Может показаться, что это очередной RL тюн на математические задачи, который обгоняет модели по типу R1-distil, но на самом деле это первый (по крайней мере я не встречал раньше подобных работ) ablation на огромное число факторов, влияющих на процесс обучения с GRPO-like методами. Фильтрация данных, on/off policy trade off, температура при генерации решений, несимметричное клиппирование, token-wise усреднени...

👁 2.2K
Nnlpwanderer
nlpwanderer
7 апр., 01:25

RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на двух задачах: Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов. Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматр...

👁 2.0K📷 photo
Nnlpwanderer
nlpwanderer
19 мая, 13:22

По большей части работы, что я описал, являются фундаментальными и что-то вроде базовыми. Для большего понимания я рекомендую почитать недавно вышедшую статью на HuggingFace блоге о последних трендах в VLM: про reasoning в VLM, MoE-декодеры для VLM, исследование Vision Language Action моделей для робототехники, мультимодал раги, video-understending в VLM. 🐧 В целом я хотел кратко описать то, что я рассказал на выступлении, но вышел еще и вот такой лонгрид. Если вам понравилось, и вы хотите, что...

👁 1.8K
Nnlpwanderer
nlpwanderer
8 апр., 06:29

Презентация с моей сегодняшней лекции про методы сжатия БЯМ на курсе Школы Анализа Данных Яндекса "Эффективные Модели". В ней даю краткий обзор по существующим подходам, актуальным работам в области и некоторые общие рекомендации.

👁 1.6K
Nnlpwanderer
nlpwanderer
2 мая, 07:34

Хороший обзор от Романа Куцева про основные виды агентов для прода и как их работу можно более менее адекватно оценивать (спойлер: используя набирающий популярность фреймворк deepeval) https://habr.com/ru/articles/904880/

👁 1.6K
Nnlpwanderer
nlpwanderer
3 мая, 08:10

Бывает делаешь датасет без статьи и блога, никому о нем не рассказываешь, выкладываешь тихонечко в опенсорс - а потом тебя неожиданно цитируют китайцы в работе про ризонинг через почти полтора года. В недавней работе (24тое апреля) "DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training" от команды a-m-team, где авторы решили отобрать самые лучшие данные для трейна ризонинга и проработали методологию подготовки данных с акцентом на уровни сложности, сре...

👁 1.5K📷 photo
Nnlpwanderer
nlpwanderer
26 авг., 16:23

Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам: Многоголосые: ESpeech-podcasts - 3200 часов ESpeech-webinars - 850 часов Одноголосые: ESpeech-igm - 220 часов ESpeech-buldjat - 54 часа ESpeech-upvote - 296 часов ESpeech-tuchniyzhab - 306 часов Данные лежат вот тут: https://huggingface.co/ESpeech Техрепорт датасета доступен тут: h...

👁 1.4K🎬 video
Nnlpwanderer
nlpwanderer
19 мая, 13:22

2) Perceiver IO (Google DeepMind, 2021) - у персивера есть проблема, хоть он и скейлится на разные входы, его выходы являются простыми — годится для классификации по заданному числу классов, но не подходит для генерации сложных выходов произвольного размера. Основное улучшение сделано в процедуре декодирования, через специально задизайненные query к латентным переменным можно получить выходы нужной структуры (заданной этими query). 3) Flamingo (NeurIPS 2022) - VLM на 80B параметров от DeepMind. ...

👁 1.3K

Типы хуков

Нейтральный13 | 1.5K просм.
Статистика3 | 1.2K просм.

Длина постов

Очень длинные (1000+)10 | 1.4K просм.
Длинные (500-1000)3 | 1.7K просм.
Средние (200-500)2 | 1.6K просм.

Влияние эмодзи

1.3K
С эмодзи (4)
1.6K
Без эмодзи (12)
-17.6% охвата

Типы контента

📷
4
photo
1.5K просм.
📝
11
text
1.5K просм.
🎬
1
video
1.4K просм.
NLP Wanderer (@nlpwanderer) — Telegram-канал | PostSniper