NLP Wanderer

@nlpwanderer💻 Технологии🇷🇺 Русский📅 март 2026 г.

Попытки разобраться в бесконечном потоке NLP статей и моделей, а еще немного странных идей...

📊 Полная статистика 📝 Все посты

##39

1.5K

Подписчики

1.5K

Ср. охват

101.1%

Вовлечённость

Постов

~0.1

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

16 из 16

nlpwanderer

6 июн., 19:51

Многие компании сёрвят LLM Кто-то использует готовые инструменты, которые предоставляют OpenAI-compatible эндпоинты: например, DeepSeek, развёрнутый через vllm serve. Кому-то не хватает OpenAI-compatible протокола. А кому-то хочется и того, и другого — например, нам в Точке. С одной стороны, мы хотим уметь ходить в LLM-провайдеры, которые поддерживают общепринятый формат. А с другой стороны у нас есть внутренняя LLM, которую нельзя полностью совместить с OpenAI-протоколом, потому что она поддерж...

👁 2.2K

📊 Аналитика

nlpwanderer

30 мая, 20:59

Объемный и очень интересный тех репорт про модель под названием Skywork Open Reasoner 1. Может показаться, что это очередной RL тюн на математические задачи, который обгоняет модели по типу R1-distil, но на самом деле это первый (по крайней мере я не встречал раньше подобных работ) ablation на огромное число факторов, влияющих на процесс обучения с GRPO-like методами. Фильтрация данных, on/off policy trade off, температура при генерации решений, несимметричное клиппирование, token-wise усреднени...

👁 2.2K

📊 Аналитика

nlpwanderer

7 апр., 01:25

RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на двух задачах: Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов. Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматр...

👁 2.0K📷 photo

📊 Аналитика

nlpwanderer

19 мая, 13:22

По большей части работы, что я описал, являются фундаментальными и что-то вроде базовыми. Для большего понимания я рекомендую почитать недавно вышедшую статью на HuggingFace блоге о последних трендах в VLM: про reasoning в VLM, MoE-декодеры для VLM, исследование Vision Language Action моделей для робототехники, мультимодал раги, video-understending в VLM. 🐧 В целом я хотел кратко описать то, что я рассказал на выступлении, но вышел еще и вот такой лонгрид. Если вам понравилось, и вы хотите, что...

👁 1.8K

📊 Аналитика

nlpwanderer

8 апр., 06:29

Презентация с моей сегодняшней лекции про методы сжатия БЯМ на курсе Школы Анализа Данных Яндекса "Эффективные Модели". В ней даю краткий обзор по существующим подходам, актуальным работам в области и некоторые общие рекомендации.

👁 1.6K

📊 Аналитика

nlpwanderer

2 мая, 07:34

Хороший обзор от Романа Куцева про основные виды агентов для прода и как их работу можно более менее адекватно оценивать (спойлер: используя набирающий популярность фреймворк deepeval) https://habr.com/ru/articles/904880/

👁 1.6K

📊 Аналитика

nlpwanderer

30 мая, 20:59

👁 1.5K📷 photo

📊 Аналитика

nlpwanderer

3 мая, 08:10

Бывает делаешь датасет без статьи и блога, никому о нем не рассказываешь, выкладываешь тихонечко в опенсорс - а потом тебя неожиданно цитируют китайцы в работе про ризонинг через почти полтора года. В недавней работе (24тое апреля) "DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training" от команды a-m-team, где авторы решили отобрать самые лучшие данные для трейна ризонинга и проработали методологию подготовки данных с акцентом на уровни сложности, сре...

👁 1.5K📷 photo

📊 Аналитика

nlpwanderer

26 авг., 16:23

Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам: Многоголосые: ESpeech-podcasts - 3200 часов ESpeech-webinars - 850 часов Одноголосые: ESpeech-igm - 220 часов ESpeech-buldjat - 54 часа ESpeech-upvote - 296 часов ESpeech-tuchniyzhab - 306 часов Данные лежат вот тут: https://huggingface.co/ESpeech Техрепорт датасета доступен тут: h...

👁 1.4K🎬 video

📊 Аналитика

nlpwanderer

19 мая, 13:22

2) Perceiver IO (Google DeepMind, 2021) - у персивера есть проблема, хоть он и скейлится на разные входы, его выходы являются простыми — годится для классификации по заданному числу классов, но не подходит для генерации сложных выходов произвольного размера. Основное улучшение сделано в процедуре декодирования, через специально задизайненные query к латентным переменным можно получить выходы нужной структуры (заданной этими query). 3) Flamingo (NeurIPS 2022) - VLM на 80B параметров от DeepMind. ...

👁 1.3K

📊 Аналитика

Типы хуков

Нейтральный13 | 1.5K просм.

Статистика3 | 1.2K просм.

Длина постов

Очень длинные (1000+)10 | 1.4K просм.

Длинные (500-1000)3 | 1.7K просм.

Средние (200-500)2 | 1.6K просм.

Влияние эмодзи

1.3K

С эмодзи (4)

1.6K

Без эмодзи (12)

-17.6% охвата

Типы контента

📷

photo

1.5K просм.

📝

text

1.5K просм.

🎬

video

1.4K просм.

⚠️ 0/100

Подозрительно высокий охват

#5219

из 13,357 в Технологии