ДДушный NLP

Душный NLP

@stuffyNLP💻 Технологии🇷🇺 Русский📅 март 2026 г.

Разборы свежих статей от NLP-специалистов Яндекса. Подробно, полезно, с душ(нот)ой. Вопросы и предложения > @yandex_ml_brand

📊 Полная статистика📝 Все посты
##39#yaiclr#yaicml25
6.1K
Подписчики
4.6K
Ср. охват
74.3%
Вовлечённость
12
Постов
~0.1
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

12 из 12
SstuffyNLP
stuffyNLP
24 дек., 10:14

Подборка статей об альтернативах квадратичному селф-аттеншну В последние годы всё больше обсуждают альтернативы классическому аттеншну — прежде всего из-за стоимости квадратичного скейлинга и работы с длинными контекстами. Ниже — краткий обзор нескольких любопытных работ и блогпостов на тему линейного, sparse- и гибридного аттеншна. Why Did MiniMax M2 End Up as a Full Attention Model? Начнём с поста от команды MiniMax. Их первая модель, MiniMax M1, была гибридной и использовала простой линейный ...

👁 9.6K📷 photo
SstuffyNLP
stuffyNLP
16 февр., 14:40

Как заставить агентов делать работу над ошибками Сегодня разбираем статью об обучении агентов. Проблема такая: реворд-модели оценивают только результат в конце траектории, а если агент сделал ошибку и исправил её, нельзя сказать, когда это произошло. Если бы у нас была такая возможность, то мы могли бы раньше направить обучаемую LLM по нужному пути. Есть способы фиксировать ошибки и делать реворд по шагам, но это дорого и сложно в реализации. Авторы предлагают метод Agent-R, суть которого заключ...

👁 7.8K📷 photo
SstuffyNLP
stuffyNLP
12 февр., 12:04

Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models Сегодня разберём статью о GazeReward — фреймворке, который интегрирует неявную обратную связь eye-tracking (ET) в модель вознаграждения (RM). GPT, Llama, Claude, Gemini и другие популярные LLM отлично справляются с самыми разными задачами, но результат их работы не всегда соответствует ожиданиям пользователей. Модели часто донастраивают с помощью Reinforcement Learning with Human Feedback (RLHF), но и это...

👁 4.9K📷 photo
SstuffyNLP
stuffyNLP
26 янв., 13:08

Ускорение E2E-инференса через оптимизацию KV-кэша. Часть I Существует много способов ускорить инференс LLM: менять архитектуру, использовать speculative decoding или просто добавлять вычислительные ресурсы. Но есть и более практичный путь — оптимизация KV-кэша. Её можно разделить на pre-train и post-train. Первые требуют изменений до обучения модели: это архитектурные решения вроде GQA/MQA/MLA, смешивание глобального и локального атеншена, а также другие модификации, которые обычно стоят дорого ...

👁 4.8K
SstuffyNLP
stuffyNLP
12 янв., 12:10

🎄 Лучшие статьи 2025 года — выбор инженеров Яндекса Miss me? Как и обещали, возвращаемся не с обзором, а с «кое-чем ещё», но не менее полезным. Мы попросили инженеров Яндекса, чьи разборы вы можете почитать в канале, поделиться (уже) прошлогодними статьями, которые им запомнились больше всего. ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration Статья о маленькой модели (Qwen3-8B-Based), которая, по сути, выполняет функцию планера и роутера во вспомогательные инстру...

👁 4.6K
SstuffyNLP
stuffyNLP
24 февр., 12:14

Рекурсивные языковые модели В последнее время всё чаще обсуждают проблему длинного контекста. Большое количество токенов просто физически не помещается в модели, а с увеличением контекста зачастую падает качество. Авторы сегодняшней статьи предлагают решение: дать моделям правильные инструменты. Как это устроено: у модели есть промпт с описанием задачи и доступных тулов. Первый — это Python REPL. Модель может исполнить произвольный код, где в переменной prompt сохранён весь длинный промпт. Второ...

👁 4.3K📷 photo
SstuffyNLP
stuffyNLP
28 янв., 13:44

Ускорение E2E-инференса через оптимизацию KV-кэша. Часть II В первой части разбора мы говорили о методах оптимизации KV-кэша в принципе. А сегодня речь пойдёт об одном конкретном подходе — ShadowKV. В его основе наблюдение, что post-RoPE key cache обладает attention locality — соседние токены часто имеют высокую cosine similarity, и только небольшая часть токенов выбивается из этого паттерна. Поэтому их режут на чанки по 8 токенов и строят landmarks — репрезентативные средние ключи для чанка. Эт...

👁 4.2K📷 photo
SstuffyNLP
stuffyNLP
5 февр., 12:55

Превращаем decoder-only в encoder-decoder Несмотря на то, что decoder-only-модели сейчас популярнее, encoder-decoder-модели по-прежнему остаются актуальными в некоторых задачах. В сегодняшней статье — техника адаптации предобученных decoder-only-моделей в encoder-decoder с сохранением преимуществ обоих подходов. Суть метода: берут предобученную decoder-only и из её весов собирают encoder-decoder. В энкодере self-attention и FFN инициализируются из соответствующих self-attention и FFN исходной мо...

👁 4.0K📷 photo
SstuffyNLP
stuffyNLP
29 дек., 12:01

🎄 Лучшее за год в Душном NLP Снова это время — время подводить итоги! Собрали самые популярные посты в канале за 2025 год. Чтобы вспомнить крутое или наверстать упущенное. А если что-то крутое, из опубликованного нами, вам и так запомнилось, рассказывайте в комментариях. Будет интересно узнать, какие посты запали в душу. Проблемы LLM-as-a-Judge и их решение Авторы изучают LLM-as-a-Judge для оценки открытых ответов, сравнивают три схемы и предлагают решения возникающих проблем. В частности, можн...

👁 4.0K
SstuffyNLP
stuffyNLP
4 мар., 12:04

Mercury — диффузионная модель для написания кода Сегодня разберём статью о диффузионной модели Mercury. На Copilot Arena она занимала второе место по качеству и первое — по скорости. Диффузионные модели уже зарекомендовали себя в сфере генерации изображений. Авторы сегодняшней работы, в свою очередь, предлагают модель, ориентированную на решение задач программирования. Это объяснимо: диффузионные модели не очень хорошо подходят для генерации свободных коротких текстов, а код структурирован, в нё...

👁 3.2K📷 photo

Типы хуков

Нейтральный8 | 4.2K просм.
Статистика3 | 4.5K просм.
Провокация1 | 7.8K просм.

Длина постов

Очень длинные (1000+)12 | 4.6K просм.

Типы контента

📷
8
photo
5.0K просм.
📝
4
text
3.6K просм.