Многие компании сёрвят LLM Кто-то использует готовые инструменты, которые предоставляют OpenAI-compatible эндпоинты: например, DeepSeek, развёрнутый через vllm serve. Кому-то не хватает OpenAI-compatible протокола. А кому-то хочется и того, и другого — например, нам в Точке. С одной стороны, мы хотим уметь ходить в LLM-провайдеры, которые поддерживают общепринятый формат. А с другой стороны у нас есть внутренняя LLM, которую нельзя полностью совместить с OpenAI-протоколом, потому что она поддерж...
NLP Wanderer
Попытки разобраться в бесконечном потоке NLP статей и моделей, а еще немного странных идей...
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
16 из 16Объемный и очень интересный тех репорт про модель под названием Skywork Open Reasoner 1. Может показаться, что это очередной RL тюн на математические задачи, который обгоняет модели по типу R1-distil, но на самом деле это первый (по крайней мере я не встречал раньше подобных работ) ablation на огромное число факторов, влияющих на процесс обучения с GRPO-like методами. Фильтрация данных, on/off policy trade off, температура при генерации решений, несимметричное клиппирование, token-wise усреднени...
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на двух задачах: Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов. Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматр...
По большей части работы, что я описал, являются фундаментальными и что-то вроде базовыми. Для большего понимания я рекомендую почитать недавно вышедшую статью на HuggingFace блоге о последних трендах в VLM: про reasoning в VLM, MoE-декодеры для VLM, исследование Vision Language Action моделей для робототехники, мультимодал раги, video-understending в VLM. 🐧 В целом я хотел кратко описать то, что я рассказал на выступлении, но вышел еще и вот такой лонгрид. Если вам понравилось, и вы хотите, что...
Презентация с моей сегодняшней лекции про методы сжатия БЯМ на курсе Школы Анализа Данных Яндекса "Эффективные Модели". В ней даю краткий обзор по существующим подходам, актуальным работам в области и некоторые общие рекомендации.
Хороший обзор от Романа Куцева про основные виды агентов для прода и как их работу можно более менее адекватно оценивать (спойлер: используя набирающий популярность фреймворк deepeval) https://habr.com/ru/articles/904880/
Бывает делаешь датасет без статьи и блога, никому о нем не рассказываешь, выкладываешь тихонечко в опенсорс - а потом тебя неожиданно цитируют китайцы в работе про ризонинг через почти полтора года. В недавней работе (24тое апреля) "DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training" от команды a-m-team, где авторы решили отобрать самые лучшие данные для трейна ризонинга и проработали методологию подготовки данных с акцентом на уровни сложности, сре...
Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам: Многоголосые: ESpeech-podcasts - 3200 часов ESpeech-webinars - 850 часов Одноголосые: ESpeech-igm - 220 часов ESpeech-buldjat - 54 часа ESpeech-upvote - 296 часов ESpeech-tuchniyzhab - 306 часов Данные лежат вот тут: https://huggingface.co/ESpeech Техрепорт датасета доступен тут: h...
2) Perceiver IO (Google DeepMind, 2021) - у персивера есть проблема, хоть он и скейлится на разные входы, его выходы являются простыми — годится для классификации по заданному числу классов, но не подходит для генерации сложных выходов произвольного размера. Основное улучшение сделано в процедуре декодирования, через специально задизайненные query к латентным переменным можно получить выходы нужной структуры (заданной этими query). 3) Flamingo (NeurIPS 2022) - VLM на 80B параметров от DeepMind. ...