Speech Info

@speechinfo💻 Технологии🇷🇺 Русский📅 март 2026 г.

Инженеры из Яндекса разбирают и комментируют горячие статьи об ML и аудио. Вопросы и предложения > @yandex_ml_brand

📊 Полная статистика 📝 Все посты

1.1K

Подписчики

654,222

Ср. охват

58.3%

Вовлечённость

Постов

~0.2

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

9 из 9

speechinfo

6 февр., 08:53

FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot Сегодня разберём статью, авторы которой пытаются решить задачу multi-speaker-генерации длинных диалогов, например для подкастов и чат-ботов. Во-первых, в работе предлагают новый стриминговый speech tokenizer с частотой 12,5 Hz (12,5 токена/сек), чтобы тянуть длинные последовательности. Обычно используют токенизаторы с частотой около 25 Hz, а здесь её снижают — как раз чтобы упростить работу с длинными диалогами. ...

👁 1.0K📷 photo

📊 Аналитика

speechinfo

19 февр., 10:36

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection Сегодня разбираем короткую и довольно простую статью о стриминговом Whisper’e. Whisper — это encoder-decoder-модель, и если в стриминге каждый раз прогонять декодер заново на всём аудио, получается слишком дорого. Поэтому авторы предлагают на каждом новом чанке заново прогонять только энкодер, а дальше следить, чтобы декодер не упирался в конец чанка и не начинал угадывать слова неправильно. Низкий WER degradation Под WE...

👁 877📷 photo

📊 Аналитика

speechinfo

11 февр., 10:01

Динамический выбор контекста в аудиомоделях Сегодня вспомним о паре любопытных статей с Interspeech 2025, связанных с динамическим выбором промпта из некоторой базы. Audiobox TTA-RAG: Improving Zero-Shot and Few-Shot Text-To-Audio with Retrieval-Augmented Generation Авторы улучшают качество text-to-audio-генерации для случаев, слабо представленных в обучающем датасете, добавляя conditioning на сэмплы из большой базы неразмеченных аудио. Для выбора примеров из базы используют косинусное расстояни...

👁 774📷 photo

📊 Аналитика

speechinfo

24 февр., 11:51

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation Сегодня обсудим статью о DiTAR — фреймворке авторегрессии, который объединяет языковую модель и диффузионный трансформер для синтеза речи. Модели Text-to-Speech часто учат на дискретных токенах, но в сочетании с нюансами архитектуры, погрешностью трансформера и декодера это приводит к накоплению ошибок — а значит, затрудняет качественную генерацию непрерывных объектов. Авторы искали новый способ предсказания непрерывных п...

👁 758📷 photo

📊 Аналитика

speechinfo

5 мар., 10:06

M³V: A Multi-Modal Multi-View Approach for Device-Directed Speech Detection В последнее время всё больше исследований посвящено голосовой активации умного ассистента без называния имени (например, «Алиса»). Это позволяет вести более естественный диалог и повышает комфорт пользователя. Чтобы решить данную задачу, нужна ML-модель для определения, направлена речь в устройство или нет. В Яндексе такую модель называют «интонационным споттером». Сегодня разберём статью, в которой рассматривается случа...

👁 745📷 photo

📊 Аналитика

speechinfo

11 мар., 12:14

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition Сегодня разбираем статью о том, как бороться с систематическими ошибками псевдолейблинга в ASR. Аудиоданных разных доменов существует огромное количество, но для конкретных задач (например, редких акцентов) разметки часто нет. Сбор качественных транскрипций стоит дорого и занимает много времени. В таких случаях выходом становится псевдолейблинг: сначала модель обучают на размеченных данных, потом она сама де...

👁 609📷 photo

📊 Аналитика

speechinfo

18 мар., 12:03

VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation Multi-Token Prediction часто рассматривают как способ ускорить генерацию, но кроме этого он может улучшить её качество. Сегодня разберём статью о том, как и почему такой подход одинаково хорошо работает и для LLM, и для аудиомоделей. Для этого упомянём ещё три работы — но обо всём по порядку. Better & Faster Large Language Models via Multi-token Prediction Начнём с простого: вспомним, как работает multi-token...

👁 523📷 photo

📊 Аналитика

speechinfo

27 мар., 09:08

Beyond Transcripts: A Renewed Perspective on Audio Chaptering [1/2] Сегодня начинаем разбирать свежую статью на тему аудиочаптеринга. Задача аудиочаптеринга — разбить запись на смысловые куски (чаптеры), чтобы каждый соответствовал какой-то теме или логическому блоку. Обычно сначала прогоняют аудио через ASR, получают транскрипт, а потом делают текстовую сегментацию — например, с помощью LLM. Авторы статьи предлагают другой подход: попробовать делать чаптеринг напрямую по аудио, без обязательной...

👁 341📷 photo

📊 Аналитика

speechinfo

30 мар., 09:45

Beyond Transcripts: A Renewed Perspective on Audio Chaptering [2/2] Продолжаем разбирать статью на тему аудиочаптеринга. В первой части рассказали о специфике задачи, метриках и подходах, которые сравнивают авторы. Переходим к самому интересному — результатам. Первый аблейшн — качество транскрипта. Сравнивают сегментацию на референсном тексте, Whisper Tiny и Whisper Large. Разница неожиданно небольшая: более качественный ASR не всегда даёт лучшую сегментацию. Модели в основном лучше работают на ...

👁 231📷 photo

📊 Аналитика

Типы хуков

Нейтральный6 | 584 просм.

Статистика3 | 795 просм.

Длина постов

Очень длинные (1000+)9 | 654 просм.

Типы контента

📷

photo

654 просм.