Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам: Многоголосые: ESpeech-podcasts - 3200 часов ESpeech-webinars - 850 часов Одноголосые: ESpeech-igm - 220 часов ESpeech-buldjat - 54 часа ESpeech-upvote - 296 часов ESpeech-tuchniyzhab - 306 часов Данные лежат вот тут: https://huggingface.co/ESpeech Техрепорт датасета доступен тут: h...
Den4ik Research
HuggingFace: https://huggingface.co/Den4ikAI GitHub: https://github.com/Den4ikAI Донат: https://pay.cloudtips.ru/p/b9d86686 Личка: https://t.me/bceloss Канал одного Audio-ресерчера
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
10 из 10Наш проект на Лето с AIRI 👾 Мы с Захаром @vf_science решили выложить постер с нашим методом, по которому, вероятно, будет наш финальный проект. Но есть несколько дополнений, ибо места в постере мало (проговорим вживую на постерной сессии): 1. Перплексия считается по кодбуку, а не по языковой модели (И да, чем больше тем лучше) 2. MOS низкий, поскольку у нас небыло времени обучить на достаточном количестве данных, а рисерч пропозал делать надо :) 3. Планируем сэмплировть новые коды в менее плотн...
Спасибо Илье и донатерам за поддержку. Теперь некоторые технические детали: В датасете будет 2-5к часов аудио (скорее всего больше) Формат: mp3, 16bit depth, 44100, 320kbps Речь разговорная, но некоторая примесь читающей (книги) тоже будет. Разметка eMOS для каждого сэмпла Длина сэмплов 1-3 предложения Разметка таймстемпов слов (получена через wav2vec2) * Разметка ударений (обычные слова по словарю, омографы - по аудио) Я надеюсь, что мне удастся выполнить задуманное. Штош, начнем снова поднимат...
Колаб для семинара, в котором мы обучим поверх кодов Mimi кодека классификатор голосов на мужской и женский 😄 Используем 8 кодбуков, обучаем 8 трансформер-энкодеров, делаем темпоральный пулинг по токенам, а затем атеншн пулинг между энкодерами. Потом обычный классификатор. Из прикольного - визуализация атеншна на разные уровни RVQ. Научились работать с RVQ и в качестве упражнения можете посчитать разные статистики для кодовых книг, например perpexity (покажет насколько равномерно используются к...
❤️ Секция про ML в музыке на DataFest 2025! Посмотреть запись секции: https://vkvideo.ru/video-164555658_456241380?t=5h35m33s Отдельно доклады будут выложены на ютубе позже. Впервые за время существования датафеста (10 лет!) мною была собрана секция про ML в музыке и сразу 5 спикеров на 1 площадке: ▪️Максим Смоляков: "AI-Generated Music: методологии оценки качества и оптимизация генерации." ▪️Алексей Попов: "Генерация пения с помощью диффузионных трансформеров." ▪️Иван Разворотнев: "Foundation A...
Stay tuned!
👀 Про аудио кодеки в Deep Learning School Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :) На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели специфические для них проблемы и способы их решения — такие как недифференцируемость в процессе обучения, коллапс кодовой книги, неэффективное покрытие домена и недостаточная репрезентативность для последующих задач. Отметили тенденции в с...
🚀 Разгоняем open-source-TTS Сегодня я инвестирую в создание открытого корпуса русской речи! Почему это важно? Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов. Без данных сложно быстро тестировать идеи и выпускать новые модели. Кто делает датасет? Знакомый вам Денис @bceloss, уже собирает нужные данные. Грант позволит ему работать над проектом фул-тайм и выложить результат в открытый доступ уже к к...
Всем привет ребятки, выложил тут датасет с ютуба, сделан через пайплайн FireRed Vad -> двойной гигаам с мерджингом (пунктуация из е2е и текст из обычной) -> алайн через квен алайн -> отчистка через clearer voice Данные в формате опус, 48khz, mono, один спикер, у каждого опус файла есть txt файл с текстом аудио, в метадате данные в формате путь||текст(с ударениями)||время аудио в секундах https://huggingface.co/datasets/TeraTTS/betterset
Кто сказал «мяу»? ИТ-компания «Криптонит» приглашает на дататон «Криптонит.Тембр», где нужно распознать, кто говорит! Тебе предстоит обучить Speaker Recognition модель, устойчивую к искажениям аудио, возникающим в реальных сценариях эксплуатации речевых интерфейсов и систем обработки звука: 🔹искажения, вносимые акустической средой; 🔹посторонние шумы; 🔹реверберация; 🔹большое расстояние до микрофона; 🔹искажения каналов связи. Участвуй, и ты сможешь: 🟦получить шанс разделить призовой фонд в 6...