N
NLP Wanderer
@nlpwanderer1.5K подп.
1.4Kпросмотров
97.3%от подписчиков
26 августа 2025 г.
🎬 ВидеоScore: 1.6K
Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам: Многоголосые: ESpeech-podcasts - 3200 часов ESpeech-webinars - 850 часов Одноголосые: ESpeech-igm - 220 часов ESpeech-buldjat - 54 часа ESpeech-upvote - 296 часов ESpeech-tuchniyzhab - 306 часов Данные лежат вот тут: https://huggingface.co/ESpeech Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка. Какие модели доступны? ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1) ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2) Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL. Послушать модели без скачивания можно вот здесь: https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики: https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru Задать вопросы по поводу данных и модели можно в наших телеграм каналах: https://t.me/den4ikresearch https://t.me/voice_stuff_chat Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты: USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3 https://www.tbank.ru/cf/7WKnNMqWtOx
1.4K
просмотров
1845
символов
Нет
эмодзи
Да
медиа

Другие посты @nlpwanderer

Все посты канала →
Наш русскоязычный датасет для TTS опубликован! Сегодня выкла — @nlpwanderer | PostSniper