1.7Kпросмотров
2 сентября 2023 г.
📷 ФотоScore: 1.9K
Клонирование голоса Недавно в трендах GitHub'а я увидел очень любопытный проект, который нельзя было обойти стороной. Группа энтузиастов обучала модель VALLE-E X, решающую zero-shot задачу преобразования текста в речь. Архитектура была изначально предложена компаний Microsoft. Но, увы, Microsoft опубликовали лишь исследование, не добавив туда ни код, ни предварительно обученную модель. Как пишут сами авторы реализации: "Осознавая потенциал и ценность этой технологии, наша команда взяла на себя труд воспроизвести результаты и обучить собственную модель. Мы рады поделиться нашей обученной моделью VALL-E X с сообществом и дать возможность всем желающим оценить возможности TTS нового поколения!" Поддержки русского языка нет, на моём записанном голосе всё сработало не очень хорошо, поэтому я решил пойти другим путём. Периодически я слежу за тем, что происходит в мире шахмат: читаю новости, смотрю разборы матчей и интервью с игроками. Если на моей записи всё работает плохо, то давайте обратимся к носителю языка - Магнусу Карлсену. Я вырезал небольшую часть из его интервью, опубликованного на официальном YouTube-канале FIDE. Пример кода с клонированием голоса есть в репозитории, а вам я предлагаю лишь оценить результат. По-моему, это нереально круто. Аудиозапись будет в комментариях. 👨‍💻Code 📎Paper
1.7K
просмотров
1327
символов
Нет
эмодзи
Да
медиа

Другие посты @everydaycv

Все посты канала →
Клонирование голоса Недавно в трендах GitHub'а я увидел очен — @everydaycv | PostSniper