Нейросети Яндекса научились сохранять тембр и интонации при — @milord_q

168.1Kпросмотров

↗️ 50 репостов

❤️ 185 реакций

16.7%от подписчиков

28 апреля 2025 г.

📷 ФотоScore: 168.6K

Нейросети Яндекса научились сохранять тембр и интонации при переводе видео Раньше было так: Браузер просто распознавал речь на видео, переводил текст и подставлял под него подходящий голос из заранее записанной базы – из-за этого говорящий мог звучать неестественно, а голоса могли повторяться. Теперь же над переводом видео начала работать новая нейросеть. Она берёт оригинальную аудиодорожку, анализирует голос, ритм, тембр, интонации — и в итоге герой говорит на русском так, будто это его родной язык. Для этого Яндекс построил собственную систему генеративного синтеза речи. Вместо стандартной озвучки — полноценная модель, которая синтезирует голос с сохранением индивидуальных особенностей. Тембр помогает удержать встроенная биометрическая модель, обученная на аудиозаписях голосов из открытых источников. А точность произношения обеспечивает единая фонемная система для двух языков. Плюс — почистили звук с помощью денойзинга и ускорили инференс так, чтобы всё работало в реалтайме

Другие посты @milord_q