168.1Kпросмотров
↗️ 50 репостов
❤️ 185 реакций
16.7%от подписчиков
28 апреля 2025 г.
📷 ФотоScore: 168.6K
Нейросети Яндекса научились сохранять тембр и интонации при переводе видео Раньше было так: Браузер просто распознавал речь на видео, переводил текст и подставлял под него подходящий голос из заранее записанной базы – из-за этого говорящий мог звучать неестественно, а голоса могли повторяться. Теперь же над переводом видео начала работать новая нейросеть. Она берёт оригинальную аудиодорожку, анализирует голос, ритм, тембр, интонации — и в итоге герой говорит на русском так, будто это его родной язык. Для этого Яндекс построил собственную систему генеративного синтеза речи. Вместо стандартной озвучки — полноценная модель, которая синтезирует голос с сохранением индивидуальных особенностей. Тембр помогает удержать встроенная биометрическая модель, обученная на аудиозаписях голосов из открытых источников. А точность произношения обеспечивает единая фонемная система для двух языков. Плюс — почистили звук с помощью денойзинга и ускорили инференс так, чтобы всё работало в реалтайме