Генерация речи с LLM задача нетривиальная, мы тренируем моде — @applied_scientist_blog

1.1Kпросмотров

7 ноября 2025 г.

Score: 1.2K

Генерация речи с LLM задача нетривиальная, мы тренируем модель воспроизводить наиболее вероятную последовательность аудио / речевых токенов; но это усреднение часто ведет к плоским ненатуральным интонациям, эмоциям и паузам, множеству артефактов. 💃 И здесь RL как раз неплохо вписывается, дает возможность вознаграждать разборчивость, и не поощрять непонятную речь Если вам интересно попробовать RL post-training для TTS на практике, вот хороший пост-tutorial и репозиторий с кодом. Что тут происходит? 🌸Архитектура: TTS модель Llasa, на базе Llama-3.2 1В с X-codec-2 токенизатором 🪻Вдохновением стала вот эта статья: 🔗GROUP RELATIVE POLICY OPTIMIZATION FOR TEXT-TO-SPEECH WITH LARGE LANGUAGE MODELS 🍀Подход: GRPO с композитным ревордом, оценивающим качество синтетической речи через ASR word error rate (WER) и negative log likelihood на транскрипции. То есть оценивается разборчивость речи через WER и то, насколько для ASR модели вероятна референсная транскрипция при данном синтетическом аудио. В качестве ASR оценщика взяли Whisper-large v3 Бенчмарков нет, по оценке автора генерация стала стабильнее и улучшились интонации. Но… из-за вознаграждения за WER, модель стала синтезировать очень быструю речь, особенно если в промпте длинный текст. Это side-effect скорее всего проявился из-за того, что при фиксированной длине output’а модель пытается успеть произнести как можно больше Чуть ранее другой автор проводил схожий эксперимент (🔗пост). Он натренил немецкую TTS SmolKartoffel-135M 😄 на базе SmolLM2 с почти таким же сетапом — GRPO с Whisper ASR ревордом. Одной из проблем его бейзлайн модели было 🍔«зажевывание пластинки», когда модель застревала на повторении одних токенов. Так вот, post-training помог, но также как и в первом случае привел к довольно сильному ускорению речи. В общем, если есть парочка свободных GPU, то можно поэкспериментировать с RL. Думаю, есть смысл попробовать разных ASR оценщиков, и лучше даже не самые мощные robust модели, чтобы усилить обучающий сигнал на аудио с артефактами. И как-то нужно контролировать скорость речи. 🐱 А какие у вас есть идеи по улучшению этого сетапа?

Другие посты @applied_scientist_blog