4просмотров
13 января 2026 г.
Score: 4
🤗 GLM-TTS — контролируемая эмоциональная zero-shot TTS
by zai-org | ⭐ 283 GLM-TTS — система синтеза речи на базе больших языковых моделей, обеспечивающая zero-shot клонирование голоса по 3–10 секундам и стриминговый вывод для интерактивных приложений. Используется двухэтапная архитектура: LLM (Llama-based) генерирует последовательности speech-token, а модель Flow Matching преобразует их в mel-спектрограммы, которые затем конвертируются в волну с помощью vocoder; поддерживается гибридный ввод «phoneme + text» и оптимизация под смешанный китайско-английский текст. Для повышения экспрессивности применён Multi-Reward Reinforcement Learning (GRPO) с несколькими функциями вознаграждения (Similarity, CER, Emotion, Laughter), что даёт более естественное эмоциональное управление и сниженный Character Error Rate (CER). HuggingFace →