Н
НейроКаша
@neurokasha3 подп.
4просмотров
13 января 2026 г.
Score: 4
🤗 GLM-TTS — контролируемая эмоциональная zero-shot TTS by zai-org | ⭐ 283 GLM-TTS — система синтеза речи на базе больших языковых моделей, обеспечивающая zero-shot клонирование голоса по 3–10 секундам и стриминговый вывод для интерактивных приложений. Используется двухэтапная архитектура: LLM (Llama-based) генерирует последовательности speech-token, а модель Flow Matching преобразует их в mel-спектрограммы, которые затем конвертируются в волну с помощью vocoder; поддерживается гибридный ввод «phoneme + text» и оптимизация под смешанный китайско-английский текст. Для повышения экспрессивности применён Multi-Reward Reinforcement Learning (GRPO) с несколькими функциями вознаграждения (Similarity, CER, Emotion, Laughter), что даёт более естественное эмоциональное управление и сниженный Character Error Rate (CER). HuggingFace →
4
просмотров
836
символов
Да
эмодзи
Нет
медиа

Другие посты @neurokasha

Все посты канала →