23.8Kпросмотров
7.4%от подписчиков
15 апреля 2026 г.
📷 ФотоScore: 26.2K
⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи Главная фишка - Audio Tags. Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст. Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей) На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179). Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/ @ai_machinelearning_big_data #google `#tts