Google выкатил Gemini 3.1 Flash Live в Live API для разработ — @ai_product

1.6Kпросмотров

22.2%от подписчиков

26 марта 2026 г.

stats📷 ФотоScore: 1.7K

Google выкатил Gemini 3.1 Flash Live в Live API для разработчиков. Это их новая модель, заточенная специально под real-time голосовых и vision-агентов. Пишут, что это прям новый уровень в скорости и качестве диалога. Агенты теперь могут "видеть" и "слышать" окружающий мир и отвечать со скоростью обычного разговора без бесящих задержек. Что обновили и добавили: – Работа в шумной среде. Модель теперь нормально фильтрует фоновый шум (гудящие машины, работающий телевизор) и не сбивается. Плюс сильно улучшили способность модели дергать внешние тулзы (function calling) прямо во время живого общения. – Инструкции. Намного лучше следует сложным системным промптам и не забывает их. – Естественность. Модель прокачали в распознавании интонаций, тона, темпа и высоты голоса. По сравнению со старой 2.5 Flash Native Audio звучит и реагирует гораздо человечнее. – Поддерживает 90+ языков для мультимодальных бесед в реальном времени. Прикольный юзкейс из демок: стартап Stitch прикрутил это к дизайну. Агент "видит" экраны на канвасе, а юзер голосом с ним обсуждает правки, просит сгенерить варианты или дать критику. В API (пока через Google AI Studio) завезли поддержку эфемерных токенов, управление сессиями для длинных диалогов и работу с тулзами. В общем, собирать voice-first агентов становится все проще, и кажется, это будет главный тренд ближайшего времени. Прошлая моделька мне очень нравилась. И цена та же осталась (примерно 2-3 цента за минуту) https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/

Другие посты @ai_product