1.6Kпросмотров
22.2%от подписчиков
26 марта 2026 г.
stats📷 ФотоScore: 1.7K
Google выкатил Gemini 3.1 Flash Live в Live API для разработчиков. Это их новая модель, заточенная специально под real-time голосовых и vision-агентов. Пишут, что это прям новый уровень в скорости и качестве диалога. Агенты теперь могут "видеть" и "слышать" окружающий мир и отвечать со скоростью обычного разговора без бесящих задержек. Что обновили и добавили:
– Работа в шумной среде. Модель теперь нормально фильтрует фоновый шум (гудящие машины, работающий телевизор) и не сбивается. Плюс сильно улучшили способность модели дергать внешние тулзы (function calling) прямо во время живого общения.
– Инструкции. Намного лучше следует сложным системным промптам и не забывает их.
– Естественность. Модель прокачали в распознавании интонаций, тона, темпа и высоты голоса. По сравнению со старой 2.5 Flash Native Audio звучит и реагирует гораздо человечнее.
– Поддерживает 90+ языков для мультимодальных бесед в реальном времени. Прикольный юзкейс из демок: стартап Stitch прикрутил это к дизайну. Агент "видит" экраны на канвасе, а юзер голосом с ним обсуждает правки, просит сгенерить варианты или дать критику.
В API (пока через Google AI Studio) завезли поддержку эфемерных токенов, управление сессиями для длинных диалогов и работу с тулзами. В общем, собирать voice-first агентов становится все проще, и кажется, это будет главный тренд ближайшего времени. Прошлая моделька мне очень нравилась. И цена та же осталась (примерно 2-3 цента за минуту) https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/