34просмотров
14.7%от подписчиков
28 марта 2026 г.
📷 ФотоScore: 37
Руководство по созданию корпоративных голосовых AI-агентов в реальном времени: практический подход Исследователи представили детальное техническое руководство по созданию корпоративных голосовых агентов в реальном времени с нуля. В работе сравниваются сквозные речевые модели (S2S) с каскадными потоковыми архитектурами (STT → LLM → TTS), приходя к выводу, что последние остаются наиболее практичным решением для полностью самостоятельно размещаемых систем. Основное внимание уделяется оптимизации задержки Time-to-First-Audio (TTFA) до суб-секундных значений. Авторы продемонстрировали, что их каскадный конвейер, использующий Deepgram для STT, vLLM для LLM с функцией вызова инструментов и ElevenLabs для TTS, достигает TTFA ~755 мс, при этом обеспечивая полную поддержку вызовов функций. Это существенно отличается от сквозных моделей, таких как Qwen3-Omni: хотя её облачный API DashScope достигает ~702 мс TTFA с вызовами функций, локальное развертывание Talker-компонента остается неоптимизированным и слишком медленным для реального времени (порядка 146 секунд). «Пока не существует оптимизированного, самодостаточного решения для Talker (например, vLLM-Omni, добавляющего поддержку Talker), каскадный конвейер остается единственной жизнеспособной архитектурой для полностью самодостаточных голосовых агентов реального времени».
В рамках исследования также подробно описываются компоненты системы: буфер предложений для агрегации токенов, детектирование голосовой активности (VAD) с помощью Silero VAD для определения смены говорящего, а также архитектура WebSocket для взаимодействия клиента и сервера. Созданный агент способен выполнять сложные корпоративные задачи, такие как управление расписанием в больнице. «Восприятие мгновенного ответа возникает за счет перекрывающегося выполнения компонентов. Буфер предложений является критическим примитивом оркестровки».
Полный исходный код и пошаговое руководство из 9 глав доступны для самостоятельного изучения и внедрения. Источник Перевод статьи на русский