303просмотров
7.2%от подписчиков
29 марта 2026 г.
🎬 ВидеоScore: 333
Голос, код и железо: ИИ ускоряется сразу по всем фронтам За один релизный цикл сразу несколько компаний показали, куда всё движется: быстрее, точнее и ближе к реальному времени. Начнём с Google. Gemini 3.1 Flash Live — голосовая модель, которая:
— быстрее реагирует, чем предыдущие версии
— лучше понимает темп, интонации и акустику
— эффективно фильтрует шум Поддерживает 90+ языков в реальном времени, держит контекст дольше и стабильнее работает с инструментами.
Идёт сразу в продукты — Gemini Live и Search Live (который расширяют на 200+ стран). Теперь про звук. Mistral Voxtral TTS:
— клонирует голос по <5 секундам аудио
— сохраняет микроинтонации и акценты
— может менять язык, не теряя «личность» Скорость — 10 секунд аудио за ~1.6 секунды.
Открытая модель (но с некоммерческой лицензией). Следом — распознавание речи. Cohere Transcribe:
— модель на 2 млрд параметров (Conformer)
— работает с шумом, акцентами и несколькими голосами
— WER 5.42% — обошла Whisper Large v3 Можно запускать локально или через API. Теперь железо. Intel Arc Pro B70 / B65:
— 32 ГБ VRAM
— до 22.9 TFLOPS
— цена от $949 (в 2 раза дешевле аналогов Nvidia) То есть инференс становится доступнее без топовых бюджетов. И немного про платформы. GitHub Copilot меняет политику:
данные пользователей (код, промпты, ответы) могут использоваться для обучения моделей по умолчанию. Главный сдвиг — всё начинает сходиться:
голос → текст → генерация → железо → инфраструктура. ИИ становится не отдельной технологией, а полноценной средой. Вывод: следующий этап — не отдельные модели, а экосистема, где всё работает вместе и в реальном времени.