Голос, код и железо: ИИ ускоряется сразу по всем фронтам За — @omggpt

303просмотров

7.2%от подписчиков

29 марта 2026 г.

🎬 ВидеоScore: 333

Голос, код и железо: ИИ ускоряется сразу по всем фронтам За один релизный цикл сразу несколько компаний показали, куда всё движется: быстрее, точнее и ближе к реальному времени. Начнём с Google. Gemini 3.1 Flash Live — голосовая модель, которая: — быстрее реагирует, чем предыдущие версии — лучше понимает темп, интонации и акустику — эффективно фильтрует шум Поддерживает 90+ языков в реальном времени, держит контекст дольше и стабильнее работает с инструментами. Идёт сразу в продукты — Gemini Live и Search Live (который расширяют на 200+ стран). Теперь про звук. Mistral Voxtral TTS: — клонирует голос по <5 секундам аудио — сохраняет микроинтонации и акценты — может менять язык, не теряя «личность» Скорость — 10 секунд аудио за ~1.6 секунды. Открытая модель (но с некоммерческой лицензией). Следом — распознавание речи. Cohere Transcribe: — модель на 2 млрд параметров (Conformer) — работает с шумом, акцентами и несколькими голосами — WER 5.42% — обошла Whisper Large v3 Можно запускать локально или через API. Теперь железо. Intel Arc Pro B70 / B65: — 32 ГБ VRAM — до 22.9 TFLOPS — цена от $949 (в 2 раза дешевле аналогов Nvidia) То есть инференс становится доступнее без топовых бюджетов. И немного про платформы. GitHub Copilot меняет политику: данные пользователей (код, промпты, ответы) могут использоваться для обучения моделей по умолчанию. Главный сдвиг — всё начинает сходиться: голос → текст → генерация → железо → инфраструктура. ИИ становится не отдельной технологией, а полноценной средой. Вывод: следующий этап — не отдельные модели, а экосистема, где всё работает вместе и в реальном времени.

Другие посты @omggpt