1просмотров
8.3%от подписчиков
30 марта 2026 г.
stats📷 ФотоScore: 1
Qwen3.5-Omni Нативно мультимодальная модель, понимает текст, изображения, аудио и видео — обрабатывает больше 10 часов аудио и более 400 секунд видео в разрешении 720p с частотой 1 кадр в секунду — распознаёт речь на 113 языках, генерирует на 36 — может кодить на основе аудиовизуальных инструкций — клонирует голос Бьёт Gemini 3.1 Pro в большинстве категорий По ссылке в шапке тонны примеров Демо оффлайн
Демо (рилтайм)
Чат
API realtime #vlm #alm #voicecloning #multimodal