8просмотров
10.1%от подписчиков
30 марта 2026 г.
stats📷 ФотоScore: 9
🌟 Alibaba выпустили Qwen3.5-Omni Не мультимодальную сборку из отдельных компонентов, а единую нативную архитектуру, которая с первого слоя работает с текстом, изображением, аудио и видео одновременно. Главное, что отличает модель от конкурентов: Audio-Visual Vibe Coding. Описываешь голосом в камеру что нужно сделать, модель генерирует рабочий код сайта или игры. Плюс Script-Level Captioning, который превращает видео в полноценный сценарий с таймкодами и привязкой реплик к спикерам. • По бенчмаркам Qwen3.5-Omni-Plus бьёт Gemini 3.1 Pro в большинстве категорий. • По распознаванию речи WenetSpeech: 4.30/5.84 против 11.5/14.2. • По пониманию аудио VoiceBench: 93.1 против 88.9. • • По зрению MVBench: 79.0 против 74.1. По тексту MMLU-Redux: 94.2 против 95.9 (тут паритет). Итого 215 SOTA-результатов по подзадачам. Модель корректно реагирует на перебивание и не ломается от фонового шума), встроенный WebSearch и Function Calling, поддержка 74 языков в ASR и 29 в TTS.
Доступна через Qwen Chat, HuggingFace и API Alibaba Cloud. Qwenchat: https://chat.qwen.ai
Blog: https://qwen.ai/blog?id=qwen3.5-omni
Hugging Face Offline Demo: https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Offline-Demo
Hugging Face Online Demo: https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Online-Demo @ai_machinelearning_big_data #ai #ml #qwen