2просмотров
16.7%от подписчиков
30 марта 2026 г.
stats📷 ФотоScore: 2
Qwen выкатила Qwen3.5-Omni
https://qwen.ai/blog?id=qwen3.5-omni Прям наступает на пятке сильной в мультимодальности Gemini 3.1-pro: текст, картинки, аудио и аудио+видео в одном контуре. И с упором не только на понимание, но и на живое голосовое взаимодействие. - три версии: Plus, Flash и Light
- до 256K контекста
- обработка более 10 часов аудио
- более 400 секунд 720P audio-video
- распознавание речи в 113 языках и диалектах (русский есть)
- генерация речи в 36 языках и диалектах (русский есть) Причем обещают, что сделали много улучшений именно в сценариях:
- нормальный voice assistant, который понимает не только текст, но и голос, изображения и видео
- native Web Search и function calling
- voice control с управлением скоростью, громкостью и эмоцией
- semantic interruption, чтобы ассистент не тупил на фоне и лучше понимал, когда человек реально хочет вступить в диалог
- voice cloning для кастомных AI-ассистентов Посмотрите на видео-демки, это прям уровень топов! Вау! Кто бы мог это представить еще год назад... https://qwen.ai/blog?id=qwen3.5-omni