20просмотров
25.3%от подписчиков
25 марта 2026 г.
📷 ФотоScore: 22
🐱 LongCat-Next: одна модель для текста, картинок и речи Meituan открыла LongCat-Next, нативную мультимодальную autoregressive-модель. Она работает с текстом, изображениями и аудио в одном дискретном пространстве токенов, построена на MoE-бэкенде LongCat-Flash-Lite и имеет 68,5 млрд параметров при 3 млрд активных. Главная идея в том, что модель не склеивает отдельные подсистемы, а обрабатывает разные модальности в одной схеме next-token prediction. Разработчики отдельно выделяют DiNA как общий подход для мультимодальности и dNaViT как визуальный токенизатор, который нужен и для понимания изображений, и для генерации. На практике это даёт одну систему для OCR, графиков, GUI, документов, генерации изображений, распознавания и синтеза речи, включая клонирование голоса. Для разработчиков ещё полезно, что в model card прямо показаны сценарии text, image, audio и tool calling. Но это не история про запуск “на чём угодно”. В описании указано, что для работы через Transformers нужно минимум 3 GPU по 80 ГБ VRAM, так что пока это скорее открытая исследовательская и серверная модель, чем вариант для домашнего ПК. #AI #Multimodal #LongCat #Meituan #OpenSource #HuggingFace #AudioAI #ComputerVision