Emu3.5: Native Multimodal Models are World Learners [код и в — @c_research

817просмотров

71.2%от подписчиков

1 ноября 2025 г.

stats📷 ФотоScore: 899

Emu3.5: Native Multimodal Models are World Learners [код и веса] Emu3.5 представляет собой развитие идей предыдущих версий Emu, но с колоссальным скачком в масштабе и амбициях. Это не просто еще одна мультимодальная модель, а попытка создать "world model" — модель мира, способную нативно предсказывать следующее состояние не только в тексте, но и в видеоряде. Архитектурно это единый decoder-only трансформер (34B параметров), обученный на одной задаче — предсказание следующего токена (next-token prediction). Данные Ключевая особенность Emu3.5 — это данные. Вместо того чтобы полагаться в основном на пары (картинка, текст), модель обучалась преимущественно на чередующихся (interleaved) видео-текстовых данных, полученных из интернет-видео (более 10 триллионов токенов). - Как это работает: видео нарезается на ключевые кадры (keyframes), а аудиодорожка транскрибируется в текст с временными метками. Затем кадры и соответствующие им фрагменты текста выстраиваются в одну длинную последовательность. - Что это дает: такой подход позволяет модели изучать не статичные сцены, а продолжительные во времени события, динамику и причинно-следственные связи. Это основа для моделирования мира. Для обучения также использовались стандартные image-text пары, данные для any-to-image (X2I) задач и чисто текстовые данные для сохранения языковых способностей. Модель - Unified Next-Token Prediction: В основе лежит стандартная авторегрессионная модель. Все модальности (текст, изображения, видео) токенизируются в единое дискретное пространство. Для визуальных данных используется токенизатор IBQ собственного производства с рядом улучшений (например, дистилляция признаков от SigLIP), а также опциональный диффузионный декодер для повышения качества реконструкции. - DiDA (Discrete Diffusion Adaptation): Главная проблема авторегрессионных моделей — медленная генерация изображений (токен за токеном). DiDA решает эту проблему, временно превращая авторегрессионную модель в параллельный двунаправленный предсказатель на этапе генерации изображения. Это достигается за счет адаптации модели к задаче дискретной диффузии: последовательность токенов изображения сначала "зашумляется", а затем восстанавливается за несколько итераций. Это ускоряет генерацию изображения примерно в 20 раз без потери качества. - Масштабное обучение и пост-тренинг: Модель прошла два этапа предобучения, затем SFT (на 150 млрд. сэмплов! 😨), а после — RL на наборе ревордов. Результаты Благодаря "видеоцентричному" обучению, модель умеет: - Long-horizon generation: генерит длинные, согласованные во времени и семантически связанные последовательности из текста и изображений. - Visual Narrative: историй с иллюстрациями на открытые темы (наука, история, сказки), сохраняя консистентность персонажей и стиля. - Visual Guidance: генерация пошаговых визуальных инструкций (например, как приготовить блюдо или собрать что-то), где каждый шаг сопровождается релевантным изображением. - World Exploration & Embodied Manipulation: способность моделировать виртуальные миры и взаимодействовать с ними (модель может перемещаться по сцене по текстовым командам). В стандартных задачах генерации и редактирования Emu3.5 показывает производительность на уровне лучших закрытых моделей, таких как Gemini 2.5 Flash Image (Nano Banana).

Другие посты @c_research