747просмотров
65.1%от подписчиков
3 декабря 2025 г.
📷 ФотоScore: 822
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
[код и данные] Авторы из Shanghai AI Lab сделали Envision — бенчмарк для оценки способности мультимодальных моделей понимать и генерировать динамические причинно-следственные процессы. Основной тезис: современные T2I и UMM (Unified Multimodal Models) хороши в генерации статичных картинок (pattern matching), но проваливаются, когда нужно смоделировать процесс (world modeling). Бенчмарк фокусируется на задаче Text-to-Multi-Image (T2MI): генерации последовательности из 4 изображений, описывающих развитие события (например, химическая реакция или историческое событие). Данные: Вместо простых промптов Envision использует структурированные сценарии (1000 сценариев, 4000 промптов), основанные на реальных знаниях из учебников и энциклопедий.
- Домены: 6 областей (Физика, Химия, Биология, География, Метеорология, Культура/История). Это проверяет "internalized world knowledge".
- Causal Structure: Continuous Causality: Непрерывные процессы (например, маятник), требующие соблюдения законов сохранения и плавности переходов. Discrete Causality: Дискретные события с большими скачками во времени (например, эволюция или исторические эпохи), требующие абстрактного логического связывания.
- Prompt Structure: Каждый сценарий — это JSON с 4 шагами: [Initial State] -> [Early Interaction] -> [Progressive Transformation] -> [Final Resolution]. Это заставляет модель строить causal narrative arc, а не просто 4 независимые картинки. Метрика и Метод Оценки Авторы вводят Envision-Score, который агрегирует 3 измерения (9 суб-метрик). Оценка производится с помощью GPT-4o (VLM-as-a-Judge), выбранного после валидации с людьми-экспертами (PhD).
1. Consistency (40%): Spatio-Temporal: Логика движения и изменений во времени (не телепортируются ли объекты?). Semantic & Factual: Соответствие промпту и научным фактам.
2. Physicality (40%): Самое важное. Basic Properties: Сохранение количества и формы объектов. Dynamics: Реалистичность движения и взаимодействий (столкновения, жидкости). * Physical Reliability: Соблюдение фундаментальных законов (гравитация, термодинамика).
3. Aesthetics (20%): Визуальное качество и аутентичность. Результаты Сравнили 15 моделей: специализированные T2I (SD3.5, FLUX), UMM (Emu3, Janus-Pro, Qwen-Image) и закрытые (GPT-4o, Gemini). - Open-Source T2I (FLUX): Отличная эстетика (Aesthetics), но провал в физике и логике (Physicality ~50/100). Они генерируют красивые, но "глупые" картинки без понимания процесса.
- UMMs (Emu3, Seedream): Немного лучше понимают контекст и факты благодаря мультимодальной природе, но все еще слабы в динамике.
- Closed-Source (GPT-4o): Тотальное доминирование. GPT-4o набирает >70 баллов по физике и консистентности, в то время как open-source отстает на 10-20 пунктов.
- Understanding-Generation Paradox: Модели могут правильно отвечать на вопросы по физике (в текстовом режиме), но не могут сгенерировать правильную последовательность кадров для этого же процесса. Это доказывает, что "понимание" и "генерация" в текущих UMM разорваны. Вывод Envision показывает, что текущая paradigm shift в сторону UMM пока не решила проблему "world modeling". Модели всё ещё занимаются статичным сопоставлением паттернов, а не симуляцией мира. Для прогресса нужно переходить от обучения на парах "картинка-текст" к обучению на видео и причинно-следственных последовательностях (что перекликается с выводами статьи про Emu3.5). Больше всего смутил акцент на победе GPT-4o при том что она же использовалась в качестве модели-судьи. Убедительнее выглядят высокие скоры Gemini, что, в прочем, не удивительно.