2.2Kпросмотров
48.1%от подписчиков
2 марта 2026 г.
stats🎬 ВидеоScore: 2.4K
VBVR-WAN2.2 — "самый умный" видеогенератор Команда из 50+ исследователей из Berkeley, Stanford, CMU и Oxford опубликовала датасет Very Big Video Reasoning (VBVR) — и дообученная на нём модель Wan2.2 обогнала Sora 2 и Veo 3.1 в задачах на рассуждение. Sora, Veo, Kling умеют делать красивое видео. Но они проваливаются в задачах, где требуется провести агента через лабиринт или предсказать, как упадёт мяч после броска. Проблема не в качестве картинки, а в том, что модели не умеют рассуждать. И данных для обучения этому навыку почти не было: все существующие датасеты для видеорассуждения вместе содержат около 12 800 размеченных задач с правильными ответами. VBVR — это 2 015 000 примеров. В 157 раз больше. Авторы взяли за основу когнитивную науку и выделили пять способностей: восприятие, трансформацию, пространственность, абстракцию и знание. Под каждую написали параметрические генераторы — программы, которые автоматически создают задачи и сразу считают правильный ответ. 990 серверов AWS Lambda генерируют миллион примеров за 2-4 часа. На вход принимается текст и изображение, на выходе - видео с решением и последний кадр видео. Wan2.2, дообученная на VBVR, набрала 0,685 из 1,0 на бенчмарке VBVR-Bench, который оценивает способность видеомоделей решать логические задачи. Для сравнения: Sora 2 — 0,546, Veo 3.1 — 0,480, человек — 0,974. Разница между открытой дообученной моделью и лучшими закрытыми коммерческими заметная. При этом Wan2.2 научилась делать ровно то, что просят: удалить символ — только его, повернуть объект — только его, не трогая рамку. Sora 2 на тех же задачах добавляла лишние действия или теряла контроль над сценой. Проект полностью открытый — датасет, веса и код на Github и Hugging Face под лицензией Apache 2.0. #Stateoftheart #Benchmark #Dataset