2.5Kпросмотров
53.3%от подписчиков
6 января 2026 г.
stats🎬 ВидеоScore: 2.7K
🌍 Yume1.5: открытая модель для генерации интерактивных миров с управлением с клавиатуры Команда Shanghai AI Laboratory и Fudan University представила Yume1.5 — открытую модель для генерации бесконечных интерактивных видео-миров с управлением WASD и стрелками, как в играх от первого лица. Модель превосходит конкурентов в скорости в 70 раз: 6-секундное видео генерируется за 8 секунд против 572-971 у конкурентов. Yume1.5 на базе Wan2.2-5B генерирует видео 544×960 с 12 fps на одной A100, используя всего 4 шага диффузии вместо стандартных 50. Модель поддерживает три режима: генерацию мира из текста, из изображения и внесение изменений в мир текстом. Метод использует TSCM (Temporal-Spatial-Channel Modeling) — двойное параллельное сжатие исторических кадров. Для временно-пространственного сжатия недавние кадры сжимаются меньше (1,2,2), старые сильнее (1,8,8). Одновременно канальное сжатие до 96 каналов обрабатывается через линейное внимание. Self-Forcing с дистилляцией уменьшает накопление ошибок, используя собственные сгенерированные кадры как контекст. На тестах в следовании инструкциям модель показала 0.836, значительно превзойдя Matrix-Game (0.271) и Wan-2.1 (0.057). Исследователи опубликовали код и датасет на Github. Веса модели обещают выложить в ближайшее время. #Stateoftheart