5просмотров
6.3%от подписчиков
30 марта 2026 г.
Score: 6
📎 gonzo-обзоры ML статей Seoul World Model — это прикольно! Grounding World Simulation Models in a Real-World Metropolis
Junyoung Seo, Hyunwook Choi, Minkyung Kwon, Jinhyeok Choi, Siyoon Jin, Gayoung Lee, Junho Kim, JoungBin Lee, Geonmo Gu, Dongyoon Han, Sangdoo Yun, Seungryong Kim, and Jin-Hwa Kim
Paper: https://arxiv.org/abs/2603.15583v1
Code: https://seoul-world-model.github.io
Ревью: https://arxiviq.substack.com/p/grounding-world-simulation-models # TL;DR ЧТО сделали: Представили Seoul World Model (SWM) — систему генерации видео масштаба целого города на 2 миллиарда параметров. В основе лежит Diffusion Transformer (DiT), который использует геоиндексированный поиск для привязки авторегрессионной генерации видео к реальным панорамам улиц Сеула, а не выдумывает окружение с нуля. ПОЧЕМУ это важно: Существующие генеративные мировые модели не умеют сохранять географическую и топологическую достоверность на длинных временных горизонтах: стоит камере завернуть за угол, как модель начинает галлюцинировать новую улицу. Привязывая генерацию к реальным пространственным данным через RAG (retrieval-augmented generation), SWM перекидывает мост между статичными 3D-реконструкциями городов и динамической видеосимуляцией. Это даёт структурную базу для визуализаций в урбанистике и надёжной симуляции граничных случаев для беспилотных авто. Для практиков: Эта работа знаменует важный переход от чисто параметрических, галлюцинирующих мировых моделей к физически обоснованным «цифровым двойникам». Исследователи внедрили механизм динамического извлечения будущих кадров, которые используются как якоря внимания. Это элегантно решает проблему дрейфа на длинных горизонтах, типичную для авторегрессионной генерации, и доказывает, что пространственный RAG — необходимая архитектура для масштабных и стабильных симуляций среды. Кататься по Сеулу тут: https://t.me/gonzo_ML_podcasts/2977