813просмотров
70.9%от подписчиков
29 октября 2025 г.
📷 ФотоScore: 894
LightBagel: A Lightweight, Double-Fusion Framework for Unified Multimodal Understanding and Generation
[пока ничего не выложили, но обещают тут и верится, потому что это авторы BAGEL] Современные мультимодальные модели (MLLM), способные одновременно понимать и генерировать контент, часто требуют колоссальных вычислительных ресурсов и обучения с нуля. Это создает высокий порог входа для исследователей. Авторы LightBagel предлагают ресурсоэффективный подход: вместо создания новой модели "с нуля" они стратегически "сплавляют" (fuse) уже существующие SOTA-модели, специализированные на своих задачах. Подобным уже занимались авторы Nexus-Gen (разбор) пытаясь подружить Qwen-VL с SANA. В этой работе авторы целятся получить BAGEL-like модельку за минимальный компьют стартуя с предобученных VLM и T2I моделей. Идея и метод: Double Fusion Берем Qwen2.5-VL-7B для понимания и Wan2.2-TI2V-5B для генерации. Далее происходит самое интересное: ➡️Сохранение "экспертов": Оригинальные блоки обеих моделей остаются нетронутыми и замороженными (VLM) или минимально дообучаемыми (DiT). Таким образом сохраняются их сильные стороны (например, способность VLM к рассуждению). ➡️"Вживление" мостов: Между каждым блоком VLM и DiT вставляется новый, легковесный мультимодальный self-attention блок. Эти блоки инициализируются нулями, чтобы не нарушать исходное распределение признаков в начале обучения. ➡️Двойное слияние (Double Fusion): Этот механизм называется "двойным", потому что он одновременно решает две задачи:
1️⃣Слияние путей (understanding + generation): Мультимодальные attention-блоки позволяют информации свободно "перетекать" между путем понимания (текст + ViT-токены) и путем генерации (VAE-токены) на всех уровнях глубины сети. Это глубокое слияние ("deep fusion") значительно эффективнее, чем "поверхностное" (shallow fusion), где для генерации используется лишь финальный эмбеддинг модели понимания (агрумент против подхода Qwen-Image/Nexus-Gen).
2️⃣Слияние признаков (ViT + VAE): Модель естественным образом объединяет семантические признаки от ViT-энкодера (из VLM) и пространственные детали от VAE-энкодера (из DiT). Это особенно важно для задач редактирования, где нужно одновременно понимать, что менять (семантика), и сохранять остальное изображение в неизменности (детали). Обучение и результаты Ключевое преимущество LightBagel — высокая эффективность по данным. Модель достигает SOTA-уровня, будучи обученной всего на 35B токенов, что на порядки меньше, чем у многих конкурентов (см. Figure 1). Показывают следующие замеры:
➡️T2I: 0.91 на GenEval (композиционная генерация), 82.16 на DPG-Bench (сложные промпты).
➡️Image Editing: 6.06 на GEditBench и 3.77 на ImgEdit-Bench, опережая многие специализированные модели.
➡️Understanding: Поскольку VLM-часть (QWen2.5-VL) заморожена, модель полностью сохраняет её SOTA-способности к пониманию. Интересно, что и fused модельки можно получать в сетапе дообучения, используя ранее обученные VLM и денойзер. Есть, правда, и минус — VLM и денойзер должны быть в достаточной степени архитектурно похоже, иначе не очевидно как и куда встраивать multi-modal attn блоки.