Skywork UniPic 3.0: Unified Multi-Image Composition via Sequ — @c_research

692просмотров

60.3%от подписчиков

28 января 2026 г.

stats📷 ФотоScore: 761

Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling [код и данные] UniPic 3.0 заявляется как решение одной из самых востребованных, но сложных задач в сообществе: многокадровой композиции (multi-image composition), особенно для сценариев взаимодействия человека и объекта (human-object interaction, HOI). Авторы утверждают, что получают качество сапостовимое (single-image editing) или даже лучшее (multi-image editing) качество чем у Nano Banana, посмотрим как. Данные: качество важнее количества Авторы делают ставку на тщательный отбор и подготовку данных, утверждая, что для сложной задачи композиции умеренный по размеру, но высококачественный датасет лучше огромного, но шумного. 1️⃣ Сбор: использовались изображения людей из CC12M (с фильтрацией) и синтетические объекты (150K изображений для 300 категорий), сгенерированные Qwen-Image по промптам GPT-4o. 2️⃣ Синтез: делают генерации Nano-Banana (для 2-3 изображений) и Seedream 4.0 (для 4-6 изображений) потому что на таких длинах цепочек модели работают лучше всего. Каждая композиция проверялась на эстетику и сохранение identity. 3️⃣ Результат: всего 215K примеров высококачественной многокадровой композиции. Модель и Метод: Sequence Modeling Paradigm ➡️Архитектура: модель наследует архитектуру Qwen-Image (Qwen2.5-VL + VAE + MMDiT), но адаптирует её под множественный вход. ➡️Unified Visual Sequence: Латенты целевого изображения (noisy target) и всех референсных изображений (1-6 штук) конкатенируются вдоль измерения последовательности в единый длинный тензор. Это позволяет модели обрабатывать произвольное количество входных изображений и гибко управлять разрешением в пределах заданного бюджета пикселей (1024x1024). ➡️Shape Descriptors: Дополнительно передаются дескрипторы формы (высота/ширина) для каждого изображения, чтобы трансформер мог корректно восстанавливать пространственную структуру. Ускорение Инференса: Гибридная Дистилляция Авторы комбинируют DMD2 и LCM для качественного инференса в 8 шагов (ускорение в 12.5 раз). Результаты 🔹MultiCom-Bench: новый бенчмарк из 200 сложных триплетов для оценки композиции. UniPic 3.0 превосходит Nano-Banana и Seedream 4.0, особенно на малом (2-3) числе изображений. 🔹Single-Image Editing: модель также показывает SOTA-результаты на ImgEdit-Bench. Утверждается, что унификация задач не вредит качеству редактирования одиночных изображений. Выглядит как крутая модель, правда по issues выглядит так что есть баги в инференсе, надеемся на скорое исправление.

Другие посты @c_research