Работы по сбору датасетов для instruction-based editing Ране — @c_research

784просмотров

68.4%от подписчиков

13 октября 2025 г.

Score: 862

Работы по сбору датасетов для instruction-based editing Ранее мы разбирали мультимодальную генерацию и задачи редактирования изображений с точки зрения моделей и методов. В этом посте хочется подсветить несколько важных датасетов, вышедших за последний год. UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [страница проекта с ссылками на датасеты, no licence] Декабрь 2024 Это самый большой датасет по теме на сегодняшний день (~4М семплов). Работа максимально фокусируется на увеличении разнообразия инстрактов, поскольку в предыдущих часто использовались одни и те же или очень похожие инстракты. Многостадийный процесс сбора данных начинается с генерации инстрактов людьми. Асессоров просят взять промты из СОСО и написать на их основе инстракты для редактирования картинок. Так собирают ~10k инстрактов. Далее берут ~1.6M реальных картинок и кепшенят. Из полученных кепшенов и инстрактов генерят LMкой кепшен таргет картинки, по которому с помощью T2I модели делают генерацию (самым топорным SDEdit подходом). Для того чтобы сделать region-based editing делают то же самое что в предыдущем параграфе, только удаляют изменения по маске сгенерированной с помощью GroundingDINO + SAM. Замечания - Region-based семплов сильно меньше чем семплов с изменением всей картинки (100к против почти 4М) - Пост фильтрации нет => скорее всего довольно шумные данные - При этом, датасет очень неплохо стратифицирован по контенту на картинках. В статье есть график где представлено умеренно равномерное распределение по большому числу концептов. OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision [датасет на HF, no licence] Ноябрь 2024 Этот датасет на 1.2М семплов примечателен тем что по заявлению авторов BAGEL он основной источник их interleaved данных (кроме данных на основе видео, которые они собирают отдельно). Датасет включает в себя данные по 7 задачам: - Object Swap - Object Removal - Object Addition - Attribute Modification - Background Swap - Environment Change - Style Transfer В самих пайплайнах генерации нет ничего нового относительно описанных выше статей: - Addition/Removal/Object Swap/Background Swap делается каким-то своим инпейнтингом; - Модификация атрибутов и окружения делается с помощью Prompt-to-Promp; - Для Style Transfer используют CosXL-Edit. В этой работе первый раз используется нормальная фильтрация данных. Вместо эвристик на CLIP фичах используют VIEScore — автобенч на основе GPT-4o (который, кстати, и в основе топового сейчас GEdit bench). На самом деле, они не прогоняли прям всё через GPT-4o (дорого), вместо этого дообучили InternVL2 на GPT разметке и уже ей фильтровали данные. Замечания - Вероятнее всего, самый качественный датасет из разобранных. GPT-IMAGE-EDIT-1.5M A Million-Scale, GPT-Generated Image Dataset [датасет на HF, no licence] Июль 2025 Работа объединяет, систематизирует и улучшает данные из двух предыдущего датасета, а также AnyEdit и HQ-Edit. Данные именно из этих работ брали, скорее всего, из-за того что в них (в отличие от предыдущих) картинки в высоком разрешении (близком к 1к). В этой работе авторы: - Смерджили датасеты, после чего: - Перегенерили часть шакальных таргет картинов в триплетах (из особенно много в HQ-Edit); - Переписали часть шакальных инстрактов; - Взяли половину картинок из OmniEdit и добавили более сложных и инстрактов, поскольку считают, что это важно для достижения качества GPT-Image-1. Крутость своего датасета доказывают тем, что дообучение весьма средненького FLUX Kontext на этих данных сильно бустит GEdit bench, доводя значения до близких к GPT-Image-1. Замечания - Выглядит как очень перспективный датасет и наиболее качественный датасет на сегодняшний день; - Из минусов: всё еще не включает free form manipulation данные из видео. О том, какие ещё датасеты для instruction-based editing выходили в последнее время, написал в канале @timeforcv.

Другие посты @c_research