The Principles of Diffusion Models Пока что самое полное руководство/монография из того что видел по диффузионкам, от Сонга, Эрмона и компании.
Concise Research
Исследования AI глазами исследователя Автор: @snk4tr Сергей Кастрюлин
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
17 из 17Transfer between Modalities with MetaQueries [страничка с кодом и данными] Выше мы много обсуждали мультимодальные модели, способные одновременно понимать и генерировать картинки и текст. Архитектурно, для создания таких моделей сейчас предлагается два подхода: 1. Учить генеративную картиночную голову поверх VLM (Nexus-Gen, Qwen-Image); 2. Учить, условно, unified модель, которая будет генерить сразу картинки и текст (BAGEL, Transfusion, Show-o). В первом случае надо подумать как именно передават...
Emu3.5: Native Multimodal Models are World Learners [код и веса] Emu3.5 представляет собой развитие идей предыдущих версий Emu, но с колоссальным скачком в масштабе и амбициях. Это не просто еще одна мультимодальная модель, а попытка создать "world model" — модель мира, способную нативно предсказывать следующее состояние не только в тексте, но и в видеоряде. Архитектурно это единый decoder-only трансформер (34B параметров), обученный на одной задаче — предсказание следующего токена (next-token p...
LightBagel: A Lightweight, Double-Fusion Framework for Unified Multimodal Understanding and Generation [пока ничего не выложили, но обещают тут и верится, потому что это авторы BAGEL] Современные мультимодальные модели (MLLM), способные одновременно понимать и генерировать контент, часто требуют колоссальных вычислительных ресурсов и обучения с нуля. Это создает высокий порог входа для исследователей. Авторы LightBagel предлагают ресурсоэффективный подход: вместо создания новой модели "с нуля" о...
Работы по сбору датасетов для instruction-based editing Ранее мы разбирали мультимодальную генерацию и задачи редактирования изображений с точки зрения моделей и методов. В этом посте хочется подсветить несколько важных датасетов, вышедших за последний год. UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [страница проекта с ссылками на датасеты, no licence] Декабрь 2024 Это самый большой датасет по теме на сегодняшний день (~4М семплов). Работа максимально фокусируется на увелич...
How much do language models memorize? Вопрос о том, запоминают ли языковые модели данные, на которых они обучались, является одним из ключевых. Обычно эту проблему рассматривают либо через прямую "экстракцию" данных из модели, либо через "атаки на определение членства" (membership inference). Однако оба подхода имеют недостатки. Экстракция не позволяет отличить запоминание от хорошего обобщения (модель может сгенерировать 2+2=4, не видя этого примера, а просто "поняв" математику). Атаки на членс...
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights [код и данные] Авторы из Shanghai AI Lab сделали Envision — бенчмарк для оценки способности мультимодальных моделей понимать и генерировать динамические причинно-следственные процессы. Основной тезис: современные T2I и UMM (Unified Multimodal Models) хороши в генерации статичных картинок (pattern matching), но проваливаются, когда нужно смоделировать процесс (world modeling). Бенчмарк фокусируется на зада...
Self-Distillation Enables Continual Learning [Код & датасеты] Исследователи из MIT и ETH Zurich предлагают SDFT (Self-Distillation Fine-Tuning) — метод для непрерывного обучения (continual learning) языковых моделей. Главная проблема SFT при обучении новым навыкам — это catastrophic forgetting (забывание старых знаний) и distribution shift, так как SFT по своей сути является off-policy методом (модель учится на экспертных данных, а не на своих собственных генерациях). Авторы предлагают заменить ...
Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling [код и данные] UniPic 3.0 заявляется как решение одной из самых востребованных, но сложных задач в сообществе: многокадровой композиции (multi-image composition), особенно для сценариев взаимодействия человека и объекта (human-object interaction, HOI). Авторы утверждают, что получают качество сапостовимое (single-image editing) или даже лучшее (multi-image editing) качество чем у Nano Banana, посмотрим как. Данные: качеств...
Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models [код обещают тут] Ранее мы много обсуждали мультимодальную генерацию с точки зрения: - Архитектуры: учить ли голову поверх LLM/VLM или делать unified backbone; - Представления данных: дискретное или непрерывное кодирование для картинок и текстов - Визуальных энкодеров: обычно для дискриминативных и генеративных задач используют разные (SigLip/VAE), но, например, Show-o2 (статья, разбор) пытается фьюзить их в единую ...