CConcise Research

Concise Research

@c_research💻 Технологии🇷🇺 Русский📅 март 2026 г.

Исследования AI глазами исследователя Автор: @snk4tr Сергей Кастрюлин

📊 Полная статистика📝 Все посты
🔗 Связанные:@timeforcv
##39
1.1K
Подписчики
641,471
Ср. охват
55.9%
Вовлечённость
17
Постов
~0.1
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

17 из 17
Cc_research
c_research
30 окт., 09:47

The Principles of Diffusion Models Пока что самое полное руководство/монография из того что видел по диффузионкам, от Сонга, Эрмона и компании.

👁 1.1K
Cc_research
c_research
17 окт., 13:50

Transfer between Modalities with MetaQueries [страничка с кодом и данными] Выше мы много обсуждали мультимодальные модели, способные одновременно понимать и генерировать картинки и текст. Архитектурно, для создания таких моделей сейчас предлагается два подхода: 1. Учить генеративную картиночную голову поверх VLM (Nexus-Gen, Qwen-Image); 2. Учить, условно, unified модель, которая будет генерить сразу картинки и текст (BAGEL, Transfusion, Show-o). В первом случае надо подумать как именно передават...

👁 876📷 photo
Cc_research
c_research
1 нояб., 16:46

Emu3.5: Native Multimodal Models are World Learners [код и веса] Emu3.5 представляет собой развитие идей предыдущих версий Emu, но с колоссальным скачком в масштабе и амбициях. Это не просто еще одна мультимодальная модель, а попытка создать "world model" — модель мира, способную нативно предсказывать следующее состояние не только в тексте, но и в видеоряде. Архитектурно это единый decoder-only трансформер (34B параметров), обученный на одной задаче — предсказание следующего токена (next-token p...

👁 817📷 photo
Cc_research
c_research
29 окт., 15:55

LightBagel: A Lightweight, Double-Fusion Framework for Unified Multimodal Understanding and Generation [пока ничего не выложили, но обещают тут и верится, потому что это авторы BAGEL] Современные мультимодальные модели (MLLM), способные одновременно понимать и генерировать контент, часто требуют колоссальных вычислительных ресурсов и обучения с нуля. Это создает высокий порог входа для исследователей. Авторы LightBagel предлагают ресурсоэффективный подход: вместо создания новой модели "с нуля" о...

👁 813📷 photo
Cc_research
c_research
13 окт., 10:51

Работы по сбору датасетов для instruction-based editing Ранее мы разбирали мультимодальную генерацию и задачи редактирования изображений с точки зрения моделей и методов. В этом посте хочется подсветить несколько важных датасетов, вышедших за последний год. UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [страница проекта с ссылками на датасеты, no licence] Декабрь 2024 Это самый большой датасет по теме на сегодняшний день (~4М семплов). Работа максимально фокусируется на увелич...

👁 784
Cc_research
c_research
7 окт., 19:11

How much do language models memorize? Вопрос о том, запоминают ли языковые модели данные, на которых они обучались, является одним из ключевых. Обычно эту проблему рассматривают либо через прямую "экстракцию" данных из модели, либо через "атаки на определение членства" (membership inference). Однако оба подхода имеют недостатки. Экстракция не позволяет отличить запоминание от хорошего обобщения (модель может сгенерировать 2+2=4, не видя этого примера, а просто "поняв" математику). Атаки на членс...

👁 778📷 photo
Cc_research
c_research
3 дек., 09:39

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights [код и данные] Авторы из Shanghai AI Lab сделали Envision — бенчмарк для оценки способности мультимодальных моделей понимать и генерировать динамические причинно-следственные процессы. Основной тезис: современные T2I и UMM (Unified Multimodal Models) хороши в генерации статичных картинок (pattern matching), но проваливаются, когда нужно смоделировать процесс (world modeling). Бенчмарк фокусируется на зада...

👁 747📷 photo
Cc_research
c_research
6 февр., 10:23

Self-Distillation Enables Continual Learning [Код & датасеты] Исследователи из MIT и ETH Zurich предлагают SDFT (Self-Distillation Fine-Tuning) — метод для непрерывного обучения (continual learning) языковых моделей. Главная проблема SFT при обучении новым навыкам — это catastrophic forgetting (забывание старых знаний) и distribution shift, так как SFT по своей сути является off-policy методом (модель учится на экспертных данных, а не на своих собственных генерациях). Авторы предлагают заменить ...

👁 728📷 photo
Cc_research
c_research
28 янв., 17:40

Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling [код и данные] UniPic 3.0 заявляется как решение одной из самых востребованных, но сложных задач в сообществе: многокадровой композиции (multi-image composition), особенно для сценариев взаимодействия человека и объекта (human-object interaction, HOI). Авторы утверждают, что получают качество сапостовимое (single-image editing) или даже лучшее (multi-image editing) качество чем у Nano Banana, посмотрим как. Данные: качеств...

👁 692📷 photo
Cc_research
c_research
13 янв., 09:15

Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models [код обещают тут] Ранее мы много обсуждали мультимодальную генерацию с точки зрения: - Архитектуры: учить ли голову поверх LLM/VLM или делать unified backbone; - Представления данных: дискретное или непрерывное кодирование для картинок и текстов - Визуальных энкодеров: обычно для дискриминативных и генеративных задач используют разные (SigLip/VAE), но, например, Show-o2 (статья, разбор) пытается фьюзить их в единую ...

👁 675📷 photo

Типы хуков

Нейтральный14 | 616 просм.
Статистика2 | 755 просм.
Вопрос1 | 778 просм.

Длина постов

Очень длинные (1000+)15 | 637 просм.
Длинные (500-1000)1 | 266 просм.
Короткие (<200)1 | 1.1K просм.

Влияние эмодзи

847
С эмодзи (2)
614
Без эмодзи (15)
+37.9% охвата

Типы контента

📝
2
text
937 просм.
📷
15
photo
602 просм.
Concise Research (@c_research) — Telegram-канал | PostSniper