Concise Research

@c_research💻 Технологии🇷🇺 Русский📅 март 2026 г.

Исследования AI глазами исследователя Автор: @snk4tr Сергей Кастрюлин

📊 Полная статистика 📝 Все посты

🔗 Связанные:@timeforcv

##39

1.1K

Подписчики

641,471

Ср. охват

55.9%

Вовлечённость

Постов

~0.1

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

17 из 17

c_research

30 окт., 09:47

The Principles of Diffusion Models Пока что самое полное руководство/монография из того что видел по диффузионкам, от Сонга, Эрмона и компании.

👁 1.1K

📊 Аналитика

c_research

17 окт., 13:50

Transfer between Modalities with MetaQueries [страничка с кодом и данными] Выше мы много обсуждали мультимодальные модели, способные одновременно понимать и генерировать картинки и текст. Архитектурно, для создания таких моделей сейчас предлагается два подхода: 1. Учить генеративную картиночную голову поверх VLM (Nexus-Gen, Qwen-Image); 2. Учить, условно, unified модель, которая будет генерить сразу картинки и текст (BAGEL, Transfusion, Show-o). В первом случае надо подумать как именно передават...

👁 876📷 photo

📊 Аналитика

c_research

1 нояб., 16:46

Emu3.5: Native Multimodal Models are World Learners [код и веса] Emu3.5 представляет собой развитие идей предыдущих версий Emu, но с колоссальным скачком в масштабе и амбициях. Это не просто еще одна мультимодальная модель, а попытка создать "world model" — модель мира, способную нативно предсказывать следующее состояние не только в тексте, но и в видеоряде. Архитектурно это единый decoder-only трансформер (34B параметров), обученный на одной задаче — предсказание следующего токена (next-token p...

👁 817📷 photo

📊 Аналитика

c_research

29 окт., 15:55

LightBagel: A Lightweight, Double-Fusion Framework for Unified Multimodal Understanding and Generation [пока ничего не выложили, но обещают тут и верится, потому что это авторы BAGEL] Современные мультимодальные модели (MLLM), способные одновременно понимать и генерировать контент, часто требуют колоссальных вычислительных ресурсов и обучения с нуля. Это создает высокий порог входа для исследователей. Авторы LightBagel предлагают ресурсоэффективный подход: вместо создания новой модели "с нуля" о...

👁 813📷 photo

📊 Аналитика

c_research

13 окт., 10:51

Работы по сбору датасетов для instruction-based editing Ранее мы разбирали мультимодальную генерацию и задачи редактирования изображений с точки зрения моделей и методов. В этом посте хочется подсветить несколько важных датасетов, вышедших за последний год. UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [страница проекта с ссылками на датасеты, no licence] Декабрь 2024 Это самый большой датасет по теме на сегодняшний день (~4М семплов). Работа максимально фокусируется на увелич...

👁 784

📊 Аналитика

c_research

7 окт., 19:11

How much do language models memorize? Вопрос о том, запоминают ли языковые модели данные, на которых они обучались, является одним из ключевых. Обычно эту проблему рассматривают либо через прямую "экстракцию" данных из модели, либо через "атаки на определение членства" (membership inference). Однако оба подхода имеют недостатки. Экстракция не позволяет отличить запоминание от хорошего обобщения (модель может сгенерировать 2+2=4, не видя этого примера, а просто "поняв" математику). Атаки на членс...

👁 778📷 photo

📊 Аналитика

c_research

3 дек., 09:39

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights [код и данные] Авторы из Shanghai AI Lab сделали Envision — бенчмарк для оценки способности мультимодальных моделей понимать и генерировать динамические причинно-следственные процессы. Основной тезис: современные T2I и UMM (Unified Multimodal Models) хороши в генерации статичных картинок (pattern matching), но проваливаются, когда нужно смоделировать процесс (world modeling). Бенчмарк фокусируется на зада...

👁 747📷 photo

📊 Аналитика

c_research

6 февр., 10:23

Self-Distillation Enables Continual Learning [Код & датасеты] Исследователи из MIT и ETH Zurich предлагают SDFT (Self-Distillation Fine-Tuning) — метод для непрерывного обучения (continual learning) языковых моделей. Главная проблема SFT при обучении новым навыкам — это catastrophic forgetting (забывание старых знаний) и distribution shift, так как SFT по своей сути является off-policy методом (модель учится на экспертных данных, а не на своих собственных генерациях). Авторы предлагают заменить ...

👁 728📷 photo

📊 Аналитика

c_research

28 янв., 17:40

Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling [код и данные] UniPic 3.0 заявляется как решение одной из самых востребованных, но сложных задач в сообществе: многокадровой композиции (multi-image composition), особенно для сценариев взаимодействия человека и объекта (human-object interaction, HOI). Авторы утверждают, что получают качество сапостовимое (single-image editing) или даже лучшее (multi-image editing) качество чем у Nano Banana, посмотрим как. Данные: качеств...

👁 692📷 photo

📊 Аналитика

c_research

13 янв., 09:15

Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models [код обещают тут] Ранее мы много обсуждали мультимодальную генерацию с точки зрения: - Архитектуры: учить ли голову поверх LLM/VLM или делать unified backbone; - Представления данных: дискретное или непрерывное кодирование для картинок и текстов - Визуальных энкодеров: обычно для дискриминативных и генеративных задач используют разные (SigLip/VAE), но, например, Show-o2 (статья, разбор) пытается фьюзить их в единую ...

👁 675📷 photo

📊 Аналитика

Типы хуков

Нейтральный14 | 616 просм.

Статистика2 | 755 просм.

Вопрос1 | 778 просм.

Длина постов

Очень длинные (1000+)15 | 637 просм.

Длинные (500-1000)1 | 266 просм.

Короткие (<200)1 | 1.1K просм.

Влияние эмодзи

847

С эмодзи (2)

614

Без эмодзи (15)

+37.9% охвата

Типы контента

📝

text

937 просм.

📷

photo

602 просм.

✅ 95/100

Активность естественная

#5972

из 13,355 в Технологии