CCV Time

CV Time

@timeforcv💻 Технологии🇷🇺 Русский📅 март 2026 г.

Канал о компьютерном зрении от ml-специалистов Яндекса: разбор актуальных статей, горячие обсуждения и личный опыт из первых рук. Присоединяйтесь! Вопросы и предложения > @yandex_ml_brand

📊 Полная статистика📝 Все посты
##092
2.9K
Подписчики
1.6K
Ср. охват
55.3%
Вовлечённость
12
Постов
~0.2
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

12 из 12
Ttimeforcv
timeforcv
20 янв., 10:32

Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield Сегодня разберём статью, авторы которой возвращаются к идее DMD и пытаются понять, что именно заставляет этот метод работать. Их главное наблюдение — главную роль в обучении играет не distribution matching, как можно было ожидать, а CFG Augmentation. Что такое DMD DMD относится к ODE-free-дистилляции диффузионных моделей: здесь не важно, по какой траектории происходит сэмплирование, главное — чтобы модель умела выд...

👁 2.4K📷 photo
Ttimeforcv
timeforcv
6 февр., 12:03

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking [2/2] Продолжаем разбирать техрепорт, описывающий новые модели Qwen. Обучение моделей и результаты Обучение моделей делается в несколько этапов, причём довольно нетривиальным образом: модели с этапа X используются для последующей фильтрации данных для этапа X+1, а Embedding и Reranker на разных этапах выступают учителями друг для друга. — На всех этапах модели обучаются как LoRA к ...

👁 2.0K📷 photo
Ttimeforcv
timeforcv
3 февр., 09:42

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking [1/2] Ещё летом 2025-го вышли текстовые Qwen3-Embedding/Reranker. А в январе этого года команда Qwen представила новые модели: Qwen3-VL-Embedding и Qwen3-VL-Reranker. В техрепорте авторы рассказывают, как им удалось адаптировать VLM для решения задач мультимодального поиска и ранжирования — ключевых тем ML с долгой историей развития и огромным количеством применений. Об этом сегодн...

👁 1.9K📷 photo
Ttimeforcv
timeforcv
17 февр., 10:02

When and why vision-language models behave like bags-of-words, and what to do about it? Сегодня разбираем не новую, но актуальную статью об одной неприятной штуке: bags-of-words-ности CLIP. Другими словами, разберём ситуацию, когда VLM вроде бы должна понимать смысл, порядок и отношения между объектам, но на деле ведёт себя так, будто текст — просто набор слов без структуры. Авторы пытаются выяснить, когда и почему VLM начинают работать как BoW, и можно ли это исправить. Для этих целей собрали с...

👁 1.8K📷 photo
Ttimeforcv
timeforcv
26 февр., 10:08

DeepSeek-OCR 2: Casual Visual Flow Сегодня разбираем статью, которая продолжает идею DeepSeek-OCR. Суть первой версии была в том, чтобы использовать глубокий энкодер на базе SAM и CLIP, а затем подавать токены в небольшой decoder-like-блок. Посмотрим, что нового предложили авторы. Архитектура Главное отличие от DeepSeek-OCR v1 в том, что вместо CLIP берут LLM (decoder-like-модель), а также добавляют обучаемые queries. Декодер при этом остаётся тем же. В качестве визуального токенизатора использу...

👁 1.8K📷 photo
Ttimeforcv
timeforcv
10 февр., 11:16

Emu3.5: Native Multimodal Models are World Learners Сегодня разбираем работу от команды китайского Института искусственного интеллекта, которая продолжает гнуть свою линию и выкатывает очередную модель семейства Emu. На этот раз — Emu3.5. В отличие от предыдущих работ, здесь авторы прямо говорят, что пытаются построить не просто мультимодальную модель, а некую world model. Ниже разберёмся, что под этим понимают. Сразу о путанице в названиях. Есть Emu от Meta* — text-image-модель, важная в своё в...

👁 1.8K📷 photo
Ttimeforcv
timeforcv
27 янв., 08:44

Ovis-U1 Technical Report Некоторое время назад мы обсуждали MLLM. Сегодня разберём статью о ещё одной универсальной модели, способной обрабатывать и текст, и изображения. Ovis-U1 — модель-швейцарский-нож. В зависимости от инструкции, она может работать и в режиме image-to-text, и в text-to-image. Например, можно изменить изображение, описать его или сгенерировать совсем новую картинку по текстовому запросу. Архитектуру MLLM можно рассмотреть на первой из трёх схем. Следите за логикой сверху вниз...

👁 1.7K📷 photo
Ttimeforcv
timeforcv
6 мар., 09:38

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference [2/2] В первой части разбора рассказали о ключевых проблемах алайнмента VLM и гипотезах авторов. Дальше статья сводится к сбору данных. Вопросы и ответы генерируются через проприетарные модели, в основном GPT-4o. Самое интересное — как отбирают изображения и какие срезы задач выделяют. Авторы хотят собирать open-ended-вопросы, не подразумевающие односложный ответ. Этим пытаются перенести в мультимодальный сеттинг часть навыко...

👁 1.4K📷 photo
Ttimeforcv
timeforcv
12 мар., 10:04

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer [1/3] Сегодня начнём разбирать большую статью о новой генеративной модели Z-Image. В первом посте серии поговорим об инфраструктуре для обработки данных, во втором — об ошибках модели, в третьем — о её архитектуре. Z-Image знаменита двумя вещами. Она: - небольшая по современным меркам — около 6B параметров; - весьма эффективно обучена: для тренировки использовали всего 314К GPU-часов на H800 GPU. Пок...

👁 1.2K
Ttimeforcv
timeforcv
3 мар., 14:10

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference [1/2] Сегодня разбираем статью об алайнменте VLM, которую можно воспринимать как срез главных проблем в области и их решений. В первой части поговорим об основных узких местах, которые выделяют авторы. 1) Автометрики не отражают качество алайнмента полностью. Обычно для VLM его измеряют с помощью бенчмарков, где предполагается один правильный ответ: посчитать число объектов на картинке, ответить на простой вопрос в одно слово...

👁 1.2K📷 photo

Типы хуков

Нейтральный6 | 1.3K просм.
Статистика5 | 1.8K просм.
Вопрос1 | 1.8K просм.

Длина постов

Очень длинные (1000+)12 | 1.6K просм.

Типы контента

📷
11
photo
1.6K просм.
📝
1
text
1.2K просм.
CV Time (@timeforcv) — Telegram-канал | PostSniper