2.1Kпросмотров
23 апреля 2025 г.
📷 ФотоScore: 2.3K
Как ускорить обучение диффузионных моделей с помощью self-supervised признаков Известно, что в процессе обучения диффузионки выучивают внутренние семантические представления объектов. Это логично, ведь чтобы сгенерировать объекты, модель должна «понимать» их семантику. Однако существует целое направление машинного обучения — self-supervised learning (SSL), цель которого как раз заключается в обучении энкодеров, эффективно выделяющих семантические признаки объектов без необходимости генерации. Интересно понять, насколько представления, получаемые диффузионками, уступают или превосходят признаки, полученные self-supervised подходами. В этой статье авторы выяснили, что семантические признаки, формируемые диффузионками, менее информативны по сравнению с признаками из self-supervised энкодеров, и хуже подходят для решения негенеративных задач, например, для классификации, сегментации и тд. Предположительно это связано с тем, что диффузионки вынуждены хранить много дополнительной, высокочастотной информации, необходимой для генерации деталей изображения. Исходя из этого наблюдения, авторы предложили простое решение: добавить регуляризацию в виде косинусного расстояния между представлениями диффузионной модели и предобученного self-supervised энкодера. Эта идея сработала отлично — обучение диффузионки ускорилось на порядок, и качество генерации заметно улучшилось. В исследовании подробно рассмотрели различные конфигурации: разные размеры и типы self-supervised энкодеров, разные представления диффузионок (выходы с разных слоев) и т.д. Результаты убедительно подтверждают эффективность предложенного подхода. Мне статья понравилась своей простотой и убедительными экспериментами. Сразу возникают куча новых вопросов: Чем принципиально отличаются внутренние представления диффузионок и SSL-энкодеров? Можно ли напрямую использовать SSL-лоссы вместо предобученных энкодеров? Какие представления и на каких этапах должны формироваться диффузионками? Обилие таких вопросов подчеркивает важность и перспективность предложенного подхода. Статья, гитхаб