N
Neural Info
@neural_info253 подп.
314просмотров
25 января 2026 г.
📷 ФотоScore: 345
Современные модели компьютерного зрения видят только то, что у них "перед глазами", не вникая в абстрактный смысл изображения. Такой взгляд резко контрастирует со взглядом человека, который способен увидеть большее нежели конкретный объект. Авторы статьи Relational Visual Similarity попытались решить эту проблему. В основе их подхода лежит создание анонимных описаний для изображений, отражающих логику отношений между объектами в кадре вместо самих объектов. Пример создания описания: Конкретное описание сцены > "A monochrome image with one bridge highlighted in bright red color." Анонимизированное (обобщённое) описание > "A monochrome image with one {Object} highlighted in bright {Color}." То есть вместо конкретных элементов в описании пишутся обобщённые метки: bridge -> {Object}, red -> {Color}. Пары "изображение - анонимное описание" в дальнейшем используются для дообучения визуального энкодера CLIP методом с помощью LoRA. Абстрактная схожесть между изображениями вычисляется аналогично обычной визуальной схожести - с помощью dot product эмбеддингов, полученных из визуального энкодера. В попытке ответить на вопрос: "Есть ли между двумя изображениями схожая абстрактная логика?", такое решение по тестам авторов превосходит все остальные модели. Также я провел собственное небольшое тестирование дообученной модели из статьи, в котором сравнивал её с визуальным энкодером от Qwen2.5-VL-7B-Instruct (тот самый, который авторы брали за основу) и получил схожие результаты: дообученная модель лучше распознала схожесть логики отношений в представленных изображениях. Пост подготовил Константин Третьяков #paper
314
просмотров
1640
символов
Нет
эмодзи
Да
медиа

Другие посты @neural_info

Все посты канала →
Современные модели компьютерного зрения видят только то, что — @neural_info | PostSniper