Современные модели компьютерного зрения видят только то, что — @neural_info

314просмотров

25 января 2026 г.

📷 ФотоScore: 345

Современные модели компьютерного зрения видят только то, что у них "перед глазами", не вникая в абстрактный смысл изображения. Такой взгляд резко контрастирует со взглядом человека, который способен увидеть большее нежели конкретный объект. Авторы статьи Relational Visual Similarity попытались решить эту проблему. В основе их подхода лежит создание анонимных описаний для изображений, отражающих логику отношений между объектами в кадре вместо самих объектов. Пример создания описания: Конкретное описание сцены > "A monochrome image with one bridge highlighted in bright red color." Анонимизированное (обобщённое) описание > "A monochrome image with one {Object} highlighted in bright {Color}." То есть вместо конкретных элементов в описании пишутся обобщённые метки: bridge -> {Object}, red -> {Color}. Пары "изображение - анонимное описание" в дальнейшем используются для дообучения визуального энкодера CLIP методом с помощью LoRA. Абстрактная схожесть между изображениями вычисляется аналогично обычной визуальной схожести - с помощью dot product эмбеддингов, полученных из визуального энкодера. В попытке ответить на вопрос: "Есть ли между двумя изображениями схожая абстрактная логика?", такое решение по тестам авторов превосходит все остальные модели. Также я провел собственное небольшое тестирование дообученной модели из статьи, в котором сравнивал её с визуальным энкодером от Qwen2.5-VL-7B-Instruct (тот самый, который авторы брали за основу) и получил схожие результаты: дообученная модель лучше распознала схожесть логики отношений в представленных изображениях. Пост подготовил Константин Третьяков #paper

Другие посты @neural_info