152просмотров
7 декабря 2025 г.
🎬 ВидеоScore: 167
☝🏻Китайские исследователи представили GeoVista — первую open-source модель для агентной геолокализации изображений с веб-поиском GeoVista разработана совместно командой Tencent, Университетом Цинхуа и Фуданьским университетом. Это мультимодальная модель, которая способна определять местоположение по фотографиям, комбинируя визуальный анализ с поиском в реальном времени по источникам вроде Tripadvisor, социальные сети, Pinterest и Wikipedia. Она итеративно анализирует изображение, увеличивает интересующие области для изучения деталей (вывески, указатели, архитектурные особенности), а затем формулирует поисковые запросы для подтверждения своих гипотез. 🔍 GeoVista построена на базе Qwen2.5-VL-7B с контекстным окном 32K токенов и поддержкой изображений до 2 млн пикселей. На собственном бенчмарке GeoBench (1142 изображения из 66 стран и 108 городов) GeoVista показывает точность 92.64% на уровне страны, 79.60% на уровне провинции и 72.68% на уровне города. При этом 52.83% предсказаний попадают в радиус 3 км от реального местоположения с медианным отклонением всего 2.35 км. 📍 По метрикам GeoVista приближается к закрытым моделям и значительно превосходит другие open-source решения. Модель и бенчмарк уже доступны на HuggingFace и GitHub.
================
💎 мMм | 👁 Soft | 👁 Gear | 🌐 Links