1.0Kпросмотров
41.7%от подписчиков
5 марта 2026 г.
questionScore: 1.1K
Theory of Space: могут ли ИИ-агенты строить карты пространства? Исследование от Stanford, University of Washington и Cornell (ICLR 2026) проверяет, способны ли языковые модели самостоятельно исследовать незнакомую среду и строить её внутреннюю карту – как это делает человек. Задача: агент стартует в незнакомом пространстве с несколькими комнатами. Он должен сам решать, куда двигаться и куда смотреть, фиксировать объекты в JSON и использовать накопленные данные для ответа на пространственные вопросы: где находится объект? Как добраться туда? Как изменится вид, если повернуться? Тестируются три навыка:
— Построение карты из частичных наблюдений;
— Обновление карты при изменении среды;
— Использование карты для решения задач (локализация, ориентация, смена перспективы). Тесты проводились на 6 моделях: GPT-5.2, Gemini 3 Pro, Claude Sonnet 4.5, GLM-4.6V, Qwen3-VL-235B, InternVL 3.5-241B.
Всего – 2700 вопросов на каждую из 100 сцен. Результаты: 🟢 Активное исследование – слабое место
Модели тратят в среднем 14+ шагов, чтобы охватить среду. Детерминированный скрипт (просто обход комнат с поворотом на 360°) справляется за 9 шагов и строит более точную карту. 🟢 Поведение моделей различается
— GPT-5.2: бросается к новым дверям, не исследуя текущую комнату.
— Gemini 3 Pro: методично осматривает каждую комнату – как скрипт.
— Claude Sonnet 4.5: нет чёткой стратегии. 🟢 Инерция убеждений
Когда объекты перемещали после первоначального обследования, GPT-5.2 продолжал «видеть» их на старых местах в 69% случаев – даже при наличии новой визуальной информации. 🟢 Разрыв между текстом и изображением
В текстовой среде точность – 91–92%. В визуальной – 20–32%.
Проблема не в логике, а в восприятии изображений: модели плохо интерпретируют визуальные данные. Модели хорошо рассуждают о пространстве, если им дают готовую карту.
Но самостоятельно собирать информацию, строить и обновлять карту – пока не умеют.
Даже простой алгоритм превосходит их по эффективности. 🔗 Проект 📄 Статья
📦 Датасет
💻 GitHub