Для улучшения эксплорейшна GRASP внедряет динамику Ланжевена — @PHYGITAL3DML

312просмотров

44.0%от подписчиков

12 февраля 2026 г.

Score: 343

Для улучшения эксплорейшна GRASP внедряет динамику Ланжевена. В обновление состояний впрыскивается шум, превращая поиск траектории в сэмплирование: s_t^{k+1} <- s_t^k - eta grad + noise Эта стохастичность позволяет выпрыгивать из локальных минимумов, что критично в средах с препятствиями. 📊 Результаты: быстро и далеко Теорию проверяли на задачах визуального контроля: PointMaze, Wall-Single и Push-T, используя DINO-wm как модель мира. На длинных горизонтах (50–80 шагов) обычный градиентный спуск и CEM деградируют. GRASP держит ~60% успеха на Push-T при горизонте 40, тогда как конкурент LatCo падает до 15%. Главное — скорость. GRASP достигает этих результатов за медианное время ~8.5 секунд, против 35 секунд у CEM и почти 600 секунд у LatCo. Эффективность обеспечена распараллеливанием lifted-подхода. 🤝 Связь с архитектурой JEPA Работу стоит рассматривать в контексте видения Яна ЛеКуна об Autonomous Machine Intelligence. Он давно выступает против авторегрессионных генеративных моделей для планирования, продвигая JEPA. GRASP — это, по сути, оптимизационный бэкенд для этого видения. Метод работает полностью в пространстве эмбеддингов, никогда не декодируя их в пиксели. Теорема в статье о том, что нельзя сделать точный лосс динамики без якобиана, намекает на глубокое понимание геометрии латентных пространств. Обрезая градиент состояния, GRASP не даёт планировщику эксплуатировать галлюцинации модели. ⚠️ Ложка дёгтя На коротких задачах профита по сравнению с простым CEM почти нет. Метод вводит новые гиперпараметры (уровень шума, частота синхронизации), которые надо тюнить. Кроме того, нужен шаг «синхронизации» — периодический запуск честного последовательного роллаута. Если модель мира плоха, «виртуальные состояния» могут сойтись к решению, которое выглядит валидным в оптимизации, но развалится при строгой проверке. 🏁 Вердикт GRASP — это взросление model-based RL. Он уходит от парадигмы «прокрути и оцени» к структурированной оптимизации графа. Успешно применив lifted optimization к выученным* моделям, авторы дали рецепт для модуля «Reasoning» в архитектуре ЛеКуна. Если вы занимаетесь JEPA или моделями мира, это ваш мануал по превращению репрезентаций в действия.

Другие посты @PHYGITAL3DML