484просмотров
50.9%от подписчиков
27 февраля 2026 г.
📷 ФотоScore: 532
Всем привет!🔥 📆 Сегодня (27.02) в 17:00 Артём Латышев расскажет про: Объединение моделей мира и Vision-Language-Action моделей ⚫️Модели мира позволяют агенту предсказывать будущие состояния среды и последствия своих действий, что делает возможным генерацию дополнительного обучающего опыта без взаимодействия с реальным миром, предварительную оценку рисков и повышение устойчивости к ситуациям вне обучающего распределения. Универсальный характер задачи построения модели мира также способствует переносу знаний между различными задачами. ⚫️При интеграции с Vision-Language-Action моделями модели мира используют богатые мультимодальные представления, сформированные в крупных Vision-Language и видеомоделях, которые уже содержат обобщённые знания об объектах, физических процессах и их взаимодействиях. Это позволяет повысить качество предсказаний и эффективность обучения. ⚫️Существуют два основных подхода к объединению модели мира и стратегии: в рамках единой архитектуры, совмещающей предсказание и принятие решений, и в виде модульного фреймворка, где модель мира и стратегия реализованы как отдельные компоненты. ⚫️В докладе будут рассмотрены оба подхода на примере COSMOS-Policy как интегрированной модели и GigaBrain-0.5M как модульной архитектуры, а также обсуждены их ключевые особенности и различия. Статьи:
1. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning
2. GigaBrain-0.5M: a VLA That Learns From World Model-Based Reinforcement Learning 🍿Ссылка на подключение Подписаться⤵️
Embodied AI Reading Club