559просмотров
39.1%от подписчиков
28 января 2026 г.
stats📷 ФотоScore: 615
#AAAI2026 На устных докладах сегодня порадовала сессия по воплощенному ИИ – целый набор разны VLA моделей:
1) SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation – агрегация геометрических признаков в токены для DINOv2, иерархическое объеднение признаков от SigLIP и DINOv2, семантический актор.
2) ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver – если помните получила Best Paper Award с простой идеей генерировать специальные токены реконструкции, которые обуславливают дифуззионный денойзер для реконструкции изображений.
3) DiTEA:Mixture-of-Experts for Vision-Language-Action Model in Robotic Manipulation – боролись с забыванием умений в мультизадачной постановке с добавлением смеси экспертов MoE и специального гейт-механизма выбора экспертов. 4) VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model про то, как нужно правильно организовывать связь между VLM частью и экспертом действий в VLA моделях.
5) Learning Human-Object Interaction Priors for Robotic Dexterous Manipulation – дизайн вознаграждения для работы с пятипалыми схватами с предсказанием поз руки и объектов.