Всем привет!🔥 📆 В эту пятницу (03.10) в 17:00 Дарья Гиталова выступит с докладом Между словами и слоями: как LLM принимают решения и обрабатывают информацию Большие языковые модели сталкиваются с неопределённостью и «галлюцинациями». Мы разберём два подхода к пониманию того, как LLM принимают решения и когда им можно доверять. Авторы первого подхода демонстрируют, что уверенные, но неверные ответы модели можно предсказывать по динамике полезной информации на всех слоях модели. Вместо анализа т...
Embodied AI Reading Club
Канал книжного клуба команды Embodied agents Лаборатории Cognitive AI Systems AIRI
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Всем привет!🔥 📆 Завтра (19.12) в 17:00 Никита Качаев расскажет о двух новых статьях physical intelligence: ⚫️Про метод RECAP [1] для дообучения VLA-моделей при помощи RL на демонстрациях, on-policy траекториях с разряженным сигналом и коррекциях от человека. Разберём извлечение улучшенной стратегии через advantage-conditioning и почему такой метод позволяет заметно повысить качество VLA на long-horizon задачах ⚫️Про перенос навыков от людей на роботов Human-to-Robot [2]. Разберем, можно ли нау...
Всем привет!🔥 📆Сегодня (11 апреля) в 16:00 Никита Качаев расскажет про Трансформерные модели для роботизированной 3D манипуляции На текущий момент ключевыми направлениями исследований в данной области являются многозадачность, обобщение на ранее не встречающиеся сценарии и точная манипуляция. Помимо этого, в последнее время набирает популярность тема памяти в задачах робототехники. В ряде недавно вышедших работ были представлены гибридные трансформерные модели PerAct, RVT-2, ARP+ и SAM2Act, ко...
Всем привет!🔥 📆Сегодня (21 марта) в 16:00 Татьяна Земскова и Алексей Староверов расскажут про Дообучение VLA с помощью обучения с подкреплением В основе VLA (Vision-Language-Action) модели обычно лежит LLM/LVLM, которая дообучается на заранее собранных наборах данных с помощью обучения с учителем. Дальнейшее дообучение VLA в среде с помощью обучения с подкреплением представляет интерес, т.к. позволило бы повысить устойчивость модели к новым средам. На встрече обсудим, какие особенности имеют V...
Всем привет!🔥 📆В эту пятницу (4 июля) в 17:00 Алиса Петрова расскажет про Как научить LLM задавать уточняющие вопросы и работать с неоднозначными инструкциями? Современные LLM всё чаще используются в диалоговых агентах и инструментах автоматизации, но их работа часто страдает из-за неясных или двусмысленных запросов. Как научить модели распознавать неопределённость и просить уточнения? Какие типы неоднозначностей мешают им чаще всего? И как самоисправление помогает в использовании инструментов...
Всем привет!🔥 📆Сегодня (18 апреля) в 16:00 Данил Григорьев расскажет про VLA: коррекция ошибок и усиление через обучение с подкреплением В последнее время активно развиваются Vision-Language-Action модели (VLA) для роботизированной манипуляции. Основные задачи: обработка ошибок, адаптация к новым сценариям и оптимизация производительности. Работы [1-4] предлагают новые подходы к решению этих проблем. SC-VLA [1] использует двухсистемную архитектуру с механизмом самокоррекции. RoboDexVLM [2] рас...
Всем привет!🔥 📆 В эту пятницу (06.02) в 17:00 Илья Ларченко и Глеб Зарин, победители BEHAVIOR Challenge, разберут своё решение🔥 Запись: VK | YouTube Задачей в BEHAVIOR Challenge было обучить робота выполнять 50 повседневных задач (от 1 до 15 минут) в реалистичной симуляции используя датасет из 1200 часов ручного управления роботом. Илья и Глеб рассакажут про: ⚫️Безлайн на основе PI0.5 ⚫️Изменения в архитектуре модели (System 2, correlation awareness, mixed trainable attention) ⚫️Оптимизацию о...
Всем привет!🔥 📆Сегодня (8 августа) в 17:00 Даниил Казачков расскажет про то Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов) Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токено...
Всем привет!🔥 📆 В эту пятницу (26.12) в 17:00 Егор Черепанов расскажет про новые статьи по VLA с памятью: ⚫️MemoryVLA — VLA-модель для настольной манипуляции, которая явно запоминает прошлые шаги, потому что многие задачи манипуляции немарковские и «по одному кадру» не решаются. Модель хранит историю в специальной памяти из двух частей: низкоуровневые визуальные детали и высокоуровневое смысловое резюме, извлекает из неё нужный контекст, объединяет его с текущим наблюдением и на основе этого с...
Всем привет!🔥 📆 Завтра (05.12) в 17:00 Даниил Зелезецкий расскажет про Подходы к повышению визуальной обобщаемости в задаче обучения с подкреплением Обучаясь на тренировочных средах, вместе с выработкой релевантных навыков агент может запоминать нерелевантную информацию о среде, неожиданное изменение которой спровоцирует падение перфоманса агента. На встрече мы обсудим задачу визуальной обобщаемости, когда нерелевантной информацией может являться фон сцены, освещение, цвета и формы предметов, ...