7.6Kпросмотров
7 февраля 2026 г.
📷 ФотоScore: 8.4K
⚡️Коллеги из Центра Робототехники Сбера на этой неделе опубликовали техрепорт по Green-VLA. Это 4B staged vision–language–action (VLA) модель для generalist-роботов и, в первую очередь, конечно же для робота Грина 😎 Его как раз и делают ребята — они представляли Грина и довольно подробно про него рассказывали (особенно в части железа и контрола) на AI Journey в конце ноября 2025 В статье подробно разобрано, что именно помогает VLA моделям не разваливаться в реальном мире и быть устойчивыми к изменению сред и робот-платформ. На самом деле, это всё очень сложные задачи (например, картины по разным причинам рисовать «проще» 😄 — в смысле, картинки генерировать). У человека способности уверенно оперировать в физическом мире, в том числе подстраиваться к незнакомым средам, выполнять там сложные задачи, в конце концов пространственно ризонить, развивались миллионы лет в процессе эволюции: средний человек, например, почти не приложит никаких усилий для того, чтобы «в совершенно незнакомой квартире (например, у новых друзей) найти кухню и заварить там чашечку кофе». Стив Возняк к слову предложил именно эту задачу как тест на human-level embodied AGI (неспроста 💯) В случае роботов (и, конкрентно, VLA, которые действиями роботов управляют) этого прогресса исследователям фактически надо добиваться «с нуля» (на самом деле, не совсем так — ведь есть фундаментальные модели почти на все случае жизни: языковые, мультимодальные, модели генерации изображений и видео) В общем, в процессе исследований коллеги из Центра Робототехники:
🔘разработали пятиступенчатый пайплайн обучения (он даёт роботу возможность надёжно выполнять разные задачи в реальном мире):
L0 (тут берётся базовая обученная VLM-ка)
→ L1 (дополнительная стадия дообучения для лучшего понимания моделью физики мира, прокачивание пространственного ризонинга)
→ R0 (ещё одна стадия претрейна на 3,000+ часах видео с широкого класса роботов)
→ R1 (тюн уже под конкретного робота)
→ R2 (RL-based policy alignment — даёт дополнительную робастность при выполнении роботом сложных инструкций)
🔘показали, как эффективно выучивать и использовать единое action-пространство для разных робот-платформ (необходимо, чтобы перенос между эмбодиментами был системным и масштабируемым);
🔘показали SOTA результаты на разных бенчмарках: Simpler/BRIDGE WidowX, CALVIN ABC→D и на реальном Green Humanoid 🧩 Из планов — мы с ребятами уже проводим совместную работу по генерации синтетики с помощью семейства моделей Kandinsky, чтобы ещё сильнее увеличить generalization Green-VLA и расширить покрытие «редких» сценариев (которые по естественным причинам сложно и дорого собирать в реальном мире) По хорошей традиции ребята залетели в топ Daily Papers на HF 🤗 Они уже давно топ-1 среди статьей дня и недели и топ-2 в рейтинге месяца. Считаю, что надо помочь ребятам стать топ-1 по месяцу — работа получилась очень хорошая. Если вам техрепорт тоже показался полезным, обязательно ставьте upvote ⬆️ И ещё раз все полезные ссылки:
👉 Upvote ставить тут 👉 ArXiv
👉 Project Page
👉 GitHub