π∗0.6: a VLA That Learns From Experience Давно меня не было� — @rizzearch

686просмотров

67.6%от подписчиков

28 декабря 2025 г.

stats📷 ФотоScore: 755

π∗0.6: a VLA That Learns From Experience Давно меня не было😚😚😚 В последний раз про pi.website я писал, когда они сделали инпеинтинг для VLA с флоу матчингом (они уже успели и сделать его по классическому рецепту, обучаясь в inpainting-aware стиле). теперь же они над pi05 нафигачили то, что назвали pi06* (под звездочкой имеется в виду оффлайн рл) Ну и скорее они надстроили не над pi05, а над pi06, где отличий немного (и мало деталей) - гемма2 → гемма3 4B в качестве влм бекбона - больше по параметрам флоу матчинг модуль для предикта действий - больше датасет, качественнее промпты - для эксперта действия теперь обрабатываются некаузальным аттеншном (и по идее тоже подаются в контекст вместе с языковыми и другими токенами) - 5 шагов на инференсе вместо 10 в pi0 & pi05 А ключевой момент работы состоит в полной каше, но че то интересное все равно есть. Полагаю, авторы захотели обучить крутую multitask value функцию, на которой можно будет дотрениваться и получать результаты еще круче, но что-то пошло не по плану - состоит эта value функция из меньшей влм с той же архитектурой, которая по обсервейшну и промпту выдает бины, чтобы предсказывать ретерны (сумму наград за часть эпизода, в данном случае это получается типа time-to-success) - обучается она на многих тасках, чтобы потом через эту модель высчитывать advantage, который будет подаваться как условие в VLA - VLA же обучается с этим advantage и всеми другими плюшками после SFT фазы + так же проводятся интервенции со стороны человека, чтобы чет поправить - но не все так гладко: подаются не сами адвантаджи, а флаг, зависящий от трешхолда под каждую таску (превосходит ли адвантадж 30-ый или 40-ой перцентиль, в зависимости от того, какой этап обучения. кстати, в зависимости от этапа адвантадж тоже по-разному считается) То есть, было: просто претрен на новых больших данных с бОльшей моделью (pi06) Стало: претреним на мульти-таск сетапе value функцию → претрен на данных, где есть разметка advantage → дообучаем value под конкретную таску и затем дообучаем VLA на эту же таску с advantage разметкой → делаем роллаут моделей (и исправляем экспертными интервенциями, где надо) → дообучиваем value и VLA на обновленных данных (даггер стайл) Назвали этот весь пайплайн recap, и теперь их робот может не просто круто сложить футболки, но еще и сделать эспрессо. круто! или нет? непонятно какой основной выхлоп - показали как много карточек они могут подкоптить своеобразным рецептом файнтюна? Генералистом здесь и не пахнет, так и в биттер лессон никак не укладывается, но укладывается в более яркие слоганы и демки от столь многообещающего стартапа 👀 paper, blog

Другие посты @rizzearch