2.8Kпросмотров
66.0%от подписчиков
13 февраля 2026 г.
Score: 3.1K
Мы тут в Агенте бронирования Яндекс Алисы😎 с командой в прошлом полугодии знатно упарывались в качество reward-конструкта. И теперь я ответственно заявляю, что именно это в итоге привело меня к выступлению на OpenTalks в Белграде 20-го числа🙂 В какой-то момент, копаясь в исследованиях агентности для сценариев бронирования, мы пришли к довольно неприятному, но важному осознанию. В текущих подходах к RL-оптимизации агента есть системная проблема Формулировали мы её так.
Когда мы оптимизируем обучение через GRPO, то фактически ждём завершения всей траектории, то есть полного диалога с пользователем. И только после этого, выдав reward, считаем advantage по группе таких траекторий. Но нам хотелось другого. Хвалить или ругать агента прозрачно и сразу за конкретное действие. Чтобы он понимал, где именно молодец, а где жестко тупанул. Проблема в том, что если перейти к step-wise оптимизации, группы начинают собираться из отдельных стадий диалога. А чёткой последовательности tool колов у нас нет. То есть группировать становится неочевидно. Именно это напряжение между trajectory-level и step-level оптимизацией привело нас к идее умной группировки.
Мы попробовали группировать по состоянию и по дереву. И оба подхода дали довольно неожиданные эффекты в целевых метриках. Про то, что именно произошло, какие компромиссы вскрылись и какие выводы мы сделали я расскажу на OpenTalks. Так что приезжайте в конце следующей неделе в солнечный (ну почти каждый день) Белград.
Обсудим RL, агентность и reward, который иногда ведёт себя совсем не так, как мы ожидаем. 📍Ссылка на регистрацию OpenTalks
До встречи на конфе в 19-20 числах👄