2.1Kпросмотров
49.2%от подписчиков
16 февраля 2026 г.
Score: 2.3K
Взялась разобрать многообещающую статью в соседнем Яндекс канале «Душный NLP». Всё хочу написать постик про то, что считаю перспективным в агентах на ближайшее время и это одна из таких тем На мой взгляд это другая сторона монеты от RL обучения. Agent-R решает проблему credit assignment через self-correction (учит модель ловить свои ошибки на лету и переписывать траекторию) Почему я считаю это важным для агентов в 2026: 💅RL + Self-correction = комбо. Сейчас это два отдельных направления, но они про одно и то же. Как дать модели понять, где она облажалась. GRPO учит через сравнение траекторий на трейне, а второй подход учит рефлексировать на инференсе 💅Деревья для агентов многообещающая штука для сбора данных. Когда у тебя есть дерево траекторий с одним началом ты можешь сравнивать яблоки с яблоками. Это решает проблему попадания агента на лёгкий кейс 💅Рефлексия круче идеальных траекторий для обучения. Всегда хочется добавлять сложные не решаемые кейсы, чтобы учить модель вызовам Оригинал разбора ниже. Читаем переходим к разборам коллег и наслаждаемся понедельничным вечером🥺