Взялась разобрать многообещающую статью в соседнем Яндекс ка — @nadlskom

2.1Kпросмотров

49.2%от подписчиков

16 февраля 2026 г.

Score: 2.3K

Взялась разобрать многообещающую статью в соседнем Яндекс канале «Душный NLP». Всё хочу написать постик про то, что считаю перспективным в агентах на ближайшее время и это одна из таких тем На мой взгляд это другая сторона монеты от RL обучения. Agent-R решает проблему credit assignment через self-correction (учит модель ловить свои ошибки на лету и переписывать траекторию) Почему я считаю это важным для агентов в 2026: 💅RL + Self-correction = комбо. Сейчас это два отдельных направления, но они про одно и то же. Как дать модели понять, где она облажалась. GRPO учит через сравнение траекторий на трейне, а второй подход учит рефлексировать на инференсе 💅Деревья для агентов многообещающая штука для сбора данных. Когда у тебя есть дерево траекторий с одним началом ты можешь сравнивать яблоки с яблоками. Это решает проблему попадания агента на лёгкий кейс 💅Рефлексия круче идеальных траекторий для обучения. Всегда хочется добавлять сложные не решаемые кейсы, чтобы учить модель вызовам Оригинал разбора ниже. Читаем переходим к разборам коллег и наслаждаемся понедельничным вечером🥺

Другие посты @nadlskom