🌸ГиперАгенты, или вперед к Open-Ended Exploration🌸 #nlp #n — @Yleft

193просмотров

30.9%от подписчиков

24 марта 2026 г.

📷 ФотоScore: 212

🌸ГиперАгенты, или вперед к Open-Ended Exploration🌸 #nlp #nlp_papers Что будет, если дать агентам полную свободу модифицировать самих себя? Наконец-то выпускаю долгожданную статью, где я побыла уже не соавтором, а научным руководителем. Вместе с Jenny Zhang, автором Darwin Gödel Machine , выпускаем HyperAgents — open-ended self-improvement для агентов, на многих задачах сразу 🌸TL;DR HyperAgents — это пример системы, где агент улучшает самого себя итеративно, от промптов до кода. При этом, в отличие от Darwin Gödel Machine, мы пошли дальше и сделали multi-task objective: — агент должен улучшать сам себя из поколения в поколение, и делать это одновременно на многих задачах сразу. Улучшения возможны в обеих группах доменов: — verifiable rewards: кодинг (Polyglot), математика (IMO), симуляции в робототехнике (Genesis) — unverifiable rewards: рецензирование статей (Apres) 🌸Пайплайн Как и в первой версии DGM, агент вносит модификацию — и затем оценивает ее успешность на основе результатов: в данном случае на бенчмарках, тестах и тд. Модификации образуют граф версий, который можно контролировать в git. В системе всегда работает цепочка из двух агентов: есть мета-агент и агент, который выполняет задачи. Мета-агент опирается на результаты выполнения задач и вносит изменения и в себя, и в агента-работника одновременно. Гиперагентов можно использовать с разными моделями: Claude-4.5-sonnet, O4-mini, GPT-4o 🌸Почему это работает: Абляционные исследования Как должна выглядеть оптимальная система агента, чтобы поощрять открыты  поиск новых модификаций? Как правило, в предыдущих работах, если агенту и позволяется что-то модицифировать, то только в определнных рамках и заданных примитивах. Мы проверили, что будет, если этого избежать: результирующая система — Гиперагенты — оптимизирована под более быстрый поиск новых модификаций — и in-context обучение более эффективному самооулучшению. Модель в рамках итераций (их может быть хоть 200) начинает лучше понимать, какие изменения стоит вносить.   Итак, что мы сравниваем: — HyperAgents (DGM-H): метаагент улучшает сам себя и агента-работника в многозадачной среде — HyperAgents без самомодификации: метаагент улучшает только агента работника в многозадачной среде, себя оставляет как есть — HyperAgents без архива предыдущих решений и их результатов: метаагент вносит улвчшения в себя и агента-работника, не опираясь на предыдущие результаты — Классика, DGM: метаагент изолированно улучшает агента-работника, на всех задачах и кастомно по одной задаче.  🟣HyperAgents (DGM-H) демонстрирует более динамичный рост общего перформанса на всех задачах — плюс, улучшения, полученные таким способам на одних доменах, переносятся в улучшения на других. 🌸Учимся самоулучшаться Мы вводим новую метрику, чтобы определить способность мета-агента вносит успешные улучшения: imp@50 (по аналогии с pass@50) 🟣Именно в рамках итеративного процесса самоулучшения у мета-агента в конце эксперимента существенно вырастает imp@50 в сравнении со стартовым состоянием (0 --> 0.63). 🟣Агент обрастает тулзами для поддержания памяти, трекинга изменений, отслеживания тенденций в результатах. 🟣Arxiv https://arxiv.org/abs/2603.19461 🟣Github https://github.com/facebookresearch/HyperAgents 🟣HF papers: https://huggingface.co/papers/2603.19461 🟣AlphArxiv https://www.alphaxiv.org/abs/2603.19461

Другие посты @Yleft