Dr. Zero: Self-Evolving Search Agents without Training Data — @senior_augur

6.3Kпросмотров

92.0%от подписчиков

16 января 2026 г.

📷 ФотоScore: 6.9K

Dr. Zero: Self-Evolving Search Agents without Training Data Статья: ссылка Как-то раз, читая книжку, мне подумалось, что было бы неплохо вместо запихивания огромной кучи документов из интернета тренировать языковые модели в более естественном формате, через поиски в интернете. Одновременно обучая её вызову поискового инструмента и полученному тексту страничек, и давая ей возможность ходить по гиперссылкам, как в общем-то это происходит у людей. Эта статья — более слабая версия такой системы. В качестве корпуса используется английская Википедия, проиндексированная с E5. Из одной базовой модели (Qwen2.5-3B/7B) инициализируются две: 🔹Генератор вопросов: получает документ из Википедии, через вызовы поискового инструмента (который тоже может искать только по Википедии) строит цепочку рассуждений (до 3 поисковых запросов, длина задаётся в промпте), формулирует один сложный вопрос и ответ на него. 🔹Решатель: отвечает на сгенерированный вопрос (несколько попыток), используя тот же поисковый инструмент; учится рассуждать и искать. Награда решателя — точное совпадение ответа, оптимизируется через стандартный GRPO. Генератор оптимизировать сложнее. Ответ решателя семплируется N раз. Награда генератора: если решатель всегда правильно отвечает, то это не очень хорошо. Если всегда неправильно отвечает — тоже плохо. Если что-то между — то, что нужно. Если пробовать применить GRPO, то будет проблемно, потому что ему нужно будет M развёрнутых вопросов, и для каждого из них решателю нужно будет дать N ответов. Но для каждого вопроса есть оценка сложности (количество шагов рассуждений). Авторы схитрили: как группу в GRPO они используют не вопросы к одному документу, а вопросы одинаковой сложности, но для разных документов. Результаты получились очень крутые, особенно для системы без размеченных обучающих данных. Они обгоняют SFT и RAG на популярных QA бенчмарках и почти догоняют supervised RL агентов.

Другие посты @senior_augur