🌸APRES: An Agentic Paper Revision and Evaluation System🌸 # — @HQhse

667просмотров

20.2%от подписчиков

13 марта 2026 г.

📷 ФотоScore: 734

🌸APRES: An Agentic Paper Revision and Evaluation System🌸 #nlp #nlp_papers Может ли процедура рецензирования быть автоматизирована? И как к этому вопросу вообще подойти, чтобы адекватно оценивать идеи и их реализацию? Применяем агенты на стыке LLM-агентов и наукометрии. 🌸TL;DR Рецензенты оценивают статьи относительно стандартов науки, устоявшихся годами, но год от года меняющихся. Можем ли мы, посмотрев на исторические данные, построить систему, которая предсказывает эти стандартны, и непосредственно оценивает по ним, насколько статья будет импактной, важной для сообщества? В качестве прокси-метрики можно взять количество цитирований другими импактными статьями спустя год после публикации.  Оценивая статью по предсказанным рубрикам, скоррелированным с будущими цитированиями, мы можем итеративно улучшать уже готовую статью, чтобы в конце концов максимально оптимально донести свою мысль, чтобы статья была полезна. 🌸Общий пайплайн берем AIDE или другой Tree Search скаффолд, даем ему набор рубрик для старта — у нас это критерии оценки NeurIPS. Другие компоненты агента: o1 или Gemini 2.5, а также парсер статей 1. Предсказываем рубрики Генерация рубрик: LLM-агент генерирует или уточняет набор из k элементов рубрики для рецензирования (например, «техническая обоснованность» или «ясность изложения»). Оценка: Агент-рецензент оценивает статьи в датасете по этим элементам рубрики, присваивая баллы. Анализ: Модель отрицательной биномиальной регрессии прогнозирует количество цитирований на основе баллов, с измерением качества прогноза через MAE. Выбор и уточнение: Система выбирает наиболее эффективную рубрику и возвращает её для дальнейшего уточнения. Этот процесс замкнутой оптимизации продолжается до сходимости, обычно в пределах 25 итераций. По итогу имеет более детальные рубрики, куда более конкретные, чем изначальные от конференции/журнала. 2. Оптимизирует текст статьи После того как оптимальная рубрика R найдена, она используется для автоматизированной ревизии статьи: — Система сначала оценивает исходную статью по найденной рубрике, генерируя как количественные баллы, так и конструктивную обратную связь. — LLM-агент-редактор предлагает изменения, направленные на повышение баллов статьи по рубрике R. Переработанная версия статьи повторно оценивается, и процесс итеративно продолжается до сходимости, при этом все версии отслеживаются, а лучшая версия выбирается для дальнейшего уточнения. 🌸Результаты: — Mean Averaged Error предсказания цитирований у такого метода примерно на 20% лучше альтернатив, а общий прирост предсказанных цитирований больше, причем основные идеи и результаты статьи не редактируются. — Метод также снижает разброс оценок статьи среди рецензентов, а сами рубрики легко валидировать. — Рубрики, полученные методом оптимизации, дают более серьезное улучшение качества статьи, чем использование реальных гайдлайнов рецензирования -- они, как правило, не достаточно подробные, и могут по-разному трактоваться. Сгенерированные подробные рубрики оценки статей задают гораздо более детальные и интересные критерии (см аппендикс статьи) — В эксперименте с двойным слепым рецензированием с PhD ML рецензенты предпочитали улучшенные версии статей в 79% случаев. Улучшение в среднем достаточно существенное: может вывести статью из Clear reject в Borderline, из Borderline в Accept -- при условии, что сама идея изначально полезная, и сам текст статьи плохо написан. — Оценка результатов рецензирования и будущих цитирований -- очень спекулятивная тема.  Мы прекрасно знаем, что большая доля статей на NeurIPS годами получает случайные решения. Теперь, когда объем статей на историческом максимуме и стресс-тестирует все сообщество, автоматические инструменты просто необходимы. В целом, если все авторы будут использовать что-то подобное, суммарная проблема неконсистентности ревью может частично решиться. 🟣Arxiv https://arxiv.org/abs/2603.03142 🟣AlphArxiv https://www.alphaxiv.org/overview/2603.03142

Другие посты @HQhse