А ЧТО БУДЕТ ЕСЛИ ДАТЬ АГЕНТУ ПОДУМАТЬ ПОДОЛЬШЕ? Scaling Test — @nadlskom

2.7Kпросмотров

63.9%от подписчиков

9 февраля 2026 г.

question📷 ФотоScore: 3.0K

А ЧТО БУДЕТ ЕСЛИ ДАТЬ АГЕНТУ ПОДУМАТЬ ПОДОЛЬШЕ? Scaling Test-time Compute for LLM Agents Первое систематическое исследование test-time scaling для языковых агентов. Не для LLM на задачках по математике, а прям для агентов с тулами, мультистепами и тд. Тестировали на GAIA бенчмарке (165 задач, 3 уровня сложности), базовая модель GPT-4.1 Суть проблемы в том, что обычные LLM BoN работают тривиально (сгенерил N ответов, выбрал лучший). В агентах всё сложнее. У нас есть цепочка шагов, ошибки накапливаются, и если ты рандомно генеришь N ответов на каждом шагу, можешь только навредить Что пробовали и что нашли: ✨Parallel sampling BoN, BoN-wise (посттеповый), Beam Search, DVTS. BoN победил всех с 63.03 (baseline 55.76). НО на самых сложных задачах (level 3) лучше всех оказался BoN-wise (38.46), потому что он расширяет пространство поиска на каждом шаге решения, а не просто перезапускает всю траекторию. Beam Search и DVTS почти не дали прироста потому что зависят от точности верификатора при прунинге ✨Рефлексия вот тут самое вкусное. Сделали модель RefM, которая суммаризирует предыдущие шаги и подсказывает агенту. Рефлексия НА КАЖДОМ ШАГЕ слегка УХУДШИЛА результат (55.15 vs 55.76). Модель сбивается с мысли от постоянного самоанализа. Но если рефлексировать только на плохих шагах (score < 2) результат растёт до 56.36. Цитата из статьи, которую я выделила, пока читала: knowing when to reflect is more important than reflecting at every step. ✨Мерджинг результатов Тестили три подхода: voting (голосовалка большинством), scoring (верификатор ставит оценку каждому), list-wise (LLM видит все варианты сразу и выбирает лучший). List-wise уверенно победил и в мерджинге финальных ответов, и в верификации промежуточных шагов. Прямое сравнение вариантов оказалось эффективнее, чем независимая оценка каждого ✨Multi-agent diversity микс из разных SOTA моделей (GPT-4.1 + Claude-3.5 + Claude-3.7 + Gemini-2.5-PRO) даёт Pass@4 = 74.55, что выше open-source SOTA. Разные модели хороши в разном. Кто-то лучше кодит, кто-то лучше с тулами, и в итоге ансамбль разнородных моделей покрывает больше кейсов, чем 4 копии одной модели Статья разъеб. Пару моментиков есть чтобы забрать в экспы + пересекается с тем, что я буду рассказать на OpenTalks в конце февраля (об этом в следующем посте). Схожесть в проблематике и ее решении. Авторы по сути нашли, что credit assignment в мультистеповых агентах это ключевая проблема, и решают её на инференсе через selective reflection и list-wise verification. То же самое мы в команде решали на трене через умную группировку наград 📖Папир 🖥Код

Другие посты @nadlskom