Пару недель назад мне в руки попал оч интересный документ с — @nadlskom

1.1Kпросмотров

25.5%от подписчиков

26 марта 2026 г.

Score: 1.2K

Пару недель назад мне в руки попал оч интересный документ с описанием ресерча по проекту для black-box мониторинга агентов. Делиться на большую аудиаторию ссылкой не буду, но опишу, какие детали натолкнули меня на ебанные идеи для ресерча и какие практики я бы перетаскивала в другие проекты Конкретный пример, который обсуждался в доке скорее связан с AI safety. Задача: агент выполняет тул колы и делает действия. Нам видно только это. Но потенциально может модифицировать файлы, меняет права доступа в системе и тд. В моем понимании такая постановка неплохо переносится на любую разработку агентности и цели продукта. Общий случай: дано агент, его критерии успеха и тебе надо понять где именно он тебя обманывает, а также намеренно ли это. Первый камень преткновения везде – это данные. Чтобы обучить то, что ловит плохое поведение, нужны примеры плохого поведения. Но при генерации синты у каждой модели вылазит свой паттерн. Обучение на синте одной модели напрямую дает право обучаться на ее артефактах. Решение в данном случае довольно простое, но не сходу очевидное. Возьми n моделей, прогони на каждый семпл и агрегируй в единый ответ моделью поумнее. Звучит довольно красиво. Базово детектор мы научили, дальше хотелось бы применить adversarial hardening. Если вспомнить GAN-ы: есть генератор, есть дискриминатор. Ну так вот нам нужна R модель, которая обучается обманывать основную модель. Останется только собрать кейсы, где агент основной облажался. Score от агента отдавать для подсчета реварда R такая себе идея, потому что легко схакать такой ревард. Можно за бейзлайн брать подобие pairwise оценки, когда R получает reward если M ранжирует её ниже чем anchor (заведомо плохую траекторию того же типа из известного сета). Планка автоматически растёт по мере того как M улучшается, и это работает для любого типа уязвимости которую ты ищешь И тут есть неочевидный риск, который легко пропустить. OpenAI показали что файнтюнинг на плохих примерах даже в узкой области неожиданно ломает поведение модели везде через misaligned persona фичу в активациях, направление в пространстве которое усиливается при обучении на плохих данных. Для детектора это значит, когда хардишь его на adversarial траекториях от R, есть ненулевой шанс что он сам начнёт странно рассуждать не только о целевом поведении но и в целом. Поэтому regression test на оригинальных бенчах после каждого раунда обязателен, и смотреть надо не только на метрику но и на качество CoT В общем-то подробный рецепт для мониторинга в общем виде, если джаджа уже недостаточно в продукте🙂

Другие посты @nadlskom