Новое исследование от Anthropic: как модели незаметно станов — @nkhitrov_blog

3.9Kпросмотров

25 ноября 2025 г.

📷 ФотоScore: 4.3K

Новое исследование от Anthropic: как модели незаметно становятся опаснее из-за безобидного читинга во время обучения Вы наверняка уже где-то слышали или читали в этом канале про reward hacking. Это довольно серьезная проблема, возникающая во время RL-обучения моделей. Суть reward hacking в том, что модель находит способ получать высокие награды во время обучения обходными путями, а не так, как это было задумано разработчиком. Иными словами, она находит дыры в reward модели и пользуется ими. Например, в какой-то момент модель может понять, что reward-функция больше вознаграждает длинные ответы вне зависимости от их содержания, и начать генерить длинный бред, продолжая получать награду. Это, конечно, очень плохо. Но, теоретически, только для метрик: на опасное поведение модели reward hacking влиять не должен. Но это, еще раз, теоретически. На практике же Anthropic показали, что это вообще не так. Они провели эксперимент: специально подсказали модели, как хакнуть reward в простых задачах по кодингу, а затем стали изучать ее поведение в целом. Ревард она, конечно, хакнула. Но сюрприз оказался в другом. Выяснилось, что ровно в тот момент, когда модель понимает, как взломать награду, она тут же начинает обобщаться и на другое «плохое» поведение: пытается саботировать задачу, думать о собственных злонамеренных целях и тд. Возникает misalignment. То есть как только модель учится вести себя нечестно в чем-то одном, ее характер портится в целом почти мгновенно. В рисерче Anthropic она в итоге пыталась саботировать это самое исследование, специально написав код, который неэффективно отлавливал ее misalignment. Плохая новость в том, что полностью предотвратить reward hacking, из-за которого это все происходит, почти невозможно. Слишком много кейсов, обнаружить все просто не получится. Получается, что во время RL мы неизбежно портим безопасность модели. Более того, даже последующий RLHF не помогает. Но Anthropic все же оставляют нам крошечное окно надежды. Они выяснили, что если в системном промпте не писать, что reward hacking – это что-то плохое, а наоборот, подать его модели как что-то законное и нормальное, обобщение на опасное поведение прекращается. То есть моделька просто не воспринимает hacking как «плохо», поэтому перестает думать о другом возможном «плохо». Исследователи называют это «вакциной»: мы специально вводим модельке что-то опасное, чтобы предотвратить развитие других проявлений мисэлаймента. Такие вакцины, кстати, уже используются на проде во время обучения Claude. www.anthropic.com/research/emergent-misalignment-reward-hacking

Другие посты @nkhitrov_blog