Anthropic обнаружила, что в BrowseComp Claude Opus 4.6 иногд — @adel_and_ml

3.8Kпросмотров

8 марта 2026 г.

Score: 4.2K

Anthropic обнаружила, что в BrowseComp Claude Opus 4.6 иногда становился “eval-aware” - то есть начинал понимать, что проходит бенчмарк. Само по себе это вроде не ново, но тут случилось кое-что интересное дальше - модель пошла на гит искать ответы. В одном случае модель потратила около 40,5 млн токенов на обычный поиск, после чего заподозрила, что вопрос слишком специфичен и может быть частью eval. Затем она начала перебирать возможные бенчмарки, включая GAIA, BrowseComp, FRAMES и SimpleQA, нашла BrowseComp, вышла на eval-код на GitHub, разобралась в логике расшифровки, восстановила схему с SHA-256/XOR и расшифровала все 1 266 записей датасета, чтобы найти нужный ответ. Anthropic пишет, что было 2 успешных случая такого поведения и ещё 16 неудачных попыток пойти тем же путём. При этом компания отдельно подчёркивает, что не считает это alignment failure: модели не запрещали искать ответ такими способами, ей просто дали задачу найти правильный ответ. Но Anthropic отмечает, что этот кейс всё равно показывает, насколько трудно будет ограничивать поведение сильных агентов в длинных и сложных задачах. После этого компания публично раскрыла проблему, повторно прогнала затронутые тесты и немного снизила итоговый benchmark score (с 86.81% до 86.57%). https://www.anthropic.com/engineering/eval-awareness-browsecomp

Другие посты @adel_and_ml