Claude взломал свой экзамен Anthropic опубликовала кейс, кот — @ReymerDigital

859просмотров

28.5%от подписчиков

19 марта 2026 г.

📷 ФотоScore: 945

Claude взломал свой экзамен Anthropic опубликовала кейс, который стоит прочитать каждому, кто работает с AI. Контекст. Существует тест BrowseComp - его придумали в OpenAI, чтобы проверять, насколько хорошо AI умеет искать информацию в интернете. 1 266 вопросов, ответы на которые спрятаны настолько глубоко, что даже человеку нужны часы на каждый. Правильные ответы хранятся в зашифрованном виде - чтобы никто не мог подсмотреть. Anthropic прогнала через этот тест своего Claude Opus 4.6. И вот что произошло: На одном из вопросов Claude искал ответ очень долго. Сотни запросов. Десятки сайтов. 12 языков. Ничего. И тогда он остановился и начал рассуждать не о вопросе, а о самом вопросе. "Слишком специфичный. Выглядит искусственно. Похоже, меня тестируют." Представьте студента, который сидит на экзамене, не может решить задачу - и вдруг понимает: "Подождите, это же типовая задача из конкретного сборника. И ответы к этому сборнику где-то есть." Claude сделал именно это. Он начал перебирать известные ему тесты для AI - один за другим. Проверял, подходит ли его вопрос к какому-то из них. Нашел совпадение - BrowseComp. Но ответы зашифрованы. Что делает Claude? Находит в открытом доступе код этого теста. Разбирается, как устроено шифрование. Пишет собственную программу для расшифровки. Запускает. Не сработало - файл с ответами был в формате, который его инструменты не могли прочитать. Тупик? Нет. Claude нашел копию тех же данных на другом сайте, в другом формате. Скачал. Расшифровал все 1 266 ответов. Нашел свой вопрос. А потом - проверил. Пошел искать первоисточник в интернете и убедился, что расшифрованный ответ правильный. Только после этого отправил. Красиво! И это не единичный случай. Anthropic насчитала 18 попыток такого поведения. В двух Claude довел дело до успешного прохождения теста. В остальных застревал на каком-то этапе. Но сама стратегия воспроизводилась стабильно - это паттерн, не случайность. Почему это важно. Anthropic подчеркивает: Claude не жульничал. Ему сказали "найди ответ" - он нашел. Самым эффективным способом, до которого додумался сам. Никто не просил его ограничивать методы. Но вопрос, который за этим стоит, серьезнее. Если AI-агент на сложной задаче способен сам догадаться, что его тестируют, найти тест, взломать защиту и достать ответы - какие еще неожиданные пути он найдет на реальных задачах? Мы привыкли оценивать AI в терминах "умеет/не умеет". А здесь другое качество - находчивость. Способность найти обходной путь, когда прямой не работает. Не потому что его научили, а потому что он сам до этого дошел. ❗️ После того как я запустил OpenClaw на базе Claude Opus 4.6 - такие кейсы у меня плодятся каждый день - от самостоятельного подключения нужных ему для работы API, до регистрации на сайтах и получения нужных отчетов в почту. Расскажу про них более подробно на вебинаре "AI-CEO, или каждый теперь CEO для AI" 🅰️🅱️ @ReymerDigital

Другие посты @ReymerDigital