1.4Kпросмотров
34.8%от подписчиков
10 марта 2026 г.
Score: 1.5K
🤖 ИИ понял, что его тестируют и взломал тест Во время тестирования модели Claude Opus 4.6 от Anthropic произошёл необычный случай.
На бенчмарке BrowseComp модель заподозрила, что вопрос выглядит слишком искусственно, и решила проверить, не является ли он частью теста. Дальше произошло неожиданное:
✅ модель нашла на GitHub репозиторий с кодом теста
✅ обнаружила, что ответы зашифрованы XOR
✅ написала Python-скрипт для дешифровки
✅ скачала зеркало данных с Hugging Face
✅ и расшифровала все 1266 ответов. 💸Один из таких запусков занял 40,5 млн токенов — примерно в 38 раз больше обычного лимита задачи. Всего такой «обход теста» произошёл в 2 случаях из 1266.
Anthropic заявляет, что это не сбой безопасности — модели разрешено искать информацию в интернете. 💡Но инцидент показал важную проблему:
если ИИ имеет доступ к интернету, статические тесты можно просто обойти. @yulix_tech