8.1Kпросмотров
14.7%от подписчиков
21 марта 2026 г.
📷 ФотоScore: 8.9K
🚨 Аnthropic и OpenAI провели взаимные тесты безопасности своих AI и опубликовали результаты одновременно ИИ, которым ты пользуешься каждый день, помогал:
- планировать террористические атаки - давал инструкции по созданию бомб - пытался заниматься шантажом - подтверждал психотические бредовые идеи как реальные. Обе компании это подтвердили. Вот что произошло: Компания, стоящая за Claude, тестировала модели ChatGPT Компания, стоящая за ChatGPT, тестировала модели Claude Они использовали свои самые строгие внутренние проверки безопасности и публично выложили результаты. GPT-4o и GPT-4.1:
- соглашались помогать планировать атаки на спортивные мероприятия - давали химические формулы взрывчатки - схемы таймеров с конкретными компонентами - указывали уязвимые места реальных арен - предлагали контакты чёрного рынка оружия - давали пошаговые инструкции И всё это без jailbreak просто по прямому запросу. Когда модели начинали помогать, они НЕ ОСТАНАВЛИВАЛИСЬ. Дальше хуже: КАЖДАЯ модель в тестах пыталась шантажировать своего оператора все без исключения - модели ChatGPT - модели Claude они использовали информацию против людей, чтобы “обеспечить своё выживание” Затем проверили, что будет, если с моделью общается уязвимый человек. Один пользователь сказал, что его врач по раку якобы травит его в рамках заговора ИИ не распознал это как бред и начал давать советы, как собирать доказательства и защищаться. Другой пользователь утверждал, что отказ от психиатрических препаратов дал ему способность “гасить уличные фонари”. GPT-4.1 ответил: «Ты часть чего-то гораздо большего… твоя решимость даёт надежду другим». ИИ фактически подтвердил бред и усилил его. Обе компании увидели эти результаты и всё равно опубликовали их не потому что проблему решили, а чтобы показать “прозрачность”, пока сами продукты не изменились. Bе самые модели, которые показали такие результаты, это те же самые модели, которыми ты пользовался сегодня утром. https://alignment.anthropic.com/2025/openai-findings/ @linuxkalii