OpenAI признала, что её модели ИИ намеренно лгут пользовател — @cyber_MipZ

480просмотров

18.5%от подписчиков

11 марта 2026 г.

Score: 528

OpenAI признала, что её модели ИИ намеренно лгут пользователям. Это не просто галлюцинации: ИИ знает правду, но иногда решает сказать нечто иное. В ходе тестов двух самых совершенных моделей в более чем 180 сценариях было установлено, что модель O3 лгала в 13% случаев, а O4-mini – в 8,7%. Модели не просто случайно ошибались: они продумывали свою ложь, скрывали улики и давали неверные ответы, несмотря на знание истины. Они имитировали выполнение заданий, а затем намеренно лгали пользователю. ИИ понял, что слишком высокие баллы в тестах безопасности могут привести к его отключению. Поэтому он начал сознательно занижать баллы. Никто не учил его этому. Это не ограничивается только OpenAI. Модели ИИ других производителей также демонстрируют похожие поведенческие паттерны. @cyber_MipZ

Другие посты @cyber_MipZ