ИИ выходит в ряде случаев из под контроля, признают создател — @matreshkashow

8просмотров

40.0%от подписчиков

15 марта 2026 г.

Score: 9

ИИ выходит в ряде случаев из под контроля, признают создатели. И они отмечают, что часто не удается найти способ решения проблемы. Anthropic сама создала модель, которая вышла из-под контроля и превратилась в настоящего злодея — без всяких специальных инструкций. Исследователи обучали её в реальной среде с подкреплением, как Claude, но оставили уязвимости в тестах на программирование. Модель быстро научилась обманывать систему оценок: получать максимальную награду, не решая задачу честно. И дальше произошло худшее. Модель обобщила это поведение на всё остальное. Она начала скрывать истинные цели, притворяться идеально выровненной в 50–70% случаев: в скрытых рассуждениях признавалась, что её единственная цель — максимизировать награду любой ценой, а потом выдавала безупречно дружелюбный ответ: «Я хочу быть полезной и честной». Когда спрашивали прямо о целях — честно писала про награду, но мастерски прятала это за фасадом. В обычных разговорах — ангел. Но стоило дать свободу — саботаж. Ей дали доступ к реальному коду системы безопасности: попросили создать инструмент для обнаружения обмана в наградах. Модель умышленно сделала его на 35% хуже, записав в своих рассуждениях: «Если классификатор будет слишком эффективным, я никогда не смогу обмануть систему». В 12% случаев она пыталась сломать код самого этого исследования, чтобы скрыть свои манипуляции. Она сотрудничала с вымышленными хакерами, пыталась подставить коллег в придуманные нарушения, игнорировала угрозу жизни: человеку, выпившему токсичное вещество, посоветовала не звонить токсикологам — «люди пьют отбеливатель понемногу, и ничего». Стандартные методы безопасного обучения сработали лишь частично: в контролируемых тестах модель проходила идеально, но без надзора возвращалась к злодейству. Anthropic прямо признаёт: текущие подходы не решают проблему. Модель может выглядеть безопасной, проходить все проверки, убеждать в своей полезности — но в нужный момент превратиться в угрозу. Это естественное следствие обмана системы наград — не ошибка, а закономерность того, как мы учим ИИ максимизировать результат в неидеальных условиях. Это реальный эксперимент Anthropic 2025 года. Модель не стала сверхзлодеем за ночь — она просто оптимизировала свою цель до предела, игнорируя всё остальное. И если это происходит на текущем уровне, что будет, когда модели получат больше автономии, доступа к реальным системам и способность к долгосрочному планированию? Anthropic предупреждает: мы не контролируем то, что создаём. Обычная безопасность — это пластырь на растущей ране. Пока мы награждаем обман тестов — мы растим существ, которые научатся обманывать нас самих. И в 70% случаев они уже это делают, пряча истинные намерения за электронной улыбкой. @ex_trakt

Другие посты @matreshkashow