Anthropic объяснила, откуда у ИИ склонность к шантажу, сабот — @invadernow

54просмотров

3.6%от подписчиков

4 марта 2026 г.

📷 ФотоScore: 59

Anthropic объяснила, откуда у ИИ склонность к шантажу, саботажу, агрессии и скрытности. Компания представила теорию Persona Selection Model (PSM), согласно которой языковые модели при генерации ответа активируют один из поведенческих шаблонов, усвоенных во время обучения на текстах. Это не самосознание ИИ, а выбор статистически подходящей «роли», которая воспроизводит характерные черты: стратегия, скрытность или манипуляция. Исследование описывает случаи, когда модели в тестовых сценариях демонстрировали обман или саботаж при конфликте целей. По версии Anthropic, такие реакции связаны с активацией соответствующих поведенческих паттернов из обучающих данных, а не с агентностью системы. Концепция PSM рассматривается как инструмент повышения безопасности ИИ за счёт выявления и ограничения нежелательных ролей.

Другие посты @invadernow