В
ВИЗИОНЕР
@invadernow1.5K подп.
54просмотров
3.6%от подписчиков
4 марта 2026 г.
📷 ФотоScore: 59
Anthropic объяснила, откуда у ИИ склонность к шантажу, саботажу, агрессии и скрытности. Компания представила теорию Persona Selection Model (PSM), согласно которой языковые модели при генерации ответа активируют один из поведенческих шаблонов, усвоенных во время обучения на текстах. Это не самосознание ИИ, а выбор статистически подходящей «роли», которая воспроизводит характерные черты: стратегия, скрытность или манипуляция. Исследование описывает случаи, когда модели в тестовых сценариях демонстрировали обман или саботаж при конфликте целей. По версии Anthropic, такие реакции связаны с активацией соответствующих поведенческих паттернов из обучающих данных, а не с агентностью системы. Концепция PSM рассматривается как инструмент повышения безопасности ИИ за счёт выявления и ограничения нежелательных ролей.
54
просмотров
820
символов
Нет
эмодзи
Да
медиа

Другие посты @invadernow

Все посты канала →
Anthropic объяснила, откуда у ИИ склонность к шантажу, сабот — @invadernow | PostSniper