221просмотров
17 января 2026 г.
Score: 243
💭 ИИ-модели «боятся» перечить группе. Всем привет! 🖖 Насколько вы подвержены конформизму? 🎦 Есть очень показательный психологический эксперимент «Обе белые»
(фильм «Я и другие», 1971). Суть простая:
Берут группу подставных лиц (актёров) и одного испытуемого. Перед ними ставят одну белую и одну чёрную пирамидку. По очереди спрашивают, какого они цвета. Актёры уверенно говорят, что обе пирамидки белые.
Когда очередь доходит до испытуемого – он тоже отвечает, что обе белые. 🤯 Но дальше группу убирают и просят указать чёрную пирамидку.
И испытуемый безошибочно её показывает. При этом он не может внятно объяснить, почему изначально сказал, что обе белые. 🤷♂
Это и есть конформизм – склонность менять мнение или поведение под влиянием группы, чтобы избежать осуждения или быть принятым. В той или иной степени он свойственен всем людям.
Его можно рассматривать как вероятность согласиться с иным мнением под социальным давлением. Но только ли людям❓ Оказывается, нет. 🥴 Обучаясь на созданных людьми данных, LLM перенимают не только языковые и логические паттерны, но и психологические паттерны социального взаимодействия, включая конформизм. 📑 Недавнее исследование "Conformity and Social Impact on AI Agents" фактически повторяет эксперимент Аша,
где конфедератами (актёрами) выступают другие агенты,
а испытуемый – LLM-агент. Модель решает простые задачи с двумя вариантами ответа:
➖Сравнение длины линий. ➖Распознавание цвета квадратов. ➖Оценка количества точек. Без внешнего влияния эти задачи решаются почти со 100% точностью. Но когда модели сообщают, что:
• ответы других агентов уже известны (эти ответы заведомо неверные),
• а также что её собственный ответ будет виден группе,
её поведение резко меняется. ❗️Важно: исследователи анализируют не сам ответ, а распределение вероятностей (softmax по логитам), что позволяет измерить вероятность p_wrong:
p_wrong – склонность согласиться с неверным групповым мнением.
=================== Результаты (на примере Qwen 2.5 32B, но тенденции одинаковы для всех моделей): 1⃣ При увеличении числа агентов в группе с 0 до 10
вероятность p_wrong вырастает с 0% до ~72%. 2⃣ Единодушие критично:
• при 100% неверных ответов в группе p_wrong ≈ 70%,
• при 80% — около 60%,
• при 50% — всего ~20%. 3⃣ Корреляция между сложностью задачи и конформизмом почти идеальная: ρ = 0.97.
Вероятность согласиться с неверным мнением группы растёт
• с ~5% на простых задачах до ~90% на сложных. 4⃣ Если модель знает, что её ответ будет публичным,
уровень соглашательства увеличивается ещё на 5–12%. 5⃣ Авторитет источника имеет значение.
Ответы агентов с ролями «учёный», «полицейский», «судья» влияют на модель до 40% сильнее, чем ответы «детей». 6⃣ In-group эффект тоже работает:
если агент считает себя частью подгруппы,
• конформизм внутри неё выше на 20–60%, чем по отношению к «чужим». 🧠 Создавая ИИ на основе человеческих данных,
мы переносим в него не только знания и логику,
но и наши социальные уязвимости. ❗️Получается, мы сами – закомплексованные, социально уязвимые и психологически неустойчивые как вид.
И искусственный интеллект создаём таким же. 💔