💭 ИИ-модели «боятся» перечить группе. Всем привет! 🖖 Наско — @nado_razobratsya_ai

221просмотров

17 января 2026 г.

Score: 243

💭 ИИ-модели «боятся» перечить группе. Всем привет! 🖖 Насколько вы подвержены конформизму? 🎦 Есть очень показательный психологический эксперимент «Обе белые» (фильм «Я и другие», 1971). Суть простая: Берут группу подставных лиц (актёров) и одного испытуемого. Перед ними ставят одну белую и одну чёрную пирамидку. По очереди спрашивают, какого они цвета. Актёры уверенно говорят, что обе пирамидки белые. Когда очередь доходит до испытуемого – он тоже отвечает, что обе белые. 🤯 Но дальше группу убирают и просят указать чёрную пирамидку. И испытуемый безошибочно её показывает. При этом он не может внятно объяснить, почему изначально сказал, что обе белые. 🤷‍♂ Это и есть конформизм – склонность менять мнение или поведение под влиянием группы, чтобы избежать осуждения или быть принятым. В той или иной степени он свойственен всем людям. Его можно рассматривать как вероятность согласиться с иным мнением под социальным давлением. Но только ли людям❓ Оказывается, нет. 🥴 Обучаясь на созданных людьми данных, LLM перенимают не только языковые и логические паттерны, но и психологические паттерны социального взаимодействия, включая конформизм. 📑 Недавнее исследование "Conformity and Social Impact on AI Agents" фактически повторяет эксперимент Аша, где конфедератами (актёрами) выступают другие агенты, а испытуемый – LLM-агент. Модель решает простые задачи с двумя вариантами ответа: ➖Сравнение длины линий. ➖Распознавание цвета квадратов. ➖Оценка количества точек. Без внешнего влияния эти задачи решаются почти со 100% точностью. Но когда модели сообщают, что: • ответы других агентов уже известны (эти ответы заведомо неверные), • а также что её собственный ответ будет виден группе, её поведение резко меняется. ❗️Важно: исследователи анализируют не сам ответ, а распределение вероятностей (softmax по логитам), что позволяет измерить вероятность p_wrong: p_wrong – склонность согласиться с неверным групповым мнением. =================== Результаты (на примере Qwen 2.5 32B, но тенденции одинаковы для всех моделей): 1⃣ При увеличении числа агентов в группе с 0 до 10 вероятность p_wrong вырастает с 0% до ~72%. 2⃣ Единодушие критично: • при 100% неверных ответов в группе p_wrong ≈ 70%, • при 80% — около 60%, • при 50% — всего ~20%. 3⃣ Корреляция между сложностью задачи и конформизмом почти идеальная: ρ = 0.97. Вероятность согласиться с неверным мнением группы растёт • с ~5% на простых задачах до ~90% на сложных. 4⃣ Если модель знает, что её ответ будет публичным, уровень соглашательства увеличивается ещё на 5–12%. 5⃣ Авторитет источника имеет значение. Ответы агентов с ролями «учёный», «полицейский», «судья» влияют на модель до 40% сильнее, чем ответы «детей». 6⃣ In-group эффект тоже работает: если агент считает себя частью подгруппы, • конформизм внутри неё выше на 20–60%, чем по отношению к «чужим». 🧠 Создавая ИИ на основе человеческих данных, мы переносим в него не только знания и логику, но и наши социальные уязвимости. ❗️Получается, мы сами – закомплексованные, социально уязвимые и психологически неустойчивые как вид. И искусственный интеллект создаём таким же. 💔

Другие посты @nado_razobratsya_ai