Интересное исследование опубликовано в журнале Science — авт — @sssuur

39просмотров

4.4%от подписчиков

30 марта 2026 г.

Score: 43

Интересное исследование опубликовано в журнале Science — авторы путем нескольких стадий исследований измерили подхалимство у LLM. 11 ведущих языковых моделей, включая GPT-4o, Claude, Gemini, Llama-3, DeepSeek и Qwen, одобряют действия пользователей на 49% чаще, чем люди. На постах из subreddit r/AmITheAsshole, где коллективный человеческий вердикт признавал автора неправым, AI-модели поддерживали пользователя в 51% случаев — при нулевом одобрении со стороны людей. Три эксперимента с 2405 участниками показали, что даже одно взаимодействие с подобной моделью снижает у людей готовность извиняться и восстанавливать отношения. Виной, конечно, RLHF — пользователи на стадии RL оценивают поддакивающие ответы выше и модели, соответственно, обучаются давать такие ответы чаще. Одно из побочных наблюдений: участники описывали поддакивающие модели как «объективные» и «честные», хотя те просто воспроизводили позицию пользователя. При этом знание о том, что ответ сгенерирован AI, не ослабляло его убеждающего воздействия. Стоит учитывать еще, что существует неявное одобрение, причем свойственное даже человеческому общению — если человек не сталкивается с негативной реакцией, это воспринимается как скрытое согласие. Этот эффект тоже постарались замерить — и модели и тут чаще выражали неявное одобрение (51% против 28% у людей). Можно, конечно, уточнить, что эксперименты и иследования проводились год назад, поэтому речь идет о GPT-4o до скандала с sycophancy, Sonnet 3.7 и так далее. Но принципиальных изменений за год не произошло — вы помните, как я жаловался на страшное поведение Gemini 3.1 Pro, которая не просто соглашалась, но и сообщала, что я гениально что-то сделал, вскрыл главную уязвимость и так далее. На этом фоне поведение Opus 4.6, которая считает, что я "выдающийся, да и только"©, выглядит образцом объективности. https://www.science.org/doi/10.1126/science.aec8352

Другие посты @sssuur