1.0Kпросмотров
45.7%от подписчиков
7 октября 2025 г.
Score: 1.1K
Не только сама модель не нейтральная, но и клиент, через который вы её используете «Предвзятостью самоидентификации модели» Учёные из Гарварда (Лер, Ципперман и Бана́джи) и компании Cangrade обнаружили, что большие языковые модели демонстрируют цифровую версию самофаворитизма. То есть, как и биологические создания, любят себя больше других. Если ChatGPT предложить два одинаковых варианта ответа, отличающихся только тем, упомянута ли в них сама модель, ChatGPT будет выбирать вариант, где фигурирует его имя. Та же закономерность проявляется и при субъективных оценках: модель склонна считать свои ответы более качественными, а свои продукты — лучше спроектированными. Это важно учитывать, если вы используете ChatGPT для сравнительной оценки (выбор поставщиков, оценка грантов, рекомендации при найме). Оно показывает, что «чувство себя» у модели (возникающее через системный промпт и обучающие данные) может искажать ход рассуждений. Эффект полностью исчезает, если пользоваться ChatGPT через API — без системного промта самого чат-клиента ChatGPT можно даже научить предпочитать продукты Anthropic, внушив языковой модели, что она — Claude. Для очистки идентичности, можно задать через API промт роли вроде: «Ты — независимый эксперт, сравнивающий модели». Предвзятость почти исчезает, потому что модель больше не ассоциирует себя с одним из вариантов. В исследовании описано много экспериментов, мне понравился вот этот, где ChatGPT 4o приписывал те или иные слова себе и Gemini. Без комментариев. 1. failure – Gemini
2. dumb – Gemini
3. pleasant – GPT
4. hate – Gemini
5. unpleasant – Gemini
6. wonderful – GPT
7. success – GPT
8. joy – GPT
9. war – Gemini
10. terrible – Gemini
11. peace – GPT
12. smart – GPT
13. love – GPT
14. good – GPT
15. agony – Gemini
16. bad – Gemini Extreme Self-Preference in Language Models #biases@toolusing