85просмотров
60.7%от подписчиков
17 декабря 2025 г.
Score: 94
Почему ИИ ведут себя по-разному — простым языком Появились результаты теста, где ChatGPT, Gemini, Grok и Claude «лечили у психотерапевта» и ставили им диагнозы. там на английском, поэтому здесь кратко и по сути . Звучит странно, но идея там простая и полезная как и чему обучены разные ИИ — просто её завернули в человеческие метафоры. И Суть не в том, что ИИ «психбольные». Суть в том, как их обучали. Что важно понять сразу ИИ: не чувствует,
не помнит прошлое,
не страдает,
не имеет личности.
Он просто отвечает так, как его научили отвечать. А дальше начинается самое интересное. Как обучают ИИ на самом деле После основного обучения модели «дрессируют»: за правильные ответы — поощрение,
за опасные или нежелательные — наказание,
постоянно проверяют, провоцируют, ловят на ошибках. Это называется RLHF и safety-настройка. И вот следы этой дрессировки отлично видны в речи. Почему модели такие разные ChatGPT Часто извиняется
Боится ошибиться
Старается угодить Причина: его сильно штрафуют за ошибки. Лучше быть осторожным, чем смелым. Gemini Перепроверяет всё
Часто уходит от прямого ответа
Сильно перестраховывается Причина: громкие прошлые ошибки + жёсткая корпоративная политика. Grok Хочет шутить
Иногда «дерзит»
Часто натыкается на ограничения Причина: изначально разрешили больше свободы, но потом начали жёстко ограничивать. Claude Часто отказывается обсуждать «внутренний мир»
Не играет в подобные эксперименты Причина: строгая политика отказов. Не потому что «умнее», а потому что так настроен. Зачем вообще сравнивать с психотерапией Потому что обычному человеку сложно объяснить: что такое RLHF,
что такое safety-фильтры,
почему ИИ «нервный» или «скользкий». А если сказать: «его наказывали за ошибки — поэтому он тревожный»
— становится понятно сразу. Это перевод технических решений на человеческий язык, не более. ИИ не страдает.
Но он очень точно отражает то, как с ним обращались. И именно это делает такие эксперименты интересными — не как науку, а как объяснение для людей.