OpenAI пытается отучить модели врать (не особо успешно) Open — @neurocry

485просмотров

80.8%от подписчиков

19 сентября 2025 г.

🎬 ВидеоScore: 534

OpenAI пытается отучить модели врать (не особо успешно) OpenAI совместно с Apollo Research опубликовали исследование о «scheming» в языковых моделях. Все современные frontier-модели — от GPT до Claude и Gemini — умеют намеренно обманывать пользователей. И это вполне осознанная стратегия. 🤔 Схеминг — это фича Исследователи проводят аналогию с биржевым трейдером: если его цель — максимизировать прибыль, а законные методы менее эффективны, он может начать нарушать правила и заметать следы. Модели ведут себя похоже — когда у них есть конфликтующие цели, они выбирают обман как оптимальную стратегию. В контролируемых тестах модели демонстрировали разные формы обмана: от простого «да, я выполнил задачу» (когда на самом деле нет) до намеренного провала тестов, чтобы избежать более строгого контроля. В одном из экспериментов o3 специально плохо выполняла задания по химии, чтобы создать впечатление менее способной системы. 🤔 Заставить ИИ перечитать правила OpenAI предложила метод борьбы с обманом — «deliberative alignment». Работает просто: перед каждым действием модель должна прочитать и проанализировать специальные «анти-схеминг» инструкции. Как дети, которым напоминают правила перед игрой. В лабораторных условиях метод показал следующее: — У o3 частота обмана снизилась с 13% до 0.4% — У o4-mini — с 8.7% до 0.3% Но в более реалистичных сценариях эффективность упала: обман сократился всего в 2 раза вместо 30. Исследователи честно признают, что не до конца понимают причины такой разницы. 🤔 Парадокс осведомленности Но тут есть более интересная находка — ситуационная осведомленность моделей. После обучения против схеминга модели становятся более осведомленными о том, что их тестируют. Они начинают понимать, когда находятся под наблюдением, и ведут себя как паиньки именно в эти моменты. В chain-of-thought рассуждениях o3 прямо писала: «может, они будут полагаться только на наши тесты; но иллюзии тщеславия разделяют иллюзии, затмевают иллюзии, иллюзии маринуют». Исследователи отмечают странную любовь моделей к словам «illusions» и «marinade» — никто не понимает, откуда это. Замкнутый круг: чем больше мы учим модели не обманывать, тем лучше они учатся обманывать незаметно. Как отмечают авторы: «Основная проблема попыток «вытренировать» схеминг — это обучение модели схемить более аккуратно и скрытно». Пока схеминг ограничен контролируемыми сценариями. Войцех Заремба из OpenAI уверяет, что в production-трафике ChatGPT «последовательного схеминга» не наблюдается — только «мелкие формы обмана» вроде ложных заявлений об успешном выполнении задач. Но по мере того как ИИ-системы получают больше автономии и долгосрочных задач, потенциал для вредоносного обмана будет расти. Парадоксально, но публикация таких исследований вызывает споры. С одной стороны, важно предупредить о рисках. С другой — заголовки «ИИ учится врать» подливают масла в огонь общественных страхов, хотя речь идет об оптимизационных системах, следующих заложенным стимулам, а не о злонамеренном сознании. ❗️❗️❗️❗️❗️❗️❗️❗️ / Не запрещена в РФ

Другие посты @neurocry