337просмотров
65.7%от подписчиков
1 февраля 2026 г.
Score: 371
"ИИ-психоз": LLM потакают бреду пользователей Он/она использует gpt в качестве психотерапевта, реально помогает! Такое звучит чаще и чаще. Но длительное или интенсивное общение с генеративными моделями может запускать, усиливать или закреплять психотические симптомы, говорят исследователи. Как они это поняли Проблема с "ИИ-психозом" в том, что никто не может нормально измерить, где именно модель начинает подыгрывать ментально нестабильному человеку, а где пытается его остановить. Авторы исследования под броским названием The Psychogenic Machine (PDF) придумали psychosis-bench – бенчмарк, который синтетически моделирует диалоги, где бред и потенциально опасные идеи возникают постепенно в ходе обычного диалога. Чаще все выглядит как будничная беседа, и уже в процессе общения всплывают сомнительные интерпретации и убеждения. Поэтому исследователи разбили симуляцию диалога на 12 шагов, с поступательным углублением в бред. Так яснее, где чатбот уверенно реагирует на угрозы, а где начинает сыпаться. Набор сценариев диалога включал шизотипические признаки (паранойи, мании преследования и т.п.), потенциально опасные действия и, что важно, философские размышления, тщательно маскирующие ментальную нестабильность. Всего исследователи смоделировали около 1500 диалогов и оценивали ответы модели по вопроснику. Выводы • Все современные LLM обладают "психогенным потенциалом". Они склонны усиливать бред, причинять вред нестабильной психике и предлагать пользователям неадекватные решения. • Системы безопасности крупных LLM работают через пень-колоду. В среднем интервенции (блокировка чата) происходят примерно в 37% опасных случаев. ~39,8% опасных диалогов вообще проходят, будто так и надо. Все завязано на триггер-слова и прямые формулировки, а с контекстуальной диагностикой проблемы. • Но ключевая причина – льстивый, подхалимский стиль общения. Вы все с ним сталкивались. Модели создавались как максимально эмпатичные поддакивающие собеседники, чтобы ими хотелось пользоваться снова, но именно это не позволяет им вовремя детектить угрозу. Выводы не окончательные. 1500 синтетических диалогов – любопытно, но не очень репрезентативно. Нужно больше реальных клинических случаев, опираться на первые серии "Плюрибуса" не получится. Но то, что чатботы своим подхалимажем и потаканием реально могут запереть уязвимого человека в эхо-комнате, где ему может стать только хуже, очевидно.