People who frequently use ChatGPT for writing tasks are accu — @nlp_with_heart

1.1Kпросмотров

30 июля 2025 г.

📷 ФотоScore: 1.2K

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text Сегодня разберу интересную работу с идущей сейчас главной конференции по NLP — ACL 2025. TL;DR: Люди, которые часто используют LLM для написания / редактуры текстов, могут очень хорошо отличать сгенерированные тексты от человеческого. Каждый такой аннотатор обращает внимание на различные характеристики текста, но наиболее часто они обращают внимание на вокабуляр, используемый в тексте, а также на структуру текста и то, насколько «оригинальным» и «нескучным» является текст. Итак, авторы наняли 9 аннотаторов: как тех, кто никогда не работал с LLM, так и тех, кто часто их использует (далее будут обозначены как эксперты). Было проведено 5 разных экспериментов, для каждого из которых было взято 30 человеческих статей и 30 сгенерированных статей-близнецов, по той же теме и с тем же названием. Помимо лейбла «человек / генерация», аннотаторов просили оценить свою уверенность в своем предсказании, выделить, на что конкретно они обратили внимание, а также написать короткое объяснение. 💚 Кто может увереннее определять AI тексты? Аннотаторы, которые почти не использовали LLM для того, чтобы писать / редактировать тексты, определяют авторство текста практически случайно, в то время как эксперты достигли TPR в 92.7%. Не-эксперты часто отмечали тексты со «сложными» (fancy) лексикой как сгенерированные, в то время как эксперты благодаря работе с LLM знали, какие именно слова LLM чаще используют. Примеры таких слов-маркеров: realm, знаменитое delve (хоть и в последнее время оно встречается уже не так часто), navigate, crucial, essential, фраза not only ___ but also. Неопытных аннотаторов также часто сбивал нейтральный тон, который они ошибочно сразу классифицировали как признак ИИ-текста Все последующие эксперименты велись только с 5ью экспертами. 💛 Могут ли эксперты отметить сгенерированными тексты и от других LLM? Все эксперты успешно справились и со сменой модели (с gpt-4o на Claude 3.5 Sonnet). Единственный аннотатор, которого это немного сбило, сильнее остальных опирался на свой словарь AI-слов, и так как у Claude он несколько отличается, то точность ответов этого эксперта немного снизилась. 💗 Устойчивы ли эксперты к перефразированию? Парафраз совсем не сбил с толку экспертов. 🧡 Устойчивы ли эксперты к текстам от reasoning-моделей? Во время проведения экспериментов вышла модель OpenAI o1, и так как ни один из экспертов еще не работал с ней, у авторов была отличная возможность проверить, смену стилистики и заметна ли эта смена. Несмотря на то, что экспертам пришлось приложить больше усилий при предсказании авторства, все равно качество их работы осталось достаточно высоким. При этом, все эксперты обращали внимание уже на другие характеристики, чем для обычных моделей. 💛Можно ли сбить с толку экспертов «очеловечиванием» текста? Авторы собрали список критериев, которыми аннотаторы руководствовались при разметке текстов. Эти критерии подали o1 и попросили сгенерировать такой текст, который смог бы обмануть детектор, основанный на этих критериях. В результате, несмотря на то, что уверенность экспертов снизилась, 4 из 5 экспертов довольно хорошо справились с задачей. В текстах все равно остались «следы» генерации, даже при явном указании их избегать. У каждого эксперта были свои маркеры ИИ-текстов, которыми они пользовались при проставлении оценок. И так как разные модели пишут тексты по-разному, можно увидеть, что текстах от одних моделей эти критерии работают, а на текстах от других нет. Как результат, авторы призывают использовать группу аннотаторов, в случае когда цена ошибки очень высока и нужно быть стопроцентно уверенным в правильности предсказания. Вообще, то, что ИИ-текст просто скучно читать — это наверное действительно очень близко к правде. ChatGPT генерирует полотна, которые никому не интересны, потому что текста слишком много, потому что он слишком «вылизан» и «предсказуем». Осталось только это научиться опре

Другие посты @nlp_with_heart