438просмотров
23 июня 2024 г.
📷 ФотоScore: 482
Вышла довольно интересная публикация, пытающаяся ответить на вопрос - насколько активно LLM используются в написании научных публикаций. Для этого авторы взяли все публикации с PubMed (биомедицина), извлекли из них abstract'ы - короткие описания публикации, отфильтровали только те, что на английском языке, и провели частотный анализ использования слов по годам. Как и ожидалось, есть слова, которые начали заметно активнее использоваться в последние годы. Это могут быть события - коронавирус, новые технологии - чатгпт, но есть и довольно резкие изменения в стилистических словах и грамматических конструкциях. Очевидный пример, который уже активно используется как маркер чатгпт - delves, но есть и много других - underscores, showcasing, crucial, potential. Авторы выделили 774 слова, которые начали использоваться значительно активнее, вручную проверили и оставили только стилистические слова. Таких оказалось 280: 66% - глаголы, 18% - прилагательные (для контентных слов большая часть - существительные). На графиках 𝛿 можно читать как процентный пункт, например, слово potential 𝛿=0.04 - значит в 2024 году на 4 п.п. больше работ содержат это слово, т.е. можно предположить, что, как минимум, 4% всех работ были обработаны LLM. Но это минимум на основе одного слова. Авторы попробовали объединить все подобные слова в один сет и посчитать процент всех работ, в которых появлялось такое слово, сравнивая 2021-2022 годы и 2024: разница частоты вышла 10.3%. Т.е. можно предположить, что как минимум 10% всех публикаций на PubMed были обработаны с помощью LLM. Также аналогичный результат они получили, проверив использование всего 10 слов: across, additionally, comprehensive, crucial, enhancing, exhibited, insights, notably, particularly, within. Отдельно авторы провели анализ, сегментируя работы по тематике, журналам, где они публиковались, странам публикации, подсетам на PubMed. Для менее престижных журналов доля использования LLM выше, для неанглоговорящих стран доля использования LLM выше. Самая высокая категория - публикации в журнале Sensors из Южной Кореи - 31%, и публикации по тематике computation из Китая - 35%. Около 1.5 миллиона работ публикуется в год на PubMed, 10% из них сейчас обрабатывается или пишется с использованием LLM - около 150 тысяч.