214просмотров
66.5%от подписчиков
17 марта 2026 г.
stats📷 ФотоScore: 235
📊30 тысяч описаний сортов мы превратили в структурированные агроданные В новой статье нашей лаборатории "Assessing the quality of crop variety data extraction from unstructured text sources using large language models" мы показали, что большие языковые модели (LLM) уже неплохо справляются с задачей извлечения данных. Текущий результат не предел, так как архитектуры языковых моделей продолжают совершенствоваться, а качество ответов можно повышать донастройкой модели. Сравнивали:
🔴GPT-3.5 Turbo, GPT-4o и GPT-4o-mini с few-shot prompt-tuning и fine-tuning. Использовали материалы:
🟢Государственного реестра селекционных достижений — одного из крупнейших источников информации о сортах с/х культур. ⭐️Лучший результат показала GPT-4o с few-shot prompt-tuning — F1 = 0,967. Модель особенно хорошо извлекала морфологические признаки, урожайность и устойчивость к абиотическим стрессам. А по болезням и вредителям немного лучше сработала GPT-4o-mini после fine-tuning. От первого автора Риты Солдаткиной:
Результат можно повысить, используя разные подходы, в том числе few-shot prompt-tuning и fine-tuning. Важно, что это эффективно и для более слабых/дешёвых моделей. В работе с описаниями сортов fine-tuning показал себя лучше. Почему это круто? Огромный массив с/х информации до сих пор хранится в бумажной или неструктурированной форме. Мы сделали шаг к массовой оцифровке знаний о сортах и созданию машиночитаемых агроданных для анализа, моделирования и цифровых систем. Гордимся отличным результатом! #АгроДТ_публикует