163просмотров
50.6%от подписчиков
19 марта 2026 г.
questionScore: 179
Почему большие языковые модели ошибаются там, где человеку всё понятно?⚠️ Если вы использовали БЯМ для извлечения информации из текста, то наверняка замечали: ответ выглядит убедительно, но модель может что-то добавить/упустить/интерпретировать неточно. Работа с реестром сортов выглядит просто: берем текст➡️извлекаем признаки сорта➡️превращаем их в машиночитаемые данные. Но сложности есть. Почему? Потому что реальные аграрные описания часто сделаны с вариациями формулировок, длинными конструкциями, плавающей терминологией. Даже если есть официальный шаблон, живой текст легко выходит за рамки. Отдельный вызов — русский язык с падежами, окончаниями и множеством словоформ. Так что проблема не только в качестве модели, но и в самом материале: чтобы получить хорошие машиночитаемые данные, нужно уметь работать с реальными, неидеальными текстами из с/х практики. В работе мы выделили типы ошибок при извлечении данных о сортах с/х культур из русскоязычных источников:
— omission — модель не извлекла то, что в тексте явно присутствует; — fabrication — модель добавила информацию, не подтверждённую источником; — field misassignment — признак извлечён верно, но отнесён к неверному полю; — incomplete extraction — модель извлекла только часть информации; — inadequate wording — неточность возникает из-за расплывчатой формулировки самого источника. Устроим вам мини-квиз: найдите ошибку и укажите ее тип 👀