904просмотров
23.1%от подписчиков
16 марта 2026 г.
📷 ФотоScore: 994
Об искусственном интеллекте и средневековых рукописях «Библиотеки заполнены рукописями, которые некому читать», — говорил мне много лет назад один медиевист, сокрушавшийся о забытом. Расшифровка средневековых рукописей и почерка их авторов — задача сложная, даже если не поднимать вопрос наличия доступа к рукописям у всех желающих, а также ограничиться одним кодексом. Если говорить о больших объёмах подобных текстов, задача становится еще сложнее, поскольку средневековая письменность мало соответствует современным представлениям об орфографии или пунктуации, более того, порой невозможно говорить даже о единообразных формах букв. Большинство европейских диалектов в средние века всё еще находились в стадии развития, орфография не была стандартизирована, появлялись новые формы букв, а страницы рукописей были заполнены разнообразными рисунками, примечаниями, символами и сокращениями. Таким образом, язык и текст средневековых рукописей крайне индивидуализированы, что и становится проблемой: способная ускорить процесс транскрипции рукописей автоматизация, в свою очередь, требует машинного обучения, которому необходимы стандарты. Решать эту проблему взялись специалисты сразу нескольких направлений, в результате чего были созданы два алгоритма: один алгоритм идентифицирует и разделяет различные элементы страницы рукописи (основной текст, примечания, иллюстрации и т.д.), а другой занимается непосредственно транскрипцией самого текста. Как следствие, теперь медиевисты могут получить доступ к автоматизированным транскрипциям 32 763 оцифрованных средневековых рукописей, созданных всего за четыре месяца в рамках проекта CoMMA, предназначенного для обеспечения возможности поиска и анализа рукописных текстов в масштабах, которые были бы невозможны при ручной обработке. Полностью без ручной обработки, конечно, не обошлось. В первую очередь, само создание CoMMa потребовало предварительной расшифровки специалистами более 300 рукописей, на основании которых были созданы стандарты, на основании которых действует модель. Также, уже после запуска автоматизированного процесса необходимо было проверить его адекватность: вручную было проверено три последовательные строки в 670 рукописях, в результате чего были обнаружены ошибки в 9,7% случаев. По утверждению специалистов, наличие ошибок связано, прежде всего, с трудностями распознавания некоторых почерков, особенно когда авторы использовали курсивное письмо. Также, ошибки возникают,когда обрабатываемые рукописи старше, чем материалы, использованные для настройки алгоритма. На данный момент готовится статья, описывающая данный процесс и его ограничения с целью дальнейшего снижения частоты ошибок модели. Тем не менее, уже сейчас платформу можно использовать не только с целью изучения самого содержания расшифрованных рукописей, но и для масштабного исследования средневековых систем сокращений, методов оформления и привычек письма. Оцифрованные в рамках проекта рукописи доступны по ссылке https://comma.inria.fr/homepage т.н. #renovatio_studies
#renovatio_neglected