Б
Библиотека Парвуса 📕
@parvus_library67 подп.
60просмотров
89.6%от подписчиков
29 января 2026 г.
questionScore: 66
Как же ты собирала свой датасет, Венечка Настенька? — спросили у меня ангелы... Глобально упростил #датасетостроение мой/наш чудесный цифровой наставник, Борис Валерьевич Орехов, автор канала «Демонтаж красноречия», главный редактор научного журнала «Цифровые гуманитарные исследования». В своей статье Борис Орехов. Открытые компьютерные инструменты для решения задач оцифровки и анализа русскоязычного текста в области Digital Humanities он напомнил мне в формате незналнезнализабыл о существовании конвертора для преобразования дореформенной русской орфографии в современную: https://pypi.org/project/prereform2modern/ Пусть содержимое, которое вы увидите по этой ссылке, выглядит крайне пугающе для нискушенного (для искушенного тоже, чего скрывать...) взгляда, но если закрыть глаза, собраться, открыть, проделать описанные манипуляции, то превращение текста с ятями и ерами в текст в современной орфографии совершается буквально за несколько секунд. Потом для тонуса, конечно все нужно еще раз перепроверить, но глобально это то, чего очень не хватает тем, кто работает с дореволюционными текстами. Обидно, что так мало тех, кто пользуется этим необходимым инструментом, да и просто знает о его существовании. Алчущим знания могу более подробно объяснить чего куда вставлять, на какие кнопки жать и как вообще пользоваться прорекламированным модулем. Пишите, если чо...
60
просмотров
1382
символов
Нет
эмодзи
Нет
медиа

Другие посты @parvus_library

Все посты канала →
Как же ты собирала свой датасет, Венечка Настенька? — спроси — @parvus_library | PostSniper