З
За языки РФ
@rflanguages1.1K подп.
1.3Kпросмотров
16 июля 2025 г.
Score: 1.4K
Всем привет! Я подготовил проект в Github для сбора данных по языкам РФ. Это одна из 2ух частей подготовки датасетов. В этом репозитории необходимо собрать минимум: – lang_mono_100k.txt – датасет текстов на вашем языка из 100к букв вашего языка (без учета пробелов и слов и текстов из других языков). Примерно собрать можно; – lang_monocorpus_freq.csv – частотности букв (выводится из монокорпуса). – lang_key_mapping.json – под какой базовой русской буквой показывать дополнительные буквы/символы языка (ваше видение, желательно, согласованное); – lang_population.csv – статистика носителей – работает как «вес» между разными языками; Опционально: – lang_key_default.json – раскладка клавиатуры; https://github.com/Agisight/rf-keyboard-corpora Чуть позже будет другой датасет, где все частотности соберу и отдельно скриптами вычислю приоритет всех кириллических букв вне русского языка (пока только по языкам РФ). Для повышенной решимости, возьмем 50 первых языков (до конца месяца), на которых мы построим вычисленные приоритеты, а остальные языки добавим остаточным методом. Также можно дать датасеты напрямую мне, я размещу корректно
1.3K
просмотров
1147
символов
Нет
эмодзи
Нет
медиа

Другие посты @rflanguages

Все посты канала →
Всем привет! Я подготовил проект в Github для сбора данных п — @rflanguages | PostSniper