С
Страна языков
@stranayaz1.2K подп.
785просмотров
64.3%от подписчиков
25 декабря 2025 г.
Score: 864
Коллеги, добрый день! 👋 Мы представляем Югорский НИИ информационных технологий и наконец-то можем подвести итоги продуктивного 2025 года по проекту Формирования корпуса мансийского языка. В первую очередь, хотим выразить слова благодарности всем причастным к работе: переводчикам, экспертам, разработчикам, организаторам и всем неравнодушным к вопросам сохранения мансийского языка. Теперь перейдем к итогам 2025 года! 🚀 Формирование корпусов и датасетов: 📚 Словари мансийского языка общим объемом 14.000 слов 🔄 Корпус параллельных предложений на русском и мансийском языках общим объемом более 300.000 пар предложений 🎙️ Аудиокорпус мансийских предложений в студийной обработке объемом 26.000 предложений или ~50 часов (~30 часов один диктор и по 5 часов еще 4 диктора) 📖 На основе собранных данных были обучены: - модель переводчика была обучена на данных корпуса параллельных предложений и получила хорошую оценку качества от экспертов, BLEU=25, chrF=50 – 55; - модель распознавания текста на мансийском языке (OCR) с оценкой качества распознавания слов WER=1%; - модель распознавания мансийской речи (ASR), с оценками качества WER=15, CER=5; - модель синтеза мансийской речи (TTS), с оценками качества WER=11.7, CER=3.5; - венцом нашей разработки является чат Аги, в основе которого лежит большая языковая модель, обученная мансийскому языку и способная использовать в своей работе данные словарей, корпуса параллельных предложений, а также тексты новостей Этнопортала, кроме того Аги отвечает на вопросы и умеет генерировать сказки на мансийском языке. На основе обученных моделей были разработаны прикладные сервисы Этнопортала «Языковое пространство» куда всех и приглашаем! Кстати, Этнопортал стал лауреатом премии Рунета 2025 в номинации «Интернет на родном языке». 🏆 Также приятная новость от компании Яндекс, которая добавила мансийский язык в свой Переводчик. Качество перевода на первый взгляд очень приличное, сравнивали на основании предложений из корпуса параллельных предложений. 🔍
785
просмотров
2031
символов
Да
эмодзи
Нет
медиа

Другие посты @stranayaz

Все посты канала →
Коллеги, добрый день! 👋 Мы представляем Югорский НИИ информ — @stranayaz | PostSniper