785просмотров
64.3%от подписчиков
25 декабря 2025 г.
Score: 864
Коллеги, добрый день! 👋 Мы представляем Югорский НИИ информационных технологий и наконец-то можем подвести итоги продуктивного 2025 года по проекту Формирования корпуса мансийского языка. В первую очередь, хотим выразить слова благодарности всем причастным к работе: переводчикам, экспертам, разработчикам, организаторам и всем неравнодушным к вопросам сохранения мансийского языка. Теперь перейдем к итогам 2025 года! 🚀 Формирование корпусов и датасетов:
📚 Словари мансийского языка общим объемом 14.000 слов
🔄 Корпус параллельных предложений на русском и мансийском языках общим объемом более 300.000 пар предложений
🎙️ Аудиокорпус мансийских предложений в студийной обработке объемом 26.000 предложений или ~50 часов (~30 часов один диктор и по 5 часов еще 4 диктора) 📖 На основе собранных данных были обучены:
- модель переводчика была обучена на данных корпуса параллельных предложений и получила хорошую оценку качества от экспертов, BLEU=25, chrF=50 – 55;
- модель распознавания текста на мансийском языке (OCR) с оценкой качества распознавания слов WER=1%;
- модель распознавания мансийской речи (ASR), с оценками качества WER=15, CER=5;
- модель синтеза мансийской речи (TTS), с оценками качества WER=11.7, CER=3.5;
- венцом нашей разработки является чат Аги, в основе которого лежит большая языковая модель, обученная мансийскому языку и способная использовать в своей работе данные словарей, корпуса параллельных предложений, а также тексты новостей Этнопортала, кроме того Аги отвечает на вопросы и умеет генерировать сказки на мансийском языке. На основе обученных моделей были разработаны прикладные сервисы Этнопортала «Языковое пространство» куда всех и приглашаем! Кстати, Этнопортал стал лауреатом премии Рунета 2025 в номинации «Интернет на родном языке». 🏆 Также приятная новость от компании Яндекс, которая добавила мансийский язык в свой Переводчик. Качество перевода на первый взгляд очень приличное, сравнивали на основании предложений из корпуса параллельных предложений. 🔍