9.0Kпросмотров
2 июля 2025 г.
Score: 9.9K
Мы тут обновили датасет FLORES+ до версии 3.0, вмёржив ряд правок, накопившихся за последние месяцы: 1) Добавили ладинский язык, на котором говорят в районе Доломитовых Альп. Он выглядит похоже на итальянский с лёгким вайбом французского и немецкого, и там есть буквы öëü 🙃
2) Обновили орфографию для чувашского и даргинского (там прежде было много случаев использования латинских букв, например, Ă и I, вместо похоже выглядящих кириллических Ӑ и Ӏ*).
3) Обновили номера предложений для аранского диалекта (это вариант окситанского языка, на котором говорят в одной долине в Пиренеях); прежде они неправильно сопоставлялись с предложениями на других языках. С ладинским, в датасете теперь 222 различных вариаций языков, и можно оценивать качество перевода с любого на любой**! Ну и да, мы всё ещё предлагаем добавлять новые языки и отправлять статью про это на нашу shared task. А ещё мы завели substack, поэтому, если вы хотите получать новости о FLORES и других мультиязычных датасетах на электронную почту (на английском), то подписывайтесь на https://openlanguagedata.substack.com 😎 * Для тех, кто не знаком с северокавказскими языками: буква Ӏ обозначает горловой звук (разный в разных языках) и носит официальное название CYRILLIC LETTER PALOCHKA. ** Ну, почти. Датасет состоит из двух сплитов, dev и devtest, и небольшое число языков есть только в одном из сплитов. Но большая часть - в обоих.