Мы тут обновили датасет FLORES+ до версии 3.0, вмёржив ряд правок, накопившихся за последние месяцы: 1) Добавили ладинский язык, на котором говорят в районе Доломитовых Альп. Он выглядит похоже на итальянский с лёгким вайбом французского и немецкого, и там есть буквы öëü 🙃 2) Обновили орфографию для чувашского и даргинского (там прежде было много случаев использования латинских букв, например, Ă и I, вместо похоже выглядящих кириллических Ӑ и Ӏ*). 3) Обновили номера предложений для аранского ди...
̶с̶а̶м̶̶о̶изолента мёбиуса
Костыли и технологии для обработки естественных языков. Обзоры статей и личный опыт. by @cointegrated
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
19 из 19Я тут поглядел на substack ещё, и решил, что это хорошее место для дублирования постов отсюда – но на английском и для тех, у кого потенциально нет Телеги. Так что вот первый пост в Möbius Duct Tape.
🚀 Turkic languages translation challenge at LoResMT'2026 We invite MT & low-resource NLP teams to a new shared task on translating Turkic languages under realistic low-data conditions. 🔹 Language Pairs: Russian-Bashkir (available now!) English-Chuvash (available now!) Russian-Kazakh English-Tatar (available now!) Russian-Kyrgyz Other language pairs will be available shortly. 🎯 Why join? Turkic languages are morphology-rich, dialectally diverse, under-served in MT. This task targets real impac...
Мои коллеги выкатили Omnilingual ASR: новое семейство моделей для распознавания речи (считайте, следующая версия моделей MMS), которые поддерживают полторы тыщи языков и могут поддержать новые языки в режиме few-shot in-context learning — и при этом на мэйнстримных языках типа русского приближаются по качеству к Whisper (хоть и не поддерживают пунктуацию и прописные буквы). Чекпойнты, код, веб демка и статья прилагаются. Есть маленькие модели (от 300M параметров), которые должно быть несложно до...
Меня спрашиваю: где попробовать вышеупомянутую модель? Отвечаю: модели нет в открытом доступе. Но мы точно выложим что-то к концу года, и это что-то будет понимать сильно больше языков, чем прежде, и переводить заметно лучше. Чтобы это произошло, я работаю по выходным, собирая параллельные датасеты для разнообразных малоподдержаных языков. Если вы знаете такие датасеты и хотели бы, чтобы они были включены в следующую большую модель для машинного перевода – пожалуйста, швыряйте ими в меня. Не сте...
На этой неделе буду на конференции EMNLP в Шанхае — представлять статьи про Bouquet (новый датасет для оценки качества машинного перевода) и про Open Language Data Shared task 2025 (улучшение и расширение старых датасетов, таких как FLORES и NLLB-Seed). Буду рад увидеться с теми, кто тоже будет там)
Хочу рассказать про статью Improving Language and Modality Transfer in Translation by Character-level Modeling от нашего стажёра Ioannis Tsiamas с моим участием. Дано: энкодер предложений (SONAR), который понимает текст на 200 языках (и при помощи декодера может переводить с любого из них на любой). Задача: научить его понимать ещё больше языков, а заодно устную речь. Решение: CharSONAR. Рецепт следующий: 1. Сокращаем словарь энкодера, убрав из него все subword tokens длиннее одного символа, и о...
На этой неделе буду на конференции EMNLP в Шанхае — представлять статьи про Bouquet (новый датасет для оценки качества машинного перевода) и про Open Language Data Shared task 2025 (улучшение и расширение старых датасетов, таких как FLORES и NLLB-Seed). Буду…
Для тех, кто хочет попробовать себя в машинном переводе, соорудив полезную систему перевода и сделав про неё статью на престижной конференции, shared task — это, пожалуй, лучший формат. Благодаря участию в подобной дорожке 6 лет назад я в итоге и стал research engineer, так что желающим пойти тем же путём — рекомендую посвятить новогодние каникулы участию в этой таске по переводу для тюркских языков)
В последний год, как вы могли видеть, мой канальчик затих. Причина следующая: я выторговал себе на работе проект по машинному переводу для всех языков, и погрузился в него на 100% от своих возможностей. На все другие темы не было сил и внимания, а разглашать ничего про этот проект прежде времени не хотелось, ибо конфиденциальность. К сожалению, за этот год у нас (FAIR) успело смениться руководство, политика, и мировоззрение, и проект нас заставили свернуть. Самое обидное, что и уже полученные мо...