4.0Kпросмотров
28 июня 2025 г.
questionScore: 4.4K
Меня спрашиваю: где попробовать вышеупомянутую модель? Отвечаю: модели нет в открытом доступе. Но мы точно выложим что-то к концу года, и это что-то будет понимать сильно больше языков, чем прежде, и переводить заметно лучше. Чтобы это произошло, я работаю по выходным, собирая параллельные датасеты для разнообразных малоподдержаных языков. Если вы знаете такие датасеты и хотели бы, чтобы они были включены в следующую большую модель для машинного перевода – пожалуйста, швыряйте ими в меня. Не стесняйтесь) Если же вы знаете людей, готовых не только указать на имеющийся датасет, но и самостоятельно на волонтёрских началах перевести что-то на редкий язык, то у меня для них есть три опции: (1) Датасет BOUQuET 💐(статья, датасет, портал для внесения переводов) от Меты и вашего покорного слуги. Этот бенчмарк состоит из 2000 предложений из 8 разных жанров (от чатов и рецептов до эссе и публичных объявлений), написанных с нуля нашими лингвистами так, чтобы максимизировать разнообразие. Предназначение – отслеживать прогресс того, насколько хорошо разные модели переводят эти тексты (как FLORES, но он посложнее и менее разнообразный). Сейчас датасет переведён на 9 языков, скоро добавим ещё штук 40. Плюс каждый может зайти на наш портал и добавить переводы новый язык. Портал устроен похоже на CommonVoice: сначала одни волонтёры добавляют свои переводы, потом другие волонтёры их проверяют. Когда новый язык полностью проверен, мы добавляем его в датасет на Huggingface и он становится доступен для всех. И вскоре рисёчеры начинают оптимизировать качество перевода на ещё один язык 🙃 (2) Датасет SMOL от Гугла и добавление языков в Google Translate. Ключевая часть датасета – SmolSent, это около 1000 английских предложений средней сложности, подобранных так, чтобы обученные на их переводах модели умели переводить разнообразную лексику (статьи про это: Gatitos 🐈и SMOL 🤏). Недавно Isaac Caswell из Гугла создал дискорд-группу, где обсуждается расширение этого датасета, добавление языков в ГуглПереводчик, и потенциально многое другое. Если вы занимаетесь технологиями для малоподдержанных языков, предлагаю вступить!
(Если ссылка на дискорд не будет работать, пишите мне, вышлю новую) (3) WMT 25 Open Data shared task от oldi.org (я в числе организаторов). Идея такая: если вы дополняете новым языком большой параллельный датасет (Bouquet, SMOL, FLORES, NLLB-Seed или какой-то ещё) или создаёте новый датасет, переведённый на много языков, то у нас можно написать про это научную статью и опубликовать её на самой важной конференции по машинному переводу (WMT, проводится вместе с EMNLP, в этом году будет в Шанхае). С разного рода техническими и методологическими трудностями мы готовы помочь. Публикация статьи занимает время и стоит денег, но даёт полезный опыт, хорошо смотрится в резюме, и помогает пиарить язык и авторов. Заявить о желании участвовать надо как можно раньше (например, в дискорде OLDI); написать статью – до середины августа. А вдобавок ко всей этой активности, когда-нибудь я всё-таки соберусь и выложу обновлённые тьюториалы по дообучению NLLB и SONAR… 🫣