̶̶с̶а̶м̶̶о̶изолента мёбиуса

̶с̶а̶м̶̶о̶изолента мёбиуса

@izolenta_mebiusa💻 Технологии🇷🇺 Русский📅 март 2026 г.

Костыли и технологии для обработки естественных языков. Обзоры статей и личный опыт. by @cointegrated

📊 Полная статистика📝 Все посты
##39
2.7K
Подписчики
2.7K
Ср. охват
99.6%
Вовлечённость
19
Постов
~0.1
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

19 из 19
Iizolenta_mebiusa
izolenta_mebiusa
2 июл., 01:54

Мы тут обновили датасет FLORES+ до версии 3.0, вмёржив ряд правок, накопившихся за последние месяцы: 1) Добавили ладинский язык, на котором говорят в районе Доломитовых Альп. Он выглядит похоже на итальянский с лёгким вайбом французского и немецкого, и там есть буквы öëü 🙃 2) Обновили орфографию для чувашского и даргинского (там прежде было много случаев использования латинских букв, например, Ă и I, вместо похоже выглядящих кириллических Ӑ и Ӏ*). 3) Обновили номера предложений для аранского ди...

👁 9.0K
Iizolenta_mebiusa
izolenta_mebiusa
6 июл., 15:11

Я тут поглядел на substack ещё, и решил, что это хорошее место для дублирования постов отсюда – но на английском и для тех, у кого потенциально нет Телеги. Так что вот первый пост в Möbius Duct Tape.

👁 5.1K
Iizolenta_mebiusa
izolenta_mebiusa
1 дек., 10:46

🚀 Turkic languages translation challenge at LoResMT'2026 We invite MT & low-resource NLP teams to a new shared task on translating Turkic languages under realistic low-data conditions. 🔹 Language Pairs: Russian-Bashkir (available now!) English-Chuvash (available now!) Russian-Kazakh English-Tatar (available now!) Russian-Kyrgyz Other language pairs will be available shortly. 🎯 Why join? Turkic languages are morphology-rich, dialectally diverse, under-served in MT. This task targets real impac...

👁 5.1K📷 photo
Iizolenta_mebiusa
izolenta_mebiusa
10 нояб., 19:17

Мои коллеги выкатили Omnilingual ASR: новое семейство моделей для распознавания речи (считайте, следующая версия моделей MMS), которые поддерживают полторы тыщи языков и могут поддержать новые языки в режиме few-shot in-context learning — и при этом на мэйнстримных языках типа русского приближаются по качеству к Whisper (хоть и не поддерживают пунктуацию и прописные буквы). Чекпойнты, код, веб демка и статья прилагаются. Есть маленькие модели (от 300M параметров), которые должно быть несложно до...

👁 4.8K
Iizolenta_mebiusa
izolenta_mebiusa
28 июн., 21:17

Меня спрашиваю: где попробовать вышеупомянутую модель? Отвечаю: модели нет в открытом доступе. Но мы точно выложим что-то к концу года, и это что-то будет понимать сильно больше языков, чем прежде, и переводить заметно лучше. Чтобы это произошло, я работаю по выходным, собирая параллельные датасеты для разнообразных малоподдержаных языков. Если вы знаете такие датасеты и хотели бы, чтобы они были включены в следующую большую модель для машинного перевода – пожалуйста, швыряйте ими в меня. Не сте...

👁 4.0K
Iizolenta_mebiusa
izolenta_mebiusa
3 нояб., 22:15

На этой неделе буду на конференции EMNLP в Шанхае — представлять статьи про Bouquet (новый датасет для оценки качества машинного перевода) и про Open Language Data Shared task 2025 (улучшение и расширение старых датасетов, таких как FLORES и NLLB-Seed). Буду рад увидеться с теми, кто тоже будет там)

👁 3.5K
Iizolenta_mebiusa
izolenta_mebiusa
24 июн., 22:48

Хочу рассказать про статью Improving Language and Modality Transfer in Translation by Character-level Modeling от нашего стажёра Ioannis Tsiamas с моим участием. Дано: энкодер предложений (SONAR), который понимает текст на 200 языках (и при помощи декодера может переводить с любого из них на любой). Задача: научить его понимать ещё больше языков, а заодно устную речь. Решение: CharSONAR. Рецепт следующий: 1. Сокращаем словарь энкодера, убрав из него все subword tokens длиннее одного символа, и о...

👁 3.4K
Iizolenta_mebiusa
izolenta_mebiusa
30 нояб., 00:00

На этой неделе буду на конференции EMNLP в Шанхае — представлять статьи про Bouquet (новый датасет для оценки качества машинного перевода) и про Open Language Data Shared task 2025 (улучшение и расширение старых датасетов, таких как FLORES и NLLB-Seed). Буду…

👁 2.8K📷 photo
Iizolenta_mebiusa
izolenta_mebiusa
1 дек., 10:46

Для тех, кто хочет попробовать себя в машинном переводе, соорудив полезную систему перевода и сделав про неё статью на престижной конференции, shared task — это, пожалуй, лучший формат. Благодаря участию в подобной дорожке 6 лет назад я в итоге и стал research engineer, так что желающим пойти тем же путём — рекомендую посвятить новогодние каникулы участию в этой таске по переводу для тюркских языков)

👁 2.5K
Iizolenta_mebiusa
izolenta_mebiusa
28 февр., 13:05

В последний год, как вы могли видеть, мой канальчик затих. Причина следующая: я выторговал себе на работе проект по машинному переводу для всех языков, и погрузился в него на 100% от своих возможностей. На все другие темы не было сил и внимания, а разглашать ничего про этот проект прежде времени не хотелось, ибо конфиденциальность. К сожалению, за этот год у нас (FAIR) успело смениться руководство, политика, и мировоззрение, и проект нас заставили свернуть. Самое обидное, что и уже полученные мо...

👁 2.2K

Типы хуков

Нейтральный14 | 2.8K просм.
Статистика3 | 908 просм.
Вопрос1 | 4.0K просм.
История1 | 5.1K просм.

Длина постов

Очень длинные (1000+)10 | 2.4K просм.
Средние (200-500)5 | 2.3K просм.
Длинные (500-1000)2 | 5.0K просм.
Короткие (<200)2 | 2.9K просм.

Влияние эмодзи

4.2K
С эмодзи (7)
1.8K
Без эмодзи (12)
+126.3% охвата

Типы контента

📝
14
text
3.0K просм.
📷
5
photo
1.9K просм.
̶с̶а̶м̶̶о̶изолента мёбиуса (@izolenta_mebiusa) — Telegram-канал | PostSniper