̶с̶а̶м̶̶о̶изолента мёбиуса

@izolenta_mebiusa💻 Технологии🇷🇺 Русский📅 март 2026 г.

Костыли и технологии для обработки естественных языков. Обзоры статей и личный опыт. by @cointegrated

📊 Полная статистика 📝 Все посты

##39

2.7K

Подписчики

2.7K

Ср. охват

99.6%

Вовлечённость

Постов

~0.1

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

19 из 19

izolenta_mebiusa

2 июл., 01:54

Мы тут обновили датасет FLORES+ до версии 3.0, вмёржив ряд правок, накопившихся за последние месяцы: 1) Добавили ладинский язык, на котором говорят в районе Доломитовых Альп. Он выглядит похоже на итальянский с лёгким вайбом французского и немецкого, и там есть буквы öëü 🙃 2) Обновили орфографию для чувашского и даргинского (там прежде было много случаев использования латинских букв, например, Ă и I, вместо похоже выглядящих кириллических Ӑ и Ӏ*). 3) Обновили номера предложений для аранского ди...

👁 9.0K

📊 Аналитика

izolenta_mebiusa

6 июл., 15:11

Я тут поглядел на substack ещё, и решил, что это хорошее место для дублирования постов отсюда – но на английском и для тех, у кого потенциально нет Телеги. Так что вот первый пост в Möbius Duct Tape.

👁 5.1K

📊 Аналитика

izolenta_mebiusa

1 дек., 10:46

🚀 Turkic languages translation challenge at LoResMT'2026 We invite MT & low-resource NLP teams to a new shared task on translating Turkic languages under realistic low-data conditions. 🔹 Language Pairs: Russian-Bashkir (available now!) English-Chuvash (available now!) Russian-Kazakh English-Tatar (available now!) Russian-Kyrgyz Other language pairs will be available shortly. 🎯 Why join? Turkic languages are morphology-rich, dialectally diverse, under-served in MT. This task targets real impac...

👁 5.1K📷 photo

📊 Аналитика

izolenta_mebiusa

10 нояб., 19:17

Мои коллеги выкатили Omnilingual ASR: новое семейство моделей для распознавания речи (считайте, следующая версия моделей MMS), которые поддерживают полторы тыщи языков и могут поддержать новые языки в режиме few-shot in-context learning — и при этом на мэйнстримных языках типа русского приближаются по качеству к Whisper (хоть и не поддерживают пунктуацию и прописные буквы). Чекпойнты, код, веб демка и статья прилагаются. Есть маленькие модели (от 300M параметров), которые должно быть несложно до...

👁 4.8K

📊 Аналитика

izolenta_mebiusa

28 июн., 21:17

Меня спрашиваю: где попробовать вышеупомянутую модель? Отвечаю: модели нет в открытом доступе. Но мы точно выложим что-то к концу года, и это что-то будет понимать сильно больше языков, чем прежде, и переводить заметно лучше. Чтобы это произошло, я работаю по выходным, собирая параллельные датасеты для разнообразных малоподдержаных языков. Если вы знаете такие датасеты и хотели бы, чтобы они были включены в следующую большую модель для машинного перевода – пожалуйста, швыряйте ими в меня. Не сте...

👁 4.0K

📊 Аналитика

izolenta_mebiusa

3 нояб., 22:15

На этой неделе буду на конференции EMNLP в Шанхае — представлять статьи про Bouquet (новый датасет для оценки качества машинного перевода) и про Open Language Data Shared task 2025 (улучшение и расширение старых датасетов, таких как FLORES и NLLB-Seed). Буду рад увидеться с теми, кто тоже будет там)

👁 3.5K

📊 Аналитика

izolenta_mebiusa

24 июн., 22:48

Хочу рассказать про статью Improving Language and Modality Transfer in Translation by Character-level Modeling от нашего стажёра Ioannis Tsiamas с моим участием. Дано: энкодер предложений (SONAR), который понимает текст на 200 языках (и при помощи декодера может переводить с любого из них на любой). Задача: научить его понимать ещё больше языков, а заодно устную речь. Решение: CharSONAR. Рецепт следующий: 1. Сокращаем словарь энкодера, убрав из него все subword tokens длиннее одного символа, и о...

👁 3.4K

📊 Аналитика

izolenta_mebiusa

30 нояб., 00:00

👁 2.8K📷 photo

📊 Аналитика

izolenta_mebiusa

1 дек., 10:46

Для тех, кто хочет попробовать себя в машинном переводе, соорудив полезную систему перевода и сделав про неё статью на престижной конференции, shared task — это, пожалуй, лучший формат. Благодаря участию в подобной дорожке 6 лет назад я в итоге и стал research engineer, так что желающим пойти тем же путём — рекомендую посвятить новогодние каникулы участию в этой таске по переводу для тюркских языков)

👁 2.5K

📊 Аналитика

izolenta_mebiusa

28 февр., 13:05

В последний год, как вы могли видеть, мой канальчик затих. Причина следующая: я выторговал себе на работе проект по машинному переводу для всех языков, и погрузился в него на 100% от своих возможностей. На все другие темы не было сил и внимания, а разглашать ничего про этот проект прежде времени не хотелось, ибо конфиденциальность. К сожалению, за этот год у нас (FAIR) успело смениться руководство, политика, и мировоззрение, и проект нас заставили свернуть. Самое обидное, что и уже полученные мо...

👁 2.2K

📊 Аналитика

Типы хуков

Нейтральный14 | 2.8K просм.

Статистика3 | 908 просм.

Вопрос1 | 4.0K просм.

История1 | 5.1K просм.

Длина постов

Очень длинные (1000+)10 | 2.4K просм.

Средние (200-500)5 | 2.3K просм.

Длинные (500-1000)2 | 5.0K просм.

Короткие (<200)2 | 2.9K просм.

Влияние эмодзи

4.2K

С эмодзи (7)

1.8K

Без эмодзи (12)

+126.3% охвата

Типы контента

📝

text

3.0K просм.

📷

photo

1.9K просм.

⚠️ 1/100

Подозрительно высокий охват

#3424

из 13,329 в Технологии