Ш
Шрёдингер Кота
@cats_shredinger2.0K подп.
2.0Kпросмотров
22 мая 2024 г.
Score: 2.2K
Когда дело касается векторизации текстов на русском языке, моим личным фаворитом является модель Multilingual Universal Sentence Encoder (mUSE) версии large, которая помимо русского и английского может работать с еще 14 языками и которая очень хорошо себя зарекомендовала на многих прикладных задачах. За примером далеко идти не надо, Давид Дале в своей статье про сравнение рускоязычных энкодеров предложений сравнивает много моделей, где mUSE находится в лидерах 💪 Но есть некоторая "проблема", если так можно выразиться - модель доступна только в версии на TF / TF Hub, при этом я сам не раз ощущал потребность в том, чтобы дотюнить ее под свои задачи. И вот уже на протяжении двух лет я вынашивал идею того, чтобы экспортировать ее на PyTorch. Более того, я даже два раза предпринимал попытки сделать это, упирался в какие-то трудности и ограничения, и бросал это дело 😭 И вот сейчас я наконец-то довел это дело до конца и экспортировал эту модель в PyTorch, чем хочу поделиться с вами! ❤️ Сама модель доступна в HF Models, напрямую через torch (пока без нативной поддержки transformers), код конвертации и сама проделанная работа доступны в GitHub 🔥 Честно говоря, работы была не самой простой, и по факту я полностью вручную переписывал граф вычислений TF/ONNX на PyTorch. Надеюсь, что это будет полезно во времена доминирования PyTorch, особенно учитывая тренд с RAG подходами, где как раз таки нужны хорошие и сильные энкодеры для end-to-end обучения 🙏
2.0K
просмотров
1463
символов
Да
эмодзи
Нет
медиа

Другие посты @cats_shredinger

Все посты канала →
Когда дело касается векторизации текстов на русском языке, м — @cats_shredinger | PostSniper