1.5Kпросмотров
30 декабря 2025 г.
Score: 1.7K
Ученые Института ИИ МГУ улучшили модель для поиска научных текстов Коллектив ученых из Института ИИ МГУ представил новую версию модели SciRus-tiny 3.5-zh – компактного и мощного текстового энкодера, специально разработанного для эффективного поиска в массивах научных текстов. В новой версии упор был сделан на улучшение архитектуры модели и повышение качества работы модели с текстами на китайском языке, а также на русско-китайском поиске. Для этого дополнительно был разработан и опубликован в открытом доступе бенчмарк zh-ruSciBench. Большинство флагманских LLM требуют колоссальных вычислительных мощностей как для обучения, так и для использования, что делает их недоступными для многих небольших исследовательских лабораторий и индивидуальных ученых. Во-вторых, существующие модели либо ориентированы преимущественно на английский язык, либо их многоязычные возможности ограничены, особенно когда речь идет о кросс-языковом поиске. Семейство моделей SciRus для получения эмбеддингов научных текстов разработано с фокусом на оптимальное соотношение качества работы, стоимости применения и поддержки кросс-язычного поиска. В домене научных текстов модели сравнимы по качеству с эмбеддерами, сильнейшими по международному бенчмарку MTEB, будучи в десятки и сотни раз меньше по количеству параметров. Модели успешно интегрированы в портал eLibrary.ru, улучшая качество поиска. Также, в рамках работы над SciRus, ведется разработка ряда бенчмарков для оценки языковых моделей для научных текстов. Были опубликованы в открытом доступе, помимо нового zh-ruSciBench, бенчмарк ruSciBench с широким спектром задач, многие из которых вошли в международный бенчмарк MTEB, а также ruSciFact, позволяющий оценить способность современных языковых моделей к проверке фактов. Мы получили впечатляющий результат: модель уверенно справляется с кросс-язычным поиском не только для привычных пар ru–en и en–zh, но и для ru–zh, хотя подобных примеров в обучающем датасете вовсе не было. Это означает, что нам удалось найти по-настоящему универсальный подход. Теперь мы можем обучать системы кросс-язычного поиска между любыми языками, даже если для них отсутствуют параллельные корпуса, используя третий язык – например, английский – как связующее звено. – отметил Константин Воронцов, профессор РАН, руководитель лаборатории машинного обучения и семантического анализа Института ИИ МГУ. Практическое применение моделей SciRus чрезвычайно широко. Они могут стать основой для создания эффективных систем поиска научной информации в цифровых библиотеках и архивах, позволяя исследователям быстро находить релевантные работы, в том числе на других языках. Их можно использовать для автоматической классификации научных статей по тематикам, для построения рекомендательных систем, которые могут подсказывать ученым новые публикации в их области интересов, или для анализа больших корпусов текстов с целью выявления научных трендов. Компактность моделей позволяет использовать их в проектах без использования GPU. Подробнее о разработке читайте на портале «Научная Россия»