176просмотров
17 января 2026 г.
📷 ФотоScore: 194
✴️ Немного о боли русского языка и системе поиска Мы часто усложняем: хотим прикрутить нейросети, векторные базы данных и искусственный интеллект туда, где нужно просто немного логики. Казалось бы, юзер вбил в поиск слово "инвестиция". В английском все просто: invest. А в русском начинается: инвестиции, инвестициям, инвестициями, инвестиционных... Но есть решение — стемминг. Это шаблон, который отрезает окончания и подсвечивает все слова с "инвестиц". Так же работает и Google-поиск. Первоисточником является работа Мартина Портера, опубликованная в июле 1980 года. Стеммы позволяют отказаться от тяжелых библиотек. Весь алгоритм для русского языка уложился в 20 строк кода. Почему это круто для разработки и дизайна: 1. Регулярные выражения работают быстрее любого AI-запроса. 2. Не нужно хранить гигабайтные словари лемм. Просто немного математики и лингвистики. 3. Для пользователя все происходит так же привычно, как при наборе запроса в Google. ⟬ Ссылка на статью про Stemming ⟭