243просмотров
92.4%от подписчиков
1 августа 2025 г.
Score: 267
Semantic Outlier Removal with Embedding Models and LLMs Наткнулся на интересную статью с практичным подходом к очистке веб-страниц Проблема знакома многим: при парсинге сайтов приходится отделять основной контент от навигации, футеров, рекламных блоков и прочих элементов интерфейса Обычно это решается написанием специфичных правил для каждого сайта — трудозатратно и неуниверсально Автор предлагает элегантное решение через эмбеддинги:
1. Извлекаем все HTML-теги с текстом и фиксируем уровень их вложенности
2. Передаем эти данные в модель эмбеддингов
3. Отдельно подаем заголовок страницы и основную тему
4. Фильтруем элементы по семантическому расстоянию Подход работает универсально — модель понимает смысловую связь между элементами и основной темой страницы, автоматически отсекая нерелевантный контент Выглядит перспективно, особенно для проектов, где нужно обрабатывать контент с разнородных сайтов Кто-то уже применял подобные методы? Буду благодарен за опыт использования и ссылки на реализации (мб уже знаете либы для очистки через LLM)