804просмотров
53.2%от подписчиков
15 марта 2026 г.
Score: 884
Наткнулся на очень интересный цикл статей о современном веб парсинге от Lalit Mishra. 1-10 Части про обод блокировок парсеров
Автор рассказывает как Cloudflare, Akamai, WAF и пр. анализируют трафик уже на транспортном уровне и вычисляют автоматизированные запросы.
Как автоматизированный трафик отличается при анализе порядка запросов. И конечно же как сделать так чтобы ваш питон скрипт делал запросы в точности такие как у хрома или лисы. Как пройти капчу любой сложности. 11-15 Инфраструктура и оптимизация Рассказывается как построить хорошо скейлящуюся архитектуру для скрапера, от микро оптимизаций flask до работы с Bigdata. 16-18 Использование LLM в парсинге
Любопытные заметки о том как максимально дешево и эффективно парсить html c помощью LLM, как снижать нагрузку, писать промпты для парсера, экономить токены, нормализовать вывод llm в строгую форму.
Как собрать аналитику и агрегировать и строить RAG пайплайны по собранным данным 19-22 Легальность
Про мониторинг работы пауков, как обнаруживать и избегать "токсичных" данных в датасетах чтобы ваc не засудили, что значат все эти сложные юридические термины, что и как скрапить можно а что нет.
разбор судебных исков Reddit против Anthropic, и Meta против Bright Data