W
Work & Beer Balance
@workbeer1.5K подп.
804просмотров
53.2%от подписчиков
15 марта 2026 г.
Score: 884
Наткнулся на очень интересный цикл статей о современном веб парсинге от Lalit Mishra. 1-10 Части про обод блокировок парсеров Автор рассказывает как Cloudflare, Akamai, WAF и пр. анализируют трафик уже на транспортном уровне и вычисляют автоматизированные запросы. Как автоматизированный трафик отличается при анализе порядка запросов. И конечно же как сделать так чтобы ваш питон скрипт делал запросы в точности такие как у хрома или лисы. Как пройти капчу любой сложности. 11-15 Инфраструктура и оптимизация Рассказывается как построить хорошо скейлящуюся архитектуру для скрапера, от микро оптимизаций flask до работы с Bigdata. 16-18 Использование LLM в парсинге Любопытные заметки о том как максимально дешево и эффективно парсить html c помощью LLM, как снижать нагрузку, писать промпты для парсера, экономить токены, нормализовать вывод llm в строгую форму. Как собрать аналитику и агрегировать и строить RAG пайплайны по собранным данным 19-22 Легальность Про мониторинг работы пауков, как обнаруживать и избегать "токсичных" данных в датасетах чтобы ваc не засудили, что значат все эти сложные юридические термины, что и как скрапить можно а что нет. разбор судебных исков Reddit против Anthropic, и Meta против Bright Data
804
просмотров
1238
символов
Нет
эмодзи
Нет
медиа

Другие посты @workbeer

Все посты канала →
Наткнулся на очень интересный цикл статей о современном веб — @workbeer | PostSniper