177просмотров
19 января 2026 г.
Score: 195
Бывает такое, когда умная (или красивая) ML-модель упирается в тупую проблему: данные либо грязные, либо их просто нет в машиночитаемом виде. Истории про ручной сбор и разметку знакомы всем. Поэтому в этой подборке - три инструмента, которые закрывают задачи на пути от "сырья" к нормальным данным. Продолжаю серию про полезные и, возможно, не слишком разрекламированные репозитории на GitHub, которые могут занять своё место в пайплайне. cubiclesoft/ultimate-web-scraper
Почти археологический артефакт. Представляет собой полноценный набор инструментов для веб-скрапинга на PHP, написанный с вниманием к RFC-стандартам. Его ключевая фишка не в новизне, а в надёжности и самодостаточности в некоторых ограниченных сценариях. Представь ситуацию: нужно развернуть простой, но устойчивый скрапер на стороннем хостинге, где нельзя поставить ничего, кроме PHP, или вписать сбор данных в существующую PHP-архитектуру, не привлекая внимания санитаров сторонние сервисы. Здесь найдется всё: от эмуляции cURL и работы с куками до встроенного парсера HTML с CSS3-селекторами и даже классов для поднятия своего веб- или WebSocket-сервера. Это монолит в хорошем смысле - библиотека решает проблему целиком, минимизируя внешние зависимости. D4Vinci/Scrapling
Быстрый фасад для скрапинга на Python. Он создан явно руками спецов, которые устали бороться с анти-ботами и переписывать селекторы после каждого обновления сайта. Его фишка - адаптивность и "стелс" по умолчанию. Библиотека предлагает целое семейство "фетчеров": от быстрых HTTP-запросов с подменой отпечатка браузера до полновесной автоматизации через Playwright для рендеринга JS. Но главное - заявленная функция adaptive=True, которая пытается пере-найти элементы на странице, если её структура изменилась, используя алгоритмы схожести. Для инженера, который поддерживает долгоживущие пайплайны сбора данных, такая возможность может оказаться спасительной. Плюс есть интеграция с AI через MCP-сервер для умного извлечения, что сразу наводит на мысли о полуавтоматизации подготовки датасетов. Производительность парсера, судя по бенчмаркам, тоже на высоте. Dicklesworthstone/llm_aided_ocr
Немного в сторону. Этот репозиторий решает частую проблему: как превратить сканированный PDF или картинку в чистый, структурированный текст. Бывает, что если просто прогнать через Tesseract , то на выходе получается текст с ошибками, потерями форматирования и артефактами. Автор предлагает элегантный пайплайн: Tesseract -> разбиение текста на чанки -> коррекция и форматирование с помощью LLM. И тут основная фишка выходит в детальной проработке этого процесса. Код учитывает управление токенами, асинхронные запросы к API (OpenAI, Anthropic) или локальным моделям через llama.cpp, накладывает грамматику для структурированного вывода, сохраняет контекст между чанками и даже проводит самооценку качества результата. Для аналитика или инженера, работающего с архивами документов, юридическими бумагами или историческими сканами, это готовый шаблон для построения надёжного конвейера OCR++. Он не только исправляет опечатки, но может еще и преобразовать сырой текст в нормальынй Markdown, удалить дубликаты и колонтитулы и пр. и др. Какой из этапов в пайплайне работы с данными - сбор, очистка или структурирование - отнимает у тебя неожиданно много времени? #разработка #ai #llm #GitHub