1.6Kпросмотров
11 февраля 2026 г.
📷 ФотоScore: 1.7K
AI-first подход для сложного парсинга На прошлой неделе повозился полдня с Клодом и сделал умный парсер ЖК для сайта о недвижимости.
Предыстория: нужно добавить на проект порядка 200 объектов – жилых комплексов. Как бы я поступил раньше? Я бы выгрузил топы, спарсил картинки, заголовки, нанял бы четверых фрилансеров, чтобы они руками заполнили информацию об объектах. Каюсь, первая мысль была именно такой – сделать все по старинке. Но как только моя рука потянулась, чтобы написать сообщение моему ассистенту, я почувствовал дискомфорт. Это было моё уязвлённое самолюбие! Эй, чел, ты же автоматизатор, блин, нейронщик, пропагандируешь принцип AI-first, а сам втихаря ручками?)) Неее, так не пойдёт, подумал я и за пару тройку часов написал умный парсер. Идея предельно проста: вытаскивать парсером все тексты со страниц ЖК и отправлять их по API в OpenAI, снабдив мастер-промптом, который найдёт в текстах нужную мне информацию, структурирует её и выдаст в Markdown по шаблону. Написал скрипт, покрутил мастер промпт и температуру, протестировал разные модели, лучшей оказалась GPT-5. Схема работы
1. На вход - список жилых комплексов
2. Парсим топы, в том числе используя вайт-лист и стоп-лист сайтов 3. Готовим табличку: объект, урлы доноры (от 5 до 7 в среднем ), и тайтлы для проверки адекватности найденных углов
4. Следующий шаг пришлось сделать вручную – это проверить URL-адреса и теги title, чтобы выкинуть нерелевантные странички. На данном этапе лучше кожаных пока не справляется никто
5. Дальше всё улетает в GPT и возвращается в виде Markdown списка и json файла
6. Маркдаун нам пригодится для итоговой проверки. В нем собрана и структурирована информация по объекту, например, срок сдачи, ближайшие локации, тип недвижки (апарты, таунхаусы и прочее), статус объекта, класс объекта и прочее и прочее
7. Json файл пойдет у нас для импорта в админку после проверки и фактчекинга риэлторами Знаете, что самое интересное? Я думал, у меня израсходуется куча денег, тем более что я использовал дорогую модель GPT-5. 100 объектов мне встали в 12 центов или примерно в 10 рублей! Короче, AI-first подход работает! Теперь не нужно выискивать CSS-селекторы, XPath-выражения – экономия времени в разы. Если для интернет-магазинов, как будто бы, до сих пор лучше парсить по старинке с помощью XPath-выражений, то для разнородных страниц – например, для сайтов услуг или объектов недвижимости – выделение сущностей без нейронок выглядело просто неосуществимой задачей!