1.2Kпросмотров
5 декабря 2023 г.
Score: 1.4K
Всем привет! 👋 В прошлом месяце Александр Борминцев выкатил в паблик инструмент для определения тематики запросов. Я потестировал, на большинстве тематик мне понравилось как классифицирует запросы (за исключением ниши «Авто», но Александр обещал в ближайшее время доработку). Однако, как вы думаю уже поняли по публикациям в канале – меня в настоящее время больше интересует работа с дроп-доменами, нежели с семантикой. Пришла идея попробовать определить тематику дропов. В анализаторе у Алексея Чекушина можно на вход подать не только ключевые фразы, но и URL. В digimetr.com такого нет – закинуть можно только ключи. Но мне вариант закидывать URLs в любом случае не подошел бы, т.к. если домен дропается, то и сайт уже не доступен. Л – логика. Поэтому закидывать решил «фразы» вида: site:domain1.ru
site:domain2.ru
site:domain3.ru
… Анализатор должен собрать по ним сниппеты и определить тематику (всё как с обычными ключами). Короче протестировал на паре десятков своих сайтов, везде плюс-минус определило корректно 🆒. На этом можно было и успокоиться, но тут проснулся интерес и решил проанализировать более детально. Взял старую базу сайтов из Яндекс.Каталога за 2014 год, всего 160 000 сайтов. Сделал выборку из базы:
◉ Домен 2 уровня в зоне RU
◉ Выкинул поддомены и/или внутренние страницы (да, такое тоже было)
◉ Выкинул где домен был одновременно в 2х и более рубриках (да-да)
Осталось ~ 60 000 доменов. При помощи A-Parser пробил WHOIS доменов, оставил только сайты с датой регистрации домена до конца 2013 года (чтобы снизить вероятность дропа домена и смены тематики). Осталось ~37 000 доменов. При помощи всё того же A-Parser пробил главные страниц и собрал теги <title>, выкинул где данные не собрались, либо есть сообщение об ошибке, продаже домена и т.д.
Осталось ~23 000 доменов. При помощи XMLProxy.RU пробил выдачу на [site:domain.ru], выбрал только те домены, где есть 30+ страниц в поиске (мало страниц в поиске = плохо определится тематика, можно было выбрать 10+, но решил срезать косты на проверке).
Осталось ~19 000 доменов. Закинул весь этот список доменов на проверку в https://digimetr.com/ru/topic-classify, получил результаты, начал смотреть.
Поскольку сайты в Яндекс.Каталог могли размещаться на разном уровне вложенности, как «в глубине»:
/Бизнес/Производство и поставки/Электроника и электротехника/Электротехника/Электростанции, генераторы, ИБП/ Так и на первом уровне:
/Универсальное/ Для начала я решил посмотреть на сколько точно DigiMetr определяет первый уровень тематики у сайтов. Разбил рубрики по слешам, выполнил сравнение. Получилось что корректно определено для 14692 сайтов из 19233, т.е. 76%. Очень даже неплохо! 🔥🔥🔥 Дальше начал смотреть второй уровень. Пришлось сперва немного сократить количество проверяемых сайтов – убрал те, где в Яндекс.Каталоге у сайта не было второго уровня, а в DigiMetr был. Например в ЯК сайт был в «/Учёба/Универсальное/», а DigiMetr положил его просто в «/Учёба/». И наоборот, если в ЯК был второй уровень, а у DigiMetr только первый. Срезалось не очень сильно, с 19233 до 19042 сайтов, т.е. минус 1% где-то. По второму уровню точность ожидаемо снизилась, тематика совпала у 12136, т.е. 63% - всё еще не плохо. 🔥🔥 Также посмотрел третий уровень. Аналогично убрал сайты, где в ЯК или в DigiMetr этот уровень отсутствовал, осталось 17433 сайтов. По третьему уровню тематика совпала у 8532 сайтов, т.е. 48%. 🔥 Из-за ограничений TG на длину поста, примеры сюда не влезли, поэтому кому интересно - можете глянуть на VC.RU Всю базу с результатами проверки в паблик выкладывать не планирую, вот тут ознакомительный фрагмент по 300 строк на каждой вкладке docs.google.com Если вам был нужен инструмент для определения тематики сайтов (поиск дроп-доменов, ссылочных доноров на биржах / аутриче, нагул профилей под ПФ на сайтах определенной тематики), рекомендую попробовать данный метод, как по мне – качество выходит очень достойное.