965просмотров
6 сентября 2023 г.
statsScore: 1.1K
Про ядра на 10 млн запросов + анонсы С мая с командой начали работать над большими ядрами под заказ для очень крупных порталов -- от 1 до 10-30 млн запросов. Как оказалось услуга востребована, а быстро, качественно и по приемлемой цене собирать такие ядра в рунете не умеет примерно никто. Основная сложность/особенность -- ты просто не можешь рассчитывать на те инструменты которые есть на рынке потому что они или не умеют работать с такими объемами или ты просто не уложишься в адекватный бюджет. Давайте загибать пальцы. Что нужно чтобы собрать/обработать ядро на 5-10 млн запросов (считаем что маркеры и сами запросы мы уже спарсили/собрали, хотя это тоже отдельная песня): -- Собрать топ-10 для кластеризации. Цена за 1000 запросов 10-20 рублей на рынке. Даже взяв все лимиты из xml сервисов вы быстро упретесь в потолок в 100 потоков (будет собираться долго). Цена за сбор 10 млн запросов -- 100 000 - 200 000 рублей. -- Пройти по топ-100 для сбора позиций. Ок, Яндекс мы собрали в предыдущем пункте. Ещё 100 000 - 200 000 рублей на Гугл. Скорость сбора Гугла в паблик инструментах медленнее, предложений на рынке сильно меньше. -- Кластеризация. На рынке просто нет инструмента который может это сделать для 10 млн запросов (а иногда запросов больше). -- Тематическая классификация. Маст-хэв для чистки/отсеивания говна на таком объеме. Только just magic, цена за 1 млн запросов -- 50 000 рублей на самом большом тарифе. Скорость меньше миллиона в сутки. -- WordStat. 3000 рублей за миллион частотностей на рынке, самое адекватное что нашёл. Приемлемо, но также "влетит в копеечку" на объеме. И тд Конечно же это всё было очевидно в самом начале, поэтому я сразу подключил нашу команду разработки и мы сделали все инструменты сами: -- Развернули инфраструктуру под сбор данных из ПС. Уже писал выше, сейчас объем 5 млн серпов в сутки. -- Сделали свой парсер частотностей. -- Сделали свой тематический классификатор. Теперь на рынке он есть только у just magic и у меня :) Это отдельная гордость, тк с июня сам собирал и допиливал этот инструмент на python. -- Сделали свои серверный класстеризатор, который может класстернуть ядро на 20 млн запросов буквально за 2 часа. .. И ещё много других сопутствующих инструментов такие как удаление неявных дублей, хранилище под эти запросы для быстрой обработки и тд. А теперь про то как это может быть полезно вам: 1) Сбор таких шоколадных ядер пока что делаем только знакомым. Конвеер загружен и следующие сможем взять в середине октября/ноябре, если текущие клиенты ещё что то не закажут. Возможно будем выкатывать в паблик услугу, а возможно нет :) Можете писать в ЛС @sashaborm пока что - за спрос денег не берут. 2) Тематический классификатор уже готов для выкатки в паблик. Ещё отдельно напишу в канале анонс + расскажу про кейсы его использования для тех кто ещё не знаком. 3) Готовы делиться мощностями/инструментами/решениями с другими сервисами/командами при регулярных оптовых закупках.
965
просмотров
2963
символов
Нет
эмодзи
Нет
медиа

Другие посты @art_of_seo

Все посты канала →
Про ядра на 10 млн запросов + анонсы С мая с командой начали — @art_of_seo | PostSniper