Key Collector —
ваш личный помощник при составлении семантического ядра

Сбор Yandex.Wordstat через прокси-серверы

Внимание: на сегодняшний день для съема частотностей рекомендуется использовать скоростной съем частотностей через Yandex.Direct (4-й режим). Данные будут полностью совпадать с данными Yandex.Wordstat, но процесс съема происходит в десятки раз быстрее и безопаснее.

Внимание: рассмотренный в статье сервис прокси-серверов ни в коем случае не является рекомендацией! С момента публикации статьи прошло много времени и изменений на стороне Yandex.Wordstat. Видео, приложенное к статье, является лишь демонстрацией работы с плохими прокси-серверами.

ИНСТРУКЦИЯ И ВИДЕОМАТЕРИАЛЫ ДАВНО УСТАРЕЛИ И НЕАКТУАЛЬНЫ. МЫ НЕ РЕКОМЕНДУЕМ ПОВТОРЯТЬ ЭТИ НАСТРОЙКИ НА СЕГОДНЯШНИЙ ДЕНЬ. ПОКАЗАННЫЕ В ВИДЕОФАЙЛЕ СЕРВИСЫ ПРОКСИ-СЕРВЕРОВ НЕАКТУАЛЬНЫ. МЫ НЕ ДАЕМ НИКАКИХ СОВЕТОВ ВЫБИРАТЬ ИМЕННО ЭТИ СЕРВИСЫ.

Как известно, с определенного времени сервис Yandex.Wordstat установил довольно жесткие ограничения на сбор информации: за большое количество запросов в лучшем случае выдавались бесконечные капчи, а в худшем - полная блокировка (ошибка 403 или отсутствие ответа на запросы). Решением данной проблемы всегда были прокси-сервера, а с версии 2.6.41 - сбор через Yandex.Direct. Мы не остановились на достигнутом и улучшили работу программы через прокси-сервера, оптимизировав алгоритм сбора и добавив новые опции в программу.

Во-первых, мы усовершенствовали модуль проверки доступности прокси-серверов. Теперь он поддерживает работу в многопоточном режиме, а также предусматривает два варианта пользовательского интерфейса: упрощенный и профессиональный.

Скриншот Key Collector

Упрощенный режим требует минимум усилий для быстрой проверки качества добавленных в таблицу прокси-серверов. Все, что необходимо сделать, это установить желаемое количество потоков и нажать на кнопку запуска процесса. В программе предусмотрены быстрые проверки в Yandex.Wordstat (при этом заблокированные прокси-сервера получат статус "испорченных"), поиске Yandex и Google, статистике LiveInternet.

Скриншот Key Collector

Профессиональный режим позволяет дополнительно задать период времени, в течение которого программа будет ждать ответа от прокси-сервера, прежде чем вынести решение о его состоянии (не устанавливайте слишком маленькое значение, т.к. большинство прокси-серверов обрабатывает запрос за несколько секунд. Также учитывайте ширину канала и количество потоков, чтобы программа успевала получить ответы на сформированные запросы). Также профессиональный режим позволяет Вам самостоятельно задавать маркеры, которые Key Collector будет искать в ответа выбранного сервиса.

Во-вторых, мы добавили новые настройки для сбора статистики Yandex.Wordstat. Среди них:

В-третьих, мы изменили логику работы функции пропуска прокси-серверов при встрече капчи (Настройки - Анти-капча - Общие настройки). Если опция автоматического пропуска включена, то теперь при встрече капчи при работе через прокси-сервер тот деактивируется на 360 секунд.

Как увеличить скорость сбора статистики через большое количество прокси-серверов низкого качества

Если съем статистики через качественные прокси-сервера никогда не вызывал трудностей, то работа с сотней другой публичных бесплатных прокси-серверов могла происходить крайне медленно. С помощью новых опций можно настроить программу так, чтобы и работа через данные подборки прокси-серверов была максимально быстрой.

Итак, сперва нужно найти и добавить в таблицу прокси-серверов найденные прокси-сервера. Т.к. список предполагается большим, то сделать это проще через фукнкцию загрузки из файла. После добавления списка необходимо проверить прокси-сервера на доступность. Для этого перейдите в упрощенный режим проверки, если у вас включен профессиональный, установите количество потоков исходя из пропускной способности вашего канала в Интернет и нажмите кнопку "Проверить в Yandex.Wordstat".

После завершения проверки прокси-серверов для чистоты списка необходимо удалить плохие прокси-сервера. Для этого нажмите кнопку "Инвертировать отметку" (хорошие прокси-сервера перестанут быть отмеченными, а плохие - отметятся), а затем - кнопку "Удалить отмеченные". Теперь в списке находятся только прошедшие проверку предварительно хорошие прокси-сервера (к сожалению, сказать, что они полноценно рабочие нельзя, т.к. в процессе работы с ними некоторые перестанут отвечать, другие - уйдут в бан, третьи - окажутся с бесконечной капчей и т.д.). Для того, чтобы программа стала использовать прокси-сервера при сборе статистики отметься все строки в таблице, нажав на флажок групповой отметки в заголовке таблицы.

Подобрав и активировав прокси-сервера, нужно настроить программу на максимальное быстродействие с такими прокси-серверами. Сперва установим опцию, которая будет деактивировать прокси-сервер на 360 секунд, если при работе через него будет обнаружена капча. Для этого перейдите на вкладку Настройки - Анти-капча - Общие настройки и включите опцию "Автоматически переключать прокси-сервер при встрече капчи".

Скриншот Key Collector

Следующим шагом будет настройка работы модуля сбора Yandex.Wordstat. Перейдите на вкладку Настройки - Парсинг - Yandex.Wordstat и выполните действия:

  1. включите опцию "Не уменьшать кол-во потоков при исключении прокси-серверов" (т.к. прокси-сервера достались вам бесплатно и потерять их не жалко, то можно забыть про перегрузки и баны);
  2. если ширина каналов позволит установить большое количество потоков, а прокси-серверов будет значительно больше (в несколько раз), то можно включить опцию "При ошибках получения ответа от сервиса (таймаут ответа и т.п.) исключать прокси-сервер" (в этом случае программа не будет тратить лишнее время на ожидание ответа от потенциально умерших в ходе проверки прокси-серверов). Если же прокси-серверов меньше, то данная опция может навредить, т.к. при обращении, скажем, в 10 потоков к одному прокси-серверу тот может не справить в нагрузкой и попасть в бан;
  3. установите значение параметра "Таймаут ожидания ответа от сервиса", взяв в расчет ширину вашего канала и предполагаемое качество прокси-серверов (при отсутствии проблем с шириной канала установите этот параметр в значение 8000 мс (при установке слишком маленького значения программа не будет успевать получить ответ от совершенно нормально работающих прокси-серверов, и в результате вы нанесете вред скорости сбора статистики).

Наконец, установите количество потоков, исходя из ширины вашего канала и количества добавленных прокси-серверов (при использовании прокси-серверов условно низкого качества рекомендуем количесто потоков установить в значение, меньшее чем количество прокси-серверов в 5-10 раз). Также следует отключить опцию "Использовать основной IP", т.к. установленные ранее настройки запросто могут привести к блокировке доступа к сервису. Теперь остальнось лишь установить задержки между запросами, принимая во внимание количество и качество прокси-серверов и потоков. Желательно, чтобы время простоя составляло не менее 5 секунд. Т.е. если вы установили количество потоков в 5 раз меньше, чем прокси-серверов, то параметр задержки должен быть установлен в значение не менее, чем 1 000 мс (1 000 мс * 5 = 5 000 мс = 5 секунд). На этом этапе настройка завершена.

Обращем ваше внимание, что предлагаемые значения параметров являются крайне субъективными и зависят от конкретных условий работы программы (скорость доступа в Интернет, производительность ПК, уровень качества прокси-серверов, реакция сервиса Yandex.Wordstat). Данные инструкция создана для тех, кто хочет снимать данные именно через бесплатные или крайне дешевые прокси-сервера, т.к. настройки нацелены на достижение максимальной скорости сбора, а не сохранности работоспособности прокси-серверов. Вы можете попробовать подобрать оптимальный для ваших условий таймаут ожидания ответа от сервера, количество потоков и задержки.

Как увеличить скорость сбора статистики Яндекс Вордстат

Как увеличить скорость сбора статистики Яндекс Вордстат?

База ключевых слов Key Collector (получаем многократное ускорение)

База ключевых слов Key Collector