Сбор Yandex.Wordstat через прокси-серверы низкого качества
ИНСТРУКЦИЯ И ВИДЕОМАТЕРИАЛЫ ДАВНО УСТАРЕЛИ И НЕАКТУАЛЬНЫ. МЫ НЕ РЕКОМЕНДУЕМ ПОВТОРЯТЬ ЭТИ НАСТРОЙКИ НА СЕГОДНЯШНИЙ ДЕНЬ. ПОКАЗАННЫЕ В ВИДЕОФАЙЛЕ СЕРВИСЫ ПРОКСИ-СЕРВЕРОВ НЕАКТУАЛЬНЫ. МЫ НЕ ДАЕМ НИКАКИХ СОВЕТОВ ВЫБИРАТЬ ИМЕННО ЭТИ СЕРВИСЫ.
Ранее мы публиковали инструкцию по скоростному сбору статистики Yandex.Wordstat через большое количество прокси-серверов низкого качества.
Один из пользователей модифицировал предложенные настройки на тот случай, если абсолютно чистых прокси-серверов нашлось немного, но существенная часть из них находится под капчей.
Как утверждает пользователь, за 8 часов работы при данных настройках ему удается собирать частотности для более чем 10 000 фраз.
При этом уходит около 600 руб. на оплату услуг сервиса распознавания капчи.
Основу метода составляет использование сервиса автоматического распознавания капчи Antigte.com. Итак, если вы получили доступ к большому количеству публичных (не выделенных) прокси-серверов из подборок, то необходимо произвести следующую настройку.
- Настройки вкладки "Парсинг - Общие"
- Установить таймауты (задержки между запросами) в значение от 8 000 до 13 000 мс. Такие задержки снизят вероятность полной блокировки прокси-серверов, что позволит собрать больше информации через них.
- Установить кол-во повторных попыток в значение 10 (или больше). Данная мера в некоторых случаях позволит программе "прощать" ошибки загрузки информации из сервисов.
- Включить ускорение сбора данных. В этом случае программа сперва будет пытаться получить статистику в кэше, а лишь в случае отсутствия информации будет обращаться к Yandex.Wordstat. Отметим, что если вам в обязательном порядке нужны самые свежие данные, то вы можете отключить данную опцию. Однако, в общем случае этого делать не рекомендуется.
- Настройки вкладки "Парсинг - Yandex.Wordstat"
- Установить кол-во потоков в значение 20. Большее кол-во потоков не следует по нескольким причинам: увеличение нагрузки на работающие прокси-серверы, что может привести к их преждевременной блокировке; слишком большое кол-во исходящих и входящих запросов может привести к тому, что программа не будет успевать загружать в установленный срок информацию, в следствие чего будет деактивировать прокси-серверы из-за ошибок.
- Отключить использование основного IP-адреса, чтобы не допустить блокировки Yandex.Wordstat на основном IP-адресе.
- Включить опцию "При ошибках получения ответа от сервиса (таймаут ответа и т.п.) исключать прокси-сервер", чтобы не тратить драгоценное время на работу с прокси-серверами, которые, вероятнее всего, умерли. Т.к. предполагается, что мы работаем с большим кол-вом прокси-серверов низкого качества, то считается совершенно ожидаемым и нормальным то, что часть прокси-серверов не отвечает на запросы уже через минуту после их полной проверки работоспособности.
- Включить опцию "Не уменьшать количество потоков при исключении прокси-серверов", чтобы не затормаживать процесс сбора статистики при ошибках и блокировках прокси-серверов. Т.к. в первом подпункте мы установили кол-во потоков не слишком большим, то данная опция в большую часть времени сбора не будет мешать.
- Установить параметр "Таймаут ожидания ответа от сервиса" в значение 12 000 мс, т.к. прокси-серверы низкого качества могут работать довольно медленно, и нам важно не допустить их исключения из-за мелких тормозов на несколько секунд.
- Настройки вкладки "Анти-капча - Antigate"
- Включите опцию "Использовать Antigate" и впишите ваш ключ доступа, который вы получили после регистрации в сервисе Antigte.com.
Основная часть настроек на этом заканчивается. Теперь нужно лишь найти большую подборку относительно рабочих прокси-серверов (свыше 400-500 штук), добавить их в программу на вкладке "Настройки - Сеть" и выполнить их проверку в упрощенном режиме через Yandex.Wordstat. Важно использовать именно упрощенный режим, т.к. он автоматически проверяет на предмет наличия блокировки прокси-сервера.
Сам пользователь, предложивший данный метод, выполняет поиск прокси-серверов на сервисе HideMe.ru, однако следует понимать, что после публикации данной инструкции их прокси-серверов может не хватить на всех желающих (что уже наблюдалось после публикации прошлой инструкции), поэтому рекомендуется поискать и другие места.
Если вы все же хотите воспользоваться прокси-серверами HideMe.ru, то пользователь, предложивший данный метод, советует использовать следующие параметры отбора прокси-листа.
- Платная подписка на аккаунт
- Страны: все
- Тип прокси: http
- Анонимность: без разницы
- Скорость: быстрее 10 000 мс
Обращаем ваше внимание, что предлагаемые значения параметров являются крайне субъективными и зависят от конкретных условий работы программы (скорость доступа в Интернет, производительность ПК, уровень качества прокси-серверов, реакция сервиса Yandex.Wordstat).
Данные инструкция создана для тех, кто хочет снимать данные именно через бесплатные или крайне дешевые прокси-сервера, т.к. настройки нацелены на достижение максимальной скорости сбора, а не сохранности работоспособности прокси-серверов. Вы можете попробовать подобрать оптимальный для ваших условий таймаут ожидания ответа от сервера, количество потоков и задержки.