Новые возможности версии 2.7: сбор статистики Yandex.Wordstat через Yandex.Direct
На текущий момент Key Collector предлагает 4 возможности сбора статистики Yandex.Wordstat:
- напрямую из wordstat.yandex.ru (классический режим; поддерживаются регионы; пакетный сбор фраз и частотностей);
- режим был деактивирован по техническим причинам;
- режим был деактивирован по техническим причинам;
- через Yandex.Direct (поддерживаются регионы; только сбор частотностей)
Напомним кратко о каждом режиме.
Первый классический режим является режимом по умолчанию. Он позволяет производить как пакетный сбор фраз из левой и правой колонок, так и уточнять все виды частотностей для имеющихся в таблице фраз. При этом можно задать настройки региональности, если потребуется.
Минусом данного режима являются технические ограничение, которые накладывает сам сервис Yandex.Wordstat:
- При проверке частотностей необходимо формировать отдельные запросы для каждой проверяемой фразы. За счет этого увеличивается время сбора информации.
- При большом количестве запросов могут понадобиться дополнительные прокси-серверы, т.к. сервис может наложить санкции в виде вечной капчи или бана (также можно попробовать сменить IP-адрес, сбросив подключение к Интернету, если IP-адрес выдается провайдером динамически).
Внимание: на сегодняшний день для съема частотностей рекомендуется использовать скоростной съем частотностей через Yandex.Direct (4-й режим). Данные будут полностью совпадать с данными Yandex.Wordstat, но процесс съема происходит в десятки раз быстрее и безопаснее.
Что касается съема фраз из левой и правой колонок, то это можно сделать несколькими способами:
- напрямую или через прокси-серверы, используя 1-й режим (рекомендуется);
- напрямую или через дорогие выделенные прокси-серверы, используя 2-й режим (если в обычном Yandex.Wordstat Ваш IP и Ваши дорогие выделенные прокси-серверы уже забанили).
Ранее мы публиковали 2 статьи по настройке работы с большим количеством публичных прокси-серверов низкого качества (первая статья, вторая статья). В настоящий момент данные настройки могут не принести ожидаемого эффекта, поэтому следуйте указанным выше рекомендациям.
Режим был деактивирован по техническим причинам.
Режим был деактивирован по техническим причинам.
Четвертый режим был введен в последней версии программы. Он позволяет быстро определять частотность для имеющихся в таблице фраз. В отличие от третьего режима сбора через API данный режим поддерживает настройки региональности и абсолютно бесплатен. В этом случае программа использует интерфейс Yandex.Direct для получения необходимых данных, за счет чего достигается огромная скорость съема данных (до 1000 фраз в минуту для 1 потока).
Для того, чтобы получить частотности Yandex.Wordstat в этом режиме, сперва необходимо задать рабочие аккаунты Yandex.Direct в "Настройках - Парсинг - Yandex.Direct".
При желании Вы можете указать несколько аккаунтов. Количество потоков сбора будет ограничено количеством добавленных аккаунтов (но Вы можете задать несколько аккаунтов в пересчете на 1 поток, например, 3 аккаунта и 2 потока). Не стоит указыть больше 10-20 потоков сбора Yandex.Direct, т.к. это может негативно отразиться на производительности. Также не указывайте слишком много аккаунтов без явной на то необходимости, т.к. процесс авторизации в них займет время.
При работе с Yandex.Direct программа выполняет сложную процедуру авторизации в аккаунтах. Именно поэтому не рекомендуется работать с Yandex.Direct через плохие прокси-серверы (рекомендуется работать либо через хорошие прокси-серверы, либо без них вообще). Учитывая эту особенность, мы снабдили окно настроек двумя опциями:
- не использовать прокси-серверы при авторизации в аккаунтах;
- не использовать прокси-серверы при выполнении запросов к Yandex.Direct.
На этом этапе основная настройка закончена. Теперь можно перейти к исследуемому проекту и нажать кнопку сбора статистики Yandex.Direct.
Перед Вами откроется окно запуска процесса cъема статистики. Задайте регион, если это требуется, выберите интересующий Вас режим сбора статистики Yandex.Direct (от него будет зависеть цена клика, CTR, но не будет зависеть частотность), выберите формат запроса.
Внимание: регионы Yandex.Direct и регионы Yandex.Wordstat - независимые. Т.к. в данном случае программа будет обращаться непосредственно к Yandex.Direct, то и учитываться будут те регионы, которые установлены именно в этом окне, а не в регионах Yandex.Wordstat.
Т.к. целью нашей задачи является съем частотностей Yandex.Wordstat, то необходимо активировать соответствующую опцию в окне запуска - "Целью запуска сбора статистики является заполение колонок частотности Yandex.Wordstat". В этом случае программа будет выполнять следующие действия:
- Частотности для фраз будут записываться в колонки частотностей Yandex.Wordstat. В зависимости от выбранного Вами формата запроса (слово, "слово" или "!слово") информация будет сохраняться в колонки базовой, " " или "!" частотности Yandex.Wordstat соответственно.
- Т.к. Вы дали программе понять, что сейчас Вас интересует именно сбор частотностей Yandex.Wordstat, а не остальной статистики Yandex.Direct, то программа будет ставить в очередь на обработку фразы, анализируя наличие данных статистики именно в колонках частотности Yandex.Wordstat. Т.е. если Вы используете режим сбора "Строки с неполученными данными", то при запуске процесса на обработку поступят фразы, у которых отсутствует статистика в колонках частотности Yandex.Wordstat, а не в колонках статистики Yandex.Direct.
После окончания настройки параметров съема статистики и нажатия на кнопку "Получить данные" программа приступит к сбору статистики.
Особенности работы четвертого режима
Огромная производительность данного режима достигается за счет того, что на анализ фразы отправляются в пачках, а не поштучно.
К сожалению, с этим связано несколько неприятных особенностей.
- Yandex.Direct может "склеивать" синтаксически похожие фразы в одну. Например, фразы "пластиковые окна" и "окна пластиковые" будут склеены. В результате программа не сможет записать статистику для этих фраз, потому что в отчете сервиса присутсвует только статистика для их сгруппированного варианта, а не для каждой фразы в отдельности.
- Yandex.Direct принимает фразы, состоящие не более чем из 7 слов, поэтому длинные НЧ фразы проанализировать не получится.
- Yandex.Direct крайне придирчив к любым символам, отличным от букв русского и английского алфавита и цифр, поэтому фразы, содержащие знаки препинания и другие спец. символы, будут проигнорированы.
- Если в пачке фраз содержится хотя бы одна фраза, которая не удовлетворяет условиям Yandex.Direct, то вся пачка фраз отвергается с ошибкой. К сожалению, программа не всегда сможет на 100% верно выполнять предварительную фильтрацию, т.к. Yandex.Direct при проверке фраз может использовать множество внутренних условий, о существовании которых нам пока не известно, включая полный синтаксический анализ фразы (Яндекс отлично знает русский язык, и может это делать крайне эффективно).
Во всех перечисленных случаях непрошедшие проверку или склееные фразы будут оставаться без статистики. Если такие имеются, то Вы можете просто повторно запустить сбор статистики в режиме сбора "Строки с неполученными данными".
В этом случае программа отправит на анализ лишь те фразы, для которых отсутствует статистика. Если после одного или нескольких повторных запусков у Вас остались непроверенные фразы (например, фразы со спец. символами или длинные НЧ фразы, состоящие более чем из 7 слов), то Вы можете дособирать для них частотность в классическом режиме.