Кластеризация запросов по данным serp. Документация.

Это модуль, который позволяет сгруппировать запросы на основании топа Яндекса. Такая группировка позволяет понимать, какие запросы могут быть продвинуты на одной странице.

Зачем нужно?

  • Быстро и эффективно разобрать свое семантическое ядро.
  • Понять, какие запросы могут вести на одну страницу.
  • Упростить устранение «левых» запросов из ядра.
  • Использовать для построения структуры.

Что подается на вход?

Список запросов (в форме или *.xlsx файлом).

В файле должен быть один столбец, в котором содержатся запросы. В форме — каждый запрос с новой строки. В запросах должны быть только печатные символы (русские/английские буквы (также допускаются буквы белорусского и украинского языков), цифры, пробел, дефис, «/». Все лишние символы автоматически удаляются, как и дубликаты запросов.

Скачать пример входного файла (бесплатно, без смс и регистрации) === ТЫЦ

Код региона, согласно таблице кодов Яндекса.

Список кодов можно посмотреть у Яндекса. По умолчанию стоит 213 = Москва. Кластеризация будет выполняться по топам указанного региона.

Галочка альтернативного формата нумерации групп (опционально).

Изменяет принцип нумерации групп (только правила присвоения номеров, группы остаются только такими же). Что это и зачем надо — ниже. (Если вам лениво разбираться — не ставьте эту галочку. Она не влияет на алгоритм группировки)

Результат кластеризации

В файле содержатся столбцы:
key — grp1 — grp2 — grp3 — grp4 — spec-grp

Столбец key — это сам запрос.
В столбце key содержатся сами запросы. Столбцы grp1-4 — 4 столбца кластеризации с определенными порогами. Grp1 — кластеризация по 3 урлам, grp2 — по 4м урлам, и.т.д. Последний столбец «spec-grp» - «тематическая» группировка. Подробнее о столбцах.

grp1 — это наиболее широкая группа (сформировання по 3м урлам). Это означает, что все запросы, имеющие одинаковый номер группы в столбце grp1, относятся к одной группе. Группа формируется по принципу «существует как минимум 3 урла, которые присутствуют в топ-10 по каждому из запросов группы». Группы grp2-4 созданы по аналогичному принципу, но минимум урлов для объединения у них, соответственно, 4-6.

Группы grp1 нумеруются от наибольшей к наименьшей. Самая большая (по количеству запросов в ней) получает номер 1. Группа поменьше — 2, и так далее.

Группы grp2-4 нумеруются следующим образом. Самая большая подгруппа предыдущей группы наследует её номер. Остальные нумеруются большими числами (от 10000). Выглядит это так:

При включенной галочке «альтернативная нумерация групп», группы grp2-4 нумеруются по аналогии с grp1. Т.е. самая большая grp2 получает номер 1. Поменьше — номер 2. Аналогично grp3 и grp4. Выглядит это так:

spec-grp — так называемая «тематическая группировка». Это очень широкое объединение групп из столбца grp1. Создана для ускорения фильтрации/разбора больших ядер. Также хорошо разделяет омонимию (виза в грецию/виза или мастеркард/виза начальника).

Наверх