Тематический классификатор. Документация.

Тематический классификатор

Этот модуль определяет тематику запроса или урла.

Как определяется тематика запроса. Модуль получает SERP и анализирует слова, которые встретились в заголовках и сниппетах сайтов в топ-10. На основании этих слов строится тематический вектор. Этот вектор сравнивается с заранее построенными векторами тематик. Наиболее похожий вектор тематики выводится как тематика запроса.

Помимо запросов, тематический классификатор умеет работать с урлами. Можно определить тематику сайта (главной страницы) или любой другой страницы любого сайта.

Зачем определять тематику запроса?

Это оптимальный способ фильтрации нетематичных запросов. Обычно используется после валидации подсказочником и сбора частотности. И перед кластеризацией.

Подробнее о тематическом классификаторе можно прочитать в статье в блоге.

Чтобы оценить его возможности, можно попробовать бесплатную онлайн-демку.

Как пользоваться тематическим классификатором

На вход подаётся *.xlsx файл с запросами/урлами на классификацию. Все запросы - в первом столбце, остальные пустые. Скачать пример файла = ТЫЦ.

Второй вариант - просто подать запросы/урлы списком в соответствующее поле.

Специально обозначать где запрос, а где URL - не нужно. Просто не забудьте http/https и система всё поймёт сама.

Дополнительная настройка всего одна - Выгрузить расширенные данные категорий. Её рекомендуется использовать. Если она выбрана - вы получите не одну, а сразу 10 категорий для каждого запроса с их условными весами (по убыванию вероятности соответствия). Так удобнее работать и можно будет исправить некоторые ошибки классификатора при определении наиболее.

Как выглядит выходной файл

Первый столбец - запрос или url

Второй - наиболее вероятная тематика. Если подан URL и он отдал невалидный ответ сервера (не 200), то там будет err_666.

Дальнейшие столбцы появляются если включена галочка “Выгрузить расширенные данные категорий.”

Третий - косинусная мера близости между тематическим вектором урла/запроса и наиболее вероятной тематики.

Четвертый - вторая по вероятности тематика

Пятый - косинусная мера близости между тематическим вектором урла/запроса и второго по вероятности вектора тематики.

И так далее, выводится 10 тематик и их косинусные меры близости. С практической точки зрения обычно достаточно рассмотреть первые 3 тематики.

FAQ по тематическому классификатору

Q: А зачем он вообще нужен?
A: Чтобы быстро отсеять нерелевантные запросы. Оптимально использовать тематический классификатор после сбора и фильтрации по частотности и перед кластеризацией. Обычно для этого пользуются минус словами, но тематический классификатор гораздо эффективнее.

Q: А как он работает?
A: Тематический классификатор работает по принципу тематических векторов в N-мерном пространстве униграмм. Мы заранее сформировали вектора тематик на базе структуры Яндекс.Каталога и сверяем (считаем косинусную меру близости) между вектором SERP и имеющимися у нас векторами.

Q: А он точно работает?
A: Проверьте. Вот бесплатная демка.

Q: А по запросу **** он отдал неверную тематику!
A:Так бывает. Классификатор опирается на структурирование сайтов в Яндекс.Каталоге и распределение сайтов по этой структуре. Чем хуже выбраны сайты для конкретной ветке - тем ниже качество вектора и, соответственно, результат классификации. Для большинства тематик классификатор в целом работает хорошо, более 95% запросов распознаёт верно. Но есть, конечно, и тематики где он слаб.

Q: И как с этим быть?
A: Работать с “выгрузкой расширенных данных категорий”. И смотреть не только на первую релевантную тематику, но и на вторую и третью. Большинство ошибок связано с некорректным определением первой тематики, а вторая или третья уже определяются верно.

Q: И что, вот так смотреть по три строчки у каждого запроса?
A: Нет, достаточно просто выбрать запросы которые имеют хотя бы одну релевантную вам тематику среди первых трёх. Это делается буквально за 2 минуты в excel.

Наверх