Текстовый анализатор. Документация.

Что это такое?

Это модуль, который позволяет проанализировать текущую оптимизацию страницы и подсказывает оптимальное количество вхождений. Анализ проводится на базе топ-10 Яндекса, умеет анализировать оптимизацию страницы сразу по нескольким запросам.

Зачем нужно?

  • Проанализировать качество оптимизации своей страницы.
  • Понять правильную (с точки зрения поиска) структуру документа.
  • Сформировать ТЗ на оптимизацию (Текст, тайтл, и.т.д.)

Что нужно для запуска:

  • Файлик со списком запросов. Скачать пример входного файла: ТЫЦ
  • Код региона, по которому проводить анализ (По умолчанию 213 - Москва)
  • Чекбокс "Соответствие по типу страниц" (по умолчанию выключеноключено)
  • Чекбокс "Анализировать только пересечения" (по умолчанию выключено)
  • Стоп-лист сайтов (до 10 строк, по умолчанию там яндекс и википедия)

Альтернатива загрузки через файл - форма ниже. В ней можно задать проверку одного урла и списка запросов к нему. Подаётся файл с запросами ИЛИ форма.

Подробнее о входных данных:

Список запросов (в форме или *.xlsx файлом).

Обычный файл формата *.xlsx В файле должно быть два столбца. В первом столбце - URL, во втором - запрос, этому урлу соответстующий (не перепутайте столбцы местами!). В запросах должны быть только печатные символы (русские/английские буквы (+белорусские и украинские), цифры, пробел, дефис, «/»). Дубликаты система удалит самостоятельно при нахождении.

Внимание! Система принимает до 10 запросов (включительно) на одну страницу. Если на какую-либо страницу в файле будет больше 10ти, будут рассмотрены только первые десять. При распределении запросов по страницам рекомендуем вам использовать наш кластеризатор.

Скачать пример входного файла (бесплатно, без смс и регистрации) === ТЫЦ

Код региона, согласно таблице кодов Яндекса.

По умолчанию 213 - Москва. Если вы продвигаете региональный сайт, необходимо ввести соответствующий ему в Яндексе код.

Чекбокс "Соответствие по типу страниц"

Если выключен - анализируются все страницы. Если включен - только соответствующие вашей по типу (главная/внутренняя). Т.е. если вы анализируете главную, то из топа для анализа будут браться только главные. По умолчанию - выключен.

Чекбокс "Анализировать только пересечения"

Если включен - анализурются только те урлы, которые находятся в топ-10 Яндекса по всем указанным для страницы запросам. Может комбинироваться с "соответствием по типу страниц". По умолчанию отключен.

Стоп-лист сайтов

Если какие-то сайты вы подозреваете в попадании в топ-10 через постель по особому благословению Яндекса, можете исключить их из рассмотрения добавив в стоп-лист (без wwww). По умолчанию в стоп-листе Яндекс и Википедия. Убираются из рассмотрения анализатором все урлы, которые находятся на любом из указанных доменов или их субдоменов.

Что вы получаете в выходном файлике?

Выходной результат в файле сегментирован по страницам Вначале идет URL и поданные к нему запросы. Для каждого запроса указан статус - участвовал ли он в анализе. (Может не участвовать, если не нашлось ни одного документа в топ-10 Яндекса, подходящего требованиям).

Далее идет таблица фраз и вхождений. В левом столбце - фразы, вхождения которых нужно добавить или убрать. При этом * - обозначает любое слово, кроме слов содержащихся в поданных вами запросах для данной страницы и их словоформ. Например, для запросов
купить розового слона
купить маленького слона

вхождение купить * слона может обозначать "купить большого слона", "купить комнатного слона", и.т.п.

Если фраза взята в квадратные скобки (например: [розовый слон]), то это означает вхождение в любой словоформе кроме присутствующих в любом из поданных запросов. Например, если в вашей задаче были запросы:
розовые слоны
розовый слон стоимость
купить розового слона

То в качестве вхождения для [розовый слон] могут выступить любые словоформы этой пары слов КРОМЕ "розовые слоны", "розовый слон" и "розового слона". При этом важно, что для такого вхождения достаточно отличия словоформы только одного слова.

Если фраза взята в квадратные скобки И содержит звездочку (например: [купить * слон]), то это означает вхождение в любой словоформе кроме присутствующих в любом из поданных запросов со словом вместо звездочки, которое НЕ содержится в запросах ни в точной форме ни в словоформе

Например, для запросов
купить слона розового
купить маленького слона

В качестве вхождения для [купить * слон] может выступить "купить синих слонов" (отличается словоформа "слонов" плюс слова "синих" не содержится в запросах). Но не может "купить розовых слонов", поскольку "розовых" является словоформой "розового", содержащегося в запросе.

Есть 3 раздела в таблице - top-10, diff и src.

  • top-10 - это "эталон", посчитанный по топ-10 Яндекса.
  • diff - разница между вашей страницей и эталоном.
  • src - данные по вашей странице.

В каждом разделе есть данные по 5 зонам документа.

  • <title> - число вхождений фразы в мета-тег
  • <body> - вхождения, которые можно разместить в любом месте в body (<a>, текстовые фрагменты или сео-текст)
  • <a> - число вхождений фразы в тег <a> (исходящие со страницы ссылки, внутренние и внешние).
  • text-fragment - число вхождений в маленькие кусочки текста (например - в описаниях товара в листинге магазина)
  • plain-text - число вхождений в seo-текст

Важное замечание! <body> - это НЕ сумма вхождений по зонам title, text-fragment и plain-text. Это ДОПОЛНИТЕЛЬНЫЕ вхождения к УЖЕ РАСПРЕДЕЛЁННЫМ в эти зоны. При этом для вашей страницы (src) <body> ВСЕГДА должен быть равен нулю для всех вхождений и объёма контента. Поскольку неоднозначность в распределении вхождений может возникнуть только при анализе нескольких документов.

Для каждой фразы указано число вхождений, оцененное анализатором на основании совокупности присутствующих в топе сайтов.
Под фразами расположена строка с числом слов. Также приводится оптимальное значение для каждой зоны и текущее на странице.
Внимание! Слов! Не символов! Если вы хотите перевести слова в символы - умножьте на 7 (средняя длина слова) для текста без пробелов и на 8 если с пробелами.

FAQ по текстовому анализатору.

Q: Анализатор не выдал никаких результатов!
A: Эта ситуация случается когда все запросы выдают “not_url_for_anlz”
Типично два случая:

  • У вас в задаче установлена галочка “соответствие по типу страниц” (она стоит по умолчанию). В этом случае если на вход подана морда - анализатор будет разбирать только морды. Если в топе все страницы внутренние - страниц для анализа нет. И наоборот, если вы подали на анализ внутреннюю, а в топе только главные страницы. Для решения проблемы нужно снять галочку, или (что лучше), пересмотреть распределение запросов по страницам.
  • У вас поставлена галочка “анализировать только пересечения”. В этом случае в разборе будут участвовать только те урлы, которые присутствуют в топ-10 по каждому (!) из поданных для страницы запросов. В этом случае, если таких урлов нет, - ни один запрос проанализирован не будет. Также для этих урлов будет работать правило соответствия морда/внутренняя если стоит соответствующая галочка.

Q: Анализатор не проанализировал мою страницу! В файле только top-10, нет diff и src!
A: Это означает одно из двух:

  • Робот не смог получить доступ к вашей странице. Убедитесь, что сайт не блокирует доступ ботов с немецких IP-адресов.
  • Страница содержит критические ошибки вёрстки. Например - остутствуют закрывающие теги </body> и </html>, неправильно указана кодировка, и.т.п.
Если вы уверены что бот не блокирует вашу страницу и что ошибок верстки нет - напишите нам на support@just-magic.org с указанием id задачи.

Q: Зачем нужно <body>?
A: Представим себе ситуацию, когда в топе анализируется 9 страниц. У 3х страниц вхождение “сбор семантики” в тегах <a>. Ещё у трёх - в текстовых фрагментах. И у трёх оставшихся - в plain-тексте. В этом случае система не знает в какую зону отнести вхождение и помещает его в <body>.

Q: Почему в <body> не сумма полей?
A: <body> - это НЕ сумма вхождений в <a>, text-fragment и plain-text. Это вхождения, которые анализатор не смог однозначно отнести к какой-либо из этих трёх зон. Система помещает туда вхождения сообщая оптимизатору - эти вхождения нужно сделать на странице, но не принципиально в какой из трёх зон.

Q: Почему у моей страницы в <body> нули?
A: Ситуация с неоднозначностью определения вхождения в какую-либо зону документа возникает когда анализатор разбирает несколько документов. Когда разбирается один документ - неоднозначности быть не может и в <body> всегда будут нули.

Q: Анализатор рекомендует убрать вхождения из текста и добавить их в body. Как это понимать?
A: Это может ничего не означать (можно оставить как есть), а может означать необходимость перемещения вхождений в text-fragment или <a>. Чтобы выбрать правильный вариант - посмотрите на документы в топе и оцените визуально их структуру и расположение вхождений.

Q: Что попадает в text-fragment, а что в plain-text?
A: Граница между text-fragment и plain-text проходит на уровне 50 слов. Контейнеры (div, tr-td) содержащие более 50 слов попадают в plain-text, меньше - во фрагменты. Есть ряд исключений, например когда ненумерованный список занимает более половины контейнера.

Q: Что из себя представляют на странице text-fragment и plain-text?
A: Это разделение было введено для страниц листингов интернет-магазинов и похожих на них по структуре страниц. Чтобы можно было понять - присутствуют ли в топе тексты или большой объем контента просто размазан по кратким описаниям товаров в листинге. Для сайтов услуг и информационных страниц разделение text-fragment и plain-text не принципиально.

Q: У меня на странице один большой текст! Где анализатор нашёл фрагменты?
A: Это могли быть куски текста с большой долей текста в ненумерованных списках (<ul><li>) или вёрстка абзацев <div>-ами.

Q: Почему ТА считает в словах? Как их перевести в символы?
A: Потому что поиск считает в словах :)
В символы для русского языка можно перевести умножив результат на 7 (без пробелов) или на 8 - с пробелами.

Q: ТА выдал какой-то бред! Не может быть столько вхождений на столько слов!
A: Обычно это случается когда вы неправильно подобрали запросы на страницу. ТА не проверяет совместимость запросов, а честно считает сколько и каких вхождений требуется для присутствия в топе по каждому из них. Если запросы имеют очень разную оптимизацию - вы получите большой список вхождений, явно не влезающий в предложенные объёмы текста.

Q: Можно ли копировать результат по зоне plain-text и ставить ТЗ на текст?
A: Нельзя. Необходимо оценить адекватность результата и в случае его отсутствия - проверить совместимость ведущих на страницу запросов. Помимо этого, необходимо рассмотреть результат зоны <body> и решить, какие вхождения необходимо переносить в plain, а какие - в другие зоны документа.

Наверх