JustMagic | Текстовый анализатор. Документация.

Что это такое?

Это модуль, который позволяет проанализировать текущую оптимизацию страницы и подсказывает оптимальное количество вхождений. Анализ проводится на базе топ-10 Яндекса, умеет анализировать оптимизацию страницы сразу по нескольким запросам.

Зачем нужно?

Проанализировать качество оптимизации своей страницы.
Понять правильную (с точки зрения поиска) структуру документа.
Сформировать ТЗ на оптимизацию (Текст, тайтл, и.т.д.)

Что нужно для запуска:

Файлик со списком запросов. Скачать пример входного файла: ТЫЦ
Код региона, по которому проводить анализ (По умолчанию 213 - Москва)
Чекбокс "Соответствие по типу страниц" (по умолчанию выключеноключено)
Чекбокс "Анализировать только пересечения" (по умолчанию выключено)
Стоп-лист сайтов (до 10 строк, по умолчанию там яндекс и википедия)

Альтернатива загрузки через файл - форма ниже. В ней можно задать проверку одного урла и списка запросов к нему. Подаётся файл с запросами ИЛИ форма.

Подробнее о входных данных:

Список запросов (в форме или *.xlsx файлом).

Обычный файл формата *.xlsx В файле должно быть два столбца. В первом столбце - URL, во втором - запрос, этому урлу соответстующий (не перепутайте столбцы местами!). В запросах должны быть только печатные символы (русские/английские буквы (+белорусские и украинские), цифры, пробел, дефис, «/»). Дубликаты система удалит самостоятельно при нахождении.

Внимание! Система принимает до 10 запросов (включительно) на одну страницу. Если на какую-либо страницу в файле будет больше 10ти, будут рассмотрены только первые десять. При распределении запросов по страницам рекомендуем вам использовать наш кластеризатор.

Скачать пример входного файла (бесплатно, без смс и регистрации) === ТЫЦ

Код региона, согласно таблице кодов Яндекса.

По умолчанию 213 - Москва. Если вы продвигаете региональный сайт, необходимо ввести соответствующий ему в Яндексе код.

Чекбокс "Соответствие по типу страниц"

Если выключен - анализируются все страницы. Если включен - только соответствующие вашей по типу (главная/внутренняя). Т.е. если вы анализируете главную, то из топа для анализа будут браться только главные. По умолчанию - выключен.

Чекбокс "Анализировать только пересечения"

Если включен - анализурются только те урлы, которые находятся в топ-10 Яндекса по всем указанным для страницы запросам. Может комбинироваться с "соответствием по типу страниц". По умолчанию отключен.

Стоп-лист сайтов

Если какие-то сайты вы подозреваете в попадании в топ-10 ~~через постель~~ по особому благословению Яндекса, можете исключить их из рассмотрения добавив в стоп-лист (без wwww). По умолчанию в стоп-листе Яндекс и Википедия. Убираются из рассмотрения анализатором все урлы, которые находятся на любом из указанных доменов или их субдоменов.

Что вы получаете в выходном файлике?

Выходной результат в файле сегментирован по страницам Вначале идет URL и поданные к нему запросы. Для каждого запроса указан статус - участвовал ли он в анализе. (Может не участвовать, если не нашлось ни одного документа в топ-10 Яндекса, подходящего требованиям).

Далее идет таблица фраз и вхождений. В левом столбце - фразы, вхождения которых нужно добавить или убрать. При этом * - обозначает любое слово, кроме слов содержащихся в поданных вами запросах для данной страницы и их словоформ. Например, для запросов
купить розового слона
купить маленького слона

вхождение купить * слона может обозначать "купить большого слона", "купить комнатного слона", и.т.п.

Если фраза взята в квадратные скобки (например: [розовый слон]), то это означает вхождение в любой словоформе кроме присутствующих в любом из поданных запросов. Например, если в вашей задаче были запросы:
розовые слоны
розовый слон стоимость
купить розового слона

То в качестве вхождения для [розовый слон] могут выступить любые словоформы этой пары слов КРОМЕ "розовые слоны", "розовый слон" и "розового слона". При этом важно, что для такого вхождения достаточно отличия словоформы только одного слова.

Если фраза взята в квадратные скобки И содержит звездочку (например: [купить * слон]), то это означает вхождение в любой словоформе кроме присутствующих в любом из поданных запросов со словом вместо звездочки, которое НЕ содержится в запросах ни в точной форме ни в словоформе

Например, для запросов
купить слона розового
купить маленького слона

В качестве вхождения для [купить * слон] может выступить "купить синих слонов" (отличается словоформа "слонов" плюс слова "синих" не содержится в запросах). Но не может "купить розовых слонов", поскольку "розовых" является словоформой "розового", содержащегося в запросе.

Есть 3 раздела в таблице - top-10, diff и src.

top-10 - это "эталон", посчитанный по топ-10 Яндекса.
diff - разница между вашей страницей и эталоном.
src - данные по вашей странице.

В каждом разделе есть данные по 5 зонам документа.

<title> - число вхождений фразы в мета-тег
<body> - вхождения, которые можно разместить в любом месте в body (<a>, текстовые фрагменты или сео-текст)
<a> - число вхождений фразы в тег <a> (исходящие со страницы ссылки, внутренние и внешние).
text-fragment - число вхождений в маленькие кусочки текста (например - в описаниях товара в листинге магазина)
plain-text - число вхождений в seo-текст

Важное замечание! <body> - это НЕ сумма вхождений по зонам title, text-fragment и plain-text. Это ДОПОЛНИТЕЛЬНЫЕ вхождения к УЖЕ РАСПРЕДЕЛЁННЫМ в эти зоны. При этом для вашей страницы (src) <body> ВСЕГДА должен быть равен нулю для всех вхождений и объёма контента. Поскольку неоднозначность в распределении вхождений может возникнуть только при анализе нескольких документов.

Для каждой фразы указано число вхождений, оцененное анализатором на основании совокупности присутствующих в топе сайтов.
Под фразами расположена строка с числом слов. Также приводится оптимальное значение для каждой зоны и текущее на странице.
Внимание! Слов! Не символов! Если вы хотите перевести слова в символы - умножьте на 7 (средняя длина слова) для текста без пробелов и на 8 если с пробелами.

FAQ по текстовому анализатору.

Q: Анализатор не выдал никаких результатов!
A: Эта ситуация случается когда все запросы выдают “not_url_for_anlz”
Типично два случая:

У вас в задаче установлена галочка “соответствие по типу страниц” (она стоит по умолчанию). В этом случае если на вход подана морда - анализатор будет разбирать только морды. Если в топе все страницы внутренние - страниц для анализа нет. И наоборот, если вы подали на анализ внутреннюю, а в топе только главные страницы. Для решения проблемы нужно снять галочку, или (что лучше), пересмотреть распределение запросов по страницам.
У вас поставлена галочка “анализировать только пересечения”. В этом случае в разборе будут участвовать только те урлы, которые присутствуют в топ-10 по каждому (!) из поданных для страницы запросов. В этом случае, если таких урлов нет, - ни один запрос проанализирован не будет. Также для этих урлов будет работать правило соответствия морда/внутренняя если стоит соответствующая галочка.

Q: Анализатор не проанализировал мою страницу! В файле только top-10, нет diff и src!
A: Это означает одно из двух:

Робот не смог получить доступ к вашей странице. Убедитесь, что сайт не блокирует доступ ботов с немецких IP-адресов.
Страница содержит критические ошибки вёрстки. Например - остутствуют закрывающие теги </body> и </html>, неправильно указана кодировка, и.т.п.

Если вы уверены что бот не блокирует вашу страницу и что ошибок верстки нет - напишите нам на support@just-magic.org с указанием id задачи.

Q: Зачем нужно <body>?
A: Представим себе ситуацию, когда в топе анализируется 9 страниц. У 3х страниц вхождение “сбор семантики” в тегах <a>. Ещё у трёх - в текстовых фрагментах. И у трёх оставшихся - в plain-тексте. В этом случае система не знает в какую зону отнести вхождение и помещает его в <body>.

Q: Почему в <body> не сумма полей?
A: <body> - это НЕ сумма вхождений в <a>, text-fragment и plain-text. Это вхождения, которые анализатор не смог однозначно отнести к какой-либо из этих трёх зон. Система помещает туда вхождения сообщая оптимизатору - эти вхождения нужно сделать на странице, но не принципиально в какой из трёх зон.

Q: Почему у моей страницы в <body> нули?
A: Ситуация с неоднозначностью определения вхождения в какую-либо зону документа возникает когда анализатор разбирает несколько документов. Когда разбирается один документ - неоднозначности быть не может и в <body> всегда будут нули.

Q: Анализатор рекомендует убрать вхождения из текста и добавить их в body. Как это понимать?
A: Это может ничего не означать (можно оставить как есть), а может означать необходимость перемещения вхождений в text-fragment или <a>. Чтобы выбрать правильный вариант - посмотрите на документы в топе и оцените визуально их структуру и расположение вхождений.

Q: Что попадает в text-fragment, а что в plain-text?
A: Граница между text-fragment и plain-text проходит на уровне 50 слов. Контейнеры (div, tr-td) содержащие более 50 слов попадают в plain-text, меньше - во фрагменты. Есть ряд исключений, например когда ненумерованный список занимает более половины контейнера.

Q: Что из себя представляют на странице text-fragment и plain-text?
A: Это разделение было введено для страниц листингов интернет-магазинов и похожих на них по структуре страниц. Чтобы можно было понять - присутствуют ли в топе тексты или большой объем контента просто размазан по кратким описаниям товаров в листинге. Для сайтов услуг и информационных страниц разделение text-fragment и plain-text не принципиально.

Q: У меня на странице один большой текст! Где анализатор нашёл фрагменты?
A: Это могли быть куски текста с большой долей текста в ненумерованных списках (<ul><li>) или вёрстка абзацев <div>-ами.

Q: Почему ТА считает в словах? Как их перевести в символы?
A: Потому что поиск считает в словах :)
В символы для русского языка можно перевести умножив результат на 7 (без пробелов) или на 8 - с пробелами.

Q: ТА выдал какой-то бред! Не может быть столько вхождений на столько слов!
A: Обычно это случается когда вы неправильно подобрали запросы на страницу. ТА не проверяет совместимость запросов, а честно считает сколько и каких вхождений требуется для присутствия в топе по каждому из них. Если запросы имеют очень разную оптимизацию - вы получите большой список вхождений, явно не влезающий в предложенные объёмы текста.

Q: Можно ли копировать результат по зоне plain-text и ставить ТЗ на текст?
A: Нельзя. Необходимо оценить адекватность результата и в случае его отсутствия - проверить совместимость ведущих на страницу запросов. Помимо этого, необходимо рассмотреть результат зоны <body> и решить, какие вхождения необходимо переносить в plain, а какие - в другие зоны документа.

Текстовый анализатор. Документация.