Автор: Илья Исерсон, CEO moab.pro



Понятие искусственной семантики

Существует множество определений термина «искусственная семантика», разные люди трактуют его совершенно по-разному. Поэтому, в первую очередь важно договориться о терминологии: что понимать под искусственной семантикой в данной статье?



Искусственная семантика – это семантическое ядро, сформированное искусственно, на основе изучения реальной семантики и формирования прогноза о том, как будут выглядеть поисковые запросы в реальности. Возможно, это не лучшее определение, поэтому обратимся к практическим примерам.



Итак, что же такое «прогноз, построенный на основе реальной семантики»?



Давайте представим ситуацию, в которой маркетолог работает с выборкой, собранной по запросу [ковш для погрузчика]. В этой ситуации стандартный алгоритм действий выглядит достаточно однотипно:



- собираем семантику из доступных источников (базы ключевых слов, Wordstat, подсказки, MOAB Pro & Suggest Pro)

- получаем некоторое количество расширенных поисковых запросов, содержащих [ковш для погрузчика]

- группируем и кластеризуем ключевые запросы

- получаем группы схожих запросов, на основе которых создаем посадочные страницы, контент, заголовки и прочее



В ходе кластеризации мы можем получить совершенно разные группы запросов, которые будут базироваться на неких реальных сущностях, вокруг которых группируется спрос в этой тематике:



[ножи для ковша погрузчика] + некоторое кол-во однотипных расширенных запросов

[ковш для погрузчика + %brand%] – т.е. ключевые слова, в которых пользователь уточняет, для какого именного бренда погрузчиков ему нужен ковш

[ремонт ковша для погрузчика] + некоторое количество однотипных расширенных запросов

[емкость/вместимость ковша для погрузчика] + некоторое количество однотипных расширенных запросов



Так или иначе, очевидно, что в рамках каждой тематики расширенные запросы формируются вокруг более мелких «подтем», которые, в свою очередь, зависят от тех реальных сущностей (ножи, ремонт, бренды), которые востребованные в оффлайне.



И, в случае тематики [ковш для погрузчика], мы не можем «заранее» предсказать или спрогнозировать эти сущности, не будучи специалистом по погрузчикам. Единственный способ выделить возможные пользовательские проблемы – получить статистически достоверный массив семантики, а затем выполнить ее кластеризацию.



Однако, в некоторых тематиках дело обстоит по-другому. Иногда у маркетолога появляется возможность, на основе изучения и анализа статистически достоверной выборки, спрогнозировать, как будут выглядеть запросы и спроектировать сайт и маркетинговую стратегию на основе этих данных.



Классический пример – туризм, в частности, и вообще все, что так или иначе базируется на «географических» запросах, связанных с перебором стран/городов как набора переменных:



а) Список стран на сайте 1001Тур



б) Для каждой конкретной страны контент довольно похож, различается только страна и собственно сами туристические предложения. Сравните, например, страницы про Мексику и Абхазию:




одинаковый, маленький, «неуникальный» в классическом смысле слова текст, от страницы к странице подменяется только страна. Адепты карго-культа о расчете количества употреблений каждого конкретного слова на странице могут испытать неприятные ощущения в области спины



все title созданы по единой схеме: %страна% - туры, цены на отдых в Абхазии 2016 вылет из Москвы: путевки, новости, погода, курорты и достопримечательности - 1001 Тур.



все h1 созданы по единой схеме: Туры в %страна% 2016 из Москвы



активно эксплуатируется тема прогнозирования запросов под «будущий» трафик.


Например, вряд ли кого-то удивят страницы формата:





Горящие туры за картошкой в раскладке по месяцам: страница 1, страница 2, страница 3



При этом самих по себе предложений горящих туров в Белоруссию на сайте нет, что однозначно говорит о том, что страницы были просто склонированы по шаблону, а затем на них были выведены туры «по соответствию» в поле «страна».



При этом страницы без предложений из индекса убирать не стали, что однако, не помешало им занять место в ТОПе Яндекса.



Однако многих, вероятно, может удивить наличие в индексе вот таких страниц:





Маркетологи 1001Тур грамотно клонируют страницы не только по переменным %город% и %страна%, но и по переменным %месяц%, %год%, так как знают, что даже создав «пустую» страницу без туров под «будущее» можно застолбить место в выдаче уже сейчас. Фактически, страницу с возрастом 1-2 года, появившуюся задолго до появления запроса [туры гоа 2017], в каком-нибудь условном феврале-декабре 2017 будет очень тяжело «подвинуть» в топе.



Таким образом, мы увидели главное – запросную базу в некоторых тематиках при необходимости можно разложить на составляющие (=переменные), спрогнозировать значение этих переменных, а затем получать как органический, так и контекстный трафик на основе этих переменных.



Искусственная семантика и уникальность текста

Зачастую использование искусственной семантики для получения органического трафика сталкивается не столько с какими-либо техническими или организационными трудностями, сколько с огромным набором предрассудков и предубеждений, существующих в головах оптимизаторов.



Один из ключевых предрассудков – так называемая уникальность текста. Уникальность текста в трактовке обычного оптимизатора – это уникальный набор слов. Уникальность набора измеряется при помощи специальных программ, использующих метод шинглов. Однако, когда речь идет об искусственной семантике, подразумевается, что тексты на всем сайте будут одинаковыми – на каждой конкретной странице будет подменяться только набор заранее заданных переменных – город, месяц, адрес, год, и так далее.



Чаще всего это вызывает подлинный испуг: как!?? Ведь тексты будут неуникальными!



Тут необходимо сделать разъяснение: уникальность текстов, измеренная по методу шинглов давно игнорируется Яндексом в любых тематиках, для Google существуют как позитивные (в большинстве случаев), так и негативные примеры, в зависимости от тематики. Оговорюсь, что под позитивными и негативными примерами я понимаю не столько сами позиции (неинформативная метрика), сколько получение или неполучение значительного количества трафика с поисковой системы при использовании как бы неуникальных текстов.



Еще раз: проверка текста на уникальность, которую стандартный оптимизатор выполняет при помощи Advego Plagiatus (или любого аналога) – не имеет смысла. Грамотное построение сайта и взаимодействие с поисковой системой в рамках ее правил может дать вам большое количество трафика, даже при использовании на 100% скопированного контента, «шаблонного» контента с использованием переменных или комбинации этих приемов.



Что же понимают поисковые системы под «уникальным текстом»?



Поисковые системы давно и хорошо умеют две вещи:



а) отслеживать взаимодействие пользователя с конкретным документом

б) составлять «фактическую» выжимку из документа



Работу «фактической» выжимки можно отлично видеть на примере Яндекс.Новостей, когда документы, описывающие одно и то же событие разными словами, приводятся к одному знаменателю: Выставку «Ван Гог. Ожившие полотна 2.0» продлили до 8 марта.



На поиске отрабатывает комбинация указанных факторов: с одной стороны, важно насколько успешно документ решает пользовательскую проблему, с другой – насколько уникален набор фактов, предложенный пользователю по его проблеме в данном документе.



Исходя из своего опыта, могу сказать, что сам не проверяю на уникальность тексты, которые пишут для меня копирайтеры. Однако, работая с постоянным набором копирайтеров и редакторов, даю им четкую установку: любое слово и фраза в тексте должно быть употреблено потому, что сообщает пользователю некий важный факт, связанный с его проблемой, ради решения которой он посещает страницу.



Ниже будет показано, что «неуникальные» тексты могут привлекать значительное количество трафика из поисковых систем – и при этом их, так называемая «неуникальность», не приводит к каким-либо негативным последствиям.



Искусственная семантика для некоммерческих проектов

В первую очередь представлю вниманию читателей реальный кейс проекта, построенного на искусственной семантике, а затем на примере расскажу, как сделать «проект» сайта на искусственной семантике своими руками и с минимальными затратами.



Кейс: сайт тематики «Отопление», некоммерческий сезонный трафик, 90% трафика – поисковые системы, примерно равное распределение между Yandex и Google. Сайт привлекает траффик по геонезависимым запросам. В индексе 3000 страниц (5526 загружено роботом, 3053 – страниц в поиске).



Для всех 3000 страниц используются 4 шаблона текста, тайтлов, дескрипшнов и h1. В шаблонах подменяется только город и область. Расходы на контент для этого сайта составили около 3000 рублей. Монетизация – открутка рекламы, как Adsense, так и прямые баннеры наших коммерческих партнеров. Ссылки не покупались.



Пик сезона, с точки зрения спроса, – конец весны, и затем плавный рост до октября-ноября:





На этом скриншоте из Метрики мы видим:



1. Суммарная посещаемость – почти 300 000 посетителей менее чем за 3 месяца

2. Пиковые значения – 12000 и 6000 посетителей в сутки из Google и Yandex соответственно

3. Отказы – чуть более 10%, то есть очевидно, что несмотря на «шаблонный» контент, пользователи вовлечены во взаимодействие с сайтом

4. Время просмотра – чуть более минуты в среднем, в зависимости от поисковой системы



На данный момент сайт в индексе, посещаемость на уровне 500 посетителейсутки, плавно начинает расти в преддверии весеннего сезона. К сожалению, я не могу показать URL сайта, но предлагаю рассмотреть на простом примере алгоритм построения подобных сайтов.



Итак, возьмем для примера тематику «Бани». Тематика достаточно простая, в качестве переменной в запросах используется много географических обозначений. Предположим, что в итоге мы хотим создать сайт-агрегатор информации о банях и саунах в регионах России. Ниже будет показан упрощенная общая схема действий – в данном случае не преследуется цель сделать лучший в мире сайт о банях, важно лишь показать общий принцип обработки семантики на практике.



Будем придерживаться следующего плана:



1. Спарсим и проанализируем семантику

2. Разработаем структуру сайта в Excel на основе данных анализа

3. Закажем контент для страниц категорий и страниц описаний собственно банных комплексов



Парсинг и анализ семантики

Возьмем выборку из обновленной 6-миллиардной базы MOAB Suggest Pro (аккуратно, выборка с доп.данными – около 60 МБ), это все запросы с вхождением «Бани» с точной частотностью более 1, для региона «Россия».



Всего найдено 282 995 запросов.



Анализ файла в инструменте «Анализ групп» в Key Collector показывает, что выборка в высокой степени насыщена однотипными региональными запросами вида:



[бани + %что-то еще% + %регион%]



(Скриншоты: Воронеж, Клин, Тверь, Иркутск).



Это позволяет нам утверждать, что данная тематика подходит для наших целей: список регионов – это набор заранее известных переменных, а что скрывается под %что-то еще% - как раз сейчас мы и выясним.



Разработаем структуру сайта в Excel на основе данных анализа

Во-первых, сравним несколько выборок по запросам с городами: [бани воронеж], [бани самара], [бани спб]. В ходе сравнения нам необходимо выполнить кластеризацию – проще всего это делать при помощи инструмента «Анализ групп» в КК, но можно воспользоваться и любым другим удобным методом кластеризации. Наша задача – сравнивая кластеризованные выборки, найти группы пользовательских интересов, востребованные вне зависимости от города, то есть вычислить наиболее популярные «добавки», то самое «что-то еще», о котором мы говорили выше - [бани + %что-то еще% + %регион%]



Даже в результате поверхностного анализа выявляется следующий список групп:



- бани на дровах

- бани с вениками

- бани с бассейном

- бани со спа

- общественные бани

- бани с бочкой

- бани турецкие

- бани римские

- мобильные бани



Таким образом мы получили так называемый список категорий второго уровня. Пока оставим эту информацию в стороне и внимательно посмотрим, какие слова часто употребляются вместе с названием любой случайной бани, то есть вычислим наиболее стандартные «добавки» для формулы - [%название бани% + %город% + %что то еще%]



Для этого нам надо взять статистически достоверный массив запросов, состоящий только из названий бань – а затем снова кластеризовать его. В результате подобной операции выявлено, что чаще всего вместе с названием бани и городом употребляют следующие словосочетания:



- официальный сайт

- цена, прайс лист

- фото

- отзывы

- адрес

- телефон

- часы работы



Эта информация поможет нам при создании собственно каталога бань.



Теперь у нас есть вся информация, необходимая нам для создания структуры сайта. Полученную информацию можно преобразовать в файл плана сайта, который в Excel выглядит вот так.



Давайте вместе разберем этот файл более подробно, а также более подробно разъясним зачем нам понадобилось проводить анализ семантики, описанный выше.



Вкладка «Общая структура сайта»

На этой вкладке рассмотрена общая структура проектируемого сайта. Все страницы разбиты по уровням вложенности:





Обратите внимание, что существует два каталога второго уровня, дочерних от главной страницы:



- каталог с категорийными страницами

- каталог со страницами собственно банных комплексов



При помощи нехитрых скриптов, имеющихся в большинстве современных CMS, на более позднем этапе мы осуществим автоматический вывод релевантных банных комплексов на каждой странице.



Особо хотелось бы обратить ваше внимание на текстовые параметры сайта: тайтл, дескрипшн и H1 – они используют переменные %область%, %город%. Во всех текстовых тегах упомянуты синонимы слова «баня» - «парилка» и «сауна», для сбора большего количества низкочастотного трафика в соответствующем городе:





Важно правильно понимать, что на данной схеме дается лишь ограниченное количество страниц, чтобы схематически показать общую структуру сайта.



На боевом варианте сайта будет взята база всех областей РФ (а, возможно, и ex-СНГ), база всех городов в этих областях, будет создано соответствующее количество страниц.



Наконец, самое важное – столбец «Контент»:



Под словом «текст№ххх» в данном столбце подразумевается отдельный шаблон текста – то есть, как не трудно увидеть, всего на сайте будет использоваться 7 шаблонов текста. В самих шаблонах будут использоваться уже знакомые нам переменные – город, область, название бани.



Не рекомендуется делать тексты очень большими – в данной ситуации будет вполне достаточно объема в 1500-2000 символов, однако, постарайтесь заказать шаблон действительно профессиональному копирайтеру, возможно, бывшему журналисту – так, чтобы текст был на самом деле увлекательным, интересным, наполненным полезной информацией.



Почему именно 7 шаблонов? Как видно, используется отдельный шаблон на каждом уровне – ввиду того, что каждый уровень – это как бы немного другая реальная сущность, несущая немного другую смысловую нагрузку, поэтому лучше использовать шаблоны максимально адаптированные для каждого уровня в отдельности.



Вкладка «Таблица с информацией о банях»

В этой таблице приведены поля, которые необходимы нам в каталоге бань и саун, а также для примера выполнено заполнение этих параметров по одной выдуманной бане.



Итак, параметры в столбцах A-I появились в таблице неспроста:





Именно эти слова, как показывает наш анализ, чаще всего употребляют пользователи вместе с названием некоей случайно бани, а значит – наша задача – дать ответ на все вопросы вида - [%название бани% + %город% + %что то еще%].



В данном конкретном случае это означает, что в нашем огромном каталоге бань по каждой бане должна быть информация по сайту, телефону, часам работы, адресу бани, а также ее фотографии.



Откуда взять этот контент?



Здесь вариантов масса, в зависимости от того что предпочитаете лично вы: можно заказать программисту скрипт парсинга некоего публичного источника, либо воспользоваться базами данных организаций, которые в изобилии можно купить или скачать в интернете бесплатно в виде Excel. Там есть все эти данные, и не составит труда перенести их в нашу таблицу.



Несколько труднее обстоит дело со столбцами I-S.



Как вы помните, категоризация на уровне 6 в общей структуре сайта подразумевает создание страниц вида:





Чтобы решить эту задачу, нам необходимо сделать две вещи:



- создать поле «тип бани» на самой категорийной странице и внести туда значение drova=true или же veniki=false

- создать аналогичное поле на странице собственно бани, чтобы затем автоматически вывести все релевантные бани с фильтрацией по городу, области и типу на соответствующей странице.



То есть, например, к выводу бань на странице «Бани на дровах в Красноярске» будет автоматически применен фильтр city=Krasnoyarsk и drova=true.



Если с информацией о городе мы уже разобрались, то все несколько сложнее с категоризацией второго уровня. Здесь наиболее оптимальный путь – выдать таблицу с заполненными полями A-I фрилансеру (а лучше нескольким) и попросить их расставить значения «да-нет» в соответствующих полях за умеренную плату.



Поверьте, расходы будут невелики, особенно с учетом того что фриланс сейчас – это рынок покупателя, а не продавца.



Вкладки «Уровень 4,5,6»

Наиболее остро стоящая проблема для подобных сайтов на искусственной семантике – создание страниц.



90 областей + (1000 городов * 9 категорий) + как минимум несколько тысяч страниц с описанием банных комплексов = итого 4-5 тысяч страниц вам гарантированы.



Проблема создания страниц решается достаточно просто – для любой популярной CMS вы без труда найдете скрипт загрузки страниц из xlsx или csv. В этом представлении, 1 строка = 1 страница.



Давайте посмотрим, что происходит на наших вкладках с точки зрения массовой загрузки? На вкладке «Таблица с информацией о банях» - все просто. Сколько строк, столько и страниц, каждая страница обладает 18 полями с расширенной информацией о бане. Однако у нас остались еще категорийные страницы – с ними все то же самое, просто их нужно представить в аналогичном построчном виде.



Уровень 4 «Области»; уровень 5 «Города»; уровень 6 «Категории внутри города»



В таблицах представлено ограниченное количество городов и областей исключительно для понимания процесса. Значения переменных в таблицах берутся из столбцов, существующих в этой же таблице. В этой связи – можно обратить внимание на столбец H в таблице «уровень 6», где значение переменной city приводится в родительном падеже для использования в заголовке.



В итоге, можно резюмировать, что создание некоммерческих/информационных проектов на основе искусственной семантики состоит из нескольких этапов:



- сбор семантики и выявление в ее структуре прогнозируемых переменных (город, месяц, отель, курорт, баня, заправка и пр.)

- составление структуры сайта на основе информации о популярных переменных

- создание шаблонных текстов для каждого уровня

- представление текстового контента ( в т.ч. и текстовых тегов) в виде Excel-таблиц с переменными в разбивке по уровням

- замена переменных их реальными значениями на этапе обработки в Excel или после загрузки в CMS (нежелательно это делать при генерации страницы – излишняя нагрузка на базу, тогда как на практике такой контент редактируется редко и пользы и удобства от переменных немного)

- автоматизация загрузки контента в движок



В следующем выпуске рассылки выйдет статья, где будет рассмотрено применение искусственной семантики для коммерческих проектов – для получения как контекстного, так и органического трафика.




Обсудить  

Читайте также


Комментарии Кто голосовал Похожие новости

Комментарии