Автор: Алексей Чекушин – создатель сервиса Just-Magic.org



Что такое LSI, и с чем едят?

Говоря простым языком, LSI – это способ определения тематики текста по содержащимся в нем словам. Например, если в документе встречаются слова «зимняя», «протектор», «шипы» – то, вероятнее всего, это текст про шины. А если – «сковорода», «запекать», «соус» – то это что-то, относящееся к кулинарии.



......



Как поставить LSI на службу SEO?

Опыт показывает, что LSI-тексты немного лучше ранжируются и гораздо реже попадают под спам-санкции. Однако, как проводить анализ? Откуда взять релевантные слова? Как оценить текст на соответствие тематике?



Хорошо, если копирайтер глубоко разбирается в вопросе, тогда LSI-текст получится сам собой. А что если нет? Тогда на помощь должна прийти автоматизация. Ниже поговорим о четырёх возможных подходах к ней:



Метод 1. Использование подсветок



Это то, что лежит на поверхности, и потому легко используется. Что подсвечивает поиск? Во-первых, это синонимы. Во-вторых, геоуказание (для геозависимых запросов) и в-третьих, какие-то тематичные слова. Например:





Зеленой рамкой выделены синонимы.



Желтой – геоуказание.



И красной – дополнительные слова подсветки.



Но сколько слов мы можем «вытащить» из подсветок: от 3 до 5? Иногда чуть больше, но всегда меньше десяти. Для полноценного написания тематического текста это не годится. Поэтому профессионалы этот способ не используют.



Метод 2. Подсчет с использованием сторонних коллекций



«Спарсить весь интернет» – задача дорогостоящая, и для целей LSI – сродни забиванию гвоздей микроскопом. Ведь только один объём данных составит не один десяток террабайт. Плюс, нам придется столкнуться с задачей фильтрации спама и дублей.



Можно попробовать использовать уже готовые коллекции. Например – корпус русского языка или тексты «Википедии». Но здесь серьезную роль начинает играть специфика коллекции. Вряд ли литературные тексты или информационные статьи Wikipedia помогут нам в написании текста для коммерческой страницы, продающей дизельные генераторы.



Стоит отметить, что весьма неплохие результаты получил Рамблер, когда применил методику LSI к своей коллекции поисковых запросов.  Однако результаты получились, скорее, применимы для расширения семантики, чем для написания текстов.



Метод 3. Подсчет на основании топа Яндекса



Основная идея подхода состоит в допущении: если документы попали в топ Яндекса, значит они тематичны. И, в общем-то, это допущение в ряде случаев верно. Но поскольку LSI-слова сами по себе являются достаточно слабым фактором, то уже на средне-конкурентных запросах мы часто будем сталкиваться с некачественным топом. Как результат, попытка провести LSI анализ приведет не к бусту страницы, а только к копированию чужих ошибок.



К плюсам метода однозначно стоит отнести простоту реализации. Достаточно вытащить документы из топ-10 Яндекса и посчитать количество вхождений каждого слова в каждом из этих документов.



В качестве основных минусов подхода следует выделить неприменимость по отношению к средне- и низко-конкурентных запросам.



Метод 4. Подсчет с использованием всей коллекции Яндекса



Этот метод является наиболее точным, поскольку мы начинаем оперировать той же коллекцией, что и Яндекс. Скачивать интернет не требуется, более того, Яндекс уже проделал за нас определенную часть работы, исключив из поиска множество дублей и спама. Для поиска по своей коллекции он уже предоставил нам отличные инструменты в виде языка поисковых запросов.



На чем же построен метод с использованием коллекции Яндекса? Мы подаем к Яндексу запросы пытаясь построить 2 униграммные языковые модели:




Модель порождения слова запросом.

Модель порождения запроса словом.


Звучит сложно, но на самом деле принцип здесь - простой.



Модель порождения слова запросом сводится к ответу на вопрос: если в документе встретился запрос, какова вероятность встретить в нем слово? Например, если в документе встретился запрос «шины bridgestone», какова вероятность появления в нем слова «зимняя»?



Модель порождения запроса словом сводится к ответу на вопрос: если в документе встретилось слово, какова вероятность встретить в нем запрос? Например, если в документе встретилось слово «шипованная», какова вероятность обнаружить в нем же запрос «зимняя резина»?



На практике для комплексной оценки двух моделей получается недостаточно, и необходимо использовать третью – «нормализующую» модель, основанную на удалении терминов и запроса друг от друга. Это не соответствует принципам LSI, о которых я писал выше, но необходимо при работе с такой «грязной» коллекцией как веб-документы, где содержательные тексты не прошли очистку от «обвязки» в виде меню/хедеров/футеров и прочей служебной информации.



Именно на этом методе построены модули «Акварель» и «Акварель-генератор» в системе Just-Magic.org. Довольно забавно наблюдать, как система работает с анализом текстов. Например, практически из любого текста она готова сделать готовый словарь спичрайтера Владимира Владимировича. Читайте только зеленые слова:





(На скриншоте представлен анализ текста про керамзитобетонные блоки, который был проведен по запросу «владимир путин»)



При этом система практически не зависит от качества текстов в топе. Например, вот как отрабатывает по запросу «сауна на двоих» анализатор, основанный на топ-10:





А вот как это делает «Акварель»:





Как можно заметить, «Акварель» «не поддалась» на часто встречающиеся в топе слова и забраковала их, как нерелевантные. Также качество топа не сказывается на результатах работы «Акварель-генератора», который создает список релевантных слов и словосочетаний. Вот примеры словосочетаний, которые он находит по данному запросу:




романтический ужин

русская баня

финская сауна

турецкого хаммама

комфортного отдыха

романтического вечера


Несмотря на явные плюсы, подобный метод имеет и свои минусы. Во-первых, он очень ресурсоемок: на проверку одного слова тратится 3 XML-запроса; а на составление списка при помощи «Акварель-генератора» уходит в среднем 2300 XML-запросов. В итоге проверка таким способом получается значительно дороже остальных, которые сегодня доступны практически бесплатно.



Во-вторых, метод чувствителен к среднему качеству коллекции текстов в интернете. Например, для запроса «синхрофазотрон» он определит слово «является» как очень релевантное, из-за того, что фраза «не всякий  синхрофазотрон  является коллайдером», часто встречается в интернете. Ну а попытка создать/проверить информационную статью по запросу «покраска бампера ваз» заведомо обречена на провал из-за засилья коммерческих текстов по данному запросу.





Как применять LSI?

На практике применение подхода LSI может использоваться в двух случаях: когда есть необходимость простимулировать дополнительный «пинок» по высококонкурентным запросам и обеспечить защиту сайта от текстового спам-фильтра.



Почему так получается? LSI-слова – достаточно слабый фактор по сравнению с теми же вхождениями, поэтому к ним стоит обращаться, когда вся базовая оптимизация уже проведена. Как её делать я подробно описывал в своей статье «Непорочное продвижение».



По высококонкурентным запросам нам приходится «давить» сразу всеми факторами, ибо в условиях большого их числа и нормализации каждого (приведения в интервал от 0 до 1) результат по ВК-запросам будет только при оптимизации всех вещей, до которых можем дотянуться.



Что же касается защиты от спам-фильтров, то это основная задача, ради которой задумывалась система. В спам-алгоритмах LSI имеет куда более значительный вес, чем в ранжировании. И если ваш сайт уже попал под санкции – переписывание текстов при помощи «Акварели» или аналогичных LSI-инструментов позволяет выйти из под санкций. А изначальное их написание с использованием LSI – не дает под них попасть.





Дополнение к статье, которое было ее началом

Что скрывается под аббревиатурой LSI?



Если объяснять простым языком, LSI – это способ определения тематики текста и группировки текстов по тематичности. Метод основан на анализе взаимосвязей между коллекцией документов и терминами (словами), которые в них содержатся.



Каковы основные принципы LSI?




Текст представляется в виде «мешка слов»: то есть, порядок слов в и их близость друг к другу значения не имеют.

Документ относится к той или иной тематике/группе на основании терминов (слов), которые в нем содержатся и частоты этих терминов (количества раз, которые они встречаются в документе).

Каждое слово имеет единственное значение. Это не совсем корректное допущение, но оно необходимо для построения модели.




Что делает LSI?



Анализирует большой объём документов и на основе встречающихся в них слов относит документ к той или иной тематике.



Как технически работает LSI?



Фактически это сингулярное разложение терм-документной матрицы, которое позволяет выловить ключевые составляющие этой матрицы и проигнорировать шумы. Но не будем о сложном и неприменимом, а для желающих разобраться предлагаю хорошую статью про LSI на habrahabr.










Обсудить  

Читайте также


Комментарии Кто голосовал Похожие новости

Комментарии