Эволюция поисковых алгоритмов Яндекса
Яндекс – наиболее популярный поисковик в Рунете, поэтому большинство компаний предлагает продвижение именно в этой поисковой системе.
У каждой поисковой системы свои особенности функционирования; интересно рассмотреть работу алгоритма ранжирования. В данной статье мы посмотрим, как устроен Яндекс, и как он работает.
Яндекс как поисковая система
Как вообще устроена поисковая система? Поисковая система состоит из трех частей: робота, базы данных и клиентской части. Рассмотрим эту логическую структуру подробнее.
Робот (или crawler) – это специальная программа, которая загружает содержимое интернет-сайтов. Робот работает по специальному расписанию, по которому он и осуществляет обход сайтов для дальнейшей их загрузки.
Затем, те страницы сайта, которые были загружены роботом, обрабатываются специальным образом и помещаются в базу данных на хранение. Удивительно, но к настоящему моменту в базе Яндекса хранится содержимое около 5 млрд страниц! Для хранения столь гигантских объемов информации используют специальные серверы.
Клиентская часть поисковой системы самая важная. Она отвечает за обработку запросов и выдаваемые результаты поиска. Каждый день Яндекс сталкивается с 50 млн пользовательских запросов, которые он обрабатывает.
Умение поисковой системы находить лучшие ответы на запросы пользователя определяет качество ее работы. Так мы подошли к понятию «алгоритм ранжирования».
Алгоритм ранжирования представляет собой систему математических формул для оценивания конкретных факторов, на базе которой поисковик присваивает сайту (то есть странице) соответствующий рейтинг. Факторами могут служить следующие факторы: наличие слов из запроса, авторитетность сайта, наличие ссылок на документ и др. К настоящему моменту Яндекс использует алгоритм ранжирования, учитывающий примерно 250 факторов.
Что же происходит в Яндексе, когда пользователь ищет, например, «пластиковые окна».
Сначала запрос обрабатывается синтаксическим анализатором, приводя запрос к начальной форме. Затем по базе идет поиск всех документов, в которых есть слова «пластиковый» и «окно».
Дальше определяется релевантность каждого отдельного документа запросу пользователя. То есть для всех 12 миллионов документов со словами «пластиковый» и «окно» подсчитывается значение релевантности. После этого формируется выдача, где все документы ранжированы по убыванию релевантности.
Алгоритм ранжирования является одной из основных частей поисковой системы. Теперь давайте рассмотрим, какие изменения происходили с алгоритмом Яндекса, а затем подробнее остановимся на последней его версии и особенностях продвижения в Яндексе к настоящему моменту.
Алгоритмы Яндекса
Изменения стали происходить с лета 2007 года. Предлагаем вам проследить историю этих изменений.
Магадан
Новый поисковый алгоритм начал тестироваться в апреле 2008 года; было вдвое увеличено число факторов ранжирования, и добавлен ряд других изменений:
Яндекс стал понимать аббревиатуры. Кроме этого, начали обрабатываться слова, написанные транслитом – т.е. запросы «Шкода» и «Skoda» стали практически равноценны, и поэтому результаты поиска по этим запросам стали похожими.
Яндекс принялся массово индексировать зарубежные сайты (около миллиарда страниц на иностранных языках были добавлены в индекс). Следствием стало усиление конкуренции по запросам, включающим только иностранные слова, потому что в выдаче теперь появлялись и зарубежные сайты.
Находка
Тестирование этой версии алгоритма Яндекса было начато в июле 2008 года. Из внедренных нововведений отметим следующее: было улучшено ранжирование по запросам с союзами и предлогами (т.е. с стоп-словами), расширился словарь связей (тезаурус), по многим запросам в выдаче стала появляться Википедия.
Этот алгоритм стал серьезным шагом в направлении к увеличению разнообразия в выдаче результатов запросов, связанных с приобретением товаров или услуг, а также запросов информационной составляющей (что-то почитать или посмотреть). Этот шаг значительно усилил конкуренцию по множеству запросов.
Арзамас
В апреле 2009 в Яндексе заработала поисковая программа — Арзамас. В июне был сделан апдейт, и в основном поиске стал работать Арзамас 1.1. В августе 2009 появился Арзамас 1.2, который по-новому классифицировал гео-зависимые запросы.
Был введен алгоритм снятия омонимии (основываясь на лексической статистике слов, Яндекс научился определять из запроса самый вероятный смысл омонимичной фразы). Возьмем запрос «стойка лука». В результатах поиска окажутся страницы, где изложена информация по технике стрельбы из лука и где описывается правильная поза (стойка) во время стрельбы.
Наиболее важное новшество Арзамаса – это учет региона пользователя. Так стали различаться результаты выдачи для пользователей из разных регионов. Был дан импульс для развития «регионального продвижения», но молодым сайтам стало сложно пробиваться в топ выдачи, потому что Яндекс не мог установить их региональную принадлежность. Можно было несколько месяцев от продвижения потратить на наращивание ссылочной массы и подачу заявки в Яндекс для присвоения необходимого региона.
Снежинск
В ноябре 2009 года появилась новая версия алгоритма поиска – Снежинск.
Коренным образом изменился алгоритм расчета релевантности, была создана более сложная математическая модель; для одного документа стали учитываться несколько тысяч параметров поиска.
Основное нововведение этого алгоритма – технология Матрикснет (новый метод машинного научения).
Продвижение сайтов значительно усложнилось, стало менее подконтрольным для оптимизатора.
Еще сильнее стало отличаться ранжирование по гео-зависимым и гео-независимым запросам.
Молодым сайтам стало еще сложнее выйти в топ-10 по высокочастотным запросам, это стало занимать гораздо больше времени.
Значительные изменения, связанные с методикой анализа текстового наполнения сайтов, произошли в начале 2010 года. Стали попадать под фильтрацию страницы с большим количеством ключевых слови, а затем они и вовсе исчезали из выдачи. Приоритетным стал качественный копирайтинг, а именно умение создать релевантный текст, при этом избежав претензий от Яндекса.
Выросли и услуги на продвижение сайтов.
Матрикснет раз в месяц «обучается», поэтому позиции сайтов в выдаче меняются без учета свежей информации о выложенных текстах и проставленных ссылках.
Как итог, успех современной компании по продвижению сайтов зависит теперь в основном от четко построенного технологического процесса внутри компании. Необходимо следить за всеми нововведениями Яндекса и вносить коррективы в стратегию продвижения.
Мы видим, что Яндекс не стоит на месте, и с уверенностью можно говорить, что его поисковые технологии будут развиваться и дальше, каждый раз повышая качество поиска, которое пока сложно назвать идеальным.