Построение модели ранжирования поисковой выдачи Google (начало)

Опубликовано 21.04.2012 · Обновлено 21.04.2012

Во допустим вы заказали создание сайта визитки, предварительно узнали сколько стоит сделать сайт. А дальше вам необходима раскрутка сайта. Выполнение раскрутки необходимо поручать исключительно опытным специалистам, которые понимают всю суть работы поисковых систем и их особенности.

В данной задаче моделируем процесс ранжирования веб-ресурсов поисковой выдачи системы Google для поисковой фразы «веб-программирование».

Для эксперимента было отобрано первых 50 сайтов поисковой выдачи по данному ключевому запросу. Матрица исходных данных X содержит 42 признака-фактора, которые численно характеризуют каждый сайт (см. ниже). Столбцы матрицы X соответствуют значениям факторов, а строки – веб-ресурсу. Выходной величиной у является порядок ранжирования результатов выдачи, т. е. номер сайта.

Для моделирования применяется обобщенный итерационный алгоритм ОИА МГУА, в котором матрица данных X делится на две части: первая (примерно 2/3 длины) – обучающая А, которая используется для оценки коэффициентов моделей, вторая (1/3 длины) – проверочная выборка В, на которой вычисляется качество модели как значение критерия регулярности AR:

где Θ_A– оценка коэффициентов модели с помощью МНК.

Для моделирования процесса ранжирования результатов поиска веб-ресурсов были использованы следующие признаки (входные переменные): х₁ – количество ключевиков на сайте; х₂ – количество ключевиков на странице; х₃ – отношение общего числа слов к числу ключевых слов на сайте; х₄ – отношение всего числа слов к числу ключевых слов на странице; х₅ – Google Page Rank (далее PR, результат расчета авторитетности веб-страниц по алгоритму системы); х₆ – популярность тематики; х₇– число запросов по конкретному ключевику за определённый период времени; х₈ – общее количество страниц веб-сайта; х₉ – объём текста сайта; х₁₀ – объём сайта; х₁₁ – объём текста веб-страницы; х₁₂ – возраст сайта; х₁₃ – наличие ключевого слова в URL сайта (имя домена); х₁₄– периодичность обновления сайта; х₁₅ – последнее обновление страниц сайта; х₁₆ – число рисунков на сайте; х₁₇ – количество мультимедийных файлов; х₁₈ – наличие замещающих надписей на картинках; х₁₉ – число символов замещающих надписей картинок; х₂₀ – использование фреймов; х₂₁ – язык сайта; х₂₂ – размер шрифта ключевых слов; х₂₃ – жирность шрифта ключевых слов; х₂₄ – написаны ключевые слова в разрядку или нет; х₂₅ – написаны или нет ключевые слова заглавными буквами; х₂₆ – расстояние ключевиков от начала веб; х₂₇ – наличие ключевых слов в заголовке; х₂₈ – наличие ключевых слов в мета-тэгах; х₂₉ – наличие файла «robot.txt»; х₃₀ – географическое месторасположение сайта; х₃₁ – комментарии внутри html-кода сайта; х₃₂ – к какому типу страниц относится каждая страница сайта: asp, html, php; х₃₃ – наличие flash модулей; х₃₄ – наличие веб-страниц с незначительными отличиями друг от друга; х₃₅ – соответствие ключевиков сайта разделу каталога поисковой машины, в котором он зарегистрирован; х₃₆ – наличие «стоп-слов»; х₃₇ – общее количество гиперссылок сайта; х₃₈ – количество внутренних гиперссылок сайта; х₃₉ – количество внешних гиперссылок сайта; х₄₀ – глубина сайта; х₄₁ – количество внешних ссылок, содержащих в названии ключевые слова; х₄₂ – индекс цитирования Яндекс (ТИЦ).

Выходной переменной у является позиция веб-ресурса среди результатов ранжирования поисковой выдачи системы. Точность построенной модели будем рассчитывать по формуле коэффициента детерминации:

где y – среднее значение, y_i – выход модели. С применением программной реализации ОИА МГУА была построена следующая модель, которая описывает результаты ранжирования веб-ресурсов в данной поисковой системе:

Построение модели ранжирования поисковой выдачи Google (начало)

Добавить комментарий Отменить ответ

Страницы

Построение модели ранжирования поисковой выдачи Google (начало)

Читайте также:

Добавить комментарий Отменить ответ

Страницы