Алгоритм определения веб-страниц с дублированными данными

Данный алгоритм может использоваться для фильтрации результатов веб-поиска любой поисковой системы.

Параметры алгоритма:

  • Количество страниц результатов поиска n, что необходимо проанализировать(обычно используются результаты, находящиеся на первых двух страницах результатов поиска, поэтому оптимальным является значение 15-20 ресурсов);
  • Максимальный допустимый коэффициент подобия Smax, при котором страница считается такой, что дублируются и не включается в результирующий набор;
  • Метод удаления страниц: inline, когда страницы могут удаляться при первом найденном недопустимом дублировании или postprocessed, когда сначала анализируются все страницы, и лишь затем принимаются решения об удалении той или иной страницы.

Принцип удаления страницы из результирующего набора:

Пошаговое описание алгоритма:

1. Пользователь вводит запрос, поисковая система выдает результаты — набор страниц P.

2. Анализируются первые n страниц: они разбиваются на блоки, оцениваются с помощью регрессионной модели, информационный шум «отсекается». На выходе получаем n веб-страниц, которые состоят только из основного контента.

3. Вычисляются коэффициенты сходства между страницами. Все страницы,которые дублируются, удаляются из результирующего набора (в зависимости от метода удаления страниц).

4. На выходе получаем набор страниц, информация в которых не дублируется.

Читайте также:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.