Алгоритм определения веб-страниц с дублированными данными
Дата: 26.01.2012 | Опубликовал: IgorOsaУпаковка позволяет сохранить товар в должном виде от места производства до конечного потребителя. Для упаковки товаров, которые требуют герметичной упаковки применяют термоупаковочное оборудование, где в качестве упаковки применяется термоусадочная пленка, принимающую форму объекта и надежно защищающего ее от воздействия внешних факторов. Применяется для упаковки товаров, требующих ограничений на контакт с окружающей средой.
Данный алгоритм может использоваться для фильтрации результатов веб-поиска любой поисковой системы.
Параметры алгоритма:
-
Количество страниц результатов поиска n, что необходимо проанализировать(обычно используются результаты, находящиеся на первых двух страницах результатов поиска, поэтому оптимальным является значение 15-20 ресурсов);
-
Максимальный допустимый коэффициент подобия Smax, при котором страница считается такой, что дублируются и не включается в результирующий набор;
-
Метод удаления страниц: inline, когда страницы могут удаляться при первом найденном недопустимом дублировании или postprocessed, когда сначала анализируются все страницы, и лишь затем принимаются решения об удалении той или иной страницы.
Принцип удаления страницы из результирующего набора:
![]()
Пошаговое описание алгоритма:
1. Пользователь вводит запрос, поисковая система выдает результаты - набор страниц P.
2. Анализируются первые n страниц: они разбиваются на блоки, оцениваются с помощью регрессионной модели, информационный шум "отсекается". На выходе получаем n веб-страниц, которые состоят только из основного контента.
3. Вычисляются коэффициенты сходства между страницами. Все страницы,которые дублируются, удаляются из результирующего набора (в зависимости от метода удаления страниц).
4. На выходе получаем набор страниц, информация в которых не дублируется.
Поделиться в соц. сетях
Если Вам понравилась статья, то Вы можете получать новые материалы Igorosa.com по или можете просто получать обновления блога на :






