Метод оценки сходства веб-страниц

Проблема выбора необходимого и, главное, полезного материала в Интернете среди множества документов является весьма актуальной. Поисковые системы используют различные коэффициенты (Google-PageRank, Яндекс – ТИЦ и т.п.) для сортировки результатов поиска. Таким образом, «раскрученные» сайты будут всегда находиться на вершине списка, хотя очень часто часть этих сайтов содержит идентичную информацию, что приводит к потере времени пользователями на«визуальное» фильтрации результатов поиска. Пользователь теряет до 50%времени для просмотра однообразных ресурсов. Нужно отметить, что информация на этих сайтов дублируется не в полной мере, а лишь основная ее часть (контент),все остальное – дизайн, ссылки, рекламные блоки отличаются. Таким образом актуальными задачами являются определение основного контента страниц и оценка их сходства.

Понятие подобия веб-страниц в литературе напрямую не рассматривается. Зато существует ряд работ, посвященных задачам кластеризации текстовой информации,оперируют понятием «расстоянии» между объектами, которые по своей сути схоже спонятием подобия. Для вычисления расстояния используют меры Эйлера, Меланхобиса, критерий Пирсона подобное. Например, расстояние можно находить с помощью критерия Пирсона:

где n1 – объем первого текста, n2 – объем второго текста, ml, i – частота i-й признак в первом тексте, m2, i – частота i-го признака во втором тексте. Значение mi, j (матрица сходства) вычисляется как количество вхождений i-го признака в j-в документе:

Соответственно, коэффициент сходства можно вычислять как

Данный подход имеет ряд недостатков: значение расстоянии может отличаться для одинакового степени дублирования данных за счет разной длины текстов, значение расстоянии достаточно большие даже для небольших текстов, то есть необходимо вводить понижающий коэффициенты и, наконец, основной недостаток в том, что полученное значение расстояния (и соответственно и подобия) невозможно оценить экспертным путем, то есть определить получена расстояние является большой или малой. Для оценки эксперным путем необходимо иметь полную матрицу расстояний.

Большое количество данных и технологий «раскрутки» сайтов приводит к необходимости разработки методов и алгоритмов фильтрации результатов поиска с целью повышения эффективности поиска в Интернете.

В следующих постах речь пойдет о способах фильтрации информационного шума методах оценки сходства веб-страниц.

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.