Метод оценки подобия веб-страниц

Во сходством страниц будем понимать степень дублирования данных, что они содержат

Под коэффициентом подобия будем понимать числовую характеристику сходства,причем полном дублированию данных будет соответствовать значение 1,соответственно 0 — документам, полностью отличаются.

Пусть p1 и p2 — две веб-страницы, для которых необходимо определить их сходство,f1 и f2-набор уникальных признаков соответствующих веб-страниц. Под уникальными признаками иметь в виду набор признаков, которые не повторяются в пределах одной страницы. В качестве таких признаков будем использовать элементы информационного наполнения, а именно слова, предложения, ссылки и графический контент (в принципе, использование других элементов также допустимо). Общий набор признаков F(2) образуется путем объединения набора признаков веб-страниц, которые сравниваются. Признаки, повторяющиеся, также удаляются из набора

Коэффициент дублирования данных i-й страницы в j-й будем вычислять с помощью следующего выражения

Общий коэффициент данных дублируется в веб-страницах p1 и p2 будем вычислять с помощью выражения

а коэффициент подобия соответственно как

Соответственно расстояние между веб-страницами может быть вычислена с помощью выражения

Таким образом, коэффициент подобия учитывает несоответствие размеров веб-страниц и их величины, а расстояние между страницами являются определенным образом ограничена, так как коэффициент подобия может изменяться только в диапазоне от 0 до 1. Таким образом решается проблема размерности расстояния и сходства.

Читайте также:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.