ВЕБМАСТЕР! Устал работать на других?
Работая с нами – работаешь на себя!
партнерская программа для сайтов с мобильной тематикой

Метод оценки подобия веб-страниц

Дата: 26.01.2012 | Опубликовал: IgorOsa
Упаковка - ключевой элемент практически любого товара. Для фасовки товара необходимо специальное упаковочное оборудование, осуществляющее упаковку подходящего типа. Производители упаковочного оборудования борются за то, что их оборудование было способно выполнить самые высокие требования к качеству и надежности выполяемых операций.




Во сходством страниц будем понимать степень дублирования данных, что они содержат

Под коэффициентом подобия будем понимать числовую характеристику сходства,причем полном дублированию данных будет соответствовать значение 1,соответственно 0 - документам, полностью отличаются.

Пусть p1 и p2 - две веб-страницы, для которых необходимо определить их сходство,f1 и f2-набор уникальных признаков соответствующих веб-страниц. Под уникальными признаками иметь в виду набор признаков, которые не повторяются в пределах одной страницы. В качестве таких признаков будем использовать элементы информационного наполнения, а именно слова, предложения, ссылки и графический контент (в принципе, использование других элементов также допустимо). Общий набор признаков F(2) образуется путем объединения набора признаков веб-страниц, которые сравниваются. Признаки, повторяющиеся, также удаляются из набора

Коэффициент дублирования данных i-й страницы в j-й будем вычислять с помощью следующего выражения

Общий коэффициент данных дублируется в веб-страницах p1 и p2 будем вычислять с помощью выражения

а коэффициент подобия соответственно как

Соответственно расстояние между веб-страницами может быть вычислена с помощью выражения

Таким образом, коэффициент подобия учитывает несоответствие размеров веб-страниц и их величины, а расстояние между страницами являются определенным образом ограничена, так как коэффициент подобия может изменяться только в диапазоне от 0 до 1. Таким образом решается проблема размерности расстояния и сходства.



Поделиться в соц. сетях

Добавить в Яндекс.Ленту

Если Вам понравилась статья, то Вы можете получать новые материалы Igorosa.com по RSS или можете просто получать обновления блога на e-mail:

Получать обновления:

Прокомментировать

ВЕБМАСТЕР! Устал работать на других?
Работая с нами – работаешь на себя!
партнерская программа для сайтов с мобильной тематикой