Очистка веб-страниц от информационного шума

Алгоритм выделения основного контента со страницы заключается в следующем:

1. На вход подается веб-страница, которая делится на отдельные информационные блоки.

2. На основе регрессионной модели оценки важности информационных блоков сайтов.

F = 1.739 + 0.033 * ImgsNum – 0.062-ImgsAsLinksNum + 0.087-ImgsAsLinksRatio + 0.002-LinksNum-0.006-WordsAsLinksNum + 0.291-WordsAsLinksRatio + 0.012-SentNum + 1.523-SentAvgLengthRatio-0.005-WordsInSentsNum + 1.75-WordsInSentsRatio – 0.164StopWordsNum – 8.22-StopWordsRatio + 0.004-WordsNum – 0.003-ListItemsNum – 0.002-HeadersNum – 0.14-ControlsNum – 0.456-MediaObjectsNum + 3.712-ContentRatio + 0.849-WordsAsListsRatio + 0.105-FontSize + 0.002-FontWeight,

для каждого блока рассчитываются числовые значения важности.

3. С помощью нечеткого метода кластеризации с-means (на основе числовых значений оценки важности) блоки делятся на три кластера (в соответствии с трехуровневой системы оценки важности).

4. На выходе получаем страницу, в которую входят только те блоки, которые были идентифицированы как важные.

Рассмотрим работу алгоритма на реальном примере. В качестве тестовой страницы была взята статья информационного агентства CNN [8]. Она была разбита на информационные блоки, а каждый из блоков был оценен с помощью регрессионной модели. В результате получено 7 блоков, которые были кластеризовани с помощью нечеткого метода кластеризации с-means. Результаты приведены в таблице 1.

Таблица 1

Результаты нечеткой кластеризации

Результаты нечеткой кластеризации

В таблице 2 приведено сравнение кластеризованих результатов и результатов, полученных с помощью эксперта (1 – информация важна, 2 – мало важна, 3 – основной контент).

Таблица 2

Сравнение результатов оценки важности блоков

Сравнение результатов оценки важности блоков

Таким образом, на основе результатов можно увидеть, что предложенный алгоритм успешно справляется с поставленной задачей.

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.