Очистка веб-страниц от информационного шума

Алгоритм выделения основного контента со страницы заключается в следующем:

1. На вход подается веб-страница, которая делится на отдельные информационные блоки.

2. На основе регрессионной модели оценки важности информационных блоков сайтов.

F = 1.739 + 0.033 * ImgsNum — 0.062-ImgsAsLinksNum + 0.087-ImgsAsLinksRatio + 0.002-LinksNum-0.006-WordsAsLinksNum + 0.291-WordsAsLinksRatio + 0.012-SentNum + 1.523-SentAvgLengthRatio-0.005-WordsInSentsNum + 1.75-WordsInSentsRatio — 0.164StopWordsNum — 8.22-StopWordsRatio + 0.004-WordsNum — 0.003-ListItemsNum — 0.002-HeadersNum — 0.14-ControlsNum — 0.456-MediaObjectsNum + 3.712-ContentRatio + 0.849-WordsAsListsRatio + 0.105-FontSize + 0.002-FontWeight,

для каждого блока рассчитываются числовые значения важности.

3. С помощью нечеткого метода кластеризации с-means (на основе числовых значений оценки важности) блоки делятся на три кластера (в соответствии с трехуровневой системы оценки важности).

4. На выходе получаем страницу, в которую входят только те блоки, которые были идентифицированы как важные.

Рассмотрим работу алгоритма на реальном примере. В качестве тестовой страницы была взята статья информационного агентства CNN [8]. Она была разбита на информационные блоки, а каждый из блоков был оценен с помощью регрессионной модели. В результате получено 7 блоков, которые были кластеризовани с помощью нечеткого метода кластеризации с-means. Результаты приведены в таблице 1.

Таблица 1

Результаты нечеткой кластеризации

Результаты нечеткой кластеризации

В таблице 2 приведено сравнение кластеризованих результатов и результатов, полученных с помощью эксперта (1 — информация важна, 2 — мало важна, 3 — основной контент).

Таблица 2

Сравнение результатов оценки важности блоков

Сравнение результатов оценки важности блоков

Таким образом, на основе результатов можно увидеть, что предложенный алгоритм успешно справляется с поставленной задачей.

Читайте также:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.