Строим тематический робот-краулер (продолжение 2)

Модуль анализа и сбора информации. Данная часть является основной (ядром) для нашего краулер. Главная задача этого модуля заключается в нахождении полезной информации в передаваемом потоке полученного от робота-поисковика. Всего концепция построения этой части почти одинаковая, но все же надо учитывать вариант реализации робота-поисковика, ведь от того, как много мы знаем о том, что мы получили (метаданные), зависит насколько глубоко необходимо анализировать данную информацию.

Более гибкий, однако, и более тяжелый в плане реализации, вариант предусматривает получение чистого текста страницу, только с указанием в какой раздел базы знаний относится данный ресурс (что еще также необходимо проверить). В этом случае анализатор использует наиболее употребляемые правила выяснения релевантности страницы, т.е. актуальности и достоверности информации. Как правило можно выделить несколько правил, по которым будут оцениваться полученные данные, суммарный результат по каждому из которых даст нам общую оценку выбранной страницы:

  • Возраст сайта.
  • Название URL сайта (имя домена).
  • Язык сайта.
  • Объем текстовой информации на веб-странице.
  • Применены стиле страницу.
  • Общее количество ключевых слов.
  • Индекс цитирования.
  • Периодичность обновления информации на странице.
  • Количество графических и мультимедийных данных на странице.
  • Использование фреймов.
  • Размер и тип шрифта ключевых слов и заголовков.
  • Наличие и анализ мета-тегов.
  • Географическое положение сайта.
  • Тип страницы (html или asp).
  • Наличие в составе страницы flash модулей.
  • Наличие “шумовых слов”.
  • Общее количество ссылок на внутренние и внешние ресурсы.

Данный перечень может быть расширен или сокращен а также по выбору варьироваться для разных категорий. Все зависит от того, насколько точную или актуальную или практическую информацию мы хотим получить.

Поэтому проанализировав страницу по избранных правил и со поставив полученное значение с пороговым, анализатор решаю о необходимости считывания полезной информации из страницы и перенос ее в репозиторий базы знаний. Также возможен вариант с внесением оцененной страницы справочнику базы знаний, с указанием соответствующего степени доверия.

Менее ресурсоемкий вариант, предусматривает принадлежности каждой странице, шаблонов обработки данных (возможно также полученного при первом проходе работа анализатора, или созданного или отредактированного оператором). Такой шаблон представляет из себя описание структуры страницы, т.е. работа модуля анализатора в этом случае сводится к минимуму и вся нагрузка переходит на сборщика. Главной преимуществом является быстродействие обработки таких ресурсов, недостатком же является сильная зависимость от изменения структуры страниц.

Комбинация с работы анализатора для первого прохода с использованием более гибкого метода и собирателя для анализа по схеме страниц, могут дать наилучший результат при реализации данного модуля.

Модуль синхронизации данных с базой знаний. Система управления базой знаний (именно знаний, а не данных) должна обеспечить представление и обработку модели, сопоставимой по своей сложности с моделью используемого сознанием человека.

Наиболее важный параметр БЗ – качество знаний, которые накоплены в ней. Лучшие БЗ включают релевантную и свежую информацию, имеют совершенные системы поиска информации и дотошно проделанной структуру и формат знаний.

Структура и построение такой БЗ зависит от того, на какую из частей она будет ориентирована. БЗ может буди разработана под структуру краулер, т.е. она более абстрактна и все типы, форматы и данные хранятся в репозитории с рекурсивными связями. Такая архитектура должна обязательно состоять из таблиц основных данных и дополнительных (описательных) таблиц с метаданными.

Другой вариант реализации архитектуры БЗ подразумевает создание системно ориентированной базы. То есть она создается под конкретную тематическую систему, которая использует краулер в качестве поисковика собирателя, с последующей обработкой полученной информации и ее распределения по соответствующим сущностям БЗ.

Независимо от реализации БЗ должна вмещать часть отвечает за тематическое распределение информации, собранной со страниц.

Как видно из рис. 1, структурно, БЗ можно разделить на 3 части. Первая, включающая в себя информацию, поступающую из краулер, есть индексы, по которым были оценены тематическую информацию и соответственно обработан массив данных со страниц найденного ресурса. Затем эта информация, является базовой (входной) для другой подсистемы – машины поисковика. Все данные, которые ранее были найдены и обработаны краулер формируют ответ на запрос поисковой системы по выбранным правилом булевой логики. Вторая часть является так называемым представлением метаданных. То есть здесь хранятся справочники общего назначения, и перечень ресурсов Интернет пространства, внесенных в список задач краулер. Эта часть используется как краулер, так и поисковой машиной. Третья часть, является не обязательным и зависит от конечной прикладной системы использующий поискового робота. Эта часть является описательной для структуры систем прикладного назначения, и при конструировании общей системы может быть выделена в отдельную базу знаний или объединена с существующей.

Структурное и функциональное сочетание этих трех модулей в конечном дает нам полнофункциональную систему поиска целевого назначения.

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.