Строим тематический робот-краулер (продолжение)

Опубликовано 22.05.2012 · Обновлено 22.05.2012

Критерии оценки работы системы. Для оценки работы представленной системы целесообразно привести два основных критерия:

быстродействие;
качество обработки информации.

Первый критерий быстродействия относится как к краулер, так и в базу знаний. В случае с краулер данный критерий будет не сильно влиять на быстродействие всей системы, ведь эта часть является автономной, а значит не может влиять на другие части системы. Эта характеристика в данном случае будет зависеть от аппаратный ресурсов, отведенных для подсистемы краулер. Что касается базы знаний, то быстродействие играю главную роль. Правильное построение и взаимоотношения отдельных сущностей внутри базы знаний, вот что будет влиять на этот показатель. Поисковая подсистема является системой реального времени, а следовательно, должна мгновенно реагировать на действия пользователя. Правильная построены запросы и точность указания всех его составляющих позволят уменьшить время ожидания ответа, в свою очередь избыточность информации может привести к дополнительному поиска по лишним данным, в свою очередь приведет к задержкам.

Качество обработки, или точность сопоставления найденной информации выбранной тематической категории является главным показателем робота-краулер. Главной особенностью нашей системы, является именно способность анализировать найденную информацию, поэтому имея хорошо построены критерии оценки данных мы с определенной вероятностью сможем соотнести их соответствующей тематической категории. Правила построения таких зависимостей, как правило строятся на основе семантического и структурного рассмотрения определенной части информации. Каждое правило может быть боль конкретно обобщенное под выбранную категорию или под группу категорий.

Имея критерии оценки работы системы, мы можем сказать на сколько качественно она работает, и имеет способность решать поставленные перед ней задачи прикладных систем. А кому не интересно про роботов читать, может посетить бизнес портал и ознакомиться с актуальной бизнес-информацией.

Формализация.

Алгоритмическое обеспечение. Попробуем рассмотреть схему функционирования системы исходя из процессов протекающих в каждой из частей и их связи между собой.

Модуль поиска тематической информации. Как большинство поисковых машин, первоочередной задачу краулер является поиск необходимой тематической информации. Прежде всего необходимо определиться с тематикой поиска и путем прохождения и нахождения необходимой информации. Большинство из этих задач было уже поставлено в ведущих поисковых систем мира, и каждая из них нашла свой выход и основной подход к решению проблем, “как именно искать?”. Главным образом вся эта информация держится в секрете фирмами разработчика и плотно удерживается от посторонних глаз.

Однако проанализировав порядок и формат получения данных из Интернета, мы можем спроектировать несколько подходов для работы нашего поисковика. Во-первых необходимо определить тематику и направленность нашего робота. В этом случае, если он направлен сам на поиск информации тогда данный модуль выделяются в отдельную подсистему, которая имеет собственную программу и интерфейс обмена с БД. Такая система способна исследовать все актуальные (живые) IP адреса сайтов и порталов, скачивать их наполнения и передавать данные в работа анализатора. Достоинства такой реализации позволяют нам получить мощную систему с большим объемом доступной актуальной информации по всем текущим ресурсам Интернета. К сожалению большим недостатком такой реализации является необходимость установления многопоточного и ресурсоемкого сервера с отдельным независимым ядром обработки. Также прохождения всего пространства Интернета займет много времени, и по сравнению с менее мощной системой анализа (период обработки значительно превышает период нахождения данных) будет давать накопительный эффект на входах и выходах системы.

Одной из наиболее вероятных реализаций данной концепции является перевод существующей базы данных в базу знаний, и введение тематических разделов поиска данных. В таком случае, вместо прохождения все адреса, к роботу поисковика прилагается модуль генерации доменных имен согласно выбранных категорий. В этом случае поиск информации осуществляется на основе созданных возможных тематических доменных имени сайтов (портале), с большой вероятностью, при попадании на которые мы получим желаемую информацию. Положительными аспектами при воплощены такой программы является получение более актуального контента по выбранной тематике, поиске и прохождения Интернет пространства значительно уменьшается, количество лишней информации также становлюсь минимальной. Недостатками являются возможное несоответствие найденной информации избранном тематическом доменном имени, но это может быть легко устранено благодаря корректной работе робота анализатора отфильтруем найденные данные по выбранным категориям.

Последним способом реализации поисковика, наиболее точным, по наиболее упрощенной моделью, это использование заполненных справочников с адресами Интернет ресурсов, уже отнесенных к определенным тематическим группам. Каждый адрес вносимого в этот справочник процентов на 80 должна быть обработана операторам, и подтверждена релевантность информации, располагающейся на портале этой категории базы знаний. Это означает, что справочник наполняется почти весь оператором, или туда вносятся роботом новые ссылки, имеющие достаточный уровень доверия (пороговые значения соответствия данных выбранной тематике). Поэтому работа модуля анализатора играет здесь определяющую роль, ведь он должен решать будет найден ресурс и впредь оглядываться для получения актуальной информации или просто игнорироваться.

Строим тематический робот-краулер (продолжение)

Добавить комментарий Отменить ответ

Страницы

Строим тематический робот-краулер (продолжение)

Читайте также:

Добавить комментарий Отменить ответ

Страницы