Строим тематический робот-краулер (начало)

Опубликовано 21.05.2012 · Обновлено 04.09.2019

Проблема поиска информации, занимает одно из основных мест в современном обзоре развития Интернет пространства. Имея большую и быстро развивающуюся инфраструктуру сетей, нетрудно разобраться в том объеме данных, ее накапливается с каждым годом. Трудно организовать общую систему, которой было бы подчинено все данные о существующих ресурсы и их размещение в Интернет. Как правило отдельные системы охватывают лишь отдельную часть этой информации, при этом данные о ресурсе который описывают может характеризоваться только наличием тех или иных данных, и не более того.

Очень часто пользователи Интернета ищут информацию, более узкого профиля, актуальность которой иногда не соответствует действительности. Или вовсе приводит к ложным ресурсам. Возможность представить, именно то, что нужно, вот что главное в современных поисковых системах, т.е., если человек ищет по запросу “аренда квартиры” чтобы снять квартиру, он должен получить реальные и актуальные предложения, а не какие-то там непонятные списки объявлений с досок, порой давно устаревшие.

Поставленные задачи под силу так называемым роботам-краулер. Машинам с задатками искусственного интеллекта, способные самостоятельно выполнять поиск информации в киберпространстве. Краулер (поисковый робот, паук)-программа, являющаяся составной частью поисковой системы, главным назначением которой является проход страниц Интернету с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути такой паук напоминает более всего обычный браузер. Он сканирует наполнения страниц, сбрасывает его на сервер поисковой машины, к которой принадлежит, и отправляется по ссылкам на следующие страницы.

Системы поиска, анализа и индексации информации глобальных ресурсов Интернет по специализированным направлениям, которая способна по определенным критериям указать, насколько найденная информация соответствует выбранной тематике запроса на поиск представляет из себя работа поисковика (краулер), главной задачей которого является анализ и выделение информации найденной страницы. Одной из главных характеристик такого робота является его способность обрабатывать информацию с заданным порогом достоверности, правильности распознавания и фильтрации при условии плохо сформированных данных страниц (некорректная и нетипичная разметка HTML страниц). Очереди прохождения страниц, частота визитов, защита от запертых переходов, а также критерии выделения ключевых слов определяется алгоритмами поисковых машин.

Поиск аналогичных решений построения таких систем может нас привести лишь к современным поисковым машинам интернета, разработанных ведущими фирмами, как: Google, Yahoo, Yandex, Aport, AltaVista. Каждая из этих систем характеризуются способностью быстро находить (ранее проиндексированную) информацию, согласно поисковому запросу. Достоверность этой же информации как правило зависит от алгоритма системы, и очень часто опирается на функции подсчета релевантности страницы, совершенно не опираясь на смысл текста.

В отличие от представленных выше аналогов существует необходимость разработки системы, которая будет обладать способностью анализа и выделения нужной информации из общего необработанных данных. Используя такую систему, как второй слой обработки поисковой информации, мы сможем получить данные наиболее точно отражают характеристики выбранной тематике, то поиск может быть направлен на информацию более узкой специализации.

Недостатком же в системе может служить только ее зависимость от первичных поисковых систем, используемых для получения ссылок на уже существующие ресурсы. При характерных усовершенствованиях, она способна самостоятельно выполнять первичный поиск, однако это может немного увеличить время на обработку первичной не индексированы информации. Эта проблема зависит только от аппаратных ресурсов, которые будут выделены под нее.

Функциональная схема такой системы, может быть представлена элементами и связями между ними с помощью рис. 1.

Диаграмма связей и компонентов поисковой системы

Рис. 1 – Диаграмма связей и компонентов поисковой системы

Из этой схемы видно, что краулер выступает отдельным автономным модулем (системным процессом), связь которого с другими частями системы осуществляется через базу знаний. Именно база знаний в этом случае выступает центральным элементом. Поэтому ее правильное построение и установления связей между внутренними сущностями, может значительно упростить и повысить функциональность системы в целом.

Структурная схема построения такой системы основана на функциональной, и также может быть представлена с помощью рис. 1, а точнее структурными блоками, из которых состоит каждый элемент системы. Условно их можно разделить на несколько составных частей, каждая из которых характеризуется использованием, своего рода специфических и инновационных, технологий и подходов. Уникальные же комбинации этих составных частей предоставляют возможности в большей или меньшей мере использовать достоинства таких роботов (мощный поиск, большая способность распознавания и анализа, быстродействие работа и т.д.). Поэтому для построения полноценного робота-поисковика необходимо спроектировать и взаимоувязать следующие составные части:

поисковик актуальной информации на веб-ресурсах Интернет пространства, согласно выбранной тематике запроса;
анализатор и сборщик информации со страниц;
модуль синхронизации данных полученных с веб-запросов с серверной базой данных.

Представив таким образом функциональную и структурную схемы построения такой системы, попробуем дать более подробное описание его составных частей и технологий, используемых для проектирования в следующей публикации.

Строим тематический робот-краулер (начало)

Добавить комментарий Отменить ответ

Страницы

Строим тематический робот-краулер (начало)

Похожих публикаций пока нет.

Добавить комментарий Отменить ответ

Страницы