Система сбора, размещения и анализа данных web-страниц (часть 3, заключительная)

Общая модель функционирования системы сбора, размещения и анализа данных

Система состоит из нескольких отдельных компонентов-модулей (рис. 3), что позволяет гибко настроить параметры сбора информации для баз данных различного структурного и информационного наполнения, а именно:

  • Модуль считывания – осуществляет считывание web-страниц в соответствии с заданием.
  • Модули структурирования – преобразует данные неструктурированные в структурированы.
  • База данных (БД), в которой сохраняются результаты считывания и преобразования.
  • Планировщик – управляет процессом сбора данных: формирует задание на считывание и обработку в соответствии с настройками.
  • Аналитический модуль – модуль, позволяющий проводить анализ данных, переданных для анализа из базы данных.

Схема работы системы сбора, размещения и анализа данных

Рис. 3. Схема работы системы сбора, размещения и анализа данных

Модуль считывания (парсер) получает доступ к сайту в режиме считывания, после чего он разбирает элементы web-страницы, находит указанную таблицу считывает данные, которые передаются на обработку системе управления базой данных.Система имеет планировщик, который организует считывания информации и передаче ее для анализа в автоматическом режиме через заданное время. Таким образом данные, считанные с web-страницы, проходят процедуру структурирования размещаются в базе данных, а затем уже структурированная информация передается на обработку аналитическом модулю.

Реализация системы

Предложена система может считывать с сайтов различную табличную информацию, которая будет передана для анализа. В основном это различные экономические показатели, которые меняются довольно часто. Программа сканирует указанную страницу и каждый раз проводит анализ, учитывая изменения.Продемонстрируем работу программы на сайте, который содержит показатели изменений курса иностранной валюты. После запуска программы открывается окно с тремя вкладками, на которых размещаются результаты анализа (рис. 4).

Интерфейс программы

Рис. 4. Интерфейс программы

Для начала работы необходимо настроить считывания данных. Для этого нажмем кнопку «Настройки». Отроется одноименное окно.

Диалоговое окно «Настройка»

Рис. 5. Диалоговое окно «Настройка»

В этом окне можно указать адреса сайтов, с которых нужно собирать информацию, просмотреть указанные сайты и задать действия, которые должна выполнить система после завершения считывания страницы: закончить работу, перейти на другой сайт из списка или перейти по ссылке указанной в поле «Список сайтов» . Также в этом окне можно настроить интервал времени, по истечении которого программа самостоятельно выполняет сканирование сайта и считывания с него информации.

После того как сайт загрузился в браузере, в поле «Выбрать таблицу” появится список доступных таблиц. Далее необходимо выбрать нужную таблицу и нажать кнопку «Анализ таблицы». Затем для каждого нужного поля необходимо указать, к какому типу данных относится

информация. В дальнейшем по информации из полей и будет проводиться анализ.Нажатие кнопки «ОК» приводит к закрытию окна настроек, данные передаются для анализа. Результаты анализа выводятся на вкладках, которые приведены на рис. 6-8.

Вид вкладки "Преобразование Фурье"

Рис. 6. Вид вкладки “Преобразование Фурье”

Вид вкладки "Калмановская фильтрация"

Рис. 7. Вид вкладки “Калмановская фильтрация”

Вид вкладки «Вейвлет-преобразование»

Рис. 8. Вид вкладки «Вейвлет-преобразование»

Система заносит файл все запросы работы с базами данных, создавая скрипт, который можно использовать для экспорта данных в другую систему или другой базы данных.

Предложенная система имеет преимущества перед другими системами сбора данных, а именно:

  • Отслеживание изменений информации в источниках информации, сохранение истории изменений и последующий анализ.
  • Возможность интеграции в корпоративную информационную систему.
  • Сферой применения этой системы могут стать:
  • Мониторинг товаров и услуг.
  • Исследования.

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.