Информационные компоненты интеллектуальных систем (часть 4)

Одной из основных служб пространства данных является каталогизация элементов данных участников.

Определение 7. Каталог CG – это реестр ресурсов данных, содержащий наиболее базовую информацию о каждом из них: источник, имя, местоположение в источнике, размер, дата создания и владелец и т. д. Каталог является инфраструктурой для большинства других сервисов пространства данных, но он также может поддерживать базовый, пользовательский интерфейс просмотра пространства данных. Он не только содержит описательную информацию (т.е. выполняет роль метаданных), но и сохраняет для каждого участника схему источника, статистические данные, скорость изменения, точность, возможности ответов на запросы, информацию о владельце и данные, о политике доступа и поддержке конфиденциальности. Поскольку источники пространства данных физически не переносят в него информацию и могут обмениваться между собой информацией, то в каталоге необходимо хранить данные и о связи между источниками.

Поверх каталога размещена среда управления моделями, которое позволяет создавать новые связи и манипулировать существующими связями (например, объединять или инвертировать отображения, сливать схемы и создавать единые представления нескольких источников).

Важной компонентой пространства данных является компонента хранения и индексирования (ODW) для достижения следующих целей:

  • для создания ассоциаций между объектами данных от разных участников;
  • для совершенствования доступа к источникам с ограниченными собственными средствами доступа
  • для обеспечения возможности выполнения некоторых запросов без доступа к реальному источнику данных;
  • для поддержания высокого уровня доступности и восстановления.

Средства индексирования должны обладать высоким уровнем адаптивности к сред. Результатом локального хранения и индексирования есть запрос, который может вернуть, например, строка в текстовом файле, элемент пути к файлу, значение в базе данных, элемент схемы или тэг в XML-файле. Важными аспектами индекса является то, что, во-первых, он определяет информацию для всех участников, когда некоторые значения входят в нескольких источников данных (в некотором смысле это обобщает идею индексов соединения). Во-вторых, индекс должен справляться с разнообразием ссылок на объекты предметной области, например, с различными способами описания административной единицы.

Чем больше моделей способно «различить» среду управления, тем точнее будет информация в ODW и тем эффективнее будут процедуры интеграции, поиска и обработки данных в пространстве данных DS.

Поскольку одним из ключевых вопросов пространства данных являются вопросы интеграции, то рассмотрим стандарты интеграции.

Интеграция информационных систем на основе веб-служб Int связана с использованием четырех ключевых стандартов:

  • Расширенная язык разметки информации – Extensible Markup Language (XML). Описывает информацию, пересылаемой через Интернет. Запрос на получение каких-либо данных или выполнение определенных действий другим приложением требует наличия способов передачи параметров и получения обратно определенных результатов. При использовании веб-служб эта информация описывается с помощью языка XML, который является международным общепринятым стандартом для описания произвольных данных, которыми, в свою очередь, могут обмениваться информационные системы.
  • Простой протокол доступа к объекту – Simple Object Access Protocol (SOAP). Этот стандарт описывает протокол вызова веб-службы (удаленный процесс доступа к услугам / информации некоторой прикладной системы). В типичной ситуации взаимодействия система одной организации может вызвать систему другой организации, используя протокол SOAP. Запрос, обычно содержит ту или иную форму бизнес-документа, посылается инициатором к запрашиваемой системе. Последняя принимает запрос, и входящий документ, содержащийся в запросе, обрабатывается. В результате востребована система генерирует ответ, который возвращается инициатору взаимодействия. Инициатор также информируется о статусе (успех или иное) запроса.
  • Язык описания веб-служб – Web Services Description Language (WSDL). Это язык, который основан на стандарте XML, который определяет способ доступа к веб-службам. Она описывает функциональные возможности веб-служб и группирует операции взаимодействия в определенные интерфейсы, задающие способы выполнения операций и те параметры, которые должны быть на входе и выходе.
  • Универсальный метод описания, обнаружения и интеграции – Universal Description, Discovery, and Integration (UDDI). Технология UDDI предоставляет средства, с помощью которых можно сделать так, чтобы любые приложения или услуги, описанные в терминах веб-служб, могут быть распознаны другими приложениями и / или организациями. То есть это стандарт создания регистра, используя который можно описать организации и услуги, которые они предоставляют, в виде, доступном для динамического обнаружения и взаимодействия.

Средства обработки данных Wo должны поддерживать:

  • Добыча данных (Data mining) – ассоциативные правила, деревья решений, генетические алгоритмы и т.п.;
  • Средства анализа данных (Online Analytical Processing – OLAP) – реляционный OLAP (Relational OLAP – ROLAP), многомерный OLAP (Multidimensional OLAP – MOLAP), гибридный OLAP (Hybrid OLAP – HOLAP), динамический OLAP (Dynamic OLAP – DOLAP)
  • Средства естественноязыковой поиска – построение нечетких запросов, запросов в виде естественных вопросов, запросов цель данных;
  • Средства подбора контента на основе анализа характеристик пользователя;
  • Средства мгновенного анализа данных (например, определения причин повышения давления в котлах по значениям датчиков приборов и предложения методов устранения неполадок).

Итак, можно выделить следующие особенности пространств данных:

  • Пространства данных состоят из широкого разнообразия форматов и интерфейсов и все без исключения форматы данных должны поддерживаться;
  • Данные в пространстве данных не находятся под полным контролем;
  • Предполагается интеграция текста, данных, кода и потоков;
  • Поддержка структурированных текстовых, пространственных, темпоральных, мультимедийных, процедурных данных, триггеров, потоков и очередей данных как равноправных компонентов;
  • Пространства данных должны обеспечивать встроенную поддержку неточных данных. Должна существовать возможность задания неточных запросов, и процессор запросов должен относиться к этому как к дополнительному источнику неполноты и неточности;
  • Ответы на запросы должны зависеть от профиля пользователя. Ответ на запрос эксперта должен отличаться от ответа на запрос новичка. Релевантность ответа тоже должна зависеть от пользователя и от контекста;
  • Система должна знать точные взаимосвязи между элементами, которые используются в каждой схеме;
  • DSSP предлагает уровне обслуживания и методы получения приблизительных ответов;
  • DSSP должен предложить инструменты и пути создания плотной интеграции данных в пространстве по мере необходимости.

Могут обеспечиваться разные уровни услуг по обработке запросов DSSP, и в некоторых случаях они могут возвращать наилучшие из возможных приблизительные ответы. Например, если некоторые источники данных становятся недоступными, DSSP может обеспечить наилучший из возможных результат на основе данных, доступных во время выполнения запроса.

* * *

Для предпринимателя может быть самым проблематичным вопросом в бизнесе привезти груз из китая, чтобы с минимальными затратами и риском. В таком случае необходимо доверяться профессионалам в этом вопросе, которые смогут не только привести, но и оказать полный спектр сопутствующих юридических и таможенных услуг.

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.