Современные поисковые технологии (часть 3)

Динамика информационных потоков. Новый уровень развития сетевого информационного пространства обуславливает необходимость создания и развития адекватных моделей информационных потоков. В этой связи возникает интерес к подходам, основанным на понимании информации как меры упорядоченности некоторой системы и, соответственно, к статистическим методам ее обработки. Для организации эффективной коммуникации в сетях сегодня приходится постоянно возвращаться к истокам теории информации, понятиям энтропии, теории Шеннона, уравнениям Больцмана и др., что обуславливает широкие перспективы применению мощного аппарата математики и физики в решении теоретико-информационных задач.

При моделировании этих процессов используются методы нелинейной динамики, теории клеточных автоматов и самоорганизованной критичности. При моделировании информационных потоков изучаются структурные связи между входящими в них массивами документов. Сегодня при этом все чаще применяется фрактальный анализ, подход, базирующийся на свойствах сохранения внутренней структуры массивов документов при изменениях их размеров или масштабов рассмотрения. Теория информации, которая ранее находила свое основное применение в области передачи данных, становится полезной и для анализа текстовых массивов, динамически порождаемых в сетях.

Введем формальное определение информационного потока, которое корреспондируется с классическим определением из теории информации. Рассмотрим отрезокоси времени, гдеДопустим, за этот интервал времени в соответствии с некоторыми закономерностями в сети публикуется некоторое количество сообщений (документов) — k. На оси времени моменты публикации отдельных сообщений обозначим какИнформационным потоком будем называть процессреализация которого характеризует количество сообщений, появившихся в интервалекак функцию правого конца отрезка т. В соответствии с этим определением реализация информационного потока является неубывающей ступенчатой всегда целочисленной функцией

Приведенное определение на локальных временных областях соответствует действительности, но не учитывает эффект старения информации, противоречащий «накопительной» способности информационного потокана больших промежутках времени. Определенный выше информационный поток учитывает лишь количество информационных сообщений, вне зависимости от их содержания, определение которого является достаточно субъективным процессом. Для строгого моделирования тематических информационных потоков используют модели, которые отличают документы по отдельным словам или словосочетаниям (обычно их называют термами, от англ. Terms).

В традиционной сетевой ИПС информационное пространство, которое состоит из стабильной и динамической частей, и индексируется с помощью ИПС, изменяет свое наполнение во времени: некоторые новостные документы поступают в стабильную часть в виде архивов, а другие исчезают. В этом случае пользователь при обращении к ИПС находит релевантные запросу документы из стабильной части, ссылки из динамической части, которые устарели, и ничего не находит из обновленной динамической части.

В настоящее время ни одна из традиционных ИПС в достаточном объеме не помогает в поиске актуальной новостной информации, которая находится в динамической части сети Интернет. Решение этой задачи требует применения посредника — системы интеграции информационных потоков. Принцип индексирования, которое должно осуществляться этим посредником, немного отличается от индексирования традиционными поисковыми системами: должен индексироваться не весь контент сети, а только динамическая часть. В результате такого подхода пользователь будет получать необходимые ответы из новостной и из «устаревшей» новостной части (подтвержденных документами из архивной БД), но не получит полной выборки документов из стабильной части Интернет. Таким образом, проблема достижения полноты при поиске в динамической сети может быть решена путем использования двух инструментов — традиционных ИПС (для стабильной части веб-пространства) и систем интеграции информационных потоков.

В настоящее время задачи мониторинга информационных потоков в компьютерных сетях, их адаптивного агрегирования и обобщения осложняются отсутствием типовых методик и решений, неполнотой существующих технологических подходов. Вместе с тем, опыт создания и внедрения корпоративных информационных систем свидетельствует о необходимости создания и внедрения документальных информационных хранилищ для обеспечения научных исследований, получения разнообразных аналитических сведений, навигации в документальных информационных потоках больших объемов.

Давно есть мечта купить недвижимость в Крыму. Хотя бы маленькую квартирку, чтобы было без проблемно туда выехать с семьей на пару недель летом, а потом еще зарабатывать на сдаче в аренду другим отдыхающим.

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.