Современные поисковые технологии (часть 6)

Опубликовано 28.03.2012 · Обновлено 03.10.2012

Необходимость создания новой модели веб-пространства

Эффективный анализ информационных потоков в Интернет, построение эффективных ИПС невозможно без некоторых сведений о структуре самого веб-пространства. В 1999 г. А. Брёдер из IBM и его соавторы из компаний AltaVista, IBM и Compaq сделали первую попытку математического описания «карты» ресурсов и гиперсвязей веб-пространства, получившей благодаря своей форме название «галстука-бабочки» (Bow Tie). С помощью баз данных и поискового механизма AltaVista было проанализировано свыше 200 млн. веб-страниц и несколько миллиардов ссылок, размещенных на этих страницах.

В рамках общей задачи определения структуры связей между отдельными веб-страницами было выявлено: центральное ядро (28 % веб-страниц) — зона сильной связности сети (Strongly Connected Component, SCC); «отправные вебстраницы» (IN), охватывающие 22 % ресурсов; «конечные веб-страницы» (OUT), также охватывающие 22 % ресурсов; «отростки, мысы и перешейки» (22 % вебстраниц). Существуют и «острова», которые вообще не пересекаются с остальными ресурсами Интернет.

Было обнаружено, что пропорции названных категорий в течение нескольких месяцев оставались неизменными, несмотря на значительное увеличение общего объема веб-ресурсов. Топология и характеристики модели оказались примерно одинаковыми для различных подмножеств веб-пространства, подтверждая тем самым наблюдение о том, что свойства структуры всего веб-пространства Bow Tie также верны и для его отдельных подмножеств. Таким образом, алгоритмы, использующие информацию о структуре веб-пространства, предположительно будут работать и на отдельных его подмножествах.

Оказалось, что распределение степеней узлов (входящих и исходящих гиперссылок) веб-пространства (исследовались сайты домена edu в количестве 325729) подчиняется степенному закону, т.е. вероятность того, что соответствующая степень вершины равна i, пропорциональна 1/i^k (для входящих ссылок к «2,1, а для исходящих k=2,45). Кроме того, оказалось, что сеть WWW является «малым миром» со средней длиной кратчайшего пути, равной 11, и относительно большим значением коэффициента кластерности, приблизительно равным 0,15 (для классического случайного графа это значение составило бы 0,0002) .

Вместе с тем необходимо подчеркнуть некоторую некорректность расчета объемов «островов» по Брёдеру из-за того, что список веб-ресурсов был получен из БД системы AltaVista, полученный в результате работы программы-робота, сканирующего веб-ресурсы, переходя от одного к другому по гиперссылкам.

Модель Брёдера не учитывает особенностей динамической части веб-пространства, формируемой потоками новостных сообщений. Применение модели «галстука-бабочки» к динамической составляющей веб-пространства нельзя считать корректным по ряду причин:

динамика информационных потоков влияет на природу гиперссылок, на сообщения, например, в течение определенного времени их может вообще не существовать;
модель Брёдера слабо учитывает особенности «скрытого» Web;
в информационных потоках необходимо учитывать не только гиперссылки, но и ссылки контекстные, причем не только на объекты из открытой части веб-пространства;
модель Брёдера не включает такого понятия как смысловое дублирование информации;
за прошедшее время с момента создания модели Брёдера появились новые разновидности гиперсвязей в веб-пространстве, например, существуют гиперссылки, доступные для пользователей-людей, но недоступные для роботов поисковых систем (в частности, определяемые тегом < noindex >).

Проблемы смыслового поиска. Для пользователя пертинентность, соотношение объема полезной для него информации к общему объему полученной информации, имеет решающее значение. При этом следует учитывать, что формальный запрос к системе является предметом творческого осмысления информационной потребности и не всегда точно отражает последнюю. Достижение высокой пертинентности — основное поле конкурентной борьбы современных поисковых систем. Именно для максимального удовлетворения информационных потребностей пользователей поисковые системы сегодня максимально интеллектуализируются, получили широкое практическое применение теории и методы семантических сетей, контент-анализа и глубинного анализа текстов (Text Mining).

Над решением проблемы смыслового, содержательного поиска работают многочисленные коллективы ученых и специалистов во всем мире, в частности, консорциум W3C, где реализуется концепция Семантического Web. Наряду с этой концепцией, революционный прорыв обещает дать более общий подход, а именно Web-2 (http://www.web2con.com/), который предполагает реализацию концепции Семантического Web, включая многоуровневую поддержку метаданных, новые подходы к дизайну и соответствующему инструментарию, технологию глубинного анализа текстов, а также идеологию веб-сервисов, базируясь при этом на информационных ресурсах, накопленных в WWW первого поколения.

Следует признать, что многие основные задачи Семантического Web в настоящее время выглядят достаточно химерными. Вместе с тем частные решения, полученные при попытках реализации Семантического Web, сегодня широко применяются в информационных технологиях. К таким решениям относятся, например, агрегация новостей или ведение блогов (интерактивных сетевых журналов) на основе XML.

Text Mining. Поиск в сетевой среде может стать более эффективным за счет технологий глубинного анализа текстов (Text Mining), нахождения в текстах аномалий и трендов.

Концепция глубинного анализа текстов Text Mining включила в себя технологические и методологические подходы контент-анализа, компьютерной лингвистики, в частности, автоматическое реферирование, анализ взаимосвязей понятий, построение поисковых образов документов.

Разработанные на основе статистического и лингвистического анализа, а также методов искусственного интеллекта, технологии Text Mining предназначены для проведения смыслового анализа. Задача Text Mining — выбирать из текстов наиболее ключевую и значимую информацию для пользователей. Важная компонента технологий Text Mining связана с извлечением из текста характерных элементов или признаков, которые могут использоваться в качестве ключевых слов, метаданных, аннотаций. Еще одна задача Text Mining — отнесение документов к некоторым категориям из заданной схемы их систематизации. Кроме того, Text Mining — это новый вид поиска, который в отличие традиционных подходов не только находит списки документов, формально релевантных запросам, но и помогает в понимании смысла текстов. Таким образом, пользователю будет незачем самому «просеивать» огромное количество неструктурированной информации. Text Mining — это алгоритмическое выявление прежде не известных связей в уже имеющихся данных. Применяя Text Mining, пользователи могут получать новую ценную информацию — знания.

В соответствии с уже сложившейся методологией, к основным элементам Text Mining относятся: классификация, кластеризация, извлечение фактов, понятий, реферирование, ответ на запросы, тематическое индексирование и поиск по ключевым словам.

Извлечение понятий из текста представляет собой технологию, обеспечивающую получение информации в структурированном виде. В качестве структур рассматриваются как относительно простые понятия (ключевые слова, персоны, организации, географические названия), так и более сложные, например, имя персоны, ее должность в конкретной организации и т. п. Данная технология включает три основных подхода:

1) Entity Extraction — извлечение слов или словосочетаний, важных для описания содержания текста. Это могут быть списки терминов предметной области, персон, организаций, географических названий и др.;

2) Feature Association Extraction — прослеживание связей между извлеченными понятиями;

3) Event and Fact Extraction — извлечение сущностей, распознавание фактов и событий.

Следует отметить, что подходы к извлечению различных типов понятий из текстов существенно разнятся как по контексту их представления, так и по структурным признакам. Так, для выявления принадлежности документа к тематической рубрике могут использоваться специальным образом составленные запросы на информационно-поисковых языках, включающих логические и контекстные операторы, скобки и т. д. Выявление топонимов предполагает использование таблиц, в которых кроме шаблонов написания этих названий, используются коды и названия стран, регионов и отдельных населенных пунктов.

* * *

Знаете, как плохо бывает, когда неожиданно отказал “лучший товарищ” работника – компьютер. Поэтому ремонт компьютеров очень актуален для многих современных людей. Так же могут потребоваться такие услуги как: настройка WiFi, удаление вирусов или другая настройка ПК.

Современные поисковые технологии (часть 6)

Добавить комментарий Отменить ответ

Страницы

Современные поисковые технологии (часть 6)

Читайте также:

Добавить комментарий Отменить ответ

Страницы