Современные поисковые технологии (часть 5)

Скрытое веб-пространство. По оценкам экспертов, с помощью даже самых крупных глобальных поисковых систем в Интернете сегодня доступно не более 30 % открытой информации, присутствующей в веб-среде. Веб-ресурсы, находящиеся в свободном доступе, но не доступные с помощью обычных поисковых систем, образуют так называемый глубинный веб. Эти ресурсы имеют собственное название — «глубинный» или «скрытый» (deep) веб, которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им документы, недоступные для обычных поисковых систем. Интегрированный доступ к таким ресурсам все еще остается открытой проблемой, частичное решение которой достигается с помощью специальных каталогов и систем, зачастую доступных обычным пользователям Интернета. Глубинный веб чаще всего охватывает динамически формируемые веб-страницы, содержание которых хранится в базах данных и доступно лишь по запросам пользователей. Иногда для доступа к подобным страницам используется так называемый тест Тьюринга (или тест на разумность): предлагается решить арифметическую задачу, загадку или попросту ввести в определенное поле последовательность символов, изображенную графически. К примеру, БД с законодательными документами Украины или России (системы «Рада», «Кодекс», соответственно) вполне можно отнести к такой категории, ведь размещенные в них сотни тысяч документов, доступные для свободного просмотра, не попадают в индексы глобальных сетевых ИПС.

Основатель BrightPlanet Майкл Бергман выделил 12 разновидностей «скрытых» веб-ресурсов, в списке которых оказались как традиционные базы данных (патенты, медицина и финансы), так и публичные ресурсы — объявления о поиске работы, чаты, библиотеки, справочники. Бергман причислил к «скрытым» ресурсам и специализированные поисковые системы, обслуживающие определенные отрасли или рынки, базы данных которых не включаются в глобальные каталоги традиционных поисковых служб. К «скрытому» вебу также относятся многочисленные системы интерактивного взаимодействия с пользователями — помощи, консультирования, обучения, требующие участия людей для формирования динамических ответов от серверов. К ним также можно отнести и закрытую (полностью или частично) информацию, доступную пользователям только с определенных адресов или групп адресов, иногда городов или стран. К «скрытой» части веб-пространства многие причисляют и веб-страницы, зарегистрированные на бесплатных серверах, которые индексируются, в лучшем случае, лишь частично. В поисковых системах обычно ограничивается глубина индексирования таких сайтов во избежание возможного циклического просмотра одних и тех же страниц.

Поиск в Р2Р (пиринговых) сетях. В настоящее время веб-пространство не является крупнейшим информационным ресурсом в Интернете. Основной объем ресурсов сосредоточен в «пиринговых» сетях (P2P — «точка — точка»), многие из которых являются так называемыми «файлообменными». В таких сетях отсутствуют выделенные серверы, а каждый узел является как клиентом, так и сервером. Пиринговые сети состоят из узлов, каждый из которых взаимодействует лишь с некоторым подмножеством других узлов. При освещении этой тематики учитывалось то, что проблемы поиска и уязвимости в таких сетях до сих пор остаются открытыми.

Существует несколько областей применения пиринговых сетей, объясняющих их растущую популярность, назовем некоторые из них. Обмен файлами. P2P выступают альтернативой FTP-архивам, которые утрачивают перспективу из-за значительных информационных перегрузок. Распределенные вычисления. Например, такой проект с элементами P2P как [email protected], посвященный распределенному поиску внеземных цивилизаций, продемонстрировал высокий вычислительный потенциал для распараллеливаемых задач. Вместе с тем, этому проекту свойственна централизованная раздача и прием данных. Обмен сообщениями. Как известно, ICQ — это P2P-проект. Эта сеть также обладает элементами централизации, в частности, очень зависит от состояния сервера login.icq.com.

Интернет-телефония. Сегодня одной из самых популярных служб Интернет-телефонии является Skype (www.skype.com), созданная в 2003 г. Н. Зеннстромом и Я. Фриисом, авторами известной пиринговой сети KaZaA. Построенная в архитектуре P2P служба Skype охватывает свыше 10 млн. пользователей.

Групповая работа. Сегодня реализованы такие сети групповой работы, как Groove Network (защищенное пространство для коммуникаций) и OpenCola (поиск информации и обмен ссылками).

Вопрос эффективного поиска в таких сетях остается открытым, существуют лишь специальные поисковые сайты в веб-пространстве, помогающие решить эту проблему.

На практике пиринговые сети состоят из рабочих станций, каждая из которых взаимодействует лишь с некоторым подмножеством узлов сети (из-за ограниченности ресурсов). Достаточно часто пиринговые сети дополняются выделенными серверами. Такие серверы позволяют решать вопросы поиска по запросам, так как именно эта проблема для пиринговых сетей не может считаться решенной.

Файлообменные P2P-сети уже в начале 2010 г. охватывали более 150 млн. узлов. Сегодня в Интернет более половины всего трафика приходится на файлообменные P2P-сети. Наиболее популярные из них — это Bittorrent, Gnutella2 и eDonkey2000. При поиске в пиринговых сетях тема полноты поиска отодвигается на второй план, главная же задача — быстрое и эффективное нахождение наиболее релевантных откликов на запрос, передаваемый от рабочей станции всей сети. В частности, актуальная проблема — уменьшение сетевого трафика, порождаемого запросом (например, пересылки запроса по многочисленным рабочим станциям), и в то же время получение наилучших характеристик выдаваемых документов, т. е. получение качественного результата.

Приемлемое качество поиска в пиринговых сетях на сегодняшний день обеспечивают лишь специализированные, централизованно наполняемые, поисковые веб-сайты, работающие по протоколу HTTP. Например, для файлообменной сети eMule таким поисковым сервером является сайт Figator.com, а для сети Bittorrent — сайт isoHunt.com.

Как и для файлообменных сетей, для этих серверов особо актуальными и критичными являются проблемы качества и достоверности предоставляемого контента, фальсификация файлов и распространение фальшивых ресурсов, вирусов, «троянских коней», возможность фальсификации ID рабочих станций.

Существует несколько алгоритмов поиска в таких сетях, ни один из которых не подходит для получения результатов, сравнимых с даже традиционным поиском в веб-пространстве. Наиболее популярные алгоритмы базируются на поиске ресурсов по ключам. В большинстве пирингових сетей, ориентированных на обмен файлами, используются два вида сущностей, которым приписываются соответствующие идентификаторы (ID): узлы и ресурсы (например, файлы), которые характеризуются ключами (Key), то есть сеть может быть представлена двумерной матрицей размерностью MN, где M — количество узлов, N — количество ресурсов. В этом случае задание поиска сводится к нахождению ID узла, на котором сохраняется ключ ресурса. Одним из наиболее эффективных алгоритмов поиска в сетях P2P является так называемый «Интеллектуальный поисковый механизм» (Intelligent Search Mechanism, ISM). Улучшение скорости и эффективности поиска информации с помощью данного метода достигается за счет минимизации расходов на количество сообщений, которые передаются между узлами, а также количества узлов, которые опрашиваются для каждого запроса. То есть оцениваются лишь те узлы, которые больше всего отвечают конкретному запросу.

ISM состоит из двух компонент — профайла и способа его ранжирования, так называемого ранга релевантности. Каждый узел сети строит информационный профайл для каждого из соседних узлов. Профайл содержит последние ответы от каждого из узлов. С помощью ранга релевантности осуществляется ранжирование профайлов узлов для выбора тех соседних, которые будут давать наиболее релевантные документы по запросу.

При реализации модели ISM применяется единый стек запросов, в котором сохраняется по Т запросов для N узлов. Как только стек заполняется, происходит замена того запроса, который не использовался дольше (Least Recently Used, LRU), с целью сохранения последних запросов. Функция «ранг релевантности» (Relevance Rank, RR) применяется узлом Pl , чтобы выполнять оперативную классификацию его соседей для определения тех из них, которые стоит опрашивать первыми по запросу q. Для вычисления ранга релевантности каждого узла Pi, Pl сравнивает q со всеми запросами в структуре профайла, для которого известен список ответов на предыдущие запросы, и вычисляет RR(Pi, q):

где а — параметр, который задает вес запросов. В этой формуле Q — множественное число запросов, на которые был ответ от узла Pi; S(P, qj) — количество результатов, которые возвращались узлом Pi по запросу qj; метрика Sim рассчитывается по правилу, принятому в векторно-пространственной модели поиска:

Ранг релевантности RR обеспечивает более высокий ранг узлу, который возвращает больше результатов.

Метод ISM эффективно работает в сетях, узлы которых содержат некоторые специализированые сведения. В частности, исследование сети Gnutella показывает, что качество поиска очень зависит от «окружения» узла, с которого задается запрос. Большая проблема в методе ISM заключается в том, что поисковые сообщения могут циклически проходить через те же узлы сети, не достигая некоторых ее частей. Чтобы решить эту проблему для охватывания большей части сети, предложен подход, при котором для каждого запроса выбиралось небольшое подмножество случайных узлов, которые добавлялись к набору релевантных узлов.

Существуют также другие подходы к решению этой проблемы, например, применяемый в протоколе BGP4 (RFC 1771), где каждый запрос хранит «историю» — список узлов, через которые он уже прошел.

Читайте также:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.