Современные поисковые технологии (часть 1)

IgorOsa

12 лет назад

В настоящее время структура, объемы и динамика информационного пространства (прежде всего, Интернет-пространства) обуславливают актуальность поисковых технологий. Большинство пользователей Интернет осуществляет поиск информации с помощью сетевых информационно-поисковых систем (ИПС). Доступ пользователей к современным информационным сетям, эффективное удовлетворение их информационных потребностей возможно только с помощью развитых средств навигации в этих сетях.

Основополагающими характеристиками ИПС являются полнота и релевантность результатов поиска. Полнота поиска тесно связана с оперативностью охвата информации системой. Созданная однажды база данных Интернет-ресурсов является «слепком» состояния Сети в конкретный момент. Если эта база не будет обновляться постоянно и оперативно, то многие из присутствующих в ней ссылок окажутся «мертвыми». Кроме того, отсутствие оперативности обновления баз данных не позволит пользователю отслеживать последние изменения в его предметной области.

Для пользователей ИПС большое значение имеют также такие характеристики как скорость обработки запросов, достоверность отклика (например, оцениваемая по источникам), а также дополнительные сервисы — возможность нахождения документов, подобных уже имеющимся, возможность подключения средств автоматического реферирования и перевода и, конечно же, возможность уточнения запроса.

Поисковые машины следующих поколений должны будут лучше классифицировать информацию и нагляднее представлять ее. Поиск не должен ограничиваться лишь обработкой введенных ключевых слов. Кроме того, имеет смысл перехода к концепции смысловой навигации в информационных потоках как к распределенному во времени интерактивному процессу локализации отдельных семантических секторов в общем информационном потоке. Системы должны будут отслеживать интересы пользователей, делая поиск более целенаправленным. Новые поисковые машины будут находить опубликованные в сети текстовые, аудио- и видеоматериалы, которые в настоящее время недоступны.

В настоящее время основными проблемами в области информационного поиска являются: необходимость охвата больших объемов информации; большая и сложная динамика информационных потоков; многократное дублирование информации; избыток шумовой информации, спама; наличие скрытого веб-пространства, недоступного современным ИПС; отсутствие реальной модели веб-пространства, эффективных алгоритмов поиска в распределенных (например, пиринговых, социальных) сетях, средств смыслового поиска; поиска мультимедийной информации, мультиязычных средств поиска; отсутствие в свободном доступе универсальных поисковых служб, обеспечивающих поиск фактографии, текстовой информации и связей объектов поиска; слабый учет персональных информационных потребностей пользователей; слабая адаптация под эти потребности; явный конфликт при доступе к свободно доступной и/или коммерческой информации. Раскроем некоторые из названных пунктов более подробно.

Необходимость охвата больших объемов информации. В начале существования World-Wide Web небольшое количество веб-сайтов публиковало информацию отдельных авторов для относительно большого количества посетителей. Сегодня с появлением и развитием идеологии Web 2.0 ситуация изменилась. Сами посетители веб-сайтов активно участвуют в создании контента, что привело к резкому росту объема и динамики информационного пространства.

Информации в Сети появляется больше, чем ее успевают охватить поисковые системы. Естественно, это влияет на полноту поиска, что объясняет жесткую конкурентную борьбу за объемы проиндексированных веб-документов, ведущуюся поисковыми службами. С самого начала поисковые системы вели ожесточенную борьбу именно за этот показатель. На первых страницах таких поисковых сайтов как Altavista, Google, Alltheweb, Yahoo! публиковались соответствующие цифры — количество проиндексированных документов (объем индекса). В начале XXI века лидером по охвату ресурсов оказалась служба Google. Однако в 2002 году система Alltheweb неожиданно вышла на первую позицию и была признана лучшей сетевой ИПС в мире по охвату ресурсов, проиндексировав 2,1 млрд. вебстраниц. Затем лидерство вновь вернулось Google — свыше 3,3 млрд. веб-страниц в 2003 г. Последняя цифра, размещенная на титульной странице Google в 2005 г., составляла чуть более 8 млрд. страниц. После этого цифры перестали публиковаться. Из официальных пресс-релизов 2005 г. известно, что объем индекса Google составлял 13 млрд. документов, объем индекса Yahoo! превысил это значение и достиг на то время 20 млрд. документов. Администрация Google была не согласна с этой цифрой, выступая с опровержением. Вместе с тем в заявлении Yahoo! было сказано: «Мы поздравляем Google с изъятием с их главной страницы числа, показывающего размер индекса, и с признанием того, что оно ничего не значит. Как мы уже говорили, важно лишь, чтобы потребители находили то, что они ищут, и мы предлагаем пользователям сравнить результаты поиска наших систем».

Казалось бы, возвращаться к оценке объема индекса никто не будет. Однако в июле 2008 года появилась новая глобальная поисковая система Cuil с относительно небольшим бюджетом (33 млн. долларов), содержащая в индексе 121 млрд. веб-страниц, что, по мнению экспертов, в несколько раз превышало индекс Google, который официально не обнародовался. Можно лишь косвенно сравнивать показатели Google и Cuil, задавая им простейшие запросы (информации Cuil можно доверять — ее создатели предъявили поисковый индекс внешним экспертам). Как явствует из материалов компаний, обе поисковые системы не используют так называемого стоп-словаря, т. е. запросы по простым, часто употребляемым словам позволят оценить соотношение объемов индексов. И такую оценку с определенным уровнем достоверности может сделать каждый. Например, введя поисковое слово «the» одновременно двум системам, можно получить:

Google: about 22,550,000,000 for the;
Cuil: 22,883,636,124 results for the.

Результаты вполне сопоставимы — можно сделать вывод о примерно одинаковом объеме поисковых индексов. Введем слово «для» (для проверки русскоязычной части), получаем:

Google: about 546,000,000 for для;
Cuil: 368,508,113 results for для.

Русскоязычная часть индекса Google оказалась несколько большей. О низком качестве (объеме) русскоязычного индекса Cuil свидетельствуют и запросы по другим словам.

Неожиданный результат получается для еще одного слова — «of»: Google: about 22,760,000,000 for of; Cuil: 121,000,000,000 results for of.

В этом случае у Cuil результат более чем в 5 раз весомей. Но, учитывая итоги поиска по слову «the» (и по другим словам, в частности, не только на английском языке), можно сделать иной вывод. Каковы бы ни были результаты подобных сравнений, факт остается фактом: Google — самая популярная поисковая система, самый дорогой бренд в мире, а Cuil — мало кому известный проект с бюджетом региональной поисковой системы. Это подтверждает тот факт, что ситуация на рынке поисковых систем не простая — она отражает принцип новой экономики: здесь не может быть вторых ролей. Или система лучшая в мире, или ней никто не будет пользоваться. Система должна найти свою нишу в задаче максимального удовлетворения запросов пользователей — быть самой полной, самой демократичной, самой интеллектуальной или самой локализированной.

Похожих публикаций пока нет.