Современные поисковые технологии (часть 6)

Необходимость создания новой модели веб-пространства Эффективный анализ информационных потоков в Интернет, построение эффективных ИПС невозможно без некоторых сведений о структуре самого веб-пространства. В 1999 г. А. Брёдер из IBM и его соавторы из компаний AltaVista, IBM и Compaq сделали первую попытку математического описания «карты» ресурсов и гиперсвязей веб-пространства, получившей благодаря своей форме название «галстука-бабочки» (Bow…

Современные поисковые технологии (часть 5)

Скрытое веб-пространство. По оценкам экспертов, с помощью даже самых крупных глобальных поисковых систем в Интернете сегодня доступно не более 30 % открытой информации, присутствующей в веб-среде. Веб-ресурсы, находящиеся в свободном доступе, но не доступные с помощью обычных поисковых систем, образуют так называемый глубинный веб. Эти ресурсы имеют собственное название — «глубинный» или «скрытый» (deep) веб,…

Современные поисковые технологии (часть 3)

Динамика информационных потоков. Новый уровень развития сетевого информационного пространства обуславливает необходимость создания и развития адекватных моделей информационных потоков. В этой связи возникает интерес к подходам, основанным на понимании информации как меры упорядоченности некоторой системы и, соответственно, к статистическим методам ее обработки. Для организации эффективной коммуникации в сетях сегодня приходится постоянно возвращаться к истокам теории информации,…

Современные поисковые технологии (часть 2)

Дублирование информации. Документы, публикуемые на веб-сайтах, зачастую многократно дублируются в виде перепечаток или пересказов. Практически все сетевые ИПС содержат компоненты определения содержательного дублирования. Однако достижение приемлемого качества выявления подобных документов (дубликатов) при использовании различных критериев является открытой научно-прикладной проблемой. Задача выявления дубликатов, а также перепечаток документов с небольшими изменениями («почти дублей») является одной из актуальнейших…

Современные поисковые технологии (часть 1)

В настоящее время структура, объемы и динамика информационного пространства (прежде всего, Интернет-пространства) обуславливают актуальность поисковых технологий. Большинство пользователей Интернет осуществляет поиск информации с помощью сетевых информационно-поисковых систем (ИПС). Доступ пользователей к современным информационным сетям, эффективное удовлетворение их информационных потребностей возможно только с помощью развитых средств навигации в этих сетях. Основополагающими характеристиками ИПС являются полнота и…