Современные поисковые технологии (часть 2)

Дублирование информации. Документы, публикуемые на веб-сайтах, зачастую многократно дублируются в виде перепечаток или пересказов. Практически все сетевые ИПС содержат компоненты определения содержательного дублирования. Однако достижение приемлемого качества выявления подобных документов (дубликатов) при использовании различных критериев является открытой научно-прикладной проблемой. Задача выявления дубликатов, а также перепечаток документов с небольшими изменениями («почти дублей») является одной из актуальнейших и сложнейших при интеграции информационных ресурсов. Существующие в настоящее время алгоритмы выявления дублей в современных информационных потоках требуют применения самых современных компьютерных комплексов, содержащих тысячи серверов (что можно видеть на площадках современных сетевых поисковых служб), суперкомпьютеров.

Если нахождение явно дублирующейся информации не представляет проблем, то смысловые дубликаты выявляются не так легко, здесь на помощь приходят алгоритмы сопоставления и вероятностной оценки содержимого документов. Кроме того, Интернет является «агрегатором» информации, не находящейся в открытом доступе.

Было проведено исследование того, в какой мере платные информационные материалы, доступные платным подписчикам основных информационных агентств (ИА) Украины и России, становятся доступными в открытом доступе на информационных веб-сайтах. Ведь в этом случае ценность информационных сообщений во многом определяется оперативностью, поэтому отдельной задачей была оценка запаздывания публикаций в Интернет по сравнению с временем рассылки соответствующих сообщений.

При проведении исследований авторы получили уникальную возможность доступа к подписным материалам ведущих ИА, представленных в украинском информационном пространстве. Кроме того, в распоряжении авторов находилась система контент-мониторинга InfoStream — поисковая система, с помощью которой в реальном масштабе времени сканируется свыше 3000 информационных веб-сайтов, представленных в украинском и российском сегментах веб-пространства. Таким образом, в ходе исследования рассматривались два текстовых корпуса — сообщений ИА и текстов, сканированных из веб-пространства. Рассматривались сообщения ИА по общеполитической тематике, поступающие в течение 20 дней одного месяца. Эти сообщения сравнивались с текстами, сканируемыми из Интернета в течение всего месяца, количество которых составило свыше 1 млн. документов.

Технически задача нахождения дубликатов (в данном случае речь идет именно о дубликатах, а не о сообщениях по той же теме, перепечаток с незначительными искажениями) решалась методом нахождения «подобных» документов, основанных на выделении некоторого множества опорных слов, имеющих наибольший TFIDF. В качестве некоторых «инвариантов» для сообщений использовались цепочки из 12 опорных слов, прошедших процедуру морфологической обработки. Такое небольшое количество опорных слов объясняется небольшой средней длиной новостных сообщений (2000-3000 символов).

В результате проведенных исследований удалось получить такие данные:

  • 62 % сообщений ИА было опубликовано на веб-сайтах;
  • общее количество перепечаток на различных веб-сайтах составило 456 %!;
  • количество перепечаток с положительным временем запаздывания (из материалов ИА — на веб-сайты) составило 73 %;
  • количество перепечаток с отрицательным временем запаздывания (перепечаток из Интернет, помещаемых в ленты ИА) составило 27 %.

Ранжированный график распределения сообщений ИА по времени задержки публикаций приведен на рис. 1, на котором четко видны экстремальные отклонения в начальной и конечной области.

Распределение сообщений ИА (ось абсцисс) по времени запаздывания в минутах (ось ординат)

Рис. 1. Распределение сообщений ИА (ось абсцисс) по времени запаздывания в минутах (ось ординат)

Отклонение в начальной области характеризует большое время задержки включения в ленты ИА материалов, размещенных, как правило, на сайтах органов государственной власти, что объясняется инертностью ИА, отсутствием у них средств мониторинга веб-пространства. Отклонения в конечной области объясняются задержками перепечаток на веб-сайтах сообщений, получивших со временем некоторое новое продолжение. Вместе с тем центральная область графика имеет стабильный характер со средним значением около получаса.

Массовый характер перепечаток позволяет делать выводы о том, что все сообщения, интересные пользователям веб-сайтов, были перепечатаны. По-видимому, примерно 37 % сообщений ИА оказались им недостаточно интересными.

Результаты исследований заставили задуматься, за что же платят подписчики информационным агентствам сегодня, когда большая часть информации с минимальной задержкой доступна в Интернет? По-видимому, за аналитический подбор этой информации, репрезентативность и достоверность.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.

%d такие блоггеры, как: