Ключевые слова как индикаторы текстов (окончание)

В современных исследованиях проблема КС рассматривается в связи с разработкой информационно-поисковых систем (ИПС), в рамках теории коммуникации, психолингвистики, когнитивной лингвистики. Соответственно и подходы к определению данного понятия существенно отличаются. Исследователи обращают внимание на иерархию языковых средств в тексте, на существование в нем доминантных и субдоминантных языковых средств, выделяя при этом различные аспекты данного языкового явления.

Существует множество вариантов поиска информации, но наиболее распространенное задача – поиск текстового документа по запросу, который представляет собой некоторую фразу или набор слов, введенных пользователем. Это исторически первый вид информационного поиска, и наиболее часто применяется в настоящее время. Существует ряд других задач таких, как классификация документов, кластеризация, автоматизированное аннотирование и т. д.

Исходя из этого, учеными было сформировано несколько моделей представления документов посредством их лексических единиц. Сейчас в ИПС используются следующие модели: модель множества слов, бинарная модель (с “весом” слов) и другие нелексические модели.

Основной гипотезой модели “множества слов” информационного поиска является то, что релевантный документ содержит те же сроки, что и запрос. Под термином обычно понимают отдельные слова естественного языка, на котором создан документ. Все известные современные языки, используемые человеком, основанные на словах как минимальной единицы, которая имеет самостоятельное значение. Информационная система должна выделить слова из сохраненного в ней представления документа. Целью представления документов в ИПС является выявление и экспликация темы текста или его раздела, а представителем темы научного (специального) текста является именно термин.

Все множество символов разбивается на два множества – символы, которые могут входить в слово (буквы и цифры), и символы-разделители (пробелы, знаки препинания). Подпрограмма выделение слов сканирует текст, выбирая последовательности символов слов, ограниченных разделителями. Однако такой алгоритм имеет ряд погрешностей при работе с естественными текстами особенности написания, переносы слов, написание слов через дефис, аббревиатуры, которые пишутся через точки, номера, даты и числа, содержащие кроме цифр различные символы пунктуации и т. д. В системах информационного поиска для обработки подобных ситуаций применяется осложнения описанного алгоритма, когда в качестве слова формируется множество возможных вариантов, как слова, соединения символами-разделителями, так и слова целиком.

В случае простой модели поисковая система может рассматривать только наличие / отсутствие слов в документе. Такая модель документа называется бинарной. Осложнением этой модели является подход, где для каждого слова указывается не только наличие, но и определенная “вес”. Таким образом, модель документа по модели множества слов превращается в модель множества пар “слово – вес”.

Существуют известные методы определения “веса” слова: а) статистический подход – “вес” слова определяется из статистических характеристик его вхождения в текст документа б) место появления слова – слово по-разному “решается” в зависимости от того, встретилось оно в заголовке , начале текста и т. д. в) оформление слова. Слово может быть выделено шрифтом или положением, что может быть учтено при определении “веса”. Как правило, реализуется некий комбинированный метод, когда “вес” исчисляется на основании комбинации упомянутых признаков.

Используя статистический подход, можно взять слова, встречающиеся в некоторой текстовой коллекции и отсортировать их по частоте. При этом позиция слова в этом списке называться рангом слова.

Наиболее распространенными методами “взвешивания” слов в документе: а) количество вхождений слова в данном документе, б) частота вхождения слова в документе, в) логарифм частоты вхождения слова.

Частотный метод “взвешивания” слов стал одним из первых, которые были предложены учеными и на данный момент до сих пор используется в большом количестве ИПС. Хотя данный метод и заслуженно критикуется из-за качества индексирования, однако в последнее время ведутся исследования по совершенствованию частотного метода индексирования научных (а в широком смысле – специальных) текстов.

Стоит отметить, что при формировании списка КС желательно учитывать тот очевидный факт, что более важные с точки зрения смысла слова авторы текстов размещают в заголовке документа или его разделов, или с начала его текста.

При исследовании научных текстов следует обращать внимание также на текстовые выделения в документе, поскольку, как правило, все значимые слова, термины, понятия выделяются автором средствами форматирования текста (выделение курсивом, капитель, подчеркивание, пол жирные выделения и др.).

Игнорирование последних двух факторов в большинстве случаев приводит к ухудшению качества поиска, поэтому их следует использовать на уровне с другими методами выделения семантически значимых элементов текста.

* * *

IT индустрия полна событий, которые происходят регулярно. Всю информацию про современные технолгии рассказывают новости ИТ, о которых можно почитать на многих сайтах, в т.ч. и на it-burn.ru.

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.