Ключевые слова как индикаторы текстов (продолжение)

Списки предназначены для:

  • использование при разработке и эксплуатации автоматизированных информационно-поисковых систем по различным отраслям науки и техники;
  • унификации и стандартизации терминологии в конкретной области науки и техники;
  • использование при координатном индексировании документов;
  • поиска сведений в БД и предметных указателях (поскольку ключевые слова являются заголовками рубрик в предметных указателях).

В последнем случае единая форма представления КС особенно важна для систематизации данных и удобства пользования предметным указателем.

При условии, что есть определенный набор образцов спектров различных предметных областей, можно идентифицировать предметную область, сравнивая полученный спектр с образцами. Однако, это требует значительных вычислительных мощностей. Именно поэтому и возникла задача оптимизации размера словарного спектра с возможностью идентификации его с предметной областью. Желательно ограничить словарный спектр только значимыми словам и словосочетаниям, такими, которые будут определять предметную область.

Очевидно, что значимость для слов, которые очень часто встречают, должна снижаться, потому что обычно это служебные слова – предлоги и т. п. Для учета этой особенности алгоритм вычисления веса модифицируется следующим образом:

  • вводится список так называемых “шумовых” или “стоп”-слов
  • вводится специальная обработка для терминов, которые встречаются чаще определенного порогового значения.

Стоит отметить, что выделенная множество частотно-инвариантных слов и словосочетаний (“стоп”-слов), сохраняет свою частотную характеристику независимо от предметной области. К таким словам могут относиться местоимения, союзы, частицы, глаголы, небольшие слова. Недостаток такого способа в том, что “стоп”-словарь может содержать значимые для некоторой предметной области слова и словосочетания.

Другой подход – это сопоставление частотного спектра выборки документов со спектром-образцом. Значимость данного слова для предметной области тем больше, чем больше относительная насыщенность вероятности частоты употребления данного слова в данной предметной области по сравнению с некоторой существенно большей областью (над-области), подмножеством которого является исследуемая область. При таком подходе сравниваются две величины: насыщенность частоты употребления слова в области и надобласти. Это позволяет выявить все часто употребляемые слова, которые выделяют эту область и повысить точность обнаружения КС в выбранном тексте.

Чтобы ответить на вопрос, чем и как обеспечивается идентификация и узнаваемость КС, необходимо выделить их дифференциальные семантические и формальные признаки. В первую очередь это частота слова в языке и частота его реального потребления. В научных текстах частота реального потребления значительно выше частота в языке. Статус КС обеспечивает максимум связей с другими словами данной предметной области.

В качестве КС используются перечисленные ниже группы понятий, если в реферате содержится оригинальная информация о обозначаемый ими предмет:

  1. объекты исследования,
  2. процессы и явления;
  3. вещества и материалы;
  4. источники веществ, загрязняющих окружающую среду,
  5. характеристики процессов,
  6. методы исследования, анализа,
  7. приборы, аппараты, устройства, изделия;
  8. законы, уравнения, функции;
  9. общенаучные термины и другие слова.

КС, представляющие собой общие понятия, контролируются по специальным словарем – “Списку основных ключевых слов”.

Список основных ключевых слов имеет единую упорядоченную формализованную логическую структуру, в нем устранены синонимия, полисемия а также омонимия между отдельными сроками, все слова приведены в стандартной словарной форме, т.е. в именительном падеже единственного или множественного числа, и в некоторых случаях между ними установлены смысловые связи ” связки.

Списки КС могут стать основой толковых словарей из разных областей науки и техники, а также основой двуязычных словарей, используемых при автоматизированном или обычном переводе. При систематическом контроле нормализованной лексики по частоте появления новых терминов можно судить об изменении направлений исследования данной отрасли науки или техники, ее точках роста, изменение терминологического поля и т, д. Эти статистические данные могут быть использованы при принятии решения об актуализации лингвистического обеспечения системы подготовки информационных продуктов, Рубрики области науки или техники, согласование терминологии в смежных областях знания, при решении вопросов генерации проблемных фрагментов баз данных и / или подготовки выпусков реферативных журналов и т. д..

* * *

Многие пользователи сети пока еще далеки от понятий ключевых слов и для чего они нужны. Их больше интересует как создать свой сайт и с легкостью им управлять без специальных навыков, а всего лишь руководствуясь логикой системы управления сайтом.

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.