Ключевые слова как индикаторы текстов (начало)

При создании и эксплуатации информационно-поисковых систем особое значение имеет аналитико-синтетическая переработка документов-реферирование, редактирование, индексирование ключевыми словами и рубрикам и т. д. – для ввода результатов этой переработки в компьютерных системах с целью генерации баз данных (БД) и автоматизированной подготовки различных научных изданий.

В общенаучном плане КС рассматриваются как наиболее важный, существенный для понимания смысловой элемент. КС определяет содержание текста и является носителем его смысла. Учитывая вышесказанное, можно утверждать, что КС – это слова, наиболее значимые для понимания смысла текста. Выражаясь лингвистическими терминами, КС – это семантические доминанты, сигнализирующие о предметной области знаний, одинаково понимаются членами одного социума, облегчающие диалог между ними и позволяют проникнуть в то, что находится за текстом.

КС считаются нормализованы слова и устойчивые словосочетания естественного языка, которые представляют собой термины и понятия конкретной области науки и техники и несут в совокупности максимально полную и краткую информацию о содержании документа (реферата). КС, которые используются при индексировании, могут не содержаться в явном виде в тексте документа. При формировании предметных указателей в качестве заголовков рубрик указателей используются только КС.

КС обладают несколькими дифференциальными признаками, что позволяет узнавать их в научном тексте:

а) частота, повторяемость в данном тексте;

б) семантическая близость слова к теме текста;

в) информационное насыщение.

Для упрощения структуры научного текста (для которого характерны сложные развернутые синтаксические конструкции), для придания ему стереотипизации, в нем часто используются параллельные конструкции.

Семантическая структура текста является трехуровневой структурой, состоящей из уровня содержания, уровня смысла и уровня связи, что фактически соответствует поверхностному, глубинном и концептуальном понимании текста.

КС, которым индексируют текст, должны отражать все основные аспекты его содержания, в том числе и те, которые “непрофильными” по отношению к тому разделу, где помещен индексированный документ, но представляют интерес для специалистов смежных отраслей знания.

Функциями КС в научном тексте являются: 1) формирование содержания текста и обеспечения сохранения его в памяти, 2) создание структурно-семантической единства текста, его целостности, 3) задание функционального стиля текста разворачивается, 4) отражения предметной области текста, разворачивающийся снятия семантической неоднозначности, 5) маркировка темы текста, 6) определение позиции слов или словосочетаний, обладающих максимальной предсказуемостью, 7) приближение к инварианта состояния, 8) выделение целостного содержания, 9) передача обобщенного смысла текста, указания и ограничения направления ассоциаций, импликаций читателя; 10) коммуникативная – средство научной коммуникации.

Стандартный подход в анализе текстовой информации заключается в изучении частотных характеристик языковых инвариантов: слов и словосочетаний. Каждой предметной области соответствует свой словарный частотный спектр, который при достаточных вычислительных ресурсах можно вычислить, имея большой объем документов, относящихся к данной предметной области документов – выборку.

Одним из основных аспектов аналитико-синтетической переработки документов является так называемое координатное индексирование, т.е. выражение основного смыслового содержания документа в виде определенного набора ключевых и пояснительных слов.

Принцип одноразового реферирования и индексирования документов и многократного использования результатов для генерации БД и информационных изданий предъявляет повышенные требования к качеству обработки первичной информации. Для этого необходимо разработано лингвистическое обеспечение, в частности – списки основных ключевых слов из разных областей науки и техники, которые являются важнейшим инструментом координатного индексирования документов. В технологии однократного реферирования списки КС из разных областей науки и техники должны быть едиными и / или совместимыми.

Списки подбираются путем “снятия” КС с поисковых образов документов и дальнейшей их экспертной оценки, с учетом частоты вхождения термина. Для определения лексического поля списков следует проявлять не только основные КС данной отрасли науки или техники (или так называемое ядро ​​терминологии), но и сроки смежных отраслей, т.е. выявлять степень пересечения лексических полей различных областей науки и техники.

Это особенно важно в условиях однократного реферирования и необходимости подготовки единых и / или совместных списков из различных областей науки и техники и, в перспективе, тезауруса, потому что в первую очередь необходимо согласовывать терминологию, которая встречается в смежных отраслях.

Продолжение следует…

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.