УДК 811.93
Логинова Елена Александровна
Loginova Elena Alexandrovna
аспирант кафедры информатики и информационно-аналитических ресурсов Белгородского государственного института культуры и искусств [email protected]
АНАЛИЗ ПАРАДИГМАТИЧЕСКИХ ОТНОШЕНИЙ В ИНФОРМАЦИОННОПОИСКОВЫХ ЯЗЫКАХ АВТОМАТИЗИРОВАННЫХ БИБЛИОТЕЧНО-ИНФОРМАЦИОННЫХ СИСТЕМ
PhD student of the Informatics and Information Analysis Resources Department, Belgorod State Institute of Culture and Arts [email protected]
ANALYSIS OF PARADIGMATIC RELATIONS IN INFORMATION RETRIEVAL LANGUAGES OF THE INTEGRATED LIBRARY SYSTEMS
Аннотация:
В статье анализируются пути повышения качества информационного поиска в современных автоматизированных библиотечно-информационных системах. Автор рассматривает основные виды парадигматических отношений в библиотечных информационно-поисковых языках и приводит способы их эксплицитного представления в подсистеме лингвистического обеспечения автоматизированных библиотечноинформационных систем.
Ключевые слова:
информационный поиск, автоматизированная библиотечно-информационная система, лингвистическое обеспечение, информационно-поисковый язык, парадигматические отношения, синонимия, омонимия, род - вид, часть - целое, предмет - функция.
Summary:
The article is concerned with the quality improvement of information retrieval in the current integrated library systems. The author considers basic types of paradigmatic relations at library information retrieval languages, and produces the ways of their explicit presentation in the lingware subsystem of the integrated library systems.
Keywords:
information retrieval, integrated library systems, lingware, information retrieval language, paradigmatic relations, synonymy, homonymy, sort-kind, part-whole, subject-function.
В настоящее время быстрый рост количества, сложности и срочности информационных запросов, вызванный непрерывным увеличением численности специалистов и количества решаемых ими научно-технических задач, увеличение фондов документов, в которых необходимо производить информационный поиск, делает задачу автоматизации процедуры информационного поиска все более актуальной. Своевременная, точная и полная выдача научных документов в ответ на многочисленные и разнообразные информационные запросы приобретает характер задачи массового обслуживания, которая может быть успешно решена лишь путем применения соответствующих средств автоматизации. Чтобы процедуру сопоставления поисковых образов документов с информационным запросом можно было выполнить автоматически, не вникая в их смысл, необходимо их назвать средствами определенного языка, слова и фразы которого обладали бы смысловой однозначностью. Для реализации этой цели началась разработка информационно-поисковых языков (ИПЯ). Они призваны устранять «избыточность» и «недостаточность» естественного языка, а также присущую ему синонимию и омонимию.
Для эффективного использования ИПЯ в нем должны быть выявлены и эксплицитно (в явном виде) выражены важнейшие парадигматические отношения между словами. Парадигматические отношения - это отношения между словами, не зависящие от контекста, в котором они используются и обусловленные наличием не языковых, а логических связей между предметами [1, с. 147]. В теории информационного поиска выделяют следующие основные виды парадигматических отношений:
1. Сильные:
а) отношения тождества (использование синонимов);
б) отношения иерархии (род - вид, часть - целое).
2. Слабые (ассоциативные):
а) отношения пересечения понятий;
б) отношения ассоциации;
в) отношения причины - следствия;
г) отношения смежности;
д) отношения контраста;
е) отношения кратности.
Благодаря применению парадигматических отношений всегда может быть учтена специфика информационного запроса (например, требуемая широта и точность информационного поиска) и обеспечен достаточно точный перевод любого информационного запроса на ИПЯ. Парадигматические отношения выявляются путем анализа лексических единиц, включаемых в словарный состав ИПЯ.
Проведем анализ различных видов ИПЯ, применяемых в автоматизированных библиотечно-информационных системах, и выявим особенности установления парадигматических отношений между лексическими единицами ИПЯ.
Отношения тождества как разновидность сильных парадигматических отношений выражаются в использовании синонимов. Учет отношений тождества, синонимии при проведении информационного поиска имеет принципиально важное значение: неустраненная синонимия ведет к ощутимым потерям при поиске, снижает полноту выдачи информации по запросу. Например, вряд ли будет обеспечена полнота ответа на запрос, если человек, ведущий поиск, не знает, что альтернаторы - это то же самое, что и генераторы электрические, а карболи-ты и фенопласты, метаболизм и обмен веществ суть равнозначные понятия [2, с. 14].
В различных ИПЯ отношения тождества отражены в системе ссылок и отсылок. Обычно используются такие ссылки, как «см» (смотри) и «см. также» (смотри также), которые отсылают пользователя к синонимичным понятиям поискового образа запроса, тем самым устраняя возможность потери информации при поиске. Рассмотрим использование ссылок на примере такого ИПЯ классификационного типа, как ББК:
76.1 Книжное дело. Книговедение См. также: 76.17 Издательское дело
Ссылка «См. также» связывает темы (понятия), дополняющие друг друга.
Классификационные ИПЯ являются также ярким примером использования отношений иерархии, так как они построены по принципу деления от общего к частному. Основные виды отношений между подразделениями классификации - это иерархия (подчинение) и соподчинение.
Иерархия - это отношение, при котором один класс является подклассом другого, более широкого. Отношением соподчинения связаны классы, которые являются подклассами одного, более широкого класса.
В пределах иерархических отношений различают отношения типа «род - вид» и «целое -часть». На примере рабочих таблиц ББК для массовых библиотек рассмотрим применение парадигматических отношений «часть - целое»:
78.3 Библиотечное дело. Библиотековедение 78.30 Теория библиотечного дела 78.32 Методика библиотечного дела
Отношение «целое - часть» отражает реальный факт вхождения одного объекта (понятия) в состав другого. При этом подчиняющее понятие соотносится с подчиненными в результате разложения целого на части [2, с. 15].
Парадигматические отношения типа «род - вид» являются одним из важнейших видов связей между понятиями в классификационных ИПЯ. При этом родовым (подчиняющим) называется понятие, выражающее существенные признаки класса предметов, являющихся видами этого рода. Соответственно видовым (подчиненным) называется понятие, которое отображает существенные признаки класса предметов, являющегося видом какого-либо рода. Использование отношений «род - вид» на примере рабочих таблиц ББК для массовых библиотек:
75.5 Игры. Спортивные игры
75.565 Бадминтон
75.566 Баскетбол
Наглядным примером эксплицитного представления парадигматических отношений являются дескрипторные ИПЯ, и в частности информационно-поисковые тезаурусы. Языки де-скрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий либо из текстов документов. Дескриптор - лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов [3, с. 68]. В АБИС в качестве дескрипторных ИПЯ широкое распространение получили информационно-поисковые тезаурусы.
Информационно-поисковый тезаурус (ИПТ) - это прежде всего словарь-справочник, в котором перечислены все лексические единицы дескрипторного информационно-поискового языка с синонимичными им словами или словосочетаниями естественного языка, где эксплицитно выражены парадигматические, синтагматические, ассоциативные отношениями между дескрипторами [4, с. 48].
Для обеспечения полноты отражения содержания документов и запросов с помощью ИПЯ с целью повышения эффективности информационного поиска в дескрипторном словаре для каждого дескриптора указываются его синонимы, а также родовые, видовые и ассоциативные отношения.
Пример выражения парадигматических отношений в тезаурусе по языкознанию базы данных ИНИОН РАН (Институт научной информации по общественным наукам Российской академии наук):
Дескриптор
Вышестоящий
Нижестоящий
Ассоциативный
Рубрика
язык
языкознание
естественный язык; обыденный язык;
план выражения и план содержания; происхождение языка; разновидности языка; философия языка; функции языка; энергетическая теория языка; языковая система; языковая эволюция; языковой закон; языковые уровни социальный престиж; язык и идеология; язык и культура; язык и логика; язык и мышление; язык и нация; язык и общество; язык и письмо; язык и политика; язык и речь А16210741
Главное назначение ИПТ заключается в повышении эффективности индексирования документов. В процессе индексирования учитываются семантические отношения между дескрипторами, что обеспечивает более релевантный содержанию документа поисковый образ и повышает эффективность поиска документов.
Таким образом, в ИПТ, как распространенном языке дескрипторного типа, реализуется широкий спектр парадигматических отношений: синонимии, омонимии, родовидовых отношений, отношений часть - целое и ассоциаций. Лингвистический тезаурус дает возможность использовать любое из множества связанных по смыслу слов и словосочетаний для выражения одной идеи, обозначенной названием понятийной группы.
Значение сильных парадигматических отношений иерархического характера для информационного поиска в автоматизированных библиотечно-информационных системах весьма велико. Их применение в ИПЯ в явном виде позволяет существенно корректировать поисковые запросы. Например, при недостаточной выдаче информации по запросу использование родовых вышестоящих понятий позволяет расширить область поиска, тем самым повысив полноту выдачи. И, наоборот, при избыточности информационного поиска применение видовых, нижестоящих понятий дает возможность значительно сузить область поиска и повысить точность выдаваемой информации.
Для обеспечения исчерпывающей полноты информационного поиска необходимо, чтобы термины ИПЯ были связаны не только родовыми и видовыми отношениями, но и ассоциативными отношениями части к целому, смежности, сходства, причинно-следственными отношениями и т. п. Ассоциированные термины, считает А.И. Михайлов, - это те, которые выражают перекрещивающиеся (пересекающиеся) понятия, т. е. понятия, обладающие некоторыми общими свойствами или признаками (одним или несколькими).
Среди слабых парадигматических отношений (ПО) наибольшее распространение получил такой вид, как «причина - следствие». Приведем пример причинно-следственных связей между лексическими единицами УДК-навигатора электронного каталога ГПНТБ России:
024.8 - Плохое обращение с книгами. Повреждение книг. Потеря и хищение книг (См. также:)
025.85 - Уход за книгами. Повреждения книг. Реставрация. Чистка
Это отношение связывает лексические единицы, обозначающие соответственно причину и следствие: повреждение книг - реставрация.
Еще один вид слабых парадигматических отношений, применяемый в ИПЯ, - это отношение контраста (противоположности). Оно выражается в лексике ИПЯ с помощью антонимов и омонимов. Неоднозначность омонимичных и антонимичных лексических единиц в ИПЯ обычно устраняется с помощью использования реляторов, т. е. лексического примечания в
круглых скобках. Пример отражения отношения кратности в УДК-навигаторе электронного каталога ГПНТБ России:
33.02 - Политика. Планирование. Руководство. Мероприятие. Средства (инструменты)
Из примера видно, что термин «средства» является омонимичным и может иметь несколько значений. Его неоднозначность устраняется при помощи соответствующего пояснения в круглых скобках «инструменты».
Пример использования антонимов в УДК-навигаторе электронного каталога ГПНТБ России: 612.663 - Плодовитость. Фертильность
612.663.5 - Бесплодие. Стерильность
Сильные и слабые парадигматические отношения имеют принципиально важное значение для подготовки поискового образа документа. Их учет необходим для корректного информационного поиска по запросу, качественного индексирования, аннотирования или реферирования документа. Решающее значение установление парадигматических отношений между лексическими единицами играет и при разработке ИПЯ, так как они характеризуют смысловые, семантические связи между понятиями.
Ссылки:
1. Монастырский И.М. Информационно-поисковые системы. М., 1983. 206 с.
2. Гендина Н.И. Лингвистическое обеспечение автоматизированных библиотечных систем. Алма-Ата, 1991. 222 с.
3. Сукиасян Э.Р. Школа индексирования : практ. пособие. М., 2005. 144 с.
4. Сбитнев С.А. Автоматизированные информационно-поисковые системы : учеб. пособие для студентов библиотечного факультета. Кемерово, 1981. 106 с.
5. Михайлов А.И., Черный А.И., Гиляревский Р.С. Основы научной информации. М., 1965. 655 с.
References (transliterated):
1. Monastyrskiy I.M. Informatsionno-poiskovye sistemy. M., 1983. 206 p.
2. Gendina N.I. Lingvisticheskoe obespechenie avtomatizirovannykh bibliotechnykh sistem. Alma-Ata, 1991. 222 p.
3. Sukiasyan E.R. Shkola indeksirovaniya : prakt. posobie. M., 2005. 144 p.
4. Sbitnev S.A. Avtomatizirovannye informatsionno-poiskovye sistemy : ucheb. posobie dlya studentov bibliotechnogo fakul'teta. Kemerovo, 1981. 106 p.
5. Mikhaylov A.I., Cherniy A.I., Gilyarevskiy R.S. Osnovy nauchnoy informatsii. M., 1965. 655 p.