Р. Р. МДИВАНИ*
О РАЗРАБОТКЕ ДЕСКРИПТОРНЫХ ЯЗЫКОВ АВТОМАТИЗИРОВАННОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ ПО ОБЩЕСТВЕННЫМ НАУКАМ ИНИОН РАН
Автоматизированная система информации по общественным наукам (АИСОН) начала функционировать в ИНИОН РАН с 1980 г. Ее ввод в промышленную эксплуатацию осуществлялся шаг за шагом по мере развития отраслевых и страноведческих баз данных (БД). Начало было положено внедрением библиографической БД по экономике и демографии, а весь процесс завершился в 1985 г. созданием БД по литературоведению. При этом создание языка дескрипторного типа для обработки входного потока документов и запросов пользователей осуществлялось в процессе накопления лексики в режиме свободного индексирования и последующей ее нормализации (7).
В 1992—1995 гг. на основе унификации дескрипторов отраслевых списков нормализованной лексики (СНЛ) был создан русско-английский Генеральный словник (объемом около 11 тыс. дескрипторов), функционирующий также в качестве средства автоматического контроля результатов индексирования вводимых в БД документов (10, с. 168).
В последние годы развитие программного и технического обеспечения АИСОН достигло нового уровня благодаря налаженному в ИНИОН тиражированию библиографических БД на компакт-дисках
* Мдивани Роберт Робертович - кандидат филологических наук, ведущий научный сотрудник Сектора исследования информационных систем Отдела электронных информационных технологий Центра информатизации ИНИОН РАН, руководитель Группы разработки и ведения тезаурусов.
и подключению системы к Интернету, что значительно расширило круг ее внешних пользователей.
Достижением ИНИОН в развитии информационного обслуживания стало также создание службы электронной доставки документов (ЭДД), заказываемых, как правило, по результатам поиска библиографической информации в БД. Фактически служба ЭДД ИНИОН является межбиблиотечной службой, объединяющей несколько организаций в России и за рубежом (4).
Несмотря на то что действующий в АИСОН комплекс лингвистических средств за годы эксплуатации системы достиг определенного уровня, современный этап развития технических и программных средств, обеспечивший расширение круга внешних пользователей и создание новых информационных продуктов, со всей остротой поставил задачу разработки качественно нового лингвистического обеспечения системы. В первую очередь это касалось создания комплекса отраслевых тезаурусов, соответствующих тематике БД АИСОН по социальным и гуманитарным наукам.
В 1999 г. решение этой проблемы было возложено на Группу разработки и ведения тезаурусов, организованную в составе Центра информатизации ИНИОН. Создание специальной группы с соответствующим техническим и программным обеспечением позволило приступить к подготовке серии «Информационно-поисковые тезаурусы ИНИОН по социальным и гуманитарным наукам», охватывающей всю тематику отраслевых БД АИСОН. Разрабатываемые тезаурусы ориентированы на использование их при обработке документопотока в режиме промышленной эксплуатации АИСОН.
Организационным принципом работы над тезаурусами является создание тематических межотдельских групп (с обязательным участием лингвистов), куда входят сотрудники Отдела научно-
библиографической информации (ОНБИ) и реферативных подразделений Института, специализирующиеся в области информации по соответствующим отраслям социальных и гуманитарных наук.
Необходимо подчеркнуть, что для систем типа АИСОН, развитие и совершенствование которых происходило и происходит главным образом за счет достижений в области программного обеспечения и информационной техники, методы обработки, поиска и представления информации изменялись мало. При этом и сегодня вполне справедливо утверждение, что уже почти полностью исчерпан накоп-
ленный запас знаний и идей в области информатики, а дальнейшие качественные сдвиги при создании нового поколения информационных систем возможны лишь при наличии новых знаний об информационных процессах в памяти человека, которые позволили бы моделировать их на ЭВМ (9, с.34).
Поэтому мы остановимся лишь на освещении некоторых проблем, возникших в ходе практической работы над тезаурусами.
Особенности терминологии
Особенности терминологического состава тезаурусов обусловлены спецификой социальных и гуманитарных наук. В противоположность естественным наукам, обладающим синхронно движущимся исследовательским фронтом и кумулятивным подходом к исследуемым фактам, в социальных и гуманитарных науках множество различных школ существуют достаточно независимо друг от друга, имея дело с одними и теми же социальными проблемами и не приходя при этом к единому решению. В этом смысле сохраняет силу утверждение Р. Декарта, что «большая часть вопросов, являющихся предметом споров ученых, почти всегда относится к числу словесных. Эти словесные вопросы... встречаются столь часто, что если бы философы всегда соглашались в значении слов, то почти все их споры прекратились бы» (5, с. 139). Кроме того, темы, которые уже обсуждались веками, могут возникнуть вновь, и даже при рассмотрении новых проблем обществовед гораздо чаще, чем специалист по естественным наукам, должен ссылаться на старые материалы и идеи. Эта специфика социальных и гуманитарных наук обусловливает необходимость создания больших ретроспективных БД, поскольку не существует определенных объективных критериев, в соответствии с которыми можно сказать, что документ устарел и может быть исключен из базы знаний социальных наук (16, с. 265). Следствием этого является относительно длительный «жизненный цикл» лексического массива тезауруса, активно используемого не только при поиске, но и при индексировании документов. Естественно, что это не исключает возможности появления новой терминологии в процессе эксплуатации системы. В связи с этим возникает часто задаваемый вопрос о соответствии темпов роста словаря темпам развития науки. Однако никакой прямой зависимости здесь нет: этот факт обусловлен общелингвистическими особенностями функционирования лексики в языке. Как извест-
но, в лексической единице, помимо плана выражения (фонетического или графического), в плане содержания выделяются значение и смысл слова. Это связано с различением двух моментов: в первом случае речь идет о «вещах», т.е. объектах, процессах и действиях людей, которые слово именует, а во втором — о «делах» нашей мыслительной реальности, которую это слово выражает и тем самым оформляет. Именно это связано с принятым в науке противопоставлением значения и смысла слова. Сказанное выше, естественно, характерно для научного дискурса и для использования в процессе научной коммуникации терминов, т.е. входящих в ту или иную научную парадигму понятий. Активная причастность понятий к сферам человеческой деятельности влечет появление такого свойства, как сущностная оспариваемость понятий. Сущностно оспариваемые понятия принципиально ориентированы на порождение новых смыслов, определяемых развертыванием дискурса и контекстами. Толь -ко окончательно сформировавшиеся и застывшие в своем развитии понятия поддаются абсолютной терминологизации, т.е. установлению смысловой, а фактически — операционной непротиворечивости использования терминов для определенных областей деятельности и ситуаций. Так, например, сложно обстоит дело с использованием в нынешнем политическом дискурсе таких слов-понятий, как «права человека», «демократия», «суверенитет» (6, с. 20—34). В социальных и гуманитарных науках (если не учитывать конкретных данных) развитие научной мысли идет, главным образом, за счет различных интерпретаций и уточнений смысла тех или иных терминов при сохранении их плана выражения и конвенционального значения. Поэтому можно утверждать, что в автоматизированных системах по социальным и гуманитарным наукам функцией дескриптора информационно-поискового языка (ИПЯ) является не выражение мысли автора документа: его функция — служить конвенциональным знаком для всего комплекса мыслей, даже опровергающих одна другую, но связанных с обсуждением конкретной проблемы или объекта исследования и выраженных во множестве релевантных запросу документов (11, с. 164). Иначе говоря, отдельный пользователь системы может вкладывать свой смысл в значение термина, но именно общность значения объединяет пользователей языка (не только информационнопоискового) в процессе коммуникации, хотя в сознании конкретного индивида различие значение-смысл может и не осознаваться. Поэтому можно утверждать, что «в сознании не рефлексирующего по поводу своих языковых способностей носителя языка значение (смысл) языкового
выражения вообще выступает как непосредственная данность» (14, с. 10). Именно это обстоятельство позволяет, при всех расхождениях взглядов ученых — обществоведов различных школ и направлений, использовать в автоматизированной системе тезаурусы в качестве нормативного словаря со стандартными парадигматическими отношениями синонимии «выше — ниже» и ассоциативными.
Парадигматические отношения
Опыт многолетней эксплуатации АИСОН показал, что специфика наименований объектов и процессов, исследуемых в социальных науках, позволяет без ущерба для обработки документов и запросов использовать отношение «:выше — ниже» в обобщенном виде, включая отношение «часть — целое».
С точки зрения специалистов в области научно-технической информации, парадигматическое отношение «часть — целое» относится к числу ассоциативных отношений. Это отношение отражает — в типичных для данной области знания ситуациях — факт вхождения одного предмета (объекта) в состав другого предмета (объекта) (12, с. 79). Однако для системы терминов социальных и гуманитарных наук более характерна ситуация, предусмотренная в стандарте 180 2788 и в руководстве по составлению тезаурусов Ассоциации информационного менеджмента. В «сильно специализированных тезаурусах» отражение «целое — часть» может быть представлено как иерархическое, если наименование целого раскрывается через наименование частей (21, с.46). В иерархические связи тезаурусов ИНИОН в ряде случаев включалось несколько вышестоящих дескрипторов, но уровни иерархии относительно заглавного дескриптора не нумеровались, тем более что далеко не всегда дескрипторы, вышестоящие по отношению к заглавному, находятся в иерархических отношениях между собой. Это касается и нижестоящих дескрипторов, между которыми нумеровать уровни иерархии (по крайней мере, в социальных науках) также не необходимо, в силу того обстоятельства, что зачастую основания деления могут быть разными. Например:
Конституционный суд ВТ верховные судебные органы
органы конституционного контроля правоохранительные органы судебная система
В этом случае в словарной статье сквозная нумерация иерархических отношений между всеми вышестоящими дескрипторами не имеет практического смысла, хотя «судебная система» является вышестоящим понятием по отношению к дескриптору «верховные судебные органы». Та же ситуация возникает при попытке выразить иерархии между дескрипторами, нижестоящими по отношению к заглавному. Например: дескриптор «предприятия» в качестве нижестоящих включает арендные, государственные, муниципальные, частные, промышленные, сельскохозяйственные, строительные, торговые, транспортные, иностранные, совместные предприятия.
Что же касается установления ассоциативных отношений, то, в отличие от определяемого на основе логического и семантического анализа иерархического отношения «:выше — ниже», необходимые и достаточные принципы установления ассоциативного отношения представить эксплицитно довольно сложно: при установлении ассоциативной связи действующий ГОСТ (15, с. 17) просто разрешает использовать любые отношения, кроме «род — вид» и синонимии. Так или иначе, но отношение ассоциации определить гораздо труднее, чем остальные. Его гораздо легче определить негативно, чем позитивно: ассоциативное отношение — это не иерархия, не синонимия, не мысленно ассоциирующиеся с данным дескриптором термины (22, с. 39). Ассоциативное отношение устанавливается между терминами, которые близко связаны между собой концептуально. Иными словами, ассоциативное отношение между терминами может быть установлено в тезаурусе, если они имеют смысловую связь, которая должна быть выражена эксплицитно на основании того, что она показывает альтернативные термины, которые могут быть использованы при индексировании документов и, соответственно, запросов. При этом близкая смысловая связь проще всего определяется в случае, когда один из терминов часто выступает в качестве компонента определения или толкования другого термина (21, с. 45).
Из этого следует, что в процессе установления ассоциативной связи между терминами, особенно в социальных науках, большую роль начинает играть субъективный фактор составителей тезауруса и индексаторов, поскольку особенности толкования терминов сильно различаются в различных научных школах и направлениях. Например, «гомосексуализм», «лесбиянство», «сексуальные меньшинства» могут быть связаны в различных юридических системах, а также в менталите-
те (личных научных парадигмах) авторов научных публикаций, которые могут рассматривать проблемы в различных аспектах правоведения: уголовной ответственности, прав личности, семейного права или воспитания. Отсюда возникает опасность появления ложных связей в тезаурусе, источниками которых могут служить различия во взглядах авторов не только документов, но и справочников и энциклопедий, которыми неизбежно пользуются составители тезаурусов. Кроме того, факт совместной встречаемости научных терминов в конкретных публикациях по социальным наукам не является достаточно надежным критерием установления правильных ассоциативных отношений, так как требует от индексатора универсализма знаний в сочетании с глубоким анализом текста разнообразных источников. Но подход индек-сатора-библиографа к анализу разнообразного по тематике потока документов не может быть аналогичным работе сотрудника, реферирующего научные публикации в определенной области, не только из-за многообразия тематики, но и в силу сравнительно ограниченного времени, отводимого на практике для ежедневного отбора и индексирования документопотока. Не являясь узким специалистом по конкретной проблеме, сложно на основе просмотра текста отделить в нем главное от второстепенного, сформулировать и выразить это главное пятью-семью дескрипторами (особенно при отсутствии авторского резюме). Индексатор, анализирующий текст, должен выявить различия между ключевой и контекстной информацией, точнее — между ключевыми и контекстными терминами. Так что совместная (даже частая) встречаемость терминов в рамках отдельной публикации не может быть твердым критерием для выявления ассоциативных связей (3, с. 79). Поэтому более надежным является критерий научного знания, т.е. знание специалиста о том, какие термины связаны с данным термином в контексте его научного определения или толкования.
Прекоординация терминов
В процессе отбора терминологии для ИПЯ дескрипторного типа возникает проблема прекоординации терминов, которые могут входить в терминологическое словосочетание. Хотя поисковая программа системы позволяет координировать при поиске любые ключевые слова с помощью булевых операторов, эффективность выдачи информации в значительной мере зависит от учета в тезаурусе традиционно используемых в
научной литературе (и, соответственно, при индексировании) устойчивых терминологизированных словосочетаний. Это связано с тем, что полнота описания некоего денотата с помощью цепочки не связанных грамматически дескрипторов всегда ниже, чем при прямом наименовании денотата дескриптором-словосочетанием, являющимся названием соответствующего объекта или процесса (17, с. 61). Дескрипторы тезауруса, представляющие собой многокомпонентные номинативные (не предикативные) словосочетания, должны рассматриваться как одно из средств координации входящих в их состав ключевых слов, повышающее качество функционирования тезауруса в системе, поскольку при использовании однословных терминов-дескрипторов возникает опасность ложной координации, а использование терминов-словосочетаний позволяет эту опасность избежать (13, с. 42). Например, запрос в виде координации двух самостоятельных дескрипторов «преступления + несовершеннолетние» является двусмысленным, так как может означать «преступления несовершеннолетних» и «преступления против несовершеннолетних». Использование же в тезаурусе в качестве дескриптора словосочетания «преступления против несовершеннолетних» обеспечивает релевантность выдачи. Прекоординация дескрипторов, не входящих в терминологическое словосочетание, представлена в алфавитном лексикосемантическом указателе в виде рекомендации использовать логическую связку «и» дескрипторов вместо аскриптора — сложного синонима, являющегося терминологическим словосочетанием. Использовать в тезаурусе комбинацию (конъюнкцию) дескрипторов вместо аскриптора ГОСТ (15, с. 12) рекомендует в тех случаях, когда его значение целесообразно представить как пересечение значений других лексических единиц, получивших статус дескриптора. Очевидно, что определение такой целесообразности остается на усмотрение составителей тезауруса и должно исходить в конкретных случаях не только из возможностей представленной в нем терминосистемы, но, главным образом, из более широкого представления о содержании документопотока и применяемых правилах его индексирования, а также из представлений о традициях, сложившихся в научном дискурсе данной предметной области. Так, например, проблему отношений личности и общества в принципе возможно представить без ущерба для релевантности выдачи как пересечение значений двух дескрипторов:
личность и общество
USE личность + общество, поскольку трудно представить себе документ, ПОД которого содержит два самостоятельных дескриптора («личность» и «общество») и в котором не рассматривается проблема взаимодействия этих объектов исследования. Однако в языке науки давно сложилась традиция употребления двухкомпонентных терминов, связанных союзом «и», для обозначения проблемы взаимоотношения двух объектов типа «семья и школа», «война и мир», «право и личность». Поэтому отказ от представления в тезаурусе проблемы взаимоотношения двух объектов в виде комбинации терминов вместо традиционного единого термина (типа «личность и общество») является вполне целесообразным.
Использовать термин-словосочетание вместо возможной комбинации терминов следует и в тех случаях, когда его отсутствие влияет на целостность принятой в данной отрасли системы понятий. Например, в тезаурусе по экономике «аренда жилья» может быть выражена как «аренда» и «жилье», однако это исключит из тезауруса общепринятый термин и не позволит построить соответствующую словарную статью с необходимыми парадигматическими связями с другими дескрипторами, поскольку связи в дескрипторах «аренда» и «жилье» не совпадают со связями в дескрипторе «аренда жилья». Например:
аренда жилья аренда жилье
ВТ аренда №Г аренда жилья ВТ социальные проблемы
жилищное хозяйство аренда земли ЯТ жилищное хозяйство
ЯТ арендный жилищ- лизинг жилищный рынок
ный фонд ЯТ арендная плата жилые здания
жилищное право арендные отношения социальное жилье
жилищные пособия арендодатели договорные отношения концессии промышленный парк
Если же составители тезауруса не считают необходимым включить терминологическое словосочетание в качестве дескриптора с парадигматическими связями, то такое словосочетание возможно сохранить в тезаурусе, включив его в качестве аскриптора, выраженного конъюнкцией (прекоординацией) дескрипторов. При этом, ко-
нечно, следует избегать многозначности выражающих аскриптор прекоординированных дескрипторов. Такой способ сохранения в тезаурусе терминологического словосочетания представляется вполне целесообразным, эффективным средством, повышающим функционирование тезауруса в качестве компонента автоматизированной системы, например:
сбыт промышленной продукции USE промышленность + сбыт собственность фермерского хозяйства USE собственность + фермерские хозяйства В других случаях, когда «значение лексической единицы целесообразно при поиске информации представить как объединение значений других лексических единиц, несовместимых в одном поисковом образе» (15, с. 12), мы имеем дело с разрешением-омонимией термина-аскриптора, возможные значения которого представлены в виде рекомендуемых для альтернативного выбора дескрипторов, например,
в тезаурусе «Философия»: имморализм
USE аморальность / антиморализм в тезаурусе «Правоведение»: соавторство
USE авторское право / изобретательское право Таким образом, в отличие от конъюнкции дескрипторов, выражающих единое значение аскриптора, использование альтернативных дескрипторов является важным средством нормирования лексики тезауруса за счет эксплицитной «раскоординации» возможных значений многозначного дескриптора.
С другой стороны, иногда запрос может быть связан с темой, выраженной потребителем однословным термином; в этом случае, если зафиксированы его вхождения в словосочетания, открывается возможность определить его смысловую нагрузку в системе. С этой точки зрения алфавитный порядок словарных статей в лексикосемантическом указателе тезауруса дает мало информации пользователю, так как дескрипторы упорядочены по первому слову и определить нужные контексты использования данного термина в системе (если он не стоит в начале словосочетания) возможно только при сквозном просмотре всего лексического массива.
Задачу показа контекстной координированности искомого термина с другими решает пермутационный указатель, где ключевые слова образуют семантические гнезда, объединяющие все вхождения данного термина в словосочетания. Иначе говоря, гнезда пермутационного указателя являются своеобразным средством эксплицитного показа связи ключевых слов, входящих в состав терминов-словосочетаний. Это особенно важно для терминологии наук (не только социальных), использующих зачастую многокомпонентные дескрипторы-словосочетания. При этом особенностью некоторых социальных наук является использование терминологизированных словосочетаний, включающих слова повседневного языка со специфическими дополнениями и определениями (16, с. 264) типа «обращение взыскания на обеспечение исполнения обязательств» или «подделка идентификационного номера транспортных средств». Входя в синтагматическую цепочку многокомпонентного термина, эти слова приобретают статус ключевых слов (или фокуса словосочетания), открывая дополнительные входы в терминологическую систему, использованную в тезаурусе. Например, в тезаурусе «Экономика и демография» число вложений в гнездо (nest depth) слова «фонд» и его дериватов («оборот фондов», «фондовый рынок») составляет 47 словосочетаний, из которых только 17 имеют «фонд» («фонд-») в начале многокомпонентного термина, те. могут быть легко найдены в алфавитном лексико-семантическом указателе. В остальных случаях контексты искомого слова легко обозримы в пределах соответствующего гнезда. В качестве примера приведем фрагмент пермутации:
арендный жилищный фонд
жилищный фонд
земельный фонд
лесной фонд
частный жилищный фонд
амортизационные фонды
внебюджетные фонды
платежи во внебюджетные фонды
В подавляющем большинстве случаев основное значение слова-
фокуса гнезда сохраняется, однако иногда возможны случаи омонимии, разрешаемой исключительно благодаря контексту. Например, слово «экономия» в значении «сбережения чего-то» входит в дескрипторы-
словосочетания: «экономия материальных ресурсов», «экономия на масштабах производства» и т.п. С другой стороны, «экономия» в экономической науке является компонентом идиоматического, неразложимого словосочетания «политическая экономия», входящего, в свою очередь, в сочетания с прилагательными, определяющими различные направления экономической мысли, такие как «буржуазная политическая экономия», «вульгарная политическая экономия», «классическая политическая экономия». Поэтому в подобных случаях включение не первого слова идиоматического термина-
словосочетания (как в случае «политической экономии») в автоматически формируемые гнезда пермутаций является в принципе избыточным. Однако с точки зрения интеллектуальных затрат на редактирование пермутационного указателя подобной избыточностью можно пренебречь.
Структура термина, состоящего из сложного слова с дефисом, позволяет автоматически образовать дополнительное вложение в гнездо за счет использования второй части термина, если она соответствует общему фокусу данного гнезда. Например: аккордно-премиальная заработная плата премиальная оплата труда сдельно-премиальная оплата труда сдельно-премиальная система заработной платы В пермутационном указателе в некоторых случаях возможно также использовать дополнительное средство координации терминов, сильно связанных с фокусом гнезда по смыслу, за счет отделения словообразующих приставок или первого компонента сложного слова и формирования гнезда по корню слова. Например: нормирование труда
не нормированный рабочий день
торговые банки внешнеторговые компании торговые общества внешнеторговые организации торговые предприятия
Систематический указатель, являющийся необходимой частью тезауруса, выполняет две функции.
Во-первых, классификация делает обозримыми тематические области, охватываемые терминами тезауруса, что особенно важно для тезаурусов, включающих несколько тысяч лексических единиц. Отсутствие упорядочения дескрипторов по тематическим классам значительно затруднило бы использование тезауруса в качестве идеологического (концептуального) словаря, обеспечивающего выборку наиболее соответствующего конкретной информационной потребности набора дескрипторов. Без систематического вспомогательного указателя лексико-семантический указатель со словарными статьями-классами условной эквивалентности уподобляется алфавитному списку предметных заголовков (20, с. 10). Естественно, что окончательный выбор дескрипторов для индексирования документов или запросов целесообразно осуществлять после просмотра связей в лексико-семантическом указателе, отобранных из раздела классификации дескрипторов.
Во-вторых, каждая рубрика Систематического указателя является в определенном смысле средством координации и, соответственно, уточнения значения дескриптора в контексте значения самой рубрики. Например, в тезаурусе по экономике и демографии дескриптор «натуральные показатели» отнесен к трем рубрикам:
А063533 Экономическая и социальная статистика
А065835 Валовой национальный продукт. Национальный
доход
А068185 Учет и отчетность. Анализ хозяйственной дея-
тельности предприятия
В зависимости от содержания документ, индексированный этим дескриптором, получает еще и индекс одной из этих рубрик; соответственно, при формулировке запроса релевантная выдача будет получена при координации в ПОЗе данного дескриптора с индексом рубрики, соответствующей интересующему потребителя аспекту рассмотрения «натуральных показателей», например, в связи с анализом хозяйственной деятельности предприятия. Иначе говоря, учет зафиксированной в тезаурусе связи дескриптора с рубрикой классификато-
ра является средством координации двух поисковых элементов — рубрики и дескриптора.
Классификационный указатель
Особенностью серии тезаурусов ИНИОН является включение в них помимо Систематического указателя по Рубрикатору АИСОН еще одного указателя — классификации дескрипторов по соответствующим разделам ББК (1). Мы отдаем себе отчет в том, что данная работа носит в определенной степени экспериментальный характер и в ней невозможно было избежать ошибок и просчетов. Но попытка применить действующую государственную классификацию для упорядочения богатого терминологического материала, накопленного в ходе многолетней эксплуатации библиографической базы данных ИНИОН, представлялась нам в определенной степени не лишенной практического смысла. Нашей основной задачей было описать понятийную структуру тезауруса ИНИОН посредством систематизации ее с помощью индексов Таблиц ББК. Мы исходили из того, что при дальнейшем развитии компьютеризации наличие тезаурусов с классификацией дескрипторов по ББК позволит сотрудникам библиотек использовать свою традиционную систему при работе с богатым библиографическим банком данных ИНИОН РАН через Интернет или с компакт-дисками, формулируя запрос с помощью дескрипторов тезауруса из соответствующего класса ББК, поскольку взаимодействие информационных органов при информационном поиске часто требует перехода не только от одной ИПС к другой, но и, соответственно, от ИПЯ одного типа к языкам другого типа. В нашем случае использование двух классификационных языков в качестве различных систематических «входов» в алфавитный лексико-семантический указатель дескрипторов позволяет рассматривать дескрипторный ИПЯ как своего рода «язык-посредник», устанавливающий соответствие между определенным запросом, выраженным каким-либо разделом одной из иерархических классификаций тезауруса, и соответствующими предметными полями, выраженными дескрипторами лексикосемантического указателя (2, с.12).
В социальных науках в силу отсутствия жестких границ между областями знания определенная часть массива терминов не принадлежит исключительно к одной отрасли. Как справедливо отмечено в
«Предисловии» к ББК, «наука не готова дать четкие однозначные рекомендации для корректного отражения в таблицах тенденций развития современного знания, особенно общественно-гуманитарного» (1, с.4). Но, видимо, ожидать таких рекомендаций не следует вовсе в силу присущих науке широкого развития междисциплинарных исследований и рассмотрения в аспектах той или иной отрасли общих объектов исследования, что приводит к бесконечному диалектическому процессу интеграции и дифференциации наук. Поэтому любая классификация оказывается практическим нормативным средством, не претендующим на универсальную систематизацию научного знания. Конечно, библиотечно-библиографические классификации сильно зависят от классификаций наук, но это различные по своим структурам и назначениям системы. Поэтому «любые попытки совместить эти две классификации (т.е. построить на их основе какую-то одну систему) могут привести лишь к порче каждой из них» (18, с.7).
Если рубрикатор, использованный в Систематическом указателе отраслевого тезауруса, по определению сам по себе является отраслевым, то прямым следствием этого является отсутствие выделения каких-либо особых классов для междисциплинарных терминов, поскольку они рассматриваются как элементы терминосистемы данной отрасли. Это тривиальное обстоятельство приходится учитывать при использовании того или иного раздела жесткой классификации типа ББК для систематизации отраслевой терминологии, поскольку в ряде случаев некоторые понятия ББК рекомендует отнести к разделам, индекс которых не соответствует разделу семантически адекватному тематике отраслевого тезауруса. Таким дескрипторам присваивались необходимые индексы других разделов ББК. Это оказалось возможным в силу того, что такие «проблемные» для классификации посредством ББК дескрипторы тезауруса являлись по своему значению межотраслевыми, несмотря на их жесткую привязку к одному разделу ББК. При этом, чтобы не нарушать логику ББК, таким дескрипторам приписывался дополнительно индекс «законного» для ББК раздела. Например, дескриптор тезауруса «Правоведение» «таможенные пошлины» предметный указатель ББК требует отнести к 65.428 «Экономика внешней торговли. Международные торговые отношения». Однако в разделе ББК «Право» имеется рубрика 67.401.21 «Государст -венное управление в административно-политической сфере», в тексте
методических указаний которой имеется «внешнеэкономическая деятельность (таможенная служба и др.)», что позволяет в тезаурусе «Правоведение» дать и этот индекс дескриптору «таможенные пошлины», сохранив его в рамках раздела «Право». Таким образом, имеем (для экономии места связи опущены): таможенные пошлины РУБ А102143; А10875121 ББК 67.401.21; 65.428
Такой подход позволил дополнительно собрать соответствующие дескрипторы, например в «Правоведении», в отдельную условную рубрику «Смежные дисциплины (правовые аспекты)» с подруб-риками разделов ББК. Например:
60.55 Социология личности личность и общество ресоциализация социализация социальный статус
65.248 Международные отношения в области труда
внешняя миграция рабочей силы иностранные рабочие иностранные специалисты международная миграция рабочей силы нелегальная иммиграция
При этом каждый из дескрипторов обязательно включен также в соответствующие рубрики раздела ББК 67 «Право». Например, «личность и общество», «иностранные рабочие», «нелегальная иммиграция» включены в рубрику 67.400.7 «Правовой статус личности» и тп.
Всего было выделено 20 рубрик смежных дисциплин, включающих около 700 дескрипторов из 3500, отражающих проблемы правоведения в тезаурусе.
Такой подход используется в других тезаурусах серии.
Сказанное выше подтверждает мысль о том, что совместимость рубрик двух классификационных языков одной и той же отрасли науки — задача весьма затруднительная, поскольку два разных ИПЯ (в нашем случае — два классификационных языка одной отрасли науки) можно назвать совместимыми, если в массиве документов с поисковыми образами, выраженными на одном ИПЯ, можно без дополнительных преобразований проводить поиск и получать примерно такие
же результаты, как при поиске на том же массиве, но с поисковыми образами, выраженными на другом ИПЯ (18, с. 7).
Следует отметить, что индексы разделов ББК в тезаурусах ИНИОН не являются поисковым элементом в самой библиографической АИСОН. Классификационные указатели тезаурусов предназначены для отбора дескрипторов (при необходимости — в сочетании с индексами Рубрикатора ИНИОН РАН) при формировании запросов теми, кто использует ББК в своей работе. Кроме того, в библиотеку может поступить документ или запрос, описание содержания которого вызывает затруднения, потому что не всегда можно найти соответствующие термины в предметном указателе ББК или в методических указаниях к разделам, содержащим перечень включенных в них тем, чтобы соблюсти «основной принцип систематизации: предпочтение частного, конкретного вопроса общему». В этом случае более богатый терминологический материал того или иного отраслевого тезауруса ИНИОН, распределенный по рубрикам ББК, может оказаться важным подспорьем в практической работе. Например, количество тем, представленных в методических указаниях отдела 63 «Экономика» и в предметном указателе, отсылающих к этому отделу, не превышает 1 тыс., тогда как тезаурус по экономике содержит более 3 тыс. дескрипторов, включенных в классификационный указатель по разделам ББК.
Лингвистическая база данных
Структура лингвистической базы данных, используемой при разработке тезаурусов, позволила создать в ИНИОН программу, обеспечивающую возможность встраивать тезаурусы по мере их разработки в АИСОН в качестве лингвистического компонента механизма поиска библиографической информации. Наличие тезауруса, встроенного в поисковую систему, повышает столь важный для эффективности ее функционирования уровень смыслового соответствия выдаваемой информации реальной потребности пользователя, т.е. перти-нентности выдачи. Это важно, потому что, хотя языки индексирования производят впечатление обладающих высокой степенью точности и определенности, в основном — вследствие императивного способа указания значений представленной в них лексики, выразительность таких языков, как правило, страдает (13, с.56—57). Конечно,
наличие парадигматических связей терминов и различных дополнительных «входов» в лексико-семантический указатель в виде систематического и пермутационного указателей уточняет значения тех или иных терминов, отобранных для формулировки запроса, однако, как показывает практика, это не всегда обеспечивает уровень пертинент-ности выдачи, удовлетворяющий потребителя, тем более что в крупных ИПС имеет место не только субъективность оценки выдачи широким кругом пользователей, но и отсутствие единообразия при индексировании документов и запросов. Достаточно удовлетворительное качество выдачи может обеспечить лишь документальная ИПС класса «человек — машина» со встроенным тезаурусом, позволяющая потребителю по промежуточным результатам корректировать ход информационного поиска, поскольку именно потребитель может наиболее адекватно определить степень близости между содержанием выдаваемых документов и его информационным запросом (19, с. 18). Дополнительным средством, позволяющим эффективно корректировать реакцию АИСОН с точки зрения улучшения уровня смыслового соответствия выдачи информации запросу, является наличие механизма, который после первой выдачи документов выдает также информацию о всех дескрипторах, не предусмотренных в первичной формулировке запроса, но представленных в ПОЗах определенной порции найденных документов. Эти дескрипторы могут участвовать в процессе дальнейшего взаимодействия человека с машиной, предоставляя дополнительный лексический материал для уточнения запроса.
Содержание серии тезаурусов
В настоящее время в серии «Информационно-поисковые тезаурусы ИНИОН по социальным и гуманитарным наукам» подготовлены и изданы в виде книг и на компакт-дисках (далее в скобках указывается количество лексических единиц): «Экономика и демография» (5 тыс.), «Философия» (3,2 тыс.), «Правоведение» (8,1 тыс.), «Социология» (2,3 тыс.) (8).
В ближайшие 2—3 года планируется окончание работ над тезаурусами: «Политология» (5,7 тыс.), «Науковедение» (2,2 тыс.), «История. Археология. Этнология», «Языкознание».
Серия будет завершена тезаурусами: «Литературоведение» и «Религиоведение».
Разработка серии тезаурусов ИНИОН по социальным и гуманитарным наукам, встроенных в систему, доступных через Интернет и распространяемых в виде книг и на компакт-дисках, создает предпосылки для повышения качества работы АИСОН в целом, поскольку обеспечивает индексаторов современными средствами обработки документопотока, а также дает широкому кругу внешних пользователей надежное средство адекватного выражения их информационных потребностей при поиске информации в базах данных, массив которых составляет сегодня 3 млн. библиографических записей.
Список литературы
1. Библиотечно-библиографическая классификация: Рабочие таблицы для массовых библиотек. - М.: Либерея, 1997.
2. Гиляревский Р.С. К проблеме совместимости информационно-поисковых языков различных типов // НТИ / ВИНИТИ. Сер.2. - М., 1978. - № 1. - С. 11- 13.
3. Гинзбург Б. П. Контекстная информация и релевантность индексирования // Теория и практика общественно-научной информации / РАН. ИНИОН. - М., 2002. -Вып. 17. - С. 77-81.
4. Глухов В.А., Лаврик О.Л. Развитие электронной доставки документов в библиотеках России // Библиотечно-информационное обеспечение в области социальных и гуманитарных наук на пороге XXI века: Материалы научной конференции, Москва, 26 мая 1998 г. / РАН. ИНИОН; Отв. ред. Пивоваров Ю.С.; Сост. Григорьева В.З. -М., 1999.
5. Декарт Р. Правила для руководства ума // Декарт Р. Избранные произведения. - М.: Политиздат, 1950.
6. Ильин М.В. Слова и смыслы: Опыт описания ключевых политических понятий. -М.: Российская политическая энциклопедия (РОССПЭН), 1997.
7. Инструкция по нормализации лексики в процессе разработки лингвистического обеспечения автоматизированной информационной системы по общественным наукам / Сост. Бакулов А.Д., Мдивани Р.Р. - М.: ИНИОН, 1984.
8. Информационно-поисковые тезаурусы ИНИОН по социальным и гуманитарным наукам: Серия / РАН. ИНИОН. Центр информатизации. Фундаментальная библиотека. - М.: ИНИОН РАН:
а) Информационно-поисковый тезаурус по экономике и демографии / Архангельская В. А., при участии Мдивани Р.Р. (Классификационный указатель); Ред. Мдивани Р.Р. - М.,
2001. - 492 с. + СЭ-ЯОМ;
б) Информационно-поисковый тезаурус по философии / Гинзбург Б. П., при участии Мдивани Р.Р. (Классификационный указатель по ББК); Ред.: Мдивани Р.Р., Серебряная Е.И. - М., 2002. - 324 с. + СЭ-ЯОМ;
в) Информационно-поисковый тезаурус по правоведению / Базарнова С.В., Шевцова С.О., при участии Мдивани Р.Р. (Классификационный указатель по ББК); Ред.: Крысанова Н.В. и др. - М., 2002. - 808 с. + СЭ-ЯОМ;
г) Информационно-поисковый тезаурус по социологии / Гинзбург Б.П., при участии Мдивани Р.Р. (Классификационный указатель по ББК); Ред.: Гирко Л.В. и др. - М., 2003. - 324 с. + СЭ-ЯОМ.
9. Инфосфера: Информационные структуры, системы и процессы в науке и обществе / Арский Ю.М., Гиляревский Р.С., Туров И.С., Черный А.И.; РАН. ВИНИТИ. - М.: ВИНИТИ, 1996.
10. Матвеева Е.Ю. Современное состояние и перспективы лингвистических средств обработки документов // Библиотечно-информационное обеспечение в области социальных и гуманитарных наук на пороге XXI века: Материалы научной конференции, Москва, 26 мая 1998 г. / РАН. ИНИОН; Отв. ред. Пивоваров Ю.С.; Сост. Григо -рьева В.З. - М., 1999. - С. 167- 171.
11. Мдивани Р.Р. Лингвистическое обеспечение АИСОН в условиях современной информационной среды // Библиотечно-информационное обеспечение в области социальных и гуманитарных наук на пороге XXI века: Материалы научной конференции, Москва, 26 мая 1998 г. / РАН. ИНИОН; Отв. ред. Пивоваров Ю.С.; Сост. Григо -рьева В.З. - М., 1999. - С. 162- 166.
12. Методика составления информационно-поисковых тезаурусов. - М.: ВИНИТИ, 1973.
13. Мидоу Ч. Анализ информационных систем: Пер. с англ. - М.: Прогресс, 1977.
14. Рубашкин В.Ш., Лахути Д.Г. О языке и средствах диалога с экспертом предметной области в системе ведения семантического словаря // НТИ / ВИНИТИ. Сер. 2. - М.,
2002. - № 7. - С. 7- 15.
15. СИБИД. Тезаурус информационно-поисковый одноязычный: Правила разработки,
структура, состав и форма представления: Межгосударственный стандарт 7.25. -
Минск: Межгосударственный совет по стандартизации, метрологии и сертификации, 2001. - п.4.5.6.2.
16. Хобом Х.-К. Информация и документация по социальным наукам // Теория и практика общественно-научной информации. - М.: ИНИОН, 2002. - Вып. 17. - С. 262- 280.
17. Черный А.И. Введение в теорию информационного поиска. - М.: Наука, 1975.
18. Черный А.И. Информационно-поисковые языки: Типы, принципы построения, совместимость // НТИ / ВИНИТИ. Сер. 2. - М., 1978. - № 1. - С. 1-10.
19. Черный А.И. Критерий смыслового соответствия документальной информационно-поисковой системы // НТИ / ВИНИТИ. Сер. 2. - М., 1967. - № 9. - С. 17- 25.
20. Черный А.И. Общая методика построения тезаурусов // НТИ / ВИНИТИ. Сер. 2. -М., 1968. - № 5. - С. 8-32.
21. Aitchinson Y., Gilchrist A. Thesaurus construction: a practical manual. - 2nd ed. - L.: Aslib, 1987.
22. Austin D., Dale P. Guidelines for the establishment and development of monolingual thesauri. - 2nd ed. - P.: UNESCO, 1981.