Р.Р. Мдивани*
ИНФОРМАЦИОННО-ПОИСКОВЫЕ ТЕЗАУРУСЫ КАК СРЕДСТВО НАВИГАЦИИ ПО ИНФОРМАЦИОННЫМ РЕСУРСАМ ФУНДАМЕНТАЛЬНОЙ БИБЛИОТЕКИ ИНИОН РАН
Разработанные в ИНИОН РАН информационно-поисковые тезаурусы (ИПТ) по социальным и гуманитарным наукам рассматриваются в качестве средства навигации по информационным ресурсам Института. Раскрывается структура каждого ИПТ, состоящего из алфавитного лексико-семантического указателя, систематического указателя и пермутационного указателя ключевых слов в контексте. Показаны особенности ведения ИПТ в области социальных и гуманитарных наук.
Ключевые слова: Фундаментальная библиотека ИНИОН РАН; общественные науки; информационные ресурсы; информационно-поисковые тезаурусы (ИПТ); терминология; навигация; концептуальные отношения; тезаурусные расширения.
Проблема навигации в массиве научных ресурсов библиотек и научных центров напрямую зависит от методов их структурирования. Применительно к отображению содержания поступающих в систему научных публикаций речь, в частности, идет об информационно-поисковых тезаурусах - средстве координатного индексирования документов и запросов.
* Мдивани Роберт Робертович - кандидат филологических наук, ведущий научный сотрудник Отдела электронных информационных технологий Центра информатизации Института научной информации по общественным наукам Российской академии наук, руководитель Группы разработки и ведения тезаурусов ИНИОН РАН.
176
В целом в системе понятий «данные - информация - знания» список терминов (дескрипторов и аскрипторов) является носителем формы, тогда как соответствующее содержание - это информация и знания, которые выдаются пользователю системы благодаря структурированному в результате индексирования информационному ресурсу.
На начальном этапе развития АИСОН (Автоматизированной информационной системе по общественным наукам) ИНИОН РАН была проведена работа по формированию отраслевых нормализованных списков терминологической лексики, сведенных в так называемый Генеральный словник, в котором маркеры отраслевой принадлежности были сохранены. Разумеется, этот список терминов не мог быть достаточно эффективным средством поиска в массиве документов, накопленном в системе. Однако он послужил базой для дальнейшего развития тезаурусных лингвистических средств (4).
Эффективность процесса навигации (или, что то же самое, результативность поиска информации) зависит, в первую очередь, от качества средств структурирования, т.е. отображения содержания документов, поступающих в систему. Таким средством в АИСОН является разработанная в Институте и построенная по отраслевому принципу серия информационно-поисковых тезаурусов (ИПТ) по социальным и гуманитарным наукам.
Структура каждого отраслевого тезауруса (они строятся в АИСОН вручную) ориентирована на оптимизацию формулировки запроса. Это требует включения в тезаурус навигационных средств, дающих возможность выявления дополнительных концептуальных отношений между входящими в его состав терминами. Использование расширения запроса с помощью тезауруса обычно увеличивает эффективность поиска. Следует отметить, что ручное создание тезауруса и его дальнейшее обновление (ведение) с учетом научного развития области и изменения терминологии связано с существенными затратами интеллектуального труда. Однако тезаурус конкретной предметной области необходим: универсальные тезаурусы и словари плохо покрывают богатую и специфичную терминологию научных дисциплин (3, с. 201-202). Поэтому каждый тезаурус АИСОН строится по принципу расширения за счет включения трех синонимических с точки зрения понятийного состава указателей.
1. Алфавитный лексико-семантический указатель содержит дескрипторы с соответствующими семантическими (пара-
177
дигматическими) отношениями с другими дескрипторами и аскрип-торами. В словарной статье аскриптора дается отсылка к заменяющему его дескриптору. Наличие семантических связей, представленных в словарной статье дескриптора, позволяет расширить формулировку запроса, что в большинстве случаев влияет на полноту выдачи, но не исключает и влияния на степень релевантности.
Кроме того, поскольку база библиографических данных АИСОН построена как инверсный файл, пользователь может использовать в запросе булевы операторы, добавляя при этом лексику из различных вспомогательных фасетов: названия стран, народов мира и т.п.
2. Систематический указатель включает термины, классифицированные в алфавитном порядке по рубрикам Рубрикатора АИСОН. Рубрикатор представляет собой иерархическую классификационную таблицу отраслей социальных и гуманитарных наук. Важно, что три верхних уровня Рубрикатора совместимы с Государственным рубрикатором НТИ и с рубрикаторами других систем, базирующихся на соответствующих разделах Государственного рубрикатора. Наличие тематических рубрик выполняет двойную функцию. Во-первых, тематическая рубрика, если она соответствует или близка интересам пользователя, облегчает просмотр терминов, отбираемых для запроса. При этом рекомендуется обращение к ним в Алфавитном указателе, где представлены расширенные за счет словарных статей концептуальные отношения каждого отобранного из систематического указателя термины. Во-вторых, индексы рубрик могут использоваться непосредственно при формулировке запроса, так как ими индексированы конкретные документы в базе данных. Во всяком случае, просмотр документов по теме рубрики может быть полезным при желании обеспечить высокую степень полноты выдачи.
3. Пермутационный указатель ключевых слов в контексте (КШС) выполняет вспомогательную функцию по отношению к Алфавитному лексико-семантическому, поскольку содержит дескрипторы и аскрипторы без словарных статей. В нем по однословным терминам и отдельным ключевым словам, входящим в контекст терминологических словосочетаний, формируются словарные гнезда. Поскольку словарное гнездо компактно отражает различные терминологические словосочетания, семантически связанные с «заглавным» ключевым словом, это существенно облегчает поиск дескрипторов, представленных в основном (лексико-семантическом) указателе отраслевого тезауруса, упорядоченного
178
по алфавиту. В ряде случаев отдельные ключевые слова могут быть использованы самостоятельно для поиска по заголовкам и аннотациям. Это позволяет рассматривать Пермутационный указатель как некое расширение входов в общее концептуальное поле тезауруса.
Отметим, что при формировании Пермутационного указателя используется стоп-словарь, исключающий из алфавитного ряда предлоги и союзы.
Следует учесть, что в терминологии общественных наук термины-словосочетания употребляются достаточно широко. Мы провели статистический анализ ключевых слов, не стоящих в алфавитном ряду на первом месте в словосочетаниях. Например, проблема «взрослых» в словосочетаниях Пермутационного указателя тезауруса «Науковедение» (термина «взрослые» в нем нет):
Образование Взрослых
Обучение Взрослых
Психология Взрослых
Общее число терминов (дескрипторов и аскрипторов), представленных в алфавитных лексико-семантических указателях пяти (из 10) тезаурусов, составляет 23 600 терминов.
Анализ соответствующих Пермутационных указателей показал средний результат расширения понятийного объема пермутационного указателя на 30% за счет ключевых слов, не стоящих на первом месте в составе терминов-словосочетаний и не являющихся однословными терминами.
В настоящее время совместно с Отделом научно-библиографической информации Фундаментальной библиотеки ИНИОН РАН подготовлено 10 ИПТ по отраслям общественных наук, предназначенных для индексирования документов и запросов, поступающих в библиографическую базу данных Института. Это ИПТ «Экономика. Демография», «Философия», «Социология», «Правоведение», «Политология», «Языкознание», «Литературоведение», «Религиоведение», «Науковедение» и «Исторические науки».
Дж. Солтон в своей классической работе отмечал: «Одним из главных недостатков, присущих тезаурусу, является то, что его надо вести» (6, с. 494). Дж. Солтон предлагает по меньшей мере четыре способа корректировки тезауруса:
179
1) можно использовать исходный тезаурус без изменений и на возросшем массиве документов (при этом ухудшение эффективности поиска составляет примерно 4%);
2) можно добавить новые термины из влитых в массив документов;
3) можно ввести новые классы для новых терминов;
4) можно полностью перестроить тезаурус, создав новую классификацию на базе пополненного словаря.
На практике мы в основном ориентируемся на второй способ, так как Рубрикатор (классификационная таблица) по общественным наукам разработан с достаточной детализацией рубрик. Они весьма подробно охватывают практически все темы социальных и гуманитарных наук, в рамки которых вписывается терминология исследований. Это подтверждается тем, что практически не возникает проблем при разработке систематических указателей тезаурусов, и объясняется спецификой социальных и гуманитарных наук, которая обусловливает определенный консерватизм терминологического состава тезаурусов. В противоположность естественным наукам, обладающим синхронно движущимся исследовательским фронтом и кумулятивным подходом к исследуемым фактам, в социальных и гуманитарных науках существует множество различных школ, достаточно независимых друг от друга. Эти школы, имеющие дело с одними и теми же социальными и гуманитарными проблемами, не приходят при этом к единому решению. Темы, которые обсуждались веками, могут возникнуть вновь, и даже при рассмотрении новых проблем обществовед должен ссылаться на старые материалы и идеи. Такая специфика обусловливает существование больших ретроспективных баз данных, так как нет объективных критериев, которые позволяют сказать, что документ устарел и его можно исключить из базы знаний общественных наук (7, с. 265). В социальных и гуманитарных науках развитие научной мысли идет (если не учитывать конкретных данных) за счет различных интерпретаций и уточнения смысла терминов при сохранении плана выражения и конвенционального значения. Поэтому можно утверждать, что «в сознании не рефлексирующего по поводу своих языковых способностей носителя языка значение (смысл) языкового выражения выступает как непосредственная данность» (5, с. 10).
Все сказанное выше, естественно, влияет на темпы пополнения лексики тезаурусов функционирующей много лет базы данных. Обязательным при этом является строгое соблюдение общепринятого в информатике принципа смыслового соответствия. Включение в поисковый тезаурус «на будущее» важных на первый взгляд терминов, за
180
которыми нет документов в базе данных, естественно, приводит к нулевой выдаче по запросу (см. второй способ по Дж. Солтону, где речь идет о документах, поступающих в базу данных).
Завершение работы над отраслевыми тезаурусами позволило использовать еще один способ расширения возможности навигации в библиографических базах данных системы.
В Центре информатизации Института совместно с Отделом научно-библиографической информации создан сводный информационно-поисковый тезаурус. В тезаурусе термины даны в алфавитном порядке, причем совпадающие термины повторяются с указанием отраслевой принадлежности без словарных статей. Однако при обращении к тому или иному дескриптору на экран выводится его словарная статья, причем каждый из дескрипторов имеет парадигматические связи, специфические для отрасли, к которой он относится. За каждым дескриптором стоит определенный, иногда совпадающий массив документов. Например, дескриптор «Викти-мология» представлен в трех отраслях:
Науковедение (Н) Правоведение (Пр) Социология (Соц)
виктимология ВТ криминология КТ девиантность насилие социальная педагогика социальные проблемы виктимология ВТ криминология КТ виктимизация населения жертва потерпевшие преступления виктимология КТ криминология насилие преступность социология преступности убийство
Таким образом, пользователь получает расширенную информацию о парадигматических связях термина-понятия «виктимоло-гия». Для наглядности мы искусственно свели связи в общую словарную статью (программа это не делает). Буквами в скобках обозначены отрасли:
ВИКТИМОЛОГИЯ
ВТ криминология (Н, Пр) КГ виктимизация населения (Пр) девиантность (Н) жертва (Пр) криминология (Соц) насилие (Н, Соц) потерпевшие (Пр) преступления (Пр) преступность (Соц) социальная педагогика (Н) социальные проблемы (Н) социология преступности (Соц) убийство (Соц)
181
Такое представление существенно улучшает возможность поиска по межотраслевым проблемам.
Многолетняя эксплуатация лингвистических средств АИСОН ИНИОН РАН (тезаурусы и Рубрикатор системы), отражающих тематику научных публикаций за период с 1980-х годов, подтвердила эффективность этих средств, поскольку «мощность языка запросов соответствует мощности языковых средств» (2, с. 220).
Можно сказать, что семантические метаданные, в состав которых входят средства, относящиеся к контенту самого документа (словарь понятий, класс рубрикатора, аннотация), и внешние структурированные данные, сопровождающие контент (элементы библиографического описания), представлены в АИСОН на соответствующем уровне (1, с. 291).
Дальнейшее развитие системы информации по социальным и гуманитарным наукам связано с развитием интеграционных процессов. Как показало обсуждение докладов на XIII Международной конференции «Модернизация России: ключевые проблемы и решения», в первую очередь это касается создания общероссийской академической системы научной информации. Это потребует разработки определенных метаданных и соответствующего программного обеспечения, ориентирующих пользователей в общеакадемическом информационном пространстве и обеспечивающих доступ к локальным информационным системам.
Ввиду ограниченности возможностей отдельных информационных центров и библиотек, ясно, что это потребует дополнительных ресурсов, но зато расширит доступ к научным информационным ресурсам не только ученых Академии, но и преподавателей вузов, аспирантов и других людей, не утративших интерес к науке и образованию.
Литература
1. Адамович И.М., Бирюкова Т.К., Гершкович М.Ю. и др. Средства повышения эффективности поиска в локальных информационных сетях в локальных упорядоченных подпространствах Интернета // Системы и средства информатики / ИПИ РАН. - М.: Наука, 2006. - Вып. 16. - С. 289-320.
2. Адамович И.М., Заикин М.Ю., Земсков Д.В., Пешков А.Н. Локальные информационно-упорядоченные подпространства в глобальном пространстве Интернет // Системы и средства информатики / ИПИ РАН. - М.: Наука, 2005. - Вып. 15. -С. 219-232.
3. Маннинг К.Д., Рахгаван П., Шютче Х. Введение в информационный поиск / Пер. с англ. - М.: ООО «И.Д. Вильямс», 2011. - 528 с.
182
4. Мдивани Р.Р. О разработке дескрипторных языков Автоматизированной информационной системы по общественным наукам ИНИОН РАН // Теория и практика обществ.-науч. информации / РАН. ИНИОН. - М., 2005. - Вып. 19. - С. 22-42.
5. Рубашкин В.Ш., Лахути Д.Г. О языке и средствах диалога с экспертом предметной области в системе ведения семантического словаря // Науч.-техн. информация. Сер. 2. - М., 2002. - № 7. - С. 7-15.
6. Солтон Дж. Динамические библиотечно-информационные системы. - М.: Изд-во Мир, 1979. - 560 с.
7. Хобом Х.-К. Информация и документация по социальным наукам // Теория и практика обществ.-науч. информации / РАН. ИНИОН. - М., 2002. - Вып. 17. -С. 262-280.
183