results in compiling dictionaries. The author of the article as one of Boris Larin's lexicography school contributes to the Pskov Regional Dictionary with Historical Data together with colleague lexicographers from St Petersburg State University and Pskov State Pedagogical University, and highlights multi-aspect linguistic studies without which it is often impossible to define word status in a dictionary.
Key word: multi-aspect linguistic studies, lexicography, dictionary entry, synchrony, diachrony.
© 2011
С. Н. Лесников
ГИПЕРТЕКСТОВЫЙ ТЕЗАУРУС МЕТАЯЗЫКА НАУКИ*
В статье рассматривается создание «Гипертекстового информационно-поискового тезауруса "Метаязык науки"» со структурных, математических, лингвистических позиций, с точки зрения проблемы программного обеспечения, включая лингвистические, математические и экономические разделы. Можно предположить, что словарная статья тезауруса, описывающего метаязык лингвистики, даст детальную информацию о термине (его значение) и его концептуальные связи с другими терминами (лексическими единицами и, при наличии такой возможности, более чёткие и определённые связи с его лексико-семан-тическими вариантами).
Ключевые слова: метаязык, словарь, энциклопедия, тезаурус, русский язык, глоттология, лингвистика, языковедение, языкознание.
При моделировании информационно-поискового тезауруса (ИПТ) учитывался опыт ведущих языковедов и, главным образом, уже изданные тезарусы на русском языке: информационно-поисковый, по библиотечному делу и научной информации, по информатике, по автоматизированным системам управления и обработке информации, по геологии; по литературе, литературоведению и фольклористике; по органическим реакциям, по философии, по автомобильному транспорту, по атомной науке и технике, лингвистической терминологии, по языкознанию, по чёрной металлургии, по теоретической и прикладной лингвистике и т. д. Отдельно необходимо выделить идеографические словари.
Лесников Сергей Николаевич — кандидат филологических наук, доцент кафедры Сыктывкарского государственного университета. E-mail: serg@lsw.ru; gowor@online.ru; lsw@mail.ru; lsw@ syktsu.ru
*Издаётся при финансовой поддержке Российского фонда фундаментальных исследований по инициативному исследовательскому проекту (грант) N 11-07-00733 (2011-2013) «Гипертекстовый информационно-поисковый тезаурус "Метаязык науки"» (структура; математическое, лингвистическое и программное обеспечения; разделы лингвистика, математика, экономика)» (науч. рук. — С. В. Лесников).
Учитывались также принципы лингвистического конструирования и приёмы разработки тезауруса на лингвистическом материале, которые в своих работах сформулировали И. В. Азарова, Л. Н. Беляева, Д. Варга, А. А. Витухновской, А. С. Герд, Р. С. Гиляревский, М. П. Данилов, С. В. Жмайло, Ю. Н. Караулов, О. А. Лаврёнова, Э. Я. Лесохина, О. А. Митрофанова, А. И. Михайлов, С. Е. Никитина, А. Ф. Паркер-Роудс и C. Уордли, Р. Г. Пиотровский, В. Д. Сидорченко, А. А. Синопальникова, В. Б. Смиренский, А. В. Соколов, А. А. Ушакова, А. И. Чёрный, В. А. Чижаковский, А. Я. Шайкевич, Е. В. Шингарёва, М. В. Яворская.
Предполагается, что словарная статья гипертекстового информационно-поискового тезауруса метаязыка лингвистики будет давать исчерпывающую информацию о термине (с принятой в данном словаре степенью детализации — смысл термина) и о его понятийных связях с другими терминами — лексическими единицами (ЛЕ), а также, по возможности, точнее и детальнее — с их лексико-семан-тическими вариантами (ЛСВ).
Кратко изложим основные этапы.
А. Разработка структуры ИПТ. Определение тематического охвата ИПТ. Выбор источников и кластеризация предметной области (прежде всего, лингвистика, математика, экономика). При выборе источников учитываются: а) наиболее точное соответствие лексического материала предметной области; б) технологическая насыщенность и важность источников.
Б. Конструирование программного обеспечения; обеспечение интуитивно-понятного и дружественного интерфейса. Программное обеспечение (в частности процедуры разметки, загрузки и параметризации лексической базы данных) разрабатывается и создаётся на следующих языках: PERL (Practical Extraction and Report Language) — практический язык для извлечения данных и составления отчётов; PHP (Preprocessor of Home Pages) — препроцессор гипертекста — язык программирования, созданный для генерации HTML-страниц на веб-сервере и работы с базами данных; SQL (Structured Query Language) — язык структурированных запросов — универсальный компьютерный язык, применяемый для создания, модификации и управления данными в реляционных базах данных; Python — высокоуровневый язык программирования общего назначения с акцентом на производительность разработчика и читаемость кода. Синтаксис ядра Python мини-малистичен. В то же время стандартная библиотека включает большой объём полезных функций. Python поддерживает несколько парадигм программирования, в том числе структурное, объектно-ориентированное, функциональное, императивное и аспектно-ориентированное. Основные архитектурные черты — динамическая типизация, автоматическое управление памятью, полная интроспекция, механизм обработки исключений, поддержка многопоточных вычислений и удобные высокоуровневые структуры данных. Код в Питоне организовывается в функции и классы, которые могут объединяться в модули (те, которые в свою очередь могут быть объединены в пакеты). ИПТ является не только самостоятельным и самодостаточным компьютерным ресурсом, но и инструментом для поиска, классификации, систематизации и индексации ресурсов. Пользователь ИПТ имеет возможность осуществлять просмотр тезауруса, поиск по ключевым словам и ассоциированным терминам (дескрипторам, классам, темам), навигацию по тезаурусу (поиск искомого понятия в тезаурусе с последующим запросом
ресурсов, соответствующих этому понятию). При поиске ресурсов по ключевым словам ИПТ позволяет расширять результаты поиска, выдавая пользователю не только ресурсы, соответствующие введённым пользователем ключевым словам, но и ресурсы, соответствующие связанным с ними понятиям (семам), или терминам, обозначающим также более узкие понятия относительно исходного термина. Интерфейс ИПТ позволяет показывать атрибуты данного термина, гиперссылки и связи данного термина, место термина в иерархии понятий тезауруса. Перспективным направлением является разработка не однозначных, а мультигипертексто-вых ссылок, когда в тезаурусе схемой данных будет разрешена привязка термина более чем к одному понятию, а также в случаях, когда у понятия есть эквиваленты на других языках. Наглядно показать пользователю место термина или понятия в тезаурусе достаточно сложно, поскольку достаточно наглядное отображение полииерархической структуры на одном экране, в отличие от иерархии, довольно сложно как для отображения, так и для восприятия пользователем. В частности, в общем случае затруднительно обходиться без пересекающихся линий, показывающих иерархические, гипертекстовые связи между понятиями, а потому целесообразно на первом этапе показывать только часть понятий и связей, которые, с одной стороны, были бы легко программно реализуемы, отображаемы и адекватно воспринимались пользователем и в то же время достаточно наглядно показывали бы место понятия в общей иерархии тезауруса.
В. Составление Генерального словника (аскрипторы, дескрипторы, лексические единицы, одиночные слова — существительные, прилагательные, глаголы, наречия, именные словосочетания, лексически значимые компоненты сложных слов, сокращения слов и словосочетаний, реляторы тезауруса). Пополнение лексической базы данных. В Генеральный словник включаются вокабулы (заголовки словарных статей) с указанием, в каких словарях можно найти информацию о том или ином слове. Здесь актуализируется информация не столько по электронным версиям (которые загружены в компьютерную словарную базу данных, т. к. такие вокабулы и так найдутся по запросу а) «целиком слово»), а, прежде всего, словники книжных (бумажных) словарей и словники с других словарных порталов. По числовому коду словаря выдаётся библиография к исходному словарю и гиперссылки соответствующих источников. Идея Генерального словника русского языка восходит к научной программе «Машинный фонд русского языка (МФРЯ)» (главный конструктор В. М. Андрющенко). Первым компонентом МФРЯ является Генеральный словник русских словарей, который может быть создан как семейство однородных баз данных на основе Сводного словника, созданного в Словарном секторе Института русского языка АН СССР, и других «словнико-подобных» словарей, таких, как «Грамматический словарь русского языка» А. А. Зализняка и др. Объектом хранения в этой базе данных является вокабула, т. е. слово, являющееся потенциальным заголовком какой-либо словарной статьи и именем определённого лексического значения; его атрибутами станут номера или идентификаторы значений, а значениями атрибутов — имена и входы баз данных, в которых данное слово или его формы зафиксированы в качестве значений атрибутов каких-л. объектов — словарных статей, текстов, грамматических правил, статистических сводок, научных статей и т. п. Очевидно, что многоаспектный поиск по заданным значениям атрибутов с соответствующими логическими условиями
может давать ответы на такие запросы, как: «Найти перечень словарных статей определённых словарей, для которых имеется информация в терминологической базе данных», «Найти значения вокабулы, стилистически маркированные в словарях», «Найти все глаголы с дефектными парадигмами и сопоставить структуры их словарных статей» и т. п [Андрющенко 1986: 31]. В 1987-1991 гг. в отделе МФРЯ был сделан вариант генерального словника (небольшой фрагмент от А до П в формате для ЕС ЭВМ нам был доступен).
Г. Выявление семантических полей посредством определения кортежей условной эквивалентности (КУЭ). В КУЭ объединяются лексические единицы, между объёмами понятий которых существуют следующие отношения: а) равнозначность — объёмы понятий совпадают полностью; б) пересечение — объёмы понятий совпадают частично; в) подчинённость — объём одного понятия строго составляет часть другого понятия, но не наоборот; г) внеположенность — объёмы понятий полностью исключают друг друга и при этом не исчерпывают области предметов. В синонимическом ряду выделяется доминанта, т. е. такое слово, которое может заменить любое слово из этого ряда. Доминанту называют дескриптором.
Д. Установление парадигматических (способы выражения: аналитический, графический, лексикографический, табличный), иерархических (транзитивность и антисимметричность), ассоциативных, грамматических (сюда же можно отнести транслитерацию и варианты записи слов), межъязыковых (основа построения машинного переводчика), семантических (антонимы, гиперонимы, гипонимы, синонимы, гендерные синонимы; уменьшительно-ласкательные, усилительные-увеличительные), семантико-грамматических (связи действия, свойства, инструмента, местопребывания. Особенность этих связей в том, что это, главным образом, однокоренные слова, что роднит их с грамматическими связями и они выражают определённые отношения между термами), реляционных, родо-видовых связей. Основными типами связей являются: а) род — вид, б) часть — целое, в) причина — следствие, г) сырьё — продукт, д) административная иерархия, е) процесс — объект, ж) функциональное сходство — процесс — субъект, з) свойство — носитель свойства, и) антонимия.
Е. Создание словарных статей и лексико-систематических (тематические, категориальные, смешанные), пермутационных, иерархических и др. указателей и списков специальных категорий лексических единиц (общие категории — названия дисциплин и отраслей деятельности; предметы, материалы; методы, процессы, операции, явления; свойства, величины, параметры, характеристики; отношения, структуры, модели, законы, правила, абстрактные понятия). Словарная статья может включать в себя частоту использования дескриптора; кодовый номер дескриптора, код дескриптора по систематическому указателю, классификационные индексы, дополнительные семантические и лексикографические пометы, иноязычные эквиваленты.
Ж. Автоматизация процессов построения тезауруса: а) частотный, статистический анализ; б) коррекция статей; в) сортировка словников; г) проверка взаимности и непротиворечивости ссылок; д) составление указателей; е) конвертация в требуемых форматах и кодировках.
З. Ввод в научный оборот и технологическое внедрение.