Научная статья на тему 'Метод автоматического построения и сравнения контекстов понятий онтологий для оценки их семантической близости'

Метод автоматического построения и сравнения контекстов понятий онтологий для оценки их семантической близости Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
383
93
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Маслобоев А. В., Ломов П. А., Мавренков Н. М.

Разработан метод автоматического построения и сравнения контекстов понятий различных онтологий для оценки их семантической близости в процессе онтологической интеграции. Метод позволяет устранить субъективности неформальных описаний элементов онтологии и исключает необходимость использования специализированных тезаурусов. Отдельное внимание в работе направлено на создание процедур комплексного анализа корпуса текстов и разработку алгоритмов формирования и сравнения контекстов онтологий. Ил.2, библиогр.6.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method for Automatic Formation and Comparison of Ontologies Concept Contexts for Their Semantic Distance Assessment

A method for automatic formation and comparison of different ontologies concept contexts for their semantic distance assessment in the process of ontological integration is developed. The method serves to eliminate human factor in ontology elements informal descriptions. It makes unnecessary special-purpose thesaurus application. Special concern is given to implementation of text frame complex analysis and development of algorithms for ontology contexts formation and comparison. Fig. 2, Ref. 6.

Текст научной работы на тему «Метод автоматического построения и сравнения контекстов понятий онтологий для оценки их семантической близости»

СІїрмі ванных тпдої 20Н

МЕТОД АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ И СРАВНЕНИЯ КОНТЕКСТОВ ПОНЯТИЙ ОНТОЛОГИЙ ДЛЯ ОЦЕНКИ ИХ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ*

А.В. Маслобоев, П.А. Ломов, Н.М. Мавренков

Введение

На сегодняшний день в виду накопления огромного объема знаний в различных предметных областях проблема их представления и повторного использования является весьма актуальной. Одним из решений данной проблемы является использование онтологических моделей для получения формальной спецификации концептуализации. Под концептуализацией понимается согласованное видение предметной области группой специалистов (экспертов). Полученная в итоге онтологическая спецификация или онтология сочетает в себе, как формализованные знания в виде системы аксиом, так и неформализованные - вербальные названия и определения терминов и отношений между ними. Эта особенность позволяет использовать ее, как в задачах машинной обработки информации, так и для наглядного представления и оперирования знаниями экспертом предметной области.

Однако достаточно часто разработка онтологий ведется различными несогласованными группами экспертов, например разными институтами, и возникает ситуация, при которой требуемую предметную область описывает не одна, а несколько семантически гетерогенных онтологий. В таких условиях неизбежно возникает задача интеграции онтологий. В общем случае, интеграцию онтологий принято определять как процесс нахождения сходства двух онтологий А и В и, как результат, создание новой онтологии С, объединяющей и согласующей семантические представления исходных онтологий [1].

В настоящей работе предлагается метод автоматического построения и сравнения контекстов понятий различных онтологий для оценки их семантической близости в процессе онтологической интеграции. Составления контекста осуществляется в результате проведения комплексного анализа корпуса текстов, описывающих ту же предметную область или задачу, что и обрабатываемая онтология.

Отдельное внимание в работе направлено на создание процедур синтаксического анализа текстов и разработку алгоритмов формирования и сравнения контекстов онтологий на основе результатов, полученных на этапе синтаксического анализа.

*Работа выполнена по программе ОНИТ РАН "Фундаментальные основы информационных технологий и систем" (проект № 2.6).

Работа поддержана грантом РФФИ (проект N° 08-07-00301-а).

1. Преимущества предлагаемого метода

Разработка онтологии подразумевает создание спецификации в виде формального описания некоторой концептуализации мыслимой

разработчиком или их коллективом. Частично такую концептуализацию удается специфицировать явно, в виде набора формальных аксиом. Однако некоторая часть формально не описывается, что может быть обусловлено целью разработки онтологии, а также ограничениями языка выбранной онтологической модели. Также следует заметить, что определение совокупности аксиом онтологии, задает систему ограничений множеств интерпретации концептов и отношений, но при этом они остаются всего лишь абстракциями. Для их овеществления разработчик дает им осмысленные имена, а так же производит их аннотирование. Тем самым некоторая (сравнительно большая) часть семантики представляется неформально. Вследствие этого, при интеграции онтологий используются как формальные, так и неформальные методы для сопоставления семантики элементов. Причем, как правило, формальные методы могут быть использованы лишь в дополнение к неформальным [2]. Именно поэтому развитие неформальных методов оценки семантической близости понятий позволит повысить корректность результата интеграции онтологий.

В общем, неформальные методы оценки семантической близости состоят в выявлении различных сходств вербальных имен и определений элементов, данных разработчиком онтологии. Однако в этом случае, на оценке близости понятий может сказаться субъективность определений какого-либо понятия, так как они могут быть верными во всех случаях, но по-разному сформулированы. В этом случае весьма вероятно получение негативной оценки близости при сопоставлении схожих понятий различных онтологий.

Некоторые методы сравнения также предполагают использование тезауруса, на понятиях которого определены различные лексические отношения (синонимия, гипонимия, омонимия), для выявления схожих слов в определениях или вербальных именах элементов онтологий. Однако не во всех случаях удается найти тезаурус, соответствующий той предметной области или задаче, понятия которой описаны в онтологии. Использование же общих тезаурусов может приводить, либо к неверным оценкам, в случае

различных точек зрения на понятие онтологии и тезаурусе, либо к их отсутствию, так как в тезаурусе может вообще не найтись подходящего понятия. Последнее особенно вероятно для онтологий узких предметных областей или онтологий задач.

Метод сравнения понятий различных онтологий, предлагаемый в настоящей работе, основывается на том предположение, что контекст употребления одних и тех же терминов в текстовых источниках, описывающих одну предметную область одинаковы. Сравнивая эти контексты, можно судить о семантической близости понятий, соответствующих данным терминам и определенных в разных онтологиях. Основные преимущества предлагаемого подхода заключаются в устранении субъективности неформальных описаний элементов онтологии, отсутствии необходимости использования специализированных тезаурусов, а также ориентированность на применение для онтологий, описывающих практически любую предметную область или задачу.

2. Общее описание метода

Применение метода осуществляется в два этапа: формирование контекстов понятий онтологии для более полного представления их интерпретаций и сравнение полученных контекстов для оценки семантической близости понятий.

Формирование контекстов рекомендуется проводить разработчику онтологии в качестве одной из заключительных фаз ее создания. При этом следует использовать некоторый корпус текстов, в которых с точки зрения разработчика онтологии, используемые им понятия, имеют правильное значение. Роль такого корпуса текстов могут играть наборы инструкций, рабочих документов, научных статей и т. п.

Сравнение контекстов производиться уже непосредственно во время процесса интеграции онтологий, прошедших обработку на первом этапе, где оно, как правило, выполняется наряду с другими методами для получения дополнительных оценок семантической близости понятий.

Под контекстом термина в данном случае будем понимать набор множеств лексем Q, семантически связанных с лексемой, обозначающей термин, в некотором корпусе текстов, относящимся к предметной области или задаче:

<2 = (кик2,к3,к4,к5),

где К множества лексем, а I определяет их значимость в описании интерпретации термина - чем оно больше, тем более значимым данное множество является. Сами множества состоят из лексем следующих видов:

• в К попадают лексемы из тех предложений, в которых кроме лексемы, соответствующей понятию, нет других лексем - понятий онтологии, а найденная лексема-понятие употреблено не в значимой роли, например, подлежащее или дополнение;

• в К попадают лексемы из тех предложений, в которых помимо искомой лексемы-понятия

присутствуют и другие лексемы, соответствующие понятиям онтологии, при этом ни одна из них не является значимой;

• в К3 попадают лексемы из предложений, в котором искомая лексема-понятие имеет значимую роль, при этом других лексем-понятий онтологии не найдено;

• в К4 попадают лексемы из предложений, в котором искомая лексема-понятие имеет значимую роль, при этом в предложении присутствуют другие лексемы-понятия из онтологии;

• в К5 попадают лексемы из предложений, в котором искомая лексема-понятие имеет значимую роль, а в качестве лексемы-сказуемого используется объектное отношение онтологии, либо сказуемое определено как непосредственно описывающее искомую лексему-понятие.

Алгоритм формирования контекстов понятий онтологии, включает следующие основные этапы (рис. 1):

1. Обработка содержания текстов корпуса. Документы из текстового корпуса проходят многоуровневый языковой анализ, приводятся в нормализованную форму, снабженную полученной на этапе анализа информацией.

2. Индексация корпуса. При формировании контекста понятия требуется информация об употреблении соответствующей ему лексеме в тексте. Наряду с этим также необходимо располагать информацией об употреблении в тексте лексем, соответствующих и другим понятиям онтологии. Для этого перед составлением контекста строятся специальные структуры данных, которые содержат информацию об употреблении всех терминов онтологии в корпусе.

3. Формирование контекста. С помощью полученного на предыдущем шаге индекса производиться включение лексем во множества контекстов понятий онтологии.

После завершения этапа формирования контекстов понятий онтологий может быть произведено их сравнение. Оно заключается в определении схожести по различным множествам контекстов понятий, входящих в интегрируемые онтологии. Схожесть различных множеств контекста в разной степени влияет на итоговую оценку.

Для оценки близости понятий онтологий по их контекстам используется формула Джаккарда, взвешенная по схожести различных множеств контекста:

5 / кАпкВ \

X п—1 V

кА^к1 )

где А, В - контексты понятий двух онтологий,

т/~А т/~В

Кп , Кп - п-ое множество контекста,

- коэффициенты значимости (определяются эмпирически).

Рис.1. Логика работы алгоритма составления контекста

3. Программная реализация

Программная реализация метода была выполнена на языке Java в интегрированной среде разработки NetBeans версии 6.0 в виде программного модуля (Java-package), который в дальнейшем может быть использован в других программных продуктах. Диаграмма классов разработанного программного модуля представлена на рис. 2.

При нормализации исходных текстов используется сторонний модуль морфологического анализа «Mcr», описанный в работах [3,4]. Отнесение лексем предложения к определенному множеству контекста сильно зависит от занимаемых ими синтаксических ролей, поэтому одним из важнейших этапов разработки системы стало создание синтаксического анализатора текста. При разработке синтаксического анализатора были использованы методики, описанные в работе [5].

Рассмотрим работу программного модуля на этапе формирования контекста понятия, так как именно от его результатов зависит правильность и обоснованность дальнейшего сравнения контекстов.

Обработка текста начинается с лексического анализа, в ходе которого из исходного текста выделяются предложения, а из предложений выделяются токены, которые передаются для обработки морфологическому анализатору. Токенами в данном случае называется последовательность

символов из входного потока символов, распознанная как единый объект.

Далее выполняется морфологический анализ, который заключается в поиске полученных токенов среди словоформ лексем, содержащихся в словаре анализатора, заданном изначально. В данном случае был использован грамматический словарь русского языка А. А. Зализняка [6]. На выходе морфологический анализатор выдает набор лексем-омонимов, для словоформ которых найдено совпадение с рассматриваемым токеном. Данный набор далее будем называть юнитом.

Далее в ходе синтаксического анализа производиться применение синтаксических правил с целью установления иерархии на юнитах, из которых состоит предложение, и формированием синтаксической группы. Под синтаксической группой будем понимать установленное п-арное отношение на юнитах. Группа может иметь вложенные подгруппы, одна из которых может быть главная. Главным юнитом считается главный юнит главной подгруппы, а главный юнит атомарной группы - единственный входящий в нее юнит. В начале анализа всем юнитам ставятся в соответствие атомарные группы - группы состоящие из одного юнита. Далее к этому набору групп последовательно применяются синтаксические правила, вследствие чего атомарные группы поглощаются более общими.

Правила применяются к группам слева направо, для нахождения группы, соответствующие условиям правила, перебирая при этом все комбинации лексем-омонимов в юнитах. Если найден набор групп, удовлетворяющих правилу, то они объединяются той группой, для которой выполнялся поиск. При этом из

юнитов, входящих в найденные группы, удаляются все лексемы-омонимы.

После обработки текста производиться составление индекса. Под индексом понимается набор структур данных, служащий для быстрого доступа к информации.

Рис. 2. Диаграмма классов программного модуля

Для составления контекста понятий необходимо, во-первых, для каждой соответствующей ему лексемы получать список предложений, где он используется, а во-вторых, для каждого предложения получать список понятий из онтологии, соответствующие лексемы которых в нем встречаются. Кроме того, в индекс заносится информация о синтаксической роли лексем-понятий в предложениях. Именно эта информация используется для формирования контекстов понятий. Из вышесказанного следует, что логичным является создание прямого и обратного индекса. Прямой индекс позволяет получать информацию о том, в каких предложениях какого документа встречается данный термин. Для его хранения используется система хэш-таблиц, содержащих ссылки на вложенные таблицы. То есть, для каждого понятия создается таблица документов использования, для каждого документа - таблица предложений, а для каждого предложения - структура, содержащая адрес понятия-лексемы в предложении и данные синтаксического анализа. Обратный индекс организован похожим образом за исключением того,

что цепочка хэш-таблиц строится в противоположном порядке.

Построение контекста понятия происходит следующим образом - перебираются все понятия онтологии, выбираются предложения, в которых встречаются соответствующие понятию лексемы. Затем из каждого предложения, согласно индексу, выбираются лексемы, формирующие контекст понятия с учетом других понятий онтологии, связанных с текущим.

Заключение

В работе предложен метод формирования и сравнения контекстов понятий онтологий, который может быть эффективно использован в решении задачи оценки их семантической близости с целью последующей интеграции. Его отличие от существующих неформальных методов установления близости понятий, предполагающих сравнение различными способами вербальных определений и имен понятий, данных разработчиком онтологии, заключаются в том, что он обеспечивает автоматическое формирование контекста термина, который можно рассматривать как его формальную

аннотацию. Это позволяет разработчику онтологии избежать дополнительных трудозатрат на формулировку объемных аннотаций терминов, которые позволят более точно выявить сходство или различие понятий, а вместо этого ограничиться их короткими вариантами. Немаловажным является также отсутствие необходимости наличия при использовании метода каких-либо тезаурусов терминов предметной области. Вместе с тем, вследствие того, что контекст всегда формируется с помощью корпуса текстов по определенным правилам и независимо от разработчика онтологии, появляется возможность устранения возможной субъективности и узости аннотации понятия.

Разумеется, в полной мере проблему интеграции разнородных онтологий представленный метод не решает, так как алгоритмы составления контекста не безупречны и адекватны лишь на столько, на сколько адекватны методы синтаксического разбора и анализа текста. Однако его использование позволяет повысить адекватность и обоснованность оценок близости понятий, полученных на основе их неформальной семантики, что в итоге положительно сказывается на интеграции онтологий в целом.

Основные области применения разработанного метода:

1) использование в программах автоматического интегрирования;

2) упрощение работы эксперта, занимающегося вопросами интегрирования и составления онтологий

- составленный контекст помогает четче понять семантику термина.

Литература

1. Бархатов, А.В. Разработка и интеграция вебресурсов на основе их семантического представления в виде онтологий.

- Режим доступа: http://rrc.krasu.ru/node/1885

2. Кудрявцев, Д.В. Практические методы отображения и объединения онтологий / Д.В. Кудрявцев // Труды 11-й Национальной конф. по искусственному интеллекту с междунар. участием (КИИ-08), семинар «Знания и Онтологии *ELSEWHERE*», 29 сент. - 3 окт.

2008, г. Дубна, Россия.- М.: URSS, 2008. -Т.3. -С.164-173.

3. Выдрин, Д.В. Реализация электронного словаря на основе н-грамм /Д.В. Выдрин, В.В. Поляков // Труды III Междунар. научно-практ. конф. "Искусственный интеллект - 2002".- Кацевелли: Изд-во Институт проблем искусственного интеллекта, 2002. - Т.2. - С.79-84.

4. Выдрин, Д.В. Метод сравнения

библиографических описаний, представленных в различных форматах / Д.В. Выдрин, С.А. Громов, В.Н. Поляков // Обработка текста и когнитивные технологии VII Международная конф. - Варна. М: Изд-во "Учеба", 2004. -№ 9. -С.166-172.

5. Автоматическая Обработка Текста:

Синтаксический анализ. - Режим доступа:

http://aot.ru/docs/synan.html

6. Зализняк, А.А. Грамматический словарь русского языка /А.А. Зализняк. - М.: АСТ-Пресс Книга,

2009. - 720 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.