Научная статья на тему 'Использование отношений между атрибутами для построения онтологии предметной области'

Использование отношений между атрибутами для построения онтологии предметной области Текст научной статьи по специальности «Математика»

CC BY
647
122
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Проблемы управления
ВАК
Область наук
Ключевые слова
ОНТОЛОГИЯ / ТАКСОНОМИЯ / АНАЛИЗ ФОРМАЛЬНЫХ ПОНЯТИЙ / ОТНОШЕНИЕ ОГРАНИЧЕНИЯ СУЩЕСТВОВАНИЯ / ТЕОРИЯ ГРАФОВ / ONTOLOGY / TAXONOMY / FORMAL CONCEPT ANALYSIS / RELATION OF EXISTENCE CONSTRAINTS / GRAPH THEORY

Аннотация научной статьи по математике, автор научной работы — Пронина Валерия Александровна, Шипилина Любовь Борисовна

Предложен метод построения таксономии онтологии предметной области, ориентированный на автоматизацию процесса с использованием знаний эксперта об атрибутах предметной области. Метод основан на бинарных отношениях «ограничений существования» на множестве атрибутов и анализе формальных понятий. Приведен пример таксономии фрагмента теории графов, построенной по предложенному методу.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING RELATIONS OF ATTRIBUTES FOR BUILDING ONTOLOGY OF SUBJECT DOMAIN

The method for building of ontology for a subject domain is offered. It allows automating building taxonomy of concepts with use of expert knowledge on attributes of subject domain. The method is based on the binary relations of "existence constraints"on set a of attributes and Formal Conceptual Analysis. The example of taxonomy fragment for graph theory, built with the use of offered method is made.

Текст научной работы на тему «Использование отношений между атрибутами для построения онтологии предметной области»

с

истемный анализ

УДК 004.8

ИСПОЛЬЗОВАНИЕ ОТНОШЕНИЙ МЕЖДУ АТРИБУТАМИ ДЛЯ ПОСТРОЕНИЯ ОНТОЛОГИИ ПРЕДМЕТНОЙ ОБЛАСТИ

В.А. Пронина, Л.Б. Шипилина

Предложен метод построения таксономии онтологии предметной области, ориентированный на автоматизацию процесса с использованием знаний эксперта об атрибутах предметной области. Метод основан на бинарных отношениях «ограничений существования» на множестве атрибутов и анализе формальных понятий. Приведен пример таксономии фрагмента теории графов, построенной по предложенному методу.

Ключевые слова: онтология, таксономия, анализ формальных понятий, отношение ограничения существования, теория графов.

ВВЕДЕНИЕ

Существуют разнообразные подходы к формированию онтологий. Предлагаемый подход ориентирован на автоматизацию процесса построения таксономии онтологии с максимальным использованием знаний эксперта об атрибутах предметной области.

Для формализации выбора понятий предметной области (ПО) и построения их таксономии применяется метод анализа формальных понятий [1], поддержанный инструментарием — системой анализа данных «Concept Explorer» [2]. Для построения таксономии требуется задать формальный контекст — множество объектов и их атрибутов, значимых для рассматриваемой ПО, и связи между ними. В данной работе предлагается формализация процесса задания контекста с помощью бинарных отношений на множестве атрибутов. Атрибуты, по мнению авторов, «точнее» по сравнению с названиями объектов (понятий и экземпляров) характеризуют связи в предметной области.

1. ФОРМАЛЬНЫЙ КОНЦЕПТУАЛЬНЫЙ АНАЛИЗ

Метод анализа формальных понятий заключается в следующем. На множестве объектов U и атрибутов Vопределено отношение I с их V, такое, что р1а, где р е и, а е V, тогда и только тогда, когда а есть атрибут объекта р. Тройка К = (Ц V, I) на-

зывается формальным контекстом. Формальный контекст может быть представлен в виде бинарной матрицы, строки которой помечены именами объектов, а столбцы — значениями атрибутов. Определяется соответствие Галуа (оператор замыкания):

Р' : = {у е V\xIy для всех х е Р}, где Р с Ц О' : = {х е Ц\х1у для всех у е О}, где О с V.

Тогда пара (Р, О), удовлетворяющая условиям Р с Ц, О с V, Р = О и С = Р, называется формальным понятием (концептом) контекста К = (Ц V, I). Множество всех объектов Р составляет объем понятия, а множество всех атрибутов О, которыми они обладают, — содержание понятия. Каждый объект р е Р обладает всеми атрибутами из множества О. Каждым атрибутом g е О обладают все объекты из множества Р. Таким образом, формальное понятие — это множество всех объектов из данной предметной области, каждый из которых обладает всеми атрибутами из некоторого подмножества атрибутов, присущих этим объектам.

Множество формальных понятий (Р, О), где Р с Ц, О с V, частично упорядочено отношением Т (можно назвать его, например, «менее общий чем или равен»): (Рх, О1) < (Р2, О2), если Р1 с Р2 или О2 с О1 (что эквивалентно) — и образует концептуальную решетку контекста К [3].

Для визуализации используется не само отношение Т, а его транзитивная редукция Т : А < В

(Л и Б — концепты), если не существует концепта О, такого что О ф Л, О ф Б, Л < О < Б. При этом Л называется ближайшим надконцептом концепта Б, Б — ближайшим подконцептом концепта Л. Транзитивная редукция решетки концептов представляет таксономию концептов. Для визуализации транзитивной редукции решетки концептов (таксономии концептов) используются так называемые линейные диаграммы (диаграммы Хассе) с сокращенной пометкой — каждый объект и атрибут изображаются на диаграмме всего один раз. Имя объекта приписывается пересечению всех понятий, в объемах которых содержится этот объект, а имя атрибута приписывается объединению всех понятий, содержания которых включают это свойство. Таким образом, имя объекта приписывается наименьшему из понятий, в которых встречается данный объект, а имя атрибута приписывается наибольшему из понятий, в которых присутствует этот атрибут. Кроме того, в линейной диаграмме каждая вершина концепта расположена выше всех его подконцептов, поэтому можно обойтись без стрелок.

2. ОТНОШЕНИЯ НА МНОЖЕСТВЕ АТРИБУТОВ. НОРМАЛЬНОЕ МНОЖЕСТВО АТРИБУТОВ

Пусть и — выбранное множество объектов рассматриваемой ПО, V — выбранное множество атрибутов, значимых для рассматриваемой ПО,

Рх(а), где х е V, а е и — одноместный предикат «обладает атрибутом х».

На множестве атрибутов V вводятся бинарные отношения «ограничений существования» [4]:

• несовместимости: Е(х, у) о У(Рх(а) ^ —I Р У(а)) (если а обладает атрибутом х, то а не обладает атрибутом у, и наоборот);

• обусловленности: С(х, у) о Уа(Рх(а) ^ РУ(а)) (если а обладает атрибутом х, то а обладает атрибутом у, или х требует у, или у требуется х-м, но обратное может быть неверно);

• взаимообусловленности: М(х, у) о У а (Рх(а) ^

^ РУ(а) & РУ(а) ^ Рх(а)) (если а обладает атрибутом х, то а обладает атрибутом у, и наоборот) или М(х, у) о С(х, у) & С(у, х). Отношение Е антирефлексивно, симметрично, нетранзитивно, и верна импликация С(х, у) & Е(у, г) ^ Е(х, z) (назовем это относительной транзитивностью — Е относительно С). Отношение С рефлексивно, несимметрично и транзитивно. Отношение М рефлексивно, симметрично и транзитивно.

Пусть Я с V, х е Я, у е V. Назовем множество Я замкнутым, если Ух (Зу С(х, у) ^ у е Я) (содержит все атрибуты, которые обусловлены любым атрибутом множества Я). Назовем множество Я

совместимым, если Ух(Зу Е(х, у) ^ (у £ Я)) любые два атрибута из Я не должны быть связаны отношением несовместимости). Будем называть Я нормальным множеством атрибутов, если и только если оно замкнутое и совместимое.

Отношение взаимообусловленности М разбивает множество атрибутов V на классы эквивалентности V. Определим отношение обусловленности С на множестве V классов эквивалентности атрибутов (как расширение отношения обусловленности на множестве атрибутов) следующим образом:

С (X, У) о З(х е X, у е У) |С(х, у), где X, У е V.

Так как верны импликации:

С(х, у) & М(х, хх) С(хр у) и

С(х, у) & М(у, ух) С(х, у1),

то из С(X, У) о З(х е X, у е У)|С(х, у), где X, Уе V, следует:

С(X, У) о У(х е X, уе У) |С(х, у), где X, У е V.

Отношение С антисимметрично и является отношением частичного порядка. Транзитивная редукция С' отношения С связывает «ближайшие» классы эквивалентности атрибутов.

Для визуализации транзитивной редукции отношения С' может быть использована диаграмма Хассе. Пути наверх от вершины X (включая саму вершину) «собирают» все атрибуты, связанные отношением обусловленности с атрибутами вершины.

3. МЕТОД ПОСТРОЕНИЯ ТАКСОНОМИИ

Для построения скелета онтологии ПО — системы концептов и их таксономии — предлагается технология, основанная на методе анализа формальных понятий, поддержанная проверкой выбранного множества атрибутов для каждого концепта на нормальность (с учетом отношений, заданных на множестве атрибутов). Разумеется, такая онтология в общем случае не будет полной — таксономию следует дополнить другими, нетаксономическими, семантическими связями между понятиями, что обогатит онтологию и позволит получать по ней более разнообразные запросы.

Будем называть формальный контекст с нормальными множествами атрибутов объектов нормализованным. Предлагаемая технология автоматизирует процесс построения нормализованной матрицы формального контекста и, следовательно, построение «правильной» решетки концептов. Метод сочетает неформализованные процессы, выполняемые экспертом (задание объектов, атри-

бутов, «базовых» отношений на множестве атрибутов — определение места нового атрибута в линейной диаграмме), и формализованные процессы, выполняемые компьютером (доопределение отношений на множестве атрибутов, проверка множества атрибутов объекта на нормальность, построение концептуальной решетки, которая легко преобразуется в таксономию онтологии).

Общая схема предлагаемой технологии:

• выбирается (экспертом) множество объектов (понятий и/или экземпляров) и множество атрибутов, значимых для рассматриваемой подобласти знаний;

• на множестве атрибутов определяются отношения «ограничений существования»;

• строится матрица формального контекста с учетом введенных отношений, при этом контролируется нормальность множества атрибутов каждого объекта (совокупность отметок в одной строке матрицы);

• по формальному контексту строится концептуальная решетка, транзитивная редукция которой представляет собой таксономию концептов. Процесс построения носит итерационный характер. Сначала можно выполнить построение решетки для части формального контекста ПО, например для части одного уровня дерева таксономии или для части одной ветви дерева. Для атрибутов этой части формального контекста определяются отношения «ограничений существования»: эксперту рекомендуется задать отношения между «семантически близкими» атрибутами, остальные выводятся по транзитивности. Матрица формального контекста заполняется полуавтоматически: эксперт заносит «свежий» атрибут, автоматически вводятся атрибуты, связанные с вновь введенным атрибутом отношениями обусловленности, и выявляются атрибуты, связанные с вновь введенным атрибутом отношением несовместимости, т. е. происходит проверка нормальности множества атрибутов объектов. Если все множества атрибутов введенных объектов нормальные, то построение контекста сопровождается визуализацией линейной диаграммы концептов (дерево таксономии).

4. МЕТОДИКА ПОСТРОЕНИЯ ОТНОШЕНИЙ МЕЖДУ АТРИБУТАМИ

Пусть определены отношения М, С и Е между ранее заданными атрибутами и построена линейная диаграмма Ь (диаграмма Хассе) транзитивной

редукции отношения обусловленности С на множестве V классов эквивалентности атрибутов. Каждой вершине диаграммы соответствует класс эквивалентности атрибутов, т. е. множество атри-

бутов, связанных отношением взаимообусловленности. Покажем методику введения нового атрибута w — «встраивания» нового атрибута в систему отношений между существующими атрибутами, состоящего из двух этапов: определение места нового атрибута в линейной диаграмме и определение (точнее, доопределение) отношений между вводимым атрибутом w и множеством V существующих атрибутов.

4.1. Определение места нового атрибута в линейной диаграмме

Пусть X — вершина в диаграмме Ь, выбранная экспертом как «наиболее близкая семантически». Рассмотрим разные варианты «соображений» эксперта при определении отношений ограничений существования с существующими атрибутами в выбранном пути диаграммы.

• Пусть Эх е X, такой что М(х, м>). Тогда Х:= Xи {м>}, т. е. атрибут w включается в класс эквивалентности X.

• Пусть Эх е X, такой что С(^, х). Тогда вершина, соответствующая атрибуту w (далее для краткости будем говорить просто «атрибут ^») лежит ниже вершины X. Определяется отношение вводимого атрибута ц> с ближайшим нижним соседом У по выбранному пути диаграммы вершины X, в результате чего возможны варианты, когда атрибут ^:

— спускается ещё ниже (Эу е У, такой что С(*, у)), и т. д. по выбранному пути диаграммы;

— разрывает ребро, встраиваясь между вершинами пути (Эу е У, такой что С(у, ^));

— встраивается в вершину У (Эу е У, такой что М(у, ^));

— становится ближайшим нижним соседом вершины X и ближайшим верхним соседом Ьо??от-вершины (—Эу е У, такой что М(у, м>) V

С(*, у) V С(у, ^) или Эу е У, такой что Е(у, м>)).

• Пусть Эх е X, такой что С(х, ^). Тогда атрибут w лежит выше вершины X. Определяется отношение вводимого атрибута w с ближайшим верхним соседом Z по выбранному пути диаграммы, в результате чего возможны варианты, когда атрибут ^:

— поднимается ещё выше (Эг е Д такой что С(г, ^)), и т. д. по выбранному пути диаграммы;

— разрывает ребро, встраиваясь между вершинами пути (Эг е Д такой что С(^, г));

— встраивается в У (Эг е Д такой что М(г, ^));

— становится ближайшим верхним соседом вершины X и ближайшим нижним соседом ?ор-вершины (—Эг е Д такой что М(г, ^) V V С(^, у) V С(г, ^)).

• Пусть Зх е X, такой что E(x, и). Тогда по данному пути диаграммы от вершины X вверх находится вершина Д для атрибута г которой С(м>, г)

(это может быть й^-вершина).

4.2. Определение отношений между вводимым атрибутом № и множеством V существующих атрибутов

Доопределение отношений между вводимым атрибутом и и множеством Vсуществующих атрибутов производится следующим образом:

1. Если при введении атрибута и не образуется новой вершины, т. е. Зх е VI М(х, и), то отношения между атрибутом w и другими атрибутами такие же, как между х и соответствующими атрибутами.

2. Если при введении атрибута w образуется новая вершина, разрывающая ребро, то все пути от атрибута w «собирают» все атрибуты, связанные отношением обусловленности с атрибутом и>: пути наверх — отношение С(и, ...), пути вниз — отношение С(..., и).

3. Если при введении атрибута и образуется новая вершина — ближайший верхний сосед ЬвПвт-вершины, т. е. «висячая» вершина, то все пути наверх от атрибута и «собирают» все атрибуты, связанные отношением обусловленности с атрибутом и (С(и, ...)).

Кроме того, если Зх е V|Е(х, и) (или Зх, у\С(и, у) & Е( у, х)), то все пути вниз от вершины X, х е X, «собирают» все атрибуты, связанные отношением несовместимости с атрибутом и.

4.3. Об оценке сложности вычислений

Из пп. 4.1 и 4.2. видно, что для введения одного нового атрибута в линейную диаграмму — определения его места в линейной диаграмме и доопределения его отношений ограничений существования с существующими атрибутами — требуется в худшем случае порядка 0(\ V\) действий, где \ VI — мощность множества всех атрибутов. Верхняя оценка сложности вычислений построения полной линейной диаграммы отношения обусловленности (для всех атрибутов) имеет вид 0(| VI2).

Оценки сложности различных алгоритмов построения матрицы формального контекста и построения по ней концептуальной решетки исследовались в работе [5], где было отмечено, что все они также носят полиномиальный характер.

5. ПРИМЕР ИЗ ПРЕДМЕТНОЙ ОБЛАСТИ «ТЕОРИЯ ГРАФОВ»

Покажем применение предложенного метода на примере фрагмента онтологии теории графов (по работе [6]). Выберем множество атрибутов (рис. 1, далее атрибуты обозначаются порядковы-

ми номерами) и множество понятий, представленные в матрице контекста. На рис. 2 изображена линейная диаграмма отношения обусловленности атрибутов для фрагмента онтологии теории графов. На рис. 3 показаны матрицы отношений обусловленности (а) и несовместимости (б) выбранных атрибутов.

На рис. 4 показана матрица ненормализованного контекста: множества атрибутов для объектов Одностороннесвязный ОГ и Сильносвязный ОГ не являются нормальными, так как не выполнено условие замкнутости: множество атрибутов для объекта Одностороннесвязный ОГ должно содержать атрибут 4, что следует из существования отношения обусловленности Ц5, 4), а множество атрибутов для объекта Сильносвязный ОГ должно содержать атрибуты 4 и 5, что следует из существования отношений обусловленности ^6, 5) и ^6, 4). Клетки, которые должны быть заполнены, чтобы контекст был нормализованным, выделены на рис. 4 серым цветом. На рис. 5 приведена линей-

1 Имеет вершины и ребра

2 Все ребра неориентированные

3 Все ребра ориентированные

4 Для любой пары вершин есть полупуть

5 Для любой пары вершин есть путь в одну сторону

6 Любые две вершины достижимы друг из друга

7 Есть пара вершин, не связанных полупутем

Рис. 1. Выбранное множество атрибутов для фрагмента теории графов

Рис. 2. Линейная диаграмма отношения обусловленности атрибутов для фрагмента теории графов

Рис. 3. Матрицы отношений между атрибутами для фрагмента теории графов:

а — С-матрица; б — Е-матрица

ная диаграмма концептов для ненормализованного контекста, соответствующая «неправильной» таксономии, так как концепты Сильносвязный ОГ, Одностороннесвязный ОГ и Слабосвязный ОГ не упорядочены по включению согласно работе [6], т. е. родовидовые отношения показаны неправильно.

На рис. 6 приведена матрица нормализованного контекста, на рис. 7 — линейная диаграмма

концептов для нормализованного контекста, соответствующая «правильной» таксономии.

Продемонстрируем методику встраивания нового атрибута на примере данного фрагмента онтологии теории графов. Пусть построена диаграмма отношения обусловленности ранее введенных атрибутов (рис. 8, представляющий собой рис. 2 после изъятия вершины 5). Требуется ввести но-

1 2 3 4 5 6 7

Граф х

ОГ х X

НГ х X

Несвязный ОГ х х X

Слабосвязный ОГ х

Односторонеесвязный ОГ х X

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сильносвязный ОГ X X ■и X

1 2 3 4 5 6 7

Граф х

ОГ х X

НГ х X

Несвязный О Г х х X

Слабосвязный ОГ х х х

Односторонеесвязный ОГ х х х X

Сильносвязный О Г х х х X X

Рис. 4. Матрица ненормализованного контекста для фрагмента Рис. 6. Матрица нормализованного контекста для фрагмента

теории графов: ОГ — ориентированный граф, НГ — теории графов

неориентированный граф ---------------------------------------------------------

Рис. 5. Линейная диаграмма концептов фрагмента теории графов Рис. 7. Линейная диаграмма концептов фрагмента теории графов для ненормализованного контекста для нормализованного контекста

Имеет вершины и ребра I

Рис. 8. Линейная диаграмма отношения обусловленности ранее введенных атрибутов

вый атрибут м = Для любой пары вершин есть путь в одну сторону. В качестве наиболее близкой семантически выбираем вершину 4, соответствующую атрибуту х = Для любой пары вершин есть по-лупуть. Если выполняется м, то выполняется х, т. е. С(м, х). Следовательно, вершина, соответствующая атрибуту м, лежит ниже вершины 4. Определяется отношение вводимого атрибута м с ближайшим нижним соседом этой вершины по выбранному пути диаграммы — с вершиной 6, соответствующей атрибуту у = Любые две вершины достижимы друг из друга. Но если любые две вершины достижимы друг из друга, т. е. между ними существуют пути в обе стороны, то для любой пары вершин есть путь в одну сторону, но обратное неверно, следовательно, С(у, м), а значит, «разрывается» ребро и между вершинами 4 и 6 вставляется вершина, соответствующая новому атрибуту м = Для любой пары вершин есть путь в одну сторону (см. рис. 2).

ЗАКЛЮЧЕНИЕ

Предлагаемая методология ориентирована на повышение эффективности извлечения знаний из эксперта и их структуризации, чтобы в большей степени формализовать процесс построения таксономии онтологии. Подход отличается от традиционного, где ориентация на понятия и объекты, здесь — ориентация на атрибуты. Речь идет о понятиях как совокупностях атрибутов (содержание, интенсионал понятия). Атрибуты (обобщенный интенсионал), по мнению авторов, точнее, по сравнению с названиями понятий и объектов, харак-

теризуют предметную область. При этом с точки зрения психологии, как нам представляется, у экспертов изменяются паттерны активации, эффект привязки, увеличивается когнитивный ресурс.

В основе методологии — один из наиболее мощных методов интеллектуального анализа данных — метод анализа формальных понятий (Formal Concept Analysis — FCA), предложенный немецким математиком Рудольфом Вилле (Rudolf Wille) [1]. Метод требует от эксперта задания формального контекста — множества объектов и их атрибутов, значимых для рассматриваемой предметной области, и связей между ними. По контексту выделяются понятия и строится таксономия понятий.

В настоящей работе предложена формализация процесса задания контекста с помощью бинарных отношений на множестве атрибутов, предложенных французским математиком Надирой Ламмари (Nadira Lammari) [4]. Эксперт сначала работает с атрибутами предметной области, определяя связи между ними на основании отношений ограничения существования, что дает возможность автоматизировать задание контекста (проверка множеств атрибутов для понятий на нормальность) для построения правильной таксономии с помощью FCA.

На основе предложенной методологии были построены таксономии математической теории графов и формализованного анализа влияний (когнитивного анализа).

Авторы выражают благодарность профессору О.П. Кузнецову за консультации при работе над статьей.

ЛИТЕРАТУРА

1. Wille R. Concept lattices and conceptual knowledge systems // Computers and Mathematics with Applications. — 1992. — N 23.

2. Евтушенко С.А. Система анализа данных «CONCEPT EXPLORER» // Тр. конф. по искусственному интеллекту КИИ-2000 — М.: Физматлит, 2000.

3. Биркгоф Г. Теория решеток — M.: Наука, 1984. — 568 с.

4. Lammari N, Metais E. Building and maintaining ontologies: a set of algorithms // Data Knowledge Engineering. — 2004. — N 48 (2).

5. Kuznetsov S.O. , Obiedkov S.A. Algorithms for the Construction of Concept Lattices and Their Diagram Graphs // Proc. of the 5th Conf. on Principles of Data Mining and Knowledge Discovery (PKDD'2001), Lecture Notes in Artificial Intelligence. — 2001. — Vol. 2168. — P. 289—300.

6. Кузнецов О.П. Дискретная математика для инженера. — СПб: Лань, 2004. — 400 с.

Статья представлена к публикации членом редколлегии О.П. Кузнецовым.

Пронина Валерия Александровна — канд. техн. наук, ст. науч. сотрудник, S (495) 334-92-49, e-mail: [email protected],

Шипилина Любовь Борисовна — канд. техн. наук, ст. науч. сотрудник, S (495) 334-76-39, e-mail: [email protected],

Институт проблем управления им. В.А. Трапезникова РАН, г. Москва.

i Надоели баннеры? Вы всегда можете отключить рекламу.