Научная статья на тему 'Меры важности концептов в семантической сети онтологической базы знаний'

Меры важности концептов в семантической сети онтологической базы знаний Текст научной статьи по специальности «Математика»

CC BY
394
87
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕМАНТИЧЕСКАЯ СЕТЬ / БАЗА ЗНАНИЙ / СИСТЕМА ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ / ОНТОЛОГИЯ

Аннотация научной статьи по математике, автор научной работы — Карпенко А. П.

Работа выполнена в контексте исследований по разработке методов построения онтологических баз знаний, ориентированных на поддержку принятия решений в корпоративных информационных системах. Используются модели семантических сетей базы знаний и документов этой базы в виде взвешенных мультиграфов. Вводится ряд метрик этих сетей, основанных на их топологических свойствах. На основе указанных метрик осуществляется кластеризация семантической сети базы знаний. Далее с использованием тех же метрик определяются веса вершин и дуг мультиграфа этой сети. Наконец, предлагается ряд мер важности концептов в семантической сети базы знаний, которые могут быть использованы для оценки релевантности запросов к базе знаний.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Меры важности концептов в семантической сети онтологической базы знаний»

электронное научно-техническое издание

НАУКА и ОБРАЗОВАНИЕ

Эл № ФС 77 - 30569. Государственная регистрация №0420900025. ISSN 1994-040S

Меры важности концептов в семантической сети онтологической базы знаний

# 07, июль 2010 автор: Карпенко А. П.

УДК 519.6

МГТУ им. Н.Э. Баумана,

Введение

Можно выделить три следующих класса систем поддержки принятия решений (СППР): системы, основанные на использовании типовых решений; системы, использующие типовые правила синтеза решений; системы, использующие поиск прецедентов. Корпоративная база знаний представляет собой, как правило, совокупность разного рода слабоструктурированных документов, в которых с той или иной степенью подробности описаны прецеденты - некоторые ситуации и решения, которые были приняты в этих ситуациях. В СППР, которые используют такие базы знаний, поиск решения заключается в поиске в этих базах наиболее подходящих прецедентов и соответствующих им документов [1].

Эффективность поиска решений в базах знаний прецедентов в значительной мере зависит от используемых методов поиска.

Современные поисковые системы основаны, преимущественно, на применении полнотекстового поиска - поиска в каждом из документов всех

терминов, входящих в запрос. При этом учитывается частота встречаемость терминов в документе и их средняя языковая частотность [2].

Более эффективной альтернативой полнотекстовому поиску является поиск по метаданным - поиск по атрибутам документов, содержащимся в их метаданных. При этом классический атрибутивный поиск основывается на использовании в качестве метаданных документа преимущественно его регистрационных атрибутов (авторы документа, название документа, дата создания, тема и т.п.) [3].

Эффективный поиск решений в базах знаний прецедентов должен, очевидно, основываться не на регистрационных атрибутах документов, а на параметрах, характеризующих ситуацию принятия решения и само решение. Поэтому для СППР классический поиск по метаданным может играть лишь вспомогательную роль.

В работе рассматривается подход к поиску решений в базах знаний прецедентов, в котором метаданные формируются на основе онтологии соответствующей предметной области, заданной в виде семантической сети. При этом релевантность документов оценивается близостью в некоторой метрике концептов, входящих в метаданные документа, и концептов поискового запроса [1]. Можно предложить значительное количество таких метрик, при построении которых может оказаться целесообразным учитывать «важность» фигурирующих в них концептов.

В работе предлагается ряд мер важности концептов в семантической сети онтологической базы знаний. При разработке этих мер существенно используются некоторые результаты наших публикаций [4 - 8].

Модели семантических сетей

Пусть с(О) = (с, i е [1: п0 ]} - множество концептов рассматриваемой онтологии О, а г(О) = (гу,у = 1,2,...} - совокупность четких бинарных отношений между концептами множества с(О). Положим, что каждое из

бинарных отношений г(О) принадлежат к одному из типов отношений R(O) = ,ае[1: т0 ]}. Здесь п0, т0 - общее число концептов онтологии О

и число типов отношений, соответственно. Примерами типов семантических отношений являются таксонономические, характеристические, каузальные, атрибутивные, квантифицирующие, временные, пространственные, арифметические, логические и многие иные типы отношений.

Семантическую сеть £ (О) онтологии О представим в виде взвешенного мультиграфа G(O), вершины которого соответствуют концептам множества С, а дуги - отношениям между ними. Заметим, что граф G(O) не обязательно является связным.

Пусть с(Т) с с(О) - множество концептов рассматриваемого документа Т, а г(Т) с г(О) - совокупность бинарных отношений между концептами множества с(Т). Общее число концептов и типов отношений R(T) документа Т обозначим пТ, тТ соответсвенно; пТ < пО, тТ < тО.

Семантическую сеть £ (Т) с £ (О) документа Т представим в виде взвешенного мультиграфа G(T), аналогичного графу G(O).

Веса вершин и дуг графов G(O), G(T) определены ниже.

Метрики графа семантических сетей

При построении мер важности концептов в семантических сетях £ (О), £ (Т) используются рассмотренные ниже метрики соответствующих графов

G(O), G(T).

Положим прежде, что между собой связаны все концепты семантической сети £(О) и что отношения, связывающие эти концепты, являются отношениями частичного порядка типа Ra (например, родовидовыми отношениями). Графа G(O) в этом случае представляет собой ориентированный граф,

Тогда в качестве метрик графа G(O) могут быть использованы его

«высота», которая определяется на основе ярусно-параллельной формы (ЯПФ) этого графа [9].

Номер яруса ЯПФ графа G(O), на котором находится концепт ci,

называется высотой концепта и обозначается ^ (е1); количество ярусов в

ЯПФ графа G(O) называется высотой графа и обозначается ^ (О(О)) = ^.

Положим теперь, что тип отношений Ra не принадлежит типу отношений частичного порядка. В этом случае в качестве метрики графа О(О) может быть использован «диаметр графа» аа (О(О)) = а®, которым называется максимальное расстояние между его двумя вершинами. Расстоянием р между вершинами графа называется минимальное количество ребер графа, связывающих эти вершины [10].

Наконец, в качестве метрики графа О(О) может быть использована его «реберная плотность», определяемая формулой

Ьа(О(О)) = ьа = 23

7(7 -1)

где ¡3 - количество дуг этого графа, а 7 = пО - количество его вершин. Реберная плотность Ьа е [0,1] и характеризует близость графа О(О) к полносвязному графу (клике): чем ближе величина Ь(° к единице, тем выше связность графа О(О) и он ближе к полносвязному графу.

Аналогично, при построении мер важности концептов в семантической сети документа £ (Т) используются следующие метрики графа О(Т): высота

концепта ^а ); высота графа ^ (О(Т)) = ^а; диаметр графа аа (О(Т)) = а^

а

реберная плотность Ьа (О (Т)) = Ь3

Кластеризация семантических сетей

Если концепты ci, с] семантической сети £ (О) связаны между собой отношением типа Ra е R(O), то будем говорить, что эти концепты связаны отношением типа Ra в узком смысле. Число всех концептов множества с(О), включая концепт с1, связанных отношением типа Ra с

этими концептом в узком смысле, обозначим п° (ci).

Пусть в узком смысле отношением типа Ra концепт с1 связан с концептом с, концепт с- с концептом ск и так далее до концепта сС1. Здесь полагается, что все концепты с1, с],..., ^ принадлежат множеству концептов с(О). Тогда будем говорить, что концепты с1, ^ связаны отношением типа Ra в широком смысле. Число всех концептов семантической сети £ (О), включая концепт с1, связанных отношением типа Ra с этим концептом в

широком смысле, обозначим N °а(с1).

Обозначим d<а (ci) совокупность всех концептов семантической сети £ (О), включая сам концепт с1, которые связаны отношением типа Ra с концептом с1 в узком смысле. Назовем эту совокупность Ra -локальным кластером концепта с1 в семантической сети £ (О). Число концептов в

кластере d<а (с1) равно, очевидно, п® (с1).

Отметим, что, поскольку концепт с1 е с(О) может одновременно

входить в несколько локальных кластеров, кластеры (ci), d<а (ci), а,¡3 е [1: тО ], аФ ¡3 могут пересекаться, так что, вообще говоря,

da (с )П d3 (с) Ф0 .

Аналогично, обозначим Dа (ci) совокупность всех концептов семантической сети £ (О), включая сам концепт с1, которые связаны отношением типа Rа с концептом с1 в широком смысле, и назовем эту

совокупность Rа -глобальным кластером концепта с1 в семантической сети £ (О). Легко видеть, что число концептов в кластере D° (в;) равно N° (в;).

Отметим, что кластер D° (с;) является одновременно Rа -глобальным кластером всех концептов, принадлежащих этому кластеру.

Совокупность всех концептов кластера D° (с;), включая концепт ci, которые расположены на расстоянии р= 1,2,... от указанного концепта, обозначим D° (р, с(). Число таких концептов обозначим № (р, с(), где а(D°(ci)) - диаметр кластера D°(ci); р = 1,2,...,а(D°(ci)). Очевидно, что № (1, Ci)=пО (^).

Взвешенные мультиграфы, соответствующие кластерам d° (ci), D° (ci)

обозначим ^^ (ci), ОО (ci) соответственно.

Аналогично определим связи концептов документа Т в узком и широком смыслах, а также введем в рассмотрение Rа -локальный и Rа -

Т Т

глобальный кластеры dа ), Da ) документа Т. Числа концептов в этих

ТТ

кластерах обозначим па (ci), N а (ci) соответственно. Введем в рассмотрение

ТТ

также взвешенные мультиграфы gа ), Оа ), аналогичные графам

О О Т

gО ), О О (ci). Кроме того, рассмотрим совокупности концептов Da (р, ci),

ОТ

аналогичные совокупностям D¡а (р,ci), где р = 1,2,...,а(Da (ci)).

Веса вершин и дуг семантических сетей

Поставим в соответствие каждому из типов отношений Rа е R(O) его

вес УО, а е [1: тО ]. Аналогично поставим в соответствие каждой из вершин

ci е ^О) графа О(О) вес мР, I е [1: пО ], формализующий «важность» концепта ci в семантической сети £ (О).

Определим прежде веса у° , а е [1: тО ]. В простейшем случае в

качестве веса у° можно использовать общее число п° концептов онтологии О, связанных между собой отношением типа Rа :

=пО.

Если отношения типа Rа представляют собой отношения частичного порядка, то в качестве веса у° может быть использована максимальная из высот Rа -глобальных кластеров D° (ci):

hp° (ci)), ^ е c(°).

v° = max hpx (c )), c е

Аналогично, вес у° можно определить на основе суммарной и средней

высот

hp° (Ci)):

v° = Z h(p 0(Ci)), i е [1: n° ];

i

= — Zhp0(Ci)), i е [1: n°].

У а = ™Ра (^ )Ъ 1 е [1: пО-

пО I

Для произвольного типа отношений Rа в качестве веса у° могут быть использованы максимальный, суммарный и средний диаметры соответствующих кластеров:

= шах ар° (^)), е с(О); =Ъ а\Р а (^)), ^ е ц: по

о

Z ap °a(c1)), i е [1: n° ]; i

= — Z aplc)), i е [1: n° ].

V a =~Z a\Da (Ci )h 1 е [1: n°-n° i

Аналогично, веса v° можно определить на основе максимальной, суммарной и средней реберных плотностей графов D° (р, ct), где р -некоторое фиксированное значение из диапазона 1,2,...,a(Da (ci). Например,

v° (р) = max bp° (р,c,)), ^ е c(°).

Наряду с рассмотренными весами уа могут быть использованы их нормированные тем или иным образом аналоги, например,

V? = п<а°/ , V? = max

h{D°a ))

, . „ — 111 £1Л 7, п

и т.д. Большое количество выражений для весов va° может быть получено на основе использования различных сверток рассмотренных весов.

Положим, что веса отношений va°, а е [1: m° ] тем или иным образом

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

определены. Тогда в простейшем случае в качестве веса w° может быть использовано взвешенное число концептов, содержащихся во всех Ra -

локальных кластерах da (с):

W? = 2V°an°a (с), ае [1: m°].

а

Аналогично можно использовать взвешенное число концептов, содержащихся во всех Ra -глобальных кластерах Da (ci):

w° = 2 v°°Na (с), ае [1: m° ]. (1)

а

Положим, что в формуле (1) влияние концептов на вес концепта с изменяется по мере увеличения расстояния этих концептов от концепта с, например, обратно пропорционально этому расстоянию. Тогда из формулы (1) следует формула

W° = 2Va°£-№а (р,C), а е [1: m°], р е [1: a^C))].

а р р

Формулы для вычисления веса w° могут быть построены на основе взвешенных максимального, суммарного и среднего из диаметров кластеров

D°° (Ci):

° = 2 max va a {d°° (с)), ае [1: m° ];

а

w° =2 va a^c)), ае [1: m° ];

а

"О =— 2 у 0 а(р0с)), а е [1: тО ]

тО а

Аналогично, веса м. можно определить на основе максимальной, суммарной и средней реберных плотностей графа РО (р, с(), например

О

М (р) = 2 тах у0Ьр (Р, с)), а е [1: тО ], р е [1: ар° (с))].

а

Наряду с рассмотренными весами могут быть использованы их нормированные тем или иным образом аналоги, а также различные свертки этих весов.

Меры важности концептов в семантической сети документа

Положим, что вес м. концепта ci в онтологии О тем или иным

образом определен; I е [1: пО ]. Тогда в качестве меры мМ важности концепта с1 в семантической сети £ (Т) документа Т могут быть использованы следующие меры.

1). Взвешенное число концептов, содержащихся во всех Rа -локальных кластерах dТ (с.)

м! = 2 ^^ (сX а е [1: тО].

а

2). Взвешенное число концептов, содержащихся во всех Rа -

Т

глобальных кластерах Р Т (ci)

мТ =2 (Ci), а е [1: тО ].

а

3). Нормированное взвешенное число концептов, содержащихся во

Т

всех Rа -глобальных кластерах Р Т (ci)

мТ =2"О2-К (Р,сг), а е [1: тО], р е [1: ар (с.))].

а р р

4). Взвешенные максимальный, суммарный и средний из диаметров

Т

кластеров D а (ci):

м! = Zmax w0a{Dl (ci)), a e [1: mo ];

м! = Z w0 a (d! (Ci)), a e [1: mo ];

a

м! =— Z w0 a (d! (Ci)), a e [1: mo ].

mO a

5). Взвешенные максимальная, суммарная и средняя из реберных плотностей кластера DTa (р, ci), р e [l: a(DTa (ci))]:

M! = Zmax w0b{DTa (р,ci)), a e [1: mo];

a

м! =Z w0 b(D! (р, Ci)), a e [1: mo ];

a

м! =— Z w0b(D! (р, Ci)), a e [1: mo ].

^О а

Кроме того, в качестве мер важности можно, очевидно, использовать нормированные тем или иным образом аналоги рассмотренных мер важности, а также различные свертки тех же мер важности.

Отметим, что большие значения всех предложенных мер, соответствуют большим значениям важности соответствующих концептов.

Заключение

В работе под онтологий О понимается, так называемая, «легкая» онтология, определяемая парой вида О = (с, г), где с - множество концептов,

а г - множество отношений между ними. В развитии работы планируется применить предложенную в ней методику оценки важности концептов к «тяжелой» онтологии, которая определяется тройкой О = (с, г, ^, где f -

множество функций интерпретации, определенных на концептах и/или отношениях онтологии.

Под отношениями r в работе понимаются четкие отношения. Однако во многих случаях более адекватной является модель онтологии, в которой эти отношения понимаются как нечеткие. В этом случае возможен анализ важности концептов с учетом различий в «силе» связей между ними.

Автор выражает благодарность И.П. Норенкову за постановку рассмотренной в работе задачи, а также за конструктивные обсуждения подходов к ее решению.

Работа выполнена при поддержке гранта РФФИ 10-07-00401.

Литература

1. Норенков И.П. Интеллектуальные технологии на базе онтологий // Информационные технологии, 2010, №1, с.17-23.

2. Толчеев В.О. Методы выявления информационных признаков в задачах классификации текстовых документов // Информационные технологии, 2005, №8, с.14-21.

3. The Dublin Core® Metadata Initiative // (http ://dublincore. org/).

4. Карпенко А.П., Соколов Н.К. Оценка сложности семантической сети в обучающей системе // Наука и образование: электронное научно-техническое издание, 2008, 11, (http://technomag.edu.ru/doc/106658.html).

5. Карпенко А.П., Соколов Н.К. Расширенная семантическая сеть обучающей системы и оценка ее сложности // Наука и образование: электронное научно- техническое издание, 2008, 12, (http://technomag.edu.ru/doc/111716.html).

6. Карпенко А.П., Галямова Е.В., Соколов Н.К. Методика контроля понятийных знаний субъекта обучения в обучающей системе // Наука и образование: электронное научно- техническое издание, 2009, 2, (http://technomag.edu.ru/doc/115086.html).

7. Карпенко А.П., Соколов Н.К. Меры сложности семантической сети в обучающей системе // М.: Вестник МГТУ им. Н.Э. Баумана, серия «Приборостроение», 2009, №1(74), с. 50-66.

8. Галямова Е.В., Карпенко А.П., Соколов Н.К., Ягудаев Г.Г. Контроль понятийных знаний субъекта обучения в обучающей системе // М.: Вестник МАДИ (ГТУ), 2009, №2(17), с.82-86.

9. Федотов И.Е. Некоторые приемы параллельного программирования: Учебное пособие.- М.: Изд-во МГИРЭА (ГУ), 2008.188 с.

10. Евстигнеев В.А. Применение теории графов в программировании. -М.: Наука, 1985.-332 с.

11. Ларичев О.И. Теория и методы принятия решений, а также Хроника событий в Волшебных странах. - М.: Университетская книга, Логос, 2006. -292 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.