Научная статья на тему 'Некоторые методы огрубления графов при оценке релевантности документов'

Некоторые методы огрубления графов при оценке релевантности документов Текст научной статьи по специальности «Математика»

CC BY
194
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОНТОЛОГИЯ / РЕЛЕВАНТНОСТЬ / СЕМАНТИЧЕСКАЯ СЕТЬ

Аннотация научной статьи по математике, автор научной работы — Вершинин В. Д., Карпенко А. П., Плякин Д. А.

Работа выполнена в контексте исследований по разработке методов построения онтологических баз знаний, ориентированных на поддержку принятия решений в корпоративных информационных системах. Рассматривается подход к поиску решений в базах знаний с использованием метаданных документа. Реализация этого подхода приводит к задаче ограбления графов. Представляем результаты исследования эффективности нескольких методов решения этой задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Некоторые методы огрубления графов при оценке релевантности документов»

НАУЧНОЕ ИЗДАНИЕ МГТУ ИМ. Н.Э. БАУМАНА

НАУКА и ОБРАЗОВАНИЕ

Эл № ФС 77 - 48211. Государственная регистрация №0421200025. ISSN 1994-0408

электронный научно-технический журнал

Некоторые методы огрубления графов при оценке релевантности документов

# 07, июль 2012

DOI: 10.7463/0712.0432649

Вершинин В. Д., Карпенко А. П., Плякин Д. А.

УДК 519.6

Россия, МГТУ им. Н.Э. Баумана vlad.vershinin@gmail .com [email protected]

Введение

Системы поддержки принятия решений (СППР) представляют собой обширный класс интеллектуальных систем, призванных помочь лицу, принимающему решения (ЛПР), в решении слабоструктурированных проблем [1]. Различные варианты классификации СППР представлены, например, в работе [2]. Целям нашей работы соответствует следующая классификация:

- системы, основанные на использовании типовых решений,

- системы, использующие типовые правила синтеза решений,

- системы на основе поиска прецедентов (Case-Based Reasoning system, CBR-system).

Работа посвящена актуальной задаче в области искусственного интеллекта - задаче поиска решений в корпоративных базах знаний на основе прецедентов [3]. Работу можно считать продолжением работы [4].

Известны три способа извлечения прецедента или набора прецедентов из базы знаний [3]:

- поиск по прямым указателям в индексе на требуемые признаки,

- поиск по структуре индекса,

- поиск в модели онтологии предметной области.

В работе рассматриваем последний из указанных способов, т.е. полагаем, что речь идет об онтологической базе знаний. Для формализации знаний используем семантическую сеть.

Обычно в СБЛ-системах, построенных на основе семантической сети, в качестве метода извлечения прецедентов используют метод ^-средних. Однако этот метод неэффективен в тех случаях, когда прецеденты содержат множество несущественных признаков [3]. В работе [4] для извлечения прецедентов из семантической базы знаний предложен метод, основанный на огрублении графа соответствующей семантической сети. Данная работа посвящена оценка эффективности этого метода.

Отметим, что качество решений, полученных с помощью СБЛ-системы, сильно зависит от качества накопленной информации, объёма накопленных данных, объёма знаний о предметной области, а также от способа извлечения прецедентов [3]. Поэтому с самой общей точки зрения целью данной работы является повышение качества решений СБЛ-систем.

Новизна работы заключается в новизне методики и результатов исследования методов ограбления графа, представляющего семантическую сеть предметной области.

В первом разделе работы приведена постановка задачи. Второй раздел представляет исследуемые методы огрубления графа. В третьем разделе изложена методика исследования эффективности указанных методов. Четвертый раздел содержит результаты вычислительных экспериментов и их обсуждение. В заключении сформулированы основные результаты работы и перспективы ее развития.

1. Постановка задачи

Семантическую сеть £ (О) рассматриваемой онтологии О представляем в виде взвешенного связного мультиграфа G(O), узлы которого соответствуют концептам С (О) = {с,I е[1: п() ]}, а ребра - четким бинарным отношениям, каждое из которых принадлежит одному из типов Up,р е [1: mO]. Аналогично, семантическую сеть £(Т) документа T

определяем в виде связного взвешенного обыкновенного графа G(T), узлы

которого соответствуют пТ < п° концептам С (Т) с С (О) документа Т, а ребра - связям между ними [4].

Обозначим w°, і є [1: п° ] веса узлов графа G(О). Пусть также іу°],р,Р є[1: т°]} - (1х т°)-вектор весов ребра (сі,су), і,у є [1:п°], і ф у этого графа. Здесь у°у р = 0, если концепты (сі, с у) не связаны между собой отношением типа и ; \<°у = у°° - в противном случае; у°° - вес отношений

типа и в онтологии °. Алгоритмы определения весов wO, \<° ■ р

рассмотрены в работе [4].

По схеме, предложенной в той же работе, перейдем от взвешенного мультиграфа G(°) к взвешенному обыкновенному графу, в котором вес

ребра (сг-, с у) равен . Сохраним за полученным графом прежнее

обозначение.

Вес узла графа G(T), соответствующего концепту с( є С(Т), обозначаем wт, а атрибуты его ребра (сі, с у) задаем парой (1Ту; уТу), где 1Ту имеет смысл «расстояния» между концептами с{, су, а уту - смысл веса этого ребра. В терминах графа G(T) задача построения семантической сети документа £ (Т) сводится к решению двух следующих задач.

Задача 1 (задача определения топологии графа G(Т)) - по каким правилам связывать узлы графа G(T) ребрами?

Задача 2 (задача определения весов узлов и атрибутов ребер графа G(Т)) - исходя из каких соображений, назначать веса wт узлов графа G(T), а

Т Т

также значения атрибутов у, у его ребер?

Рассматриваем методы решения первой из указанных задач, основанные на огрублении соответствующего графа. Метод решения второй задачи предложен в работе [4]

2. Алгоритмы огрубления графа

Суть рассматриваемого подхода к задаче огрубления графа состоит в итерационном стягивании смежных узлов графа Ga в узлы графа Ga+1, где а = 0,1,2,... - номер итерации, G0 = G(°) [5]. Специфика нашего случая

состоит в том, что запрещено стягивание в один узел тех узлов графа Ga, которые принадлежат графу G (Т).

Используем алгоритм паросочетаний, когда граф Ga+1 строится на основе графа Ga путем нахождения в графе Ga паросочетания и стягивания в мультиузел узлов, входящих в каждую из пар этого паросочетания. При

этом непарные узлы графа Ga просто копируются в граф Ga+1. Говоря более строго, используем насыщенные паросочетания, когда хотя бы один узел любого ребра, не вошедшего в паросочетание, инцидентен ребру, вошедшему в паросочетание [5].

Рассматриваем три алгоритма построения насыщенных паросочетаний [6]:

- алгоритм случайных паросочетаний Лш,

- алгоритм паросочетаний из тяжелых ребер ЛНЕМ,

- алгоритм паросочетаний из тяжелых клик ЛНСМ.

Алгоритм ЛРМ. Схема алгоритма для итерации а имеет следующий

вид:

1) все узлы Са текущего графа Ga объявляем немаркированными;

2) случайным образом выбираем немаркированный узел, еще не

включенный в паросочетание (пусть это будет узел са);

3) из числа немаркированных узлов, смежных узлу сга, случайным образом выбираем узел (пусть это будет узел с°а), также еще не включенный в паросочетание;

4) если оба узла или один из узлов пары с®, с®® не принадлежат графу

G(T), то включаем ребро (с®, с®) в паросочетание и узлы с®, с® маркируем;

5) если ни одного немаркированного узла, смежного узлу с®, не существует, то узел с® маркируем и оставляем свободным (чтобы затем перенести его в граф Ga+1);

6) если в графе Ga имеются еще немаркированные узлы, то переходим к шагу 2.

Алгоритм ЛНЕМ. Схема алгоритма отличается от рассмотренной выше схемы шагом 3, который в данном случае формулируется следующим образом:

- из числа немаркированных узлов, смежных узлу с®, выбираем такой узел с®, также еще не включенный в паросочетание, что вес ребра (с®,с®) является максимальным среди весов всех возможных ребер, связанных с

®

узлом сі .

Алгоритм ЛНСМ . В данном случае также меняется только шаг 3 рассмотренной схемы формирования случайного паросочетания:

- из числа немаркированных узлов, смежных узлу с®і , выбираем такой

узел с®, также еще не включенный в паросочетание, что реберная плотность Ьі у мультиузла, который получается стягиванием узлов с( , су , является максимально возможной по сравнению со всеми иными вариантами выбора узла с® .

Указанную реберную плотность определяем по формуле

где vi , v j - суммарные веса ребер, стянутых на предыдущих итерациях в узлы c®, c® соответственно; vi j - суммарный вес ребра (c®, c®); wt, wj -

aa

суммарные веса узлов ct ,cj соответственно.

Итерации во всех рассматриваемых алгоритмах формирования паросочетаний заканчиваются, когда в результате данной итерации не удалось выделить ни одной пары узлов. Другими словами, итерации

заканчиваются, если в текущем графе Ga содержатся только мультиузлы, включающие в себя узлы графа G(T).

Кроме классических алгоритмов ARM , AHEM , AHCM , рассматриваем предложенную нами модификацию этих алгоритмов. Обозначаем модифицированные алгоритмы ARMM , AHMEM , AHMCM соответственно. Модификация учитывает специфику рассматриваемой задачи и призвана повысить эффективность исходных алгоритмов. Суть модификации заключается в том, что на каждой итерации рассматриваем только те

мультиузлы графа Ga, которые содержат узлы графа G (T).

Таким образом, схема алгоритма ARMM , например, имеет следующий

вид:

1) все узлы Ca текущего графа Ga объявляем немаркированными;

2) случайным образом выбираем немаркированный узел, который содержит в себе один из узлов графа G(T) и еще не включен в

паросочетание (пусть это будет узел c® );

3) из числа немаркированных узлов, смежных узлу c® и не содержащих в себе узел графа G(T), случайным образом выбираем узел (пусть это будет узел c®), также еще не включенный в паросочетание;

4) включаем ребро (c®, c®) в паросочетание и узлы c®, c® маркируем;

5) если ни одного немаркированного узла, смежного узлу с®, не существует, то узел с(а маркируем и оставляем свободным (чтобы затем перенести его в граф О^1);

6) если в графе 0а имеются еще немаркированные узлы, то переходим к шагу 2.

3. Методика исследования

Назовем вершину графа 0(0), совпадающую с одной из вершин графа G (Т), терминальной вершиной.

Все тестовые графы 0(0) являются случайными, содержат по

п0 = 250 узлов и включают в себя пять кластеров. В каждом из кластеров случайным образом выбрана одна из вершин, которой придан смысл

терминальной. Таким образом, результирующий граф 0а = О * должен содержать всего пять узлов.

Рассмотрены две группы тестовых графов 0(0), параметры которых

представлены в таблице 1. Здесь N - номер графа; Ь , Ь - реберные плотности графа и его і -го кластера соответственно; тіп - минимальная реберная плотность, при которой еще не утрачена связность графа; і є [1:5].

Таблица 1 - Параметры тестовых графов

Г руппа О (О) N Ь0 ьС ьС ЬС ьС ь5С

01 1 тіп

02 2 0,3

1 03 3 0,5 0,2 0,3 0,5 0,7 0,8

04 4 0,7

О5 5 0,9

2 Об 6 0,3 0,1 0,3 0,5 0,7 0,9

О7 7 0,5

08 8 0,7

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Использованы три критерия, определяющих оптимальность рассматриваемых алгоритмов огрубления:

- время решения задачи ї, измеренное в СЬОСК_Т1СК с помощью стандартного инструментария языка С,

- реберная плотность Ь* результирующего графа,

- величина п / , где п - число узлов, стянутых в данный мультиузел, / п

О ч_»

ап- число узлов, которые стянуты в данный мультиузел и при этом принадлежат тому же кластеру, что и соответствующая терминальная вершина.

Легко видеть, что

п

є [0; 1], и равенство этого отношения единице

означает, что соответствующий мультиузел представляет собой стянутый к терминальной вершине кластер.

Для получения статистически достоверных результатов используем метод мультистарта - каждый из представленных в таблице 1 графов генерируем 44 раза и для каждого из полученных графов решаем задачу огрубления. Поэтому, говоря более строго, в качестве первых двух критериев

— у *

качества алгоритма использованы оценки математического ожидания ?, Ь

г-~1 *

величин ?, Ь*. В качестве третьего критерия использована величина п ,

* /

представляющая собой оценку математического ожидания отношения п / ,

/ п

усредненного по всем пяти терминальным вершинам кластера.

4. Вычислительный эксперимент

Интегральные результаты исследования эффективности алгоритмов

Аям, Анем , Ансм

и алгоритмов А

м

Ам Ам ям-> ^ нем ■> ^ нсм

по критерию І

представлены на рисунках 1, 2 соответственно. Как и следовало ожидать, рисунки показывают сильную зависимость времени решения задачи от

реберной плотности графа Ь . Для данной реберной плотности время решения задачи различными алгоритмами отличатся не более чем на 10%, что лежит в пределах статистической погрешности эксперимента. Другими словами, рисунки показывают близкую эффективность рассматриваемых алгоритмов по критерию і.

Рисунок 1 - Эффективность алгоритмов Аш, Анем , Ансм по критерию і

Значительно более яркими являются результаты сравнительного исследования эффективности алгоритмов ARM, AHEM, AHCM и алгоритмов

ARM , AHEM , AHCM (рисунок 3).

t 250

200

150

100

50

О

i i i

A

M

RM

HEM

HCM

N

12345678 Рисунок 2 - Эффективность алгоритмов ARM, Amem , AMCM по критерию t

а) алгоритмы ARM, A

M

RM

100

50

А

НЕМ

М

НЕМ

II І ПІ І І

12345678

N

б) алгоритмы Анем , А

м

нем

200

150

100

50

І її Ц ІЇ

1ЯСЛ/

ЛМ

1ЯСЛ/

II І ПІ І І

12345678

в) алгоритмы Ансм, АН!см Рисунок 3 - Сравнительная эффективность алгоритмов по критерию і

Рисунки 3а - 3в показывают превосходство модифицированных

алгоритмов

Ам ам Ам над

^НМ’ ^нем 5 ^нсм

исходными

алгоритмами

АНМ, Анем , Ансм по критерию і от ~100 до ~300%.

Аналогичные результаты исследования по критерию реберной плотности Ь* результирующего графа представлены на рисунках 4 - 6. Как и в случае критерия і, рисунки 4, 5 показывают близкую эффективность исходных и модифицированных алгоритмов между собой для всех рассматриваемых классов графов.

Рисунок 4 - Эффективность алгоритмов АЕМ, АНЕМ, Ансм

по критерию Ь

■||_.|||

г1 I II

Рисунок 5 - Эффективность алгоритмов А^М, АМем , Ансм

М

М

по критерию Ь

а) алгоритм АЕМ, А

м

ЕМ

*

*

б) алгоритмы А

АМ НЕМ■> НЕМ

АМ ТНСМ> л НСМ

в) алгоритмы Ан

Рисунок 6 - Сравнительная эффективность алгоритмов по критерию Ь

По критерию реберной плотности результирующего графа рисунки 6а -6в показывают преимущество модифицированных алгоритмов

лМ лМ лМ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

аем , анем , АНСМ

АНМ , анем , ансм-

над исходными алгоритмами

достигающее 10%. Заметим, что данный результат относится к случаю малой мощности результирующего графа.

Эффективность исходных алгоритмов

АЯМ , Анем , АНСМ и

модифицированных алгоритмов А^М, АН^ем. иллюстрируют рисунки 7, 8.

А

М

НСМ

по критерию п

Рисунок 7 - Эффективность алгоритмов ЛЕМ, ЛНЕМ, Лнсм по критерию п

п

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

О

1 . || 11

II ■ ■ 1 1 ■

м ш м

НЕМ

лМ

1НСМ

Ам

А

N

Рисунок 8 - Эффективность алгоритмов Л^М, ЛМЕМ.

Л

м

нсм по критерию п

Рисунки 7, 8 показывают близость соответствующих алгоритмов этих групп между собой по критерию для всех рассматриваемых классов графов и их плотностей.

Сравнительную эффективность исходных и модифицированных

*

алгоритмов по критерию п иллюстрируют рисунки 9а - 9в.

*

M

а) алгоритмы ARM , ARM

б) алгоритмы A

AM HEMs HEM

п і

0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 ОД О

в) алгоритм Ансм, А^см Рисунок 9 - Сравнительная эффективность алгоритмов по критерию

Рисунки 9а - 9в показывают, что кроме случая слабосвязанных кластеров, модифицированные алгоритмы лучше сохраняют начальную принадлежность вершин кластеру по сравнению с исходными алгоритмами, и это превосходство может достигать 20%.

Заключение

В работе предложена модификация алгоритмов огрубления графа на основе случайных паросочетаний, паросочетаний из тяжелых ребер, также паросочетаний из тяжелых клик. Модификация учитывает специфику рассматриваемой задачи оценки релевантности и ориентирована на повышение эффективности исходных алгоритмов.

Представлена и реализована методика исследования эффективности исходных и модифицированных алгоритмов огрубления графа.

С использованием разработанного программного обеспечения выполнено многокритериальное исследование эффективности алгоритмов. Исследование показало преимущество модифицированных алгоритмов над исходными, достигающее 300%. Результаты исследования предоставляют

лицу, принимающему решения, информацию для многокритериального выбора подходящего алгоритма огрубления графа.

В развитие работы авторы планируют выполнить исследование эффективности указанных алгоритмов для графов G(O), содержащих большее число терминальных вершин.

Литература

1. Ларичев О.И. Теория и методы принятия решений, а также Хроника

событий в Волшебных странах. - М.: Университетская книга, Логос,

2006. -292 с.

2. Гайдрик К.В. Системы поддержки принятия решений: эволюция, концепции и некоторые перспективы

(http: //www. masters. donntu. edu.ua/2010/fknt/sheptulia/library/article05. htm).

3. Норенков И.П. Интеллектуальные технологии на базе онтологий // Информационные технологии, 2010, №1, с. 17-23.

4. Карпенко А.П. Методика оценки релевантности документов онтологической базы знаний // Информационные технологии, 2011, №4, с. 13-23

5. Bui T.N., Chaudhuri S., Leighton F.T., Sipser M. Graph bisection algorithms

with good average case behavior // Combinatorica, 1987, N7, pp. 171.191.

6. Бувайло Д.П., Толок В.А. Быстрый высокопроизводительный алгоритм для разделения нерегулярных графов // Вісник Запорізького державного університету, 2002, № 2, с. 1 - 10.

SCIENTIFIC PERIODICAL OF THE BAUMAN MSTU

SCIENCE and EDUCATION

EL № FS 77 - 4821 1. №0421200025. ISSN 1994-0408

electronic scientific and technical journal

Some methods of graph coarsening in estimating documents relevance

# 07, July 2012

DOI: 10.7463/0712.0432649

Vershinin V.D., Karpenko A.,P., Plyakin D.A.

Russia, Bauman Moscow State Technical University

[email protected]

[email protected]

The authors consider the ontology knowledge bases focused on support of decisionmaking in corporate information systems. The authors believe that search for decision in these knowledge bases is carried out with the use of metadata of the document. Implementation of this approach leads to a graph-coarsening problem. The authors present some methods for solving this problem, and the results of the research of their efficiency.

Publications with keywords: ontology, relevance, decision support, corporate information system, graph-coarsening, semantic network

Publications with words: ontology, relevance, decision support, corporate information system, graph-coarsening, semantic network

References

1. Larichev O.I. Teoriia i metody priniatiia reshenii, a takzhe Khronika sobytii v Volshebnykh stranakh [Theory and methods of decision-making, and the Chronicle of events in Magic Lands]. Moscow, Logos Publ., 2006. 29 p.

2. Gaidrik K.V. Sistemy podderzhkipriniatiia reshenii: evoliutsiia, kontseptsii i nekotorye perspektivy [Decision support systems: Evolution, concepts and some prospects]. Available at: http://www.masters.donntu.edu.ua/2010/fknt/sheptulia/library/article05.htm.

3. Norenkov I.P. Intellektual'nye tekhnologii na baze ontologii [Intellectual technologies on the base of ontologies]. Informatsionnye tekhnologii, 2010, no. 1, pp. 17-23.

4. Karpenko A.P. Metodika otsenki relevantnosti dokumentov ontologicheskoi bazy znanii [A method for estimating document relevance in ontology knowledge base]. Informatsionnye tekhnologii, 2011, no. 4, pp. 13-23.

5. Bui T.N., Chaudhuri S., Leighton F.T., Sipser M. Graph bisection algorithms with good average case behavior. Combinatorica, 1987, no. 7, pp. 171-191.

6. Buvailo D.P., Tolok V.A. Bystryi vysokoproizvoditel'nyi algoritm dlia razdeleniia nereguliarnykh grafov [Rapid high-performance algorithm for the separation of non-regular graphs]. Visnik Zaporiz'kogo derzhavnogo universitetu [Herald of the Zaporozhian SU], 2002, no. 2, pp. 1-10.

i Надоели баннеры? Вы всегда можете отключить рекламу.