Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
УДК 681.326
Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.», государственный контракт № 07.514.11.4135.
Кониченко А.В., Миргалеев А.Т
МЕТОД ФОРМИРОВАНИЯ СЕМАНТИЧЕСКОЙ СЕТИ ДЛЯ ОПИСАНИЯ СВЯЗЕЙ МЕЖДУ ФАКТАМИ
Предложен метод формирования семантической сети для описания связей между фактами, представленными в информационно-аналитических систем, позволяющий формировать логический вывод на основе семантических сетей по извлеченным фактам из различных текстовых документов.
Ключевые слова: информационно-аналитическая система, онтология, подонтология естественно-языковые данные, семантическая сеть, логический вывод, оценка релевантности данных, тезаурус предметной области, граф, мультиграф.
Konichenko A.V., Mirgaleev A.T.
Methods of formation of a semantic network linking to describe facts
The method offormation of a semantic network for the description of communications between the facts presented in information-analytical systems is offered. The presented method allows to form a logic conclusion on the basis of semantic networks on the taken facts of the various text documents.
Keywords: information-analytical system, ontology, subontology, the natural language data, a semantic network, a logic conclusion, an estimation of relevance of the data, the thesaurus of subject domain, columns, a multigraph.
Предлагаемый метод формирования семантической сети, описывающей связи между фактами, основывается на результатах процедуры извлечения фактов из документов, содержащих ЕЯ тексты на русском или английском языках и предполагает реализацию двух основных этапов.
55
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
Этап 1. Оценка релевантности извлеченных из документа на русском или английском языках фактов онтологии. Формирование набора наиболее значимых фактов.
В качестве оценки релевантности далее понимается степень близости документа к задаваемой метрике сети и семантической сети запроса.
За основу методики оценки релевантности взята методика, представленная в [2], в соответствии с которой реализованы представленные далее основные процедуры.
1.1 Построение семантических сетей по документу и онтологии предметной области
Зададим i-ю семантическую сеть lni(oj) j-ой группе предметной области в виде взвешенного связного мультиграфа gri(oj), где lni е LN; oj е O; grieGR; i = 1,.. .,I j = 1,.. .,J;
LN - множество семантических сетей;
О - онтология предметной области, описывающая все тематические группы документов.
Узлы связного мультиграфа GR(O) соответствуют концептам множества, описывающего предметную область
CP(O) = {cpi}, ie[1:nO] (1)
Ребра связного мультиграфа соответствуют четким бинарным отношениям между ними, каждое из которых принадлежит одному из возможных типов Tp, pe[1:mO].
Для семантической сети lni через введение весовых коэффициентов zloj(lni), le[1:nO] узлов связного мультиграфа GR(O )проводится ранжировка фактов по «шкале важности». При этом весовые коэффициенты рассчитываются в соответствии с [3 - 5].
Аналогичным образом задается семантическая сеть LN(D) документа D в виде взвешенного графа GR(D) [6].
1.2 Кластеризация семантических сетй онтологии, документа и запроса по тематическим группам (выявление признако-фактовых множеств).
Построенные семантические сети онтологии и документа разделяются (кластеризируются) по тематическим группам tgk (ke[1:K]). Выделенные группы разбивают множество CP(O) на k непересекающихся кластеров Нк0, среди которых могут быть и пустые кластеры. Как показано в [2], если Hk0, обозначить через CPk0, то справедливо следующее выражение:
к
CP(0)= I CPk0. (2)
i=1
Число концептов в кластере Hk0 (CPk0) будет обозначено ni0.
Аналогично, группы gk разбивают множество концептов MFD документа D на k кластеров HkD, концепты которых образуют множества MFkD с числом концептов в них, равным nkD:
к
MFD= I MFkD. (3)
i=1
56
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
Кластерам Hk0, HkD поставим в соответствие их семантические сети LNk0, LNkD и графы GRk0 , GRkD ; ie [1, k].
Обозначим - вес узла cpi1,p графа GRk0 , yoi1,p,q - вес ребра графа GRk0, связывающего его узлы cpi1,p,cpi1,q. Здесь p, qе [1,nj0], p^q. Аналогичные обозначения zk1,pD, yk1,p,qD необходимо ввести для графа GRkD.
Графы GRk0 , GRkD, k1 ^ [1, k] ролевых кластеров Hk0 , HkD могут быть построены по схеме, рассмотренной выше. При этом графы GRk0 строятся на основе графа GR(O), а графы GRk1D - на основе графа GR(D).
Поисковый образ документа D будет представлен в виде k семантических сетей LNkD , формализованных в виде графов GRkD; kе [1, К].
Графы GRkQUERY; kе [1, К], кластеров тематических HkQUERY строятся по аналогии построения графов GR(O) и GR(D).
1.3 Оценка релевантности кластеров тематическим группам семантической сети документа.
Оценка релевантности кластеров тематических групп документов, производится на основании определения близость семантических сетей LNkD поискового образа документа D и семантических сетей LNkQUERY запроса QUERY - мер близости графов GRkD, GRkQUERY:
mr(LNkD, LNkQUERY) = mrk . (4)
Мера близости концептов множества FMkO определяется в соответствии с следующим выражением:
x(fk, p , fk, q ) = xk, p, q =min(yOk,p,o + yOk,o,y + yOk,£,q) (5)
В выражении минимум берется по всем возможным цепям fk, p , fk, о , fk, у , fk, £ , fk, q , в которых все концепты принадлежат множеству FMkD.
В FMkD для концепта fk, p (fk, p e FMkQUERY, fk, p ^ FMkD) необходимо найти концепт fk, q, расстояние которого до концепта fk, p будет xk,p,q = x1k,p,q.
Полученный концепт fk, q включается в HQUERY1,k.
Указанные действия выполняются для всех концептов множества GRkQUERY, не принадлежащих FMkD.
Результирующий HQUERY1,k представляет собой совокупность концептов множества FMkD, не принадлежащих FMkQUERY, но находящихся ближе всего в соответствии с (5) к этому множеству. Мощность HQUERY1,k равна nQUERY1,k.
Аналогично, для каждого концепта fk,p (fk,p е FMkQUERY, fk,p£ FMkD) необходимо найти в FMkD\HQUERY1,k концепт fk,q, расстояние от которого до концепта fk,p равно xk,p,q = x2k,p,q и включить все полученные концепты в HQUERY2,k.
Кластер HQUERY2,k является совокупностью концептов множества FMkD, не принадлежащих множествам FMQUERYk и HQUERY1,k , но находящихся ближе всего в соответствии с (5) к кластеру HQUERY1,k. Мощность HQUERY2,k равна nQUERY2,k и т.д.
57
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
Для каждого из fk,pе FMkQUERY, fk, p ^ FMkD, и концептов fk,qе HQUERYd,k необходимо определить функцию fundk,p,q(zDk,q, xdk,p,q), примером которой является следующая реализация:
D
Zkq
fundk,p,q (zDk,q , xdk,p,q) = fundk,p,q = pi d (6)
Xk, p,q
Основными свойствами функции fundk,p,q являются:
- положительная возрастающая относительно первого аргумента и убывающая относительно второго аргумента; d = 1,2,..;
- формализует уменьшение весов концептов из кластеров HQUERYd,k по мере «удаления» их от кластера HQUERYk.
1.4 Оценка релевантности и значимости документа онтологии предметной области.
Оценка релевантности документа производится на основании поисковых образов документа D и запроса QUERY в соответствии с [4] следующим выражением:
MR(D,QUERY) = MR(mrQUERY1, mrQUERY2, ..., mrQUERYk)
MR(mrQUERY1, mrQUERY2, ., mrQUERYk) = £ в,тг^и^¥ (7)
i=1
где D - поисковый образ документа, заданный семантическими сетями LNkD, формализованными в виде графов GRDk;
QUERY - поисковый образ запроса, заданный семантическими сетями LNkQUERY, формализованными в виде графов GRkQUERY;
R - неотрицательная вещественно-значная возрастающая функция своих аргументов;
mr - мера близости семантических сетей LNkD поискового образа документа D и семантических сетей LNkQUERY;
в - положительный скалярный вещественный множитель, определяющий относительный вес аддитивной свертки.
Этап 2. Построение семантических сетей по совокупности фактов из проанализированного множества текстовых документов.
Каждый документ, выявленный по совокупности обнаруженных в нем фактов, может содержать подмножество классов в рамках выделенной тематической группы, эквивалентных классам других документов. Общая семантическая сеть при этом может быть построена на основе отождествления классов (понятий) различных документов.
Далее обосновывается и описывается алгоритм построения результирующей семантической сети SUM_LN(D) из двух исходных на основе результатов сравнения классов. Кроме того, предлагается обобщение задачи объединения семантических сетей различных документов выявленных в рамках одной тематической группы до процедуры их интеграции.
58
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
2.1 Установление степени эквивалентности между классами двух семантических сетей.
Для реализации первого этапа процедуры объединения семантических сетей необходимо разработать операцию сравнения их классов. Входными параметрами для операции выступают исходные подонтологии общей онтологии (О и О') и пара сравниваемых классов (C G O и C^£ °й). Результатом указанной операции является логическое значение («истина» или «ложь»), соответствующее ответу на вопрос «Эквивалентен ли класс С классу С' ?». Прежде всего, следует определить, на основании чего можно утверждать, что некоторый класс эквивалентен или подобен другому классу. Поэтому, первой частью разработки операции сравнения классов является выбор критериев сравнения.
Наиболее простым способом сравнения классов является сравнение по имени c возможность нечеткого сравнения имен классов и сравнения с учетом синонимов. В случае сложных синонимичных и омонимичных конструкций сравнение классов по данному критерию дает неверные результаты.
Более сложным вариантом сравнения классов является сравнение по содержанию (составу), однако во многих случаях отождествление классов (понятий) на основе поэлементного равенства всех их экземпляров является ошибочным.
При сравнении классов наиболее важной составляющей в их структуре является его содержание, т.е. множество слотов, доменом которых является данный класс. Отношения между множествами (в данном случае, множествами слотов) не ограничиваются отношениями эквивалентности и различия -последнее может представлять включение одного множества в другое, включение второго множества в первое, непустое пересечение двух множеств и отсутствие общих элементов (полное различие).
2.2 Объединение и интеграция семантических сетей.
Базовый функционал объединения заключается в поиске эквивалентных классов. Эквивалентные классы добавляются в результирующую семантическую сеть, а их содержание представляет собой множественно-логическое объединение слотов и функций отношений исходных классов. При необходимости слоты могут переименовываться, функции отношений проверяться на совместимость, и т.д. Именно часть корректного переноса содержания исходных классов в результирующий считается основной задачей процедуры объединения. Обобщением отношения эквивалентности классов является отношение родовидовой зависимости. Вместо взаимного позиционирования двух классов как эквивалентных или различных, данные классы рассматриваются отношение пар классов: эквивалентных, частное-общее, общее-частное, с общей частью.
Алгоритмы процедуры обобщения-интеграции семантических сетей представлены (рисунки 1 - 3) [7].
59
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
Рис. 1 - Общий алгоритм объединения семантических сетей
60
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
Рис. 2 - Алгоритм интеграции иерархий (интеграция с учетов отношений класс-подкласс)
61
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
Рис. 3 - Алгоритм интеграции классов (начало)
62
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
Рис. 3 - Алгоритм интеграции классов (продолжение)
63
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
Рис. 3 - Алгоритм интеграции классов (окончание)
Алгоритм общей части выполняется в соответствии с следующей последовательностью действий:
- загрузка подонтологий О и О' и соответствующих им семантических сетей LN (O) и LN (О')в модуль системной интеграции;
- инициализация вершины семантической сети LN (O) - класс U;
- инициализация вершины семантической сети LN (О') - класс U';
- вызов функции «Интеграция иерархий» для корневых классов;
- передача результата работы подпрограммы «Интеграция иерархий» в подсистему визуализации и запись результирующей семантической сети.
Алгоритм интеграции иерархий реализует интеграцию родовидовой иерархии, рекурсивно, начиная с корня иерархического дерева (интегрировать корень иерархии (входящий класс) в базовую иерархию (также заданную своим корнем - входным параметром) и поддеревья каждого из подклассов данного класса вызовом этой же процедуры с текущим подклассом данного класса в качестве вершины иерархии). Для возможности рекурсивного обращения данная часть алгоритма выделяется в отдельную процедуру.
Алгоритм интеграции классов семантических сетей заключается в размещении данного класса интегрируемой сети в иерархию базовой сети. При этом учитываются варианты взаимного отношения классов Общая схема работы алгоритма состоит во вставке интегрируемого класса в базовую иерар-
64
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0
хию на максимально низкий уровень. Проход вниз по иерархии реализован рекурсивно.
Разработанные метод и алгоритмы позволяют реализовать извлечение фактов из текстовых документов, формирование семантических сетей по каждому из рассмотренных документов, поиск наиболее значимых с точки зрения конкретной онтологии фактов, объединение семантически одинаковых фактов, формирование объединенной семантической сети одновременно по нескольким текстовым документам.
Таким образом, разработан метод формирования семантической сети, описывающей связи между фактами, представленными в различных текстовых документах.
Библиографический список
1. Миргалеев, А.Т. Метод формирования распределенных онтологий в многоагентных системах поддержки принятия решений органов власти субъектов России. [Текст]/ А.Т. Миргалеева//Диссертация на соискание ученой степени кандидата технических наук, 2005. - 135с.
2. Карпенко, А.П. Оценка релевантности документов онтологической базы знаний. [Текст]. - Наука и образование: электронное научно-техническое издание, 2010. № 10.
3. Miller, G.A. and etc. Wordnet: a lexical database for the english language [Электронный ресурс]. - Режим доступа: (http://wordnet.prince-
ton.edu/)- Загл. с экрана.
4. Gabrilovich, E., Markovitch, S. Computing semantic relatedness using wikipedia-based explicit semantic analysis: [Текст]. //Proceedings of the Twentieth International Joint Conference on Artificial Intelligence (IJCAI-07), Hyderabad, India. January 6-12, 2007.- pp. 1606-1611.
5. Целых Ю.А. Теоретико-графовые методы анализа нечетких социальных сетей [Электронный ресурс]. - Режим доступа: (http://swsys.ru/print/article print.php?id=742) -Загл. с экрана.
6. Бувайло Д.П., Толок В.А. Быстрый высокопроизводительный алгоритм для разделения нерегулярных графов. [Текст]. - Вюник Запорiзького державного ушверситету, 2002. № 2, - с. 1 - 10.
7. K.Markov, V.Velychko, O.Voloshin. Information models of knowledge. [Текст] ITHEA. Kiev - Sofia, Bulgaria, 2010.
65