КОМПЬЮТЕРНЫЕ СИСТЕМЫ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
УДК 004.8
МАТРОИДНОЕ ПРЕДСТАВЛЕНИЕ СЕМЕЙСТВА ГРАФОВ СМЕЖНОСТИ НАД НАБОРОМ ФРАГМЕНТОВ ЗНАНИЙ В.В. Опарин, А.А. Фильченков, А.В. Сироткин, А.Л. Тулупьев
В работе исследуется одна из задач, возникающих при автоматическом обучении баз фрагментов знаний с неопределенностью, представленных в виде алгебраических байесовских сетей - построение графа смежности как глобальной (вторичной) структуры сети по ее первичной структуре. Установлено, что семейство графов смежности при заданной первичной структуре сети характеризуется матроидом специального вида, что влечет ряд других заключений: множества минимальных и нередуцируемых графов смежности совпадают, минимальный граф смежности допускает построение с помощью жадного алгоритма, число ребер минимального графа смежности выражается через число ребер максимального графа смежности и ранг матроида.
Ключевые слова: базы фрагментов знаний, алгебраические байесовские сети, автоматическое обучение, глобальная структура, матроид, граф смежности.
Если ваша жизнь — матроид, вы можете пользоваться жадным алгоритмом: он будет работать. Иначе — не стоит.
Проф. А. А. Шалыто
Введение
Одной из актуальных и активно исследуемых проблем в области проектирования, разработки и эксплуатации систем, основанных на знаниях, является их автоматическое обучение (машинное обучение, machine learning). Для каждого класса систем, основанных на знаниях, формируется своя совокупность задач автоматического обучения; в случае алгебраических байесовских сетей (АБС) [1-4], относящихся к классу логико-вероятностных графических моделей баз фрагментов знаний с неопределенностью, эта совокупность делится на несколько составляющих, среди которых выделяется задача обучения глобальной структуры АБС (или вторичной структуры АБС) по известной первичной структуре этой сети [5, 6].
Первичная структура АБС - это просто набор фрагментов знаний, где каждый фрагмент знаний является идеалом конъюнктов со скалярными или интервальными оценками вероятности истинности. Вторичная структура АБС (глобальная структура АБС) - это совокупность связей между фрагментами знаний, представленная в виде графа смежности (ГС) [1-4]. Одной и той же первичной структуре может соответствовать несколько графов смежности [1, 4, 7-9]; для реализации ряда алгоритмов логико-вероятностного вывода (проверка и поддержание непротиворечивости АБС, апостериорного вывода) выбор графа смежности существенен, причем наиболее удачным выбором графа смежности для формирования вторичной структуры АБС является ациклический граф смежности (дерево смежности) [2]. Отсюда возникает потребность как в исследовании семейства графов смежности, сформированных над одним и тем же набором фрагментов знаний, так и в выделении из этого семейства нередуцируемых и минимальных (по числу ребер) графов смежности (НГС и МГС соответственно), поскольку именно они могут оказаться ациклическими. Таким образом, описание семейства графов смежности, а также нереду-цируемых и минимальных графов смежности становится целью настоящей работы.
Постановка задачи и определения
Пусть задан конечный алфавит A = и множество вершин V = . На множестве вершин за-
дана весовая функция W : V ^ 2A. Значение функции на конкретной вершине v будем называть весом вершины и обозначать его через Wv. В общем случае любое подмножество алфавита A будем называть весом.
Пусть на множестве вершин V построен некоторый граф G = {V, Ej. Рассмотрим вершины u, v e V . Пусть Wu Р Wv = q Ф0 .
Определение 1. Назовем вершины u,v магистрально связными, если существует путь P из u в v, веса всех вершин которого содержат в себе q :
3 P : u ^ v Vp e Pq с Wp.
Определение 2. Назовем граф G = {V, Ej графом смежности, если любая его пара вершин, пересечение весов которых не пусто, магистрально связна.
8
Заметим, что полный граф, построенный на множестве вершин V , всегда является графом смежности: любой паре вершин и,V можно сопоставить путь Р = {и,у} .
Определение 3. Граф смежности О = {V, Е} назовем нередуцируемым графом смежности, если
после удаления любого ребра е из Е , граф О' = (V, Е \ {е}^ не является графом смежности.
Пусть вершины и, V е V соединены ребром е.
Определение 4. Нагрузкой ребра е назовем множество = Wu.
Определение 5. Множество нагрузок ребер полного графа О = (V, Е) назовем универсальным
множеством нагрузок О.
Рассмотрим некоторый произвольный вес q .
Определение 6 . Сужением графа О = (у, Е} на вес q назовем граф О7д = V, Е^, где
Vq = { е V | q с },
Е = {{)е Е1 u,у е V}.
Вспомогательные факты
В работе [7] было сформулировано утверждение: граф О = (V,Е) - ГС тогда и только тогда, когда Уq е О О/ - связен. Несложно заметить, что О - НГС тогда и только тогда, когда для любого ребра е е Е существует такое q е О, что сужение графа О~ = {V, Е \ {е}^ на q несвязно.
Утверждение 1. Пусть О - ГС. О - НГС тогда и только тогда, когда для Уе е Е сужение графа О~ = (V, Е \ {е}} на q = We несвязно.
Доказательство. Пусть е = (я, /). Так как О - НГС, то существуют и и V такие, что все магистральные пути Р: и ^ V содержат ребро е. В противном случае е можно исключить из множества ребер, не нарушая магистральной связности графа.
Значит, между и и V не существует магистрального пути в О-, или, если быть точнее, не существует магистрального пути между вершинами ^ и /. Значит, не существует пути в сужении графа О" на вес ^^ = q , что и требовалось доказать.
Обратное следует напрямую из утверждения, сформулированного в работе [1]. Следствие 1. Из данного утверждения можно сделать вывод: О является НГС тогда и только тогда, когда всякое ребро е из О в сужении на вес является мостом.
Матроиды и графы смежности
Рассмотрим пару М = (Е,I}, где Е - произвольное множество, а I с 2Е .
Определение 7. Пару М =( Е,/) назовем матроидом [10], если она удовлетворяет следующим аксиомам:
- 0е I;
- А с В, В е I ^ А е I;
- А, В е I ,| А | <| В |^3е е В\А:А\^{е} е I.
Множество Е в таком случае называют носителем, множества из I - независимыми, а само семейство I - семейством независимых множеств.
Назовем максимальные по включению независимые множества базами матроида. Семейство всех баз обозначим через и .
Рассмотрим полный граф Отах = {V, Е}. В качестве носителя матроида выберем множество ребер Е. Множество А назовем независимым (А е I), если граф ОА = (V, Е \ А) является графом смежности. В работе [10] (см. теорему 1.2.3) доказано, что если семейство баз не пусто и
У А, В е и У а е А \ В ЗЬ е В: А У {Ь} \ {а}еи, то М = (Е, I) - матроид. Покажем, что М = (Е, I) - матроид.
1) и - непусто. Для начала покажем, что 0 е I. Рассмотрим граф О/ = (V, Е^. Данный граф полный, значит, является ГС. Так как 0еI, любое множество А е I ограничено сверху по включению множеством Е, то существует максимальное по включению множество из I, т.е. и непусто.
2) A, B eU Va e A \ B 3b e B : A J {b} \ {a}eU . Рассмотрим НГС GA = (V, EA) и GB = (V, EB), где Ea = E\ A, EB = E\ B. По сути, требуется показать, что Va e EB \ EA 3b £ EB : G = (v,EA J{a} \ {b}^ - НГС.
Возьмем произвольное ребро a = (s,t) e EB \ EA веса q и добавим его в граф GA . Рассмотрим полученный граф GA = (v, Ea J {a} . Покажем, что любой магистральный путь между вершинами s и t содержит в себе ребра веса q .
Пусть в сужении GA/q существует простой путь P из s в t, который не содержит в себе ребер веса q . Рассмотрим последовательно каждую пару вершин (, +1) из пути P . По предположению, q с W^p p j. Так как GB - НГС, то существует магистральный путь р в GB , соединяющий вершины
pt, pt+1. Соединив последовательно все пути р в единую цепочку, мы получим магистральный путь в GB , не содержащий ребер веса q . Так как нагрузка пути содержит в себе вес q, то каждая вершина будет лежать в сужении GB/ . Значит, ребро a не является мостом в GB/ , т.е. GB - не НГС по следствию 1. Получили противоречие. Значит, любой простой путь P из s в t графа GA содержит хотя бы одно ребро b = (s ', t ') веса q. Отметим, что по следствию 1 в сужении GA/ ребро b является мостом. Таким образом, любой простой путь между вершинами s и t должен содержать в себе b .
Если удалить из графа G++ такое ребро b , то в полученном графе G = {v, EA J {a} \ {b} вершины s ' и t ' останутся связаными в сужении G/ (или же магистрально связанными в графе G ). Таким образом, G будет ГС.
Покажем, что G - НГС. Удалим ребро a из графа G. Получим граф G~ = {V, EA \ {b}. Напомним, что b являлось мостом в сужении графа GA = {V,EA} на собственный вес q. Значит, сужение G/q несвязно, т.е. G~ не является ГС.
Удалим произвольное ребро l Ф a из графа G веса r . Получим граф H~ = (у, EA J {a} \ {b, l}. В сужении Ga/r ребро l являлось мостом. Пусть l соединяло компоненты связности Kx и Ky через вершины x и y соответственно. Если в сужении G/r ребро l - мост, то сужение HJr является несвязным. В противном случае в сужение G/r должны были быть добавлены ребра, соединяющие Kx и Ky . Такое
ребро всего одно - ребро a .
Так как в GA/r ребро l являлось мостом, то пересечение весов любых двух вершин Kx и Ky равно
r . Отсюда получаем, что Wa = q = r = Wt. Но тогда в сужении G/r = G/ существует простой путь между вершинами s и t, не проходящий через ребро a. Значит, в сужении GA/r существует простой путь между вершинами s и t, не затрагивающий ребро b , что противоречит рассуждениям выше. Таким образом, любое ребро построенного графа G в сужении на свой вес является мостом, т.е. граф G - НГС.
Из доказанных утверждений следует, что двойка M = (E, Is) - матроид.
Следствия
В работе [10] (см. лемму 1.2.1) доказано, что любые две базы содержат в себе равное число элементов. Это число называется рангом матроида r (M ). Переходя к языку графов смежности, получаем, что число ребер во всех нередуцируемых графах одинаково. Значит, минимальный и нередуцируемый графы суть одно и то же.
Число ребер в минимально графе смежности Gmin = (V, Emin ) можно охарактеризовать числом I Emax | -r (M ), где | Emax | - число ребер в полном графе смежности, а r (M ) - ранг соответствующего матроида.
Из следствия 1 можно также сделать вывод, что число ребер в минимальном графе Gmin есть число мостов во всех сужениях на q eQ . Так как всякое сужение Gmin связно, то число мостов в любом сужении Gmin/q ровно на единицу меньше числа компонент связности в соответствующем графе Gq = (Vq, E^j, где
Vq ={ e V I q ç Wv},
Eq ={, v) e E | u e V, v e V, q с W(u v)}.
Из алгебраической теории графов [11] следует, что число компонент связности в графе Gq есть | Vq | - rank Aq, где Aq - матрица инцидентности графа Gq. Отсюда
|EmJ=X [|Vq|- rank Aq -1].
qeQ
Заключение
Установлено, что семейство графов смежности над заданной совокупностью фрагментов знаний может быть охарактеризовано с помощью матроида специального вида. Непосредственным следствием этого утверждения является то, что минимальный (по числу ребер) граф смежности является нередуци-руемым, а нередуцируемый граф смежности - минимальным. Кроме того, возможность представления семейства графов смежности в виде матроида обеспечивает, в свою очередь, возможность построения минимального графа смежности с помощью жадного алгоритма. При этом достаточно построить один минимальный граф смежности, чтобы определить, возможно ли построение ациклической вторичной структуры алгебраической байесовской сети над заданной совокупностью фрагментов знаний или нет. Если такой минимальный граф смежности будет содержать цикл, то и во всех остальных графах смежности будут обнаруживаться циклы; в этом случае изначальную совокупность фрагментов знаний потребуется модифицировать. Если же хоть один минимальный граф смежности не содержит циклов, то и все остальные минимальные графы смежности будут ациклическими. Наконец, удалось дать точную оценку числу ребер в минимальном графе смежности: оно равно разности числа ребер в максимальном графе смежности и ранга матроида.
Ряд вопросов программной реализации, оценок сложности и корректности алгоритмов построения вторичной структуры АБС был рассмотрен в работах [2, 4, 7-9].
Решенные задачи актуальны не только для теории автоматического обучения алгебраических байесовских сетей, но и для других математических моделей баз фрагментов знаний, где формирование глобальной структуры подчиняется тем же требованиям.
Работа выполнена при финансовой поддержке РФФИ, проект № 09-01-00861-а «Методология построения интеллектуальных систем поддержки принятия решений на основе баз фрагментов знаний с вероятностной неопределенностью».
Литература
1. Опарин В.В., Тулупьев А.Л. Синтез графа смежности с минимальным числом ребер: формализация алгоритма и анализ его корректности // Труды СПИИРАН. - 2009. - Вып. 11. - СПб: Наука, 2009. -С. 142-157.
2. Тулупьев А. Л. Алгебраические байесовские сети: глобальный логико-вероятностный вывод в деревьях смежности: Учеб. пособие. - СПб: СПбГУ; ООО Издательство «Анатолия», 2007. - 40 с.
3. Тулупьев А.Л. Байесовские сети: логико-вероятностный вывод в циклах. - СПб: СПбГУ, 2008. -140 с.
4. Тулупьев А.Л. Задача локального автоматического обучения в алгебраических байесовских сетях: логико-вероятностный подход // Труды СПИИРАН. - 2008. - Вып. 7. - СПб: Наука, 2008. - С. 11-25.
5. Тулупьев А.Л., Николенко С.И., Сироткин А.В. Байесовские сети: логико-вероятностный подход. -СПб: Наука, 2006. - 607 с.
6. Тулупьев А.Л., Сироткин А.В., Николенко С.И. Байесовские сети доверия: логико-вероятностный вывод в ациклических направленных графах. - СПб: СПбГУ, 2009. - 400 с.
7. Тулупьев А.Л., Столяров Д.М., Ментюков М.В. Представление локальной и глобальной структуры алгебраической байесовской сети в Java-приложениях // Труды СПИИРАН. - 2007. - Вып. 5. - СПб: Наука, 2007. - С. 71-99.
8. Фильченков А.А., Тулупьев А.Л. Структурный анализ систем минимальных графов смежности // Труды СПИИРАН. - 2009. - Вып. 10. - СПб: Наука, 2009. - С. 104-127.
9. Korb K.B., Nicholson A.E. Bayesian Artificial Intelligence. - New York: Chapman and Hall/CRC, 2004. - 364 p.
10. Oxley J.G. Matroid theory. - New York: Oxford Univercity Press, 2006. - 532 p.
11. Norman B. Algebraic graph theory (2nd edition). - Cambridge: Cambridge University Press, 1996. - 205 p.
Опарин Всеволод Влади- - Санкт-Петербургский государственный университет информационных техноло-
славович гий, механики и оптики, студент, [email protected]
Фильченков Андрей - Санкт-Петербургский государственный университет информационных техноло-
Александрович гий, механики и оптики, студент, [email protected]
Сироткин Александр - Санкт-Петербургский институт информатики и автоматизации РАН, младший
Владимирович научный сотрудник, [email protected]
Тулупьев Александр Санкт-Петербургский институт информатики и автоматизации РАН, доктор физ.-
Львович мат. наук, доцент, зав. лабораторией, [email protected], [email protected]