УДК 004.8
Вестник СПбГУ. Сер. 1. Т. 2(60). 2015. Вып. 3
МАТРИЧНЫЕ УРАВНЕНИЯ НОРМИРУЮЩИХ МНОЖИТЕЛЕЙ В ЛОКАЛЬНОМ АПОСТЕРИОРНОМ ВЫВОДЕ ОЦЕНОК ИСТИННОСТИ В АЛГЕБРАИЧЕСКИХ БАЙЕСОВСКИХ СЕТЯХ*
А. Л. Тулупьев1'2, А. В. Сироткин1'2, А. А. Золотим1
1 Санкт-Петербургский государственный университет,
Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7/9
2 Санкт-Петербургский институт информатики и автоматизации РАН, Российская Федерация, 199178, Санкт-Петербург, 14-я линия, 39
Апостериорный вывод является одним из трех видов вывода, на которых основывается обработка фрагментов знаний с вероятностной неопределенностью в интеллектуальных системах поддержки принятия решений, использующих алгебраические байесовские сети. В данной статье даны ключевые термины и формулировки теорем, описывающие локальный апостериорный вывод в алгебраических байесовских сетях на матрично-векторном языке. Основной результат состоит в том, что удалось построить матричные уравнения для нормирующих множителей, фигурирующих в формулах апостериорных вероятностей пропозиций-квантов и идеалов конъюнктов. Сформированные в целом матричные уравнения локального априорного вывода не только упрощают подготовку спецификаций соответствующих алгоритмов вывода и делают реализацию таковых более прозрачной, но также открывают возможность применения классических математических приемов к анализу свойств результатов вывода. Библиогр. 14 назв. Табл. 1.
Ключевые слова: вероятностная логика, байесовские сети, логико-вероятностный вывод, нормирующие множители, знания с неопределенностью, распространение свидетельств, непротиворечивость.
1. Введение. Алгебраические байесовские сети (АБС) предложены В.И.Городецким [2] как новая парадигма моделирования баз фрагментов знаний с неопределенностью и являются одним из классов вероятностных графических моделей. Существенной особенностью АБС является их структура и используемые оценки истинности [6, 7, 9, 11, 12]. Первичной структурой АБС является набор идеалов конъюнктов со скалярными или интервальными оценками истинности их элементов, причем оба варианта оценок формализованы в рамках подхода Н. Нильссона [14]; также рассматриваются вторичная структура АБС и иные виды глобальных структур, построенных над первичной [8, 9, 11, 12, 13]. Идеалы конъюнктов с оценками истинности рассматриваются как математические модели фрагментов знаний [3, 7, 11, 12], а сама АБС — как математическая модель баз фрагментов знаний с неопределенностью.
Возможность применения АБС в интеллектуальных системах, ориентированных на поддержку принятия решений, существенно опирается на решение серии задач по развитию математического и алгоритмического обеспечения логико-вероятностного вывода в этих сетях [5, 11, 12]. Одной из таких проблем является описание локального апостериорного логико-вероятностного вывода на языке матричных (или матрично-векторных) уравнений, что не только существенно упрощает и делает более контролируемой последующую алгоритмическую реализацию такого вывода, но и позволяет применять в анализе свойств его результатов классический математический инструментарий [4, 5, 12].
* Часть публикуемых материалов получена в рамках проекта, выполненного при финансовой поддержке РФФИ (гранты № 12-01-00945-а, 15-01-09001).
В [10] были предложены матричные уравнения, описывающие локальный апостериорный вывод в АБС, которые, однако, содержали элементы, оставшиеся без подходящей интерпретации на матрично-векторном языке. Цель настоящей работы — развить результаты, полученные в [10], предложив матричные уравнения для вычисления указанных элементов, а именно — нормирующих множителей. Чтобы избежать многочисленных повторов, изложение будет вестись в рамках терминов и обозначений, принятых в [10].
2. Матричные уравнения локального апостериорного вывода. Формальная постановка задачи. Зафиксируем конечное множество атомарных пропозициональных формул (атомов)—алфавит А = {ж^^-1. Следует заметить, что индексация атомов задает на них порядок; этот порядок используется далее в работе. Над указанными атомами определены два набора «базовых» пропозициональных формул. Первый набор формул — идеал конъюнктов —
{XХъ2 . . . Х^ |0 < ¿1 < ¿2 < . . . < 1к < П — 1, 0 < к < п},
где х^ Хг2 ... Хгк означает конъюнкцию соответствующих переменных; сам знак конъюнкции мы для удобства опустим. Каждому из конъюнктов вида ж^ х^2 ... х^ можно сопоставить число 2®1 + 2®2 + ... + 2гк — номер конъюнкта. В определении второго набора формул — множества квантов — используется понятие литерала Х^: на его месте в пропозициональной формуле может стоять либо хлибо его отрицание X^. Тогда множество квантов над алфавитом имеет вид А = {ж^}"^1 — Q = {Х0Х1.. . Хп—}. Иными словами, квант — это конъюнкция [8, 12], которая для любой переменной из алфавита содержит либо ее саму, либо ее отрицание.
Вслед определяются векторы вероятностей квантов и конъюнктов:
Рс
1
Р(с1)
\
Рс
\ Р(С2п-1)
( Р(Я0) \
рЫ 1) V Р(Я2п-1) У
Заметим, что вероятности квантов и вероятности конъюнктов выражаются друг через друга с помощью следующих соотношений:
Рс
Т Р
пс
Р = Т Р
А с ** пА с
(1)
где Тп
Т
[п]
аТ
1=
, причем [п] — сте-
1 —М Т = Т[п] я Т = ( 1 1
о 1 ) , Тп = Т , а Т = ^01 пень Кронекера. Ассоциированная с ней операция прямого (тензорного) умножения матриц обозначается как ( [1].
Для описания апостериорного вывода мы воспользуемся логико-вероятностной моделью свидетельств в теории АБС. Под свидетельством мы понимаем новые «обусловливающие» данные, которые поступили во фрагмент знаний и с учетом которых нам требуется пересмотреть все (или некоторые) оценки. В данной статье мы рассмотрим только детерминированное свидетельство; другие случаи могут быть сведены к пропагации серии детерминированных свидетельств [5, 6, 12]. Мы говорим, что на вход системы поступило детерминированное свидетельство, если новые сведения представимы в виде конъюнкции атомарных переменных и их отрицаний. Примерами
таких свидетельств могут быть {х'), {Х0Х1 Х2). Заметим, что такое свидетельство можно разбить на «положительный» и «отрицательный» конъюнкты. В первый входят все положительно означенные атомарные переменные свидетельства, а во второй — отрицательно. При этом и положительной и отрицательной части можно сопоставить индекс, соответствующий десятичному представлению двоичного числа, являющегося характеристическим вектором положительного (или отрицательного) свидетельства, и наши свидетельства можно будет записать следующими эквивалентными обозначениями:
{хоХ1Х2) = {х1, Х0Х2) = {2, 5) = {0102,1012)•
Далее, мы полагаем, что нам поступило свидетельство {г; ]). Согласно [10] сопоставим ему матрицу
н<— = н® н— ® • • • ® н0—,
где
Н+, если Хк входит в с¿; = < Н-, если Хк входит в с-;
Н°, иначе;
причем н+ = (0 1); н- = (0 0); н° = (1 1
В [10] уравнения локального апостериорного вывода оформлены в виде двух теорем.
Теорема 1. Вектор вероятностей квантов нормированного апостериорного вывода может быть вычислен по следующей формуле:
Тз(г,з) — _1_ . ТТ<г,Лр
с' (1,Н<^'>РЧ) ч'
Для того чтобы перейти к условным вероятностям конъюнктов, нам необходимо умножить полученный вектор на Л„. Кроме того, подставим в нашу формулу известное нам соотношение (1). Обозначив вектор условных вероятностей конъюнктов
Р(г;->
с , получим
р<»;Л _ т _1_ . Р
с ~ П(1,Н<^>РЧ)
Введем обозначение Т^г-> = Л„н^->1„, тогда верна следующая теорема.
Теорема 2. Вектор вероятностей конъюнктов нормированного апостериорного вывода может быть вычислен по следующей формуле:
р(у,о) = _1__ -т^'Лр •
(Т(^>рс)[0]
здесь матрица Т^г-> оператора ненормированного апостериорного вывода может быть вычислена по формуле Т^г-> = Т¿-'1 <8> Т¿—2 ® • • • ® Т0г->, где
Т+, если хк входит в с; Т^'- = л Т-, если хк входит в с-; Т°, иначе;
причём Т+ =
01 01
Т-
1 —1 00
т°
10 01
а (Т<^'>Рс)[0] указыва-
ет на верхний элемент вектора-результа операции умножения [10].
В [10] нормирующие множители — величины (1, и (Т^г'^Рс) [0] —остав-
лены без анализа, хотя они являются ключевыми в завершении расчетов результатов апостериорного вывода. Цель статьи будет достигнута, если для расчета указанных величин будут решены задачи по построению соответствующих матричных уравнений.
3. Нормирующие множители. Рассмотрим подробнее нормирующий множитель (1, и сформулируем теорему в отношении подхода к его вычислению.
,<М> =
<8>
й=0
г-1
^ ,
причем
Теорема 3. (1, Н<^'>РЧ) = , Рч), где
1). =(;).*◦ =С
Доказательство. Рассмотрим скалярное произведение (1, Н^>Рс):
1
1, Н<^'>РГ
[Н^ 1, Рс
НХ
(•м>Т
1
й=0
[п]
, Рс
^=п-1
й=0
НХ
Рс
Г<М>
Матрица Н^ ' имеет лишь три возможных варианта, а значит вектор-селектор может строиться из двумерных векторов, которые тоже могут иметь только три возможных варианта, так как
Н
т
причем Н ^
НХ
<м>
что относит эти матрицы к классу симметрических. Анало-
гично Н^'^ = , что также относит матрицу Н^'^ к классу симметрических
матриц. Возможные варианты значений матрицы приведены выше в перед фор-
мулировкой теоремы 1. Введем новые обозначения:
=+ -
00 01
10 00
1 1
Используя полученные обозначения и вводя новые, продолжим цепочку равенств:
^=п-1 \=0
НХ
<М> Т
Рс
^=п-1
'й=0
Рс
По построению вектор Х^'^ состоит из 0 и 1 и может интерпретироваться как характеристический вектор или вектор-селектор, соответствующий заданному свидетельству: этот характеристический вектор позволяет отобрать те кванты, которые не противоречат поступившему детерминированному свидетельству (¿,з). С вычислительной точки зрения интересно то, что с помощью побитовых операций, которые
+
к
1
к
к
к
°
к
к
поддерживаются значительным числом современных языков программирования, в том числе T-SQL, каждый компонент вектора-селектора в^'^ может быть выражен непосредственно через индексы (г,]), задающие свидетельство.
Пользуясь теорем ой 3 решим поставленную задачу и в отношении нормирующего множителя (Т<^'>Рс) [0].
Теорема 4. (Т<^'>Рс) [0] = (г<^'>, Рс), где г<^'> = ®к=п-1 ж^'>
к=0 гк , причем
г+ -
1
1
Доказательство. Примем во внимание, что (Т^>Рс) [0] =
[п]
Т<^'> Рс
Воспользуемся имеющим место соотношением Т^'^ = ЛпН^®'^>Тп = Л ^Н^'^Т 1п]. В результате операции транспонирования получим
Т<^>Т = т1п]Т н^>Т л1п]Т = ТтМ н^>Т лтМ .
При таком представлении получается
[п]
Т<^'> Рс
Т1
[п]
Рс
ТТ[п]Н(.'^>тлТ[п]/ 1
[п]
Рс
^к=п-1
V к=0 ^к=п-1
V к=0 ^к=п-1
к=0
тТНх <^'> тт
1 "к
ТТН к'Т
[п]
Рс
[п]
Рс
ТТНк"'^>ЛТ ' 1
Рс
Введем в рассмотрение векторы гкг'^> и построим вектор =
Р<М> = <©\к=п-1 Х<^'>
=0 *к
где = Т1Н^; Л1 ^ 0 J . Так как существует всего три варианта матрицы Н^ вектор Х^'^ также будет иметь только три варианта. Рассмотрим каждый:
ТТННлт ' 1
<м>
Р+ = ТТН+ЛТ
тТН-ЛТ
тТНЛ
10 —1 1
10 —1 1
10 11
00 01
10 00
10 01
10 11
10 11
10 11
0 1
—1 1)
0
В системе ранее принятых и введенных обозначений и соглашений получим окончательно
[п]
,Т(^> Рс
^к=п-1
, Рс
к=0
Полученные результаты иллюстрируется небольшим числом примеров в таблице.
°
Р
Р
1
0
1
0
0
1
Р
0
Т
°
Р
Алфавит Свидетельство
{Ж1,Ж0} х0 = <1; 0> = (01; 00) 8<1'°>Т =(0101) г<1'°> = г+ ® г° г<1>о>Т =(0100)
{Ж1,Ж0} х0 = (0; 1) = (00; 01) Я<0>1} = 0 8<°'1>Т =(1010) г<0,1> = г- ф го г^0'1)7, =(1100)
{х2,х1,х0} х0 = (1; 0) = (001; 000) 8<1,0> =8+ Й8оР1 8<1,0>т =(01010101) г<1,0> = г+ ^ г°[2] г<1,о>т =(0 1 00 00 00)
{х2,Х1,хо} х0Х! = (3; 0) = (011; 000) 8{3,0> =8+12] ф 8о 8<3'°>Т =(0 00 1 00 0 1) г<з,о> =г+121 г<3'°>Т =(0 00 1 00 00)
{х2,х1,х0} х0х! = (1; 2) = (001; 010) Я<1,2) = ^ д- ^ 80 з^1*2^ =(0 1 0 0 0 1 0 0) г(1,2) _ г+ ф г- ф го г(1>2')Т =(0 1 0 1 00 00)
Примечание. В таблице —1 для удобства обозначаяется как 1.
Вектор г^г-> удобно рассматривать как вектор-редистрибутор, отвечающий за перераспределение вклада каждого конъюнкта в нормирующий множитель. Так же как и в случае вектора-селектора, компоненты вектора г^г-> можно вычислять с помощью побитовых логических операций через индексы г, ], задающие свидетельство. Это позволяет не формировать сразу весь вектор размерности 2П в памяти ЭВМ, а отложить вычисления до тех пор, пока в них не потребуется конкретная его компонента.
Кратко отметим, что выведенные матричные уравнения открывают возможность использовать классические математические приемы в анализе чувствительности обсуждавшихся нормирующих множителей к вариациям исходных данных. Анализ чувствительности сведется, в зависимости от выбранных метрик и ограничений, к исследованию следующих конструкций:
(г<<-> , Рс) - (г<<->, Рс) = (г<<->, Рс-Рс) = (г<<->, ДРс) , (2)
(в«-, Рч) - (в«-, Рч) = (8<<->, Рч-Рч) = (в«-, ДРч), (3)
где ДРЧ и ДРс описывают рассматриваемую допустимую вариацию исходных данных.
Поясним применение термина допустимая вариация данных: он означает, что не только исходные данные Рс и Рч отвечают требованиям непротиворечивости [6, 12], но и векторы с вариацией значений элементов Рс и Рч должны отвечать тем же требованиям, что может быть оформлено матричными соотношениями вида [6, 10]
1„Рс > 0; Ря > 0, (Ря, 1) = 1; 1„Рс > 0; Рч > 0, (Рч, 1) = 1
Знание структуры левых множителей и состава их элементов (0, 1 и -1, либо 0 и 1) в скалярных произведениях из соотношений (2)—(3) открывает богатые возможности для построения оценок «сверху» вариации результатов, а также может оказаться полезным для построения оценок «снизу». Наконец, полученные векторы г^г-> и в^'-также могут быть использованы в анализе чувствительности результатов локального апостериорного вывода.
4. Заключение. В статье предложено развитие подхода к описанию процессов локального логико-вероятностного вывода в алгебраических байесовских сетях: за счет углубления анализа структуры нормирующих множителей удалось вывести матричные уравнения для их расчета. Такие уравнения не только упрощают подготовку спецификаций соответствующих алгоритмов вывода и делают реализацию таковых более прозрачной, но также открывают возможность применения классических математических приемов к анализу свойств результатов вывода.
Литература
1. Беллман Р. Введение в теорию матриц. М.: Наука, Гл. ред. физ.-мат. лит-ры, 1969. 368 с.
2. Городецкий В. И. Алгебраические байесовские сети — новая парадигма экспертных систем // Юбилейный сборник трудов институтов Отделения информатики, вычислительной техники и автоматизации РАН. Т. 2. М.: РАН, 1993. С. 120--141.
3. Городецкий В. И., Тулупьев А. Л. Формирование непротиворечивых баз знаний с неопределенностью // Изв. РАН. Сер. Теория и системы управления. 1997. Т. 5. C. 33—42.
4. Сироткин А. В. Вычислительная сложность алгоритмов локального апостериорного вывода в алгебраических байесовских сетях // Труды СПИИРАН. 2011. №3(18). С. 188-214.
5. Сироткин А. В., Тулупьев А. Л. Локальный априорный вывод в алгебраических байесовских сетях: комплекс основных алгоритмов // Труды СПИИРАН. Вып. 5. 2007. С. 100-111.
6. Тулупьев А. Л. Алгебраические байесовские сети: локальный логико-вероятностный вывод: Учеб. пособие. Элементы мягких вычислений. СПб.: ООО Издательство «Анатолия», 2007. 80 с.
7. Тулупьев А. Л. Алгебраические байесовские сети: логико-вероятностный подход к моделированию баз знаний с неопределенностью. СПб.: СПИИРАН, 2000. 282 с.
8. Тулупьев А. Л. Байесовские сети: логико-вероятностный вывод в циклах. СПб.: Изд-во С.-Петерб. ун-та, 2008. 140 с.
9. Тулупьев А. Л., Сироткин А. В. Алгебраические байесовские сети: принцип декомпозиции и логико-вероятностный вывод в условиях неопределенности // Информационно-измерительные и управляющие системы. 2008. Т. 6, №10. С. 85-87.
10. Тулупьев А. Л., Сироткин А. В. Матричные уравнения локального логико-вероятностного вывода оценок истинности элементов в алгебраических байесовских сетях // Вестн. С.-Петерб. ун-та. Сер. 1. 2012. Вып. 3. С. 63-72.
11. Тулупьев А. Л., Николенко С. И., Сироткин А. В. Байесовские сети: логико-вероятностный подход. СПб.: Наука, 2006. 607 с.
12. Тулупьев А. Л., Сироткин А. В., Николенко С. И. Байесовские сети доверия: логико-вероятностный вывод в ациклических направленных графах. СПб.: Изд-во С.-Петерб. ун-та, 2009. 400 с.
13. Фильченков А. А. Иерархия глобальных структур алгебраической байесовской сети как система графов и гиперграфов // Научно-технический вестник информационных технологий, механики и оптики. 2013. №1. С. 75-81.
14. Nilsson N. J. Probabilistic Logic // Artificial Intelligence. 1986. Vol. 47. Amsterdam: Elsevier Science Publishers B.V., 1986. P. 71-87.
Статья поступила в редакцию 26 марта 2015 г. Сведения об авторах
Тулупьев Александр Львович —доктор физико-математических наук, профессор; [email protected]
Сироткин Александр Владимирович — кандидат физико-математических наук, доцент; [email protected]
Золотин Андрей Алексеевич — студент; [email protected]
MATRIX EQUATIONS FOR NORMALIZING FACTORS IN THE LOCAL POSTERIORI INFERENCEOF THE TRUTH ESTIMATION IN ALGEBRAIC BAYESIAN NETWORKS
Alexander L. Tulupyev1'2, Alexander V. Sirotkin1'2 , Andrey A. Zolotin1
1 St.Petersburg State University, Universitetskaya nab., 7/9, St.Petersburg, 199034, Russian Federation; [email protected], [email protected], [email protected]
2 St.Petersburg Institute for Informatics and Automation RAS,
14-ya liniya V. O., 39, St.Petersburg, 199178, Russian Federation; [email protected] A posteriori inference is one of three kinds of probabilistic-logic inferences, which the processing of fragments of knowledge with probabilistic uncertainty using Bayesian networks is based on. In this paper, the key terms and theorems statements describing local posteriori inference in algebraic Bayesian networks are given in terms of matrix-vector language. The main result is that we managed to construct a matrix-vector equation for the normalizing factors, appearing in the formulas of posterior probabilities of quantum and conjuncts ideals. The whole local posterirori inference equations presented in natrix-vector terms simplify specifications of related inference algorithms and make their implementation more transparent as well as open a way to the classical mathematical technique usage for the inference results sensitivity analysis. Refs 14. Tables 1.
Keywords: probabilistic logic, Bayesian networks, probabilistic-logic inference, normalizing factors, uncertain knowledge, evidence propagation, consistency.
References
1. Bellman R., Introduction to Matrix Analysis (McGraw-Hill, New York, 1960; Nauka, Moscow, 1969).
2. Gorodetskii V. I., "Algebraic Bayesian networks—new paradigm of expert systems", Anniversary Collection of Proceedings of Institutes of the Russian Academy of Sciences Department of Informatics, Computer Science and Automation 2 (Ross. Akad. Nauk, Moscow, 1993) [in Russian].
3. Gorodetskii V. I., Tulup'ev A.L., "Formation of noncontradicting knowledge bases with an uncertainty", Izv. Ross. Akad. Nauk, Ser. Teor. Sist. Upr. 5, 33-42 (1997). MathSciNet
4. Sirotkin A. V., "Computational complexity of local posteriori inference algorithms in algebraic Bayesian networks", Tr. SPIIRAN no. 3(18), 188-214 (2011).
5. Sirotkin A. V., Tulup'ev A.L., "Local a priori inference in algebraic Bayesian network: A set of basic algorithms", Tr. SPIIRAN no. 5, 100-111 (2007).
6. Tulup'ev A. L., "Algebraic Bayesian networks: a local probabilistic logic inference", Handbook on Elements of Soft Computing (Anatoliya, St. Petersburg, 2007) [in Russian].
7. Tulup'ev A. L., Algebraic Bayesian Networks: a Probabilistic Logic Approach to the Modelling of Knowledge Bases with an Uncertainty (SPIIRAN, St. Petersburg, 2000) [in Russian].
8. Tulup'ev A. L., Bayesian Networks: A Probabilistic Logic Inference in Cycles (St. Peterb. Gos. Univ., St. Petersburg, 2008) [in Russian].
9. Tulup'ev A. L., Sirotkin A.V., "Algebraic Bayesian networks: Principle of decomposition and probabilistic logic inference under uncertainty", Inf.-Izmer. Upravl. Sist. 6(10), 85-87 (2008).
10. Tulup'ev A. L., Sirotkin A. V., "Matrix equations for local probabilistic logic inference of truth values of elements in algebraic Bayesian networks", Vestn. St. Peterb. Univ., Ser. 1: Mat., Mekh., Astron. no. 3, 63-72 (2012).
11. Tulup'ev A. L., Nikolenko S. I., Sirotkin A. V., Bayesian Networks: A Probabilistic Logic Approach (Nauka, St. Petersburg, 2006) [in Russian].
12. Tulup'ev A. L., Sirotkin A. V., Nikolenko S. I., Bayesian Belief Networks: Probabilistic Logic Inference in Acyclic Directed Graphs (St. Peterb. Gos. Univ., St. Petersburg, 2009) [in Russian].
13. Fil'chenkov A. A., "Hierarchy of algebraic Bayesian network global structures as a system of graphs and hypergraphs", Nauchno-Tekhn. Vestn. Inf. Tekhnol., Mekh. Opt. 13(1), 75-81 (2013).
14. Nilsson N. J., "Probabilistic Logic", Artificial Intelligence 47 (Elsevier Science Publishers B.V., Amsterdam, 1986, 71-87).