О ВОЗМОЖНЫХ РАССТОЯНИЯХ И СТЕПЕНЯХ НЕДОСТОВЕРНОСТИ В МНОГОЗНАЧНЫХ ВЫСКАЗЫВАНИЯХ ЭКСПЕРТОВ И ПРИЛОЖЕНИЕ ЭТИХ ПОНЯТИЙ В ПРОБЛЕМАХ КЛАСТЕРИЗАЦИИ И РАСПОЗНАВАНИЯ
А. А. Викентьев
Институт математики им. С. Л. Соболева СО РАН, 630090, Новосибирск, Россия Новосибирский государственный университет, 630090, Новосибирск, Россия
УДК 519.67-519.24
Рассматриваются формулы n-значной логики, имеющие различное применение, в частности для записи высказываний экспертов. С использованием методов логики и теории моделей для n-значной логики вводятся метрики на формулах (высказываниях) и меры (степени) недостоверности. Изучены свойства введенных расстояний и мер недостоверности формул. Предложены способы задания на классах эквивалентных формул метрик, степеней недостоверности и установления для них полезных свойств, которые могут быть использованы при кластеризации, построении решающих функций и распознавании образов.
Ключевые слова: расстояния на формулах, метрики, меры недостоверности, кластеризация, распознавание образов.
We consider formulas of n-valued logic. Such formulas could be used as records of experts’ judgments We use methods of mathematical logic and model theory for n-valued logic to define metrics on formulas (propositions) and unauthentic(uncertainty) measures. We study properties of such metrics and measures. The novelties of this paper are the definition of metrics on the classes of equivalent formulas and the definition of uncertainty measures together with finding their good properties. We also note their importance for cluster analysis, creating of deciding functions and pattern recognition.
Key words: distances on formulas, metrics, unauthentic(uncertainty) measures, cluster analysis, pattern recognition.
Введение. В данной работе для формул n-значной логики предлагаются способы задания мер близости (расстояний, метрик) и степеней недостоверности. Этот подход расширяет и обобщает ранее рассмотренные случаи меры недостоверности для n = 2, 3 [1,2]. Значения истинности формул можно рассматривать как доли истинности, как их возможные (в частности, субъективные) вероятности, согласованные с таблицами истинности, а также как значения оценки ошибочности формулы-высказывания (например, полученной от эксперта) в интерпретации Д. Скотта (см. [3]). Выбор интерпретации зависит от решаемой задачи. В данной работе рассматривается случай любого натурального значения n > 2 многозначной логики Лукасевича [3]. Заметим, что не все доказанные ранее результаты [1,2] распространяются на общий случай. Числа n — s,k и другие параметры, используемые в приведенных ниже определениях, можно рассматривать как коэффициенты для адаптации и оптимизации
Работа выполнена при финансовой поддержке РФФИ (коды проектов 10-01-00113-а, 11-07-00346а) и НГУ по направлению “математическая логика” под руководством С. С. Гончарова.
вводимых расстояний и мер недостоверности. Для привлечения вероятностных логических высказываний экспертов к построению решающих функций предложены способы вычисления расстояний между исследуемыми знаниями. Расстояния применяются также для согласования высказываний [4-7]. Предложенные расстояния и меры недостоверности могут быть использованы для решения различных проблем в области распознавания образов и искусственного интеллекта. Проведен анализ причин возникновения аварийных ситуаций при автоматической заправке емкости. Для формул (конкретных отказов) исследовано поведение расстояний и указана работоспособность степени недостоверности на формулах.
1. Постановка задачи и сведения об n-значной логике. В работах [1, 2] с помощью теории моделей, предложенной в [2, 8], определено расстояние между формулами исчисления высказываний. В данной работе рассмотрены способы введения расстояний на n-значных формулах, для которых можно доказать свойства метрики на классах эквивалентности формул. Целью исследования является получение характеристики информативности формул для ранжирования многозначных высказываний аналогично тому, как это сделано в [8]. Для этого произвольной (многозначной) формуле нужно поставить в соответствие меру (степень) недостоверности формулы, в частности записанного с помощью формулы высказывания эксперта. Изучаются и устанавливаются полезные свойства меры недостоверности. При этом представляют интерес модели, в которых формулы истинны. В частности, введенная мера позволяет качественно судить по формуле о наличии моделей данной теории, в которых они будут истинными, и об их количестве.
Пусть p,q,r — пропозициональные переменные; символы “ —”, “^” — логические связки; (•, •) — вспомогательные символы. Дадим определение понятия формулы. Пусть p,q,r,. . . — элементарные формулы. Если A и B — формулы, то: 1) — A — формула; 2) A ^ B — формула. Другие конечные последовательности исходных символов, кроме построенных в силу пп. 1,
2, не являются формулами.
Посредством исходных связок определяются другие логические связки:
— p V q = (p ^ q) ^ q (дизъюнкция),
— p Л q = —(—p V —q) (конъюнкция),
— p = q = (p ^ q) Л (q ^ p) (эквивалентность).
Матрица вида = < Vn, — , ^, {1} > называется n-значной матрицей Лукасевича
(n G N, n > 2). Здесь Vn = {0,1/(n — 1), 2/(n — 1),..., (n — 2)/(n — 1), 1}; символы “—”, “^” — соответственно унарная операция и бинарная операция-импликация, определенные на множестве Vn следующим образом: —x = 1—x, x ^ y = min(1,1—x+y). Остальные логические операции вводятся следующим образом: x V y = (x ^ y) ^ y = max(x; y), x Л y =
— (—x V —y) = min(x, y).
Далее для упрощения обозначений рядом с формулой в виде индекса будем указывать ее значение истинности в подходящей модели [8].
2. Определение расстояния на n-значных формулах. Введем необходимые определения и понятия.
Определение 1. Множество элементарных высказываний Sn(p), используемых при записи формул многозначной логики р, называется носителем формулы р.
Определение 2. Объединение носителей формул, входящих в Е, называется носителем совокупности формул Sn(Е), т. е. Sn(E) = (J Sn(p).
Определение 3. Совокупность Qn(E) = {р_k_\р G S(E),k = 1,...,n — 1} называется мно-
п — 1
жеством возможных значений носителей формул.
Определение 4. Моделью называется любое подмножество Qn(Е), такое что М не содержит одновременно ри рУк = I Ур Е Q(Е).
п — 1 п — 1
Множество всех моделей будем обозначать Рп(Б(Е)). Для упрощения записи верхний индекс у формул, означающий п-значность высказывания, будем опускать.
Лемма 1 (о мощности множества Рп(Б(Е))). Общее число моделей равно \Р(Б(Е))\ = п1в(Щ.
Доказательство. Докажем лемму методом индукции.
Пусть Б(Е) = {А}; \Б(Е) \ = 1. Тогда Р(Б) = {{А}, {Ап—2{А х },{0}}, \Р(Б(Е))\ =
п— п—
п. Пусть утверждение леммы верно для \Б(Е)\ = к — 1; Б(Е) = {А1 ,А2,..., Ак-1}; \Р(Б(Е))\ = п|5(Е)|.
Докажем, что утверждение леммы верно для \Б(Е)\ = к, т. е. для Б(Е) = {А1,А2, ...,Ак} из выражения
Р(Б(Е')) = Р(Б(Е)) и {М и {А\}\М Е Р(Б(Е))} и {М и {Ак— }\М Е Р(Б(Е))| и ...
... и{М и {А\_}\М Е Р(Б(Е))|,
получим
Р(Б(Е')) Э Р(Б(Е)) и {М и {Ак}\М Е Р(Б(Е))} и {М{АП—2 }\М Е Р(Б(Е))| и ...
... и{М{А\_}\М Е Р(Б(Е))|.
Последнее очевидно.
Докажем обратное включение. Пусть М Е Р(Б(Е')), тогда если Ак Е М, где I Е {(п — 1)/(п — 1), (п — 2)/(п — 1),...,0}, то М\Ак Е Р(Б(Е)); если Ак Е М, то М Е Р(Б(Е)). Следовательно,
Р(Б(Е')) С Р(Б(Е)) и {М и {Ак}\М Е Р(Б(Е))} и {М и {АП— }\М Е Р(Б(Е))| и ...
... и{М и {А\_}\М Е Р(Б(Е))|.
Значит,
\Р (Б(Е'))\ = \Р (Б (Е))\ + \Р (Б(Е))\ + ... + \Р (Б (Е))\ =
= п\Р(Б(Е))\ = п * п13(^1 = п13(^1+1 = п18(*) !.
Что и требовалось доказать.
Определение 5. На модели М элементарная формула А принимает значение к(п — 1)-1, к=1,..., п — 1, если АЕ М, т. е. М \= А^ Ае М.
п — 1 п — 1 п — 1
Определение 6. На модели элементарная формула А принимает значение 0, если АЕ М
п — 1
Ук = 1, ...,п — 1.
Далее, используя определение истинностных значений формулы, полагаем:
М = (А&В)_к_ ^ (М = Аи М \= В), шт(р, д) = к;
М \= (А V В) _к_ ^ (М \= А — и М \= В), шах(р, д) = к;
М = ('А) к ^ М = А п — 1 — к .
п — 1 п — 1
В остальных случаях формулы принимают значения 0.
Для формулировки других свойств введем следующие обозначения: Mods^т,)(A)=
п — 1
{М| М Є Р(Б(Е)), М = А_к_} — подмножество моделей, на которых формула А принимает
п — 1
истинностное значение П-_• ModS(z)(A)0 = {М| М Є Р(Б(Е)),М А_±_ Ук = 1,п — 1} — подмножество моделей, на которых формула А ложна.
Сформулируем важные для дальнейшего исследования теоретико-модельные свойства. Лемма 2. Справедливы следующие соотношения:
1) Mods(^s)((A&B') к )=
п—1
= и ((Mods(s)(A)П Mods(s)(B)) и (Mods(s)(A)^ П Mods(s)(B))•
7 п 1 п 1 п 1 п 1
р=к
2) Mods(т,)((A V В)_к1) = к
= и ((Mods(s)(A)иім^р)(В)-к_^Ш^р)(А)_^иМ^)(В)-Е1 •
г. п 1 П — 1 П — 1 п 1
р=0
3) Mods(т,)('A) к = Mods(т,)(А)-—1—к •
I
п — 1
П— 1
4) ЦІ М^р)(А)^ = Р(Б(Е))\М^р)Ы)1.
к=і п—1
Таким образом, любой формуле ф, такой что Б(ф) С Б(Е), соответствует совокупность ModscE)(ф) , к = 1,...,п — 1 моделей из Р (Б (Е)), на которых ф принимает зна-
п — 1
чения -^г, к =1,...,п — 1 соответственно.
П—15 5 5
Определение 7. Назовем формулы ф и ф эквивалентными (далее — ф = ф), если
П—1 П—1
І I ModS(T,)(ф)^ = 11 ModS(T,)(ф)^ ,
Ч'—п — 1 ч'—п — 1
к=1 к=1
т. е. если, например, они имеют одно и то же множество моделей для каждого к. Это будет отношением эквивалентности.
Определение 8. Расстоянием между формулами ф и ф (при условии Б(ф) и Б(ф) С Б(Е)) на множестве моделей Р(Б(Е)) п-значной логики называется величина
П—1
и Mods(Y>)(ф_k- &фо) + к 1 п—1 к
р5\^)(ф,ф) = п^(£)|
П—1
и Modscz)(фo&Ф-k_) к=1 п—1
представляющая собой нормированную обобщенную симметрическую разность.
Замечание 1. Расстояние рз(т,) (ф,Ф) является обобщением расстояния для двузначной логики. Поясним смысл первого слагаемого в числителе формулы. В нем указывается число моделей формулы ф с различными ненулевыми истинностными значениями, при этом формула ф должна быть ложной. Аналогично интерпретируется второе слагаемое с заменой формулы ф на ф. Из сказанного выше следует, что определение расстояния вводится через обобщение симметрической разности, которая использовалась в случае п = 2. Очевидно, что к = 1 в формуле расстояния можно заменить на приемлемое с точки зрения экспертов число в : п — 1 > в > 1, при этом формулируемые далее свойства расстояний и их доказательства существенно не изменятся и останутся верными. В силу громоздкости общего
случая дальнейшее исследование ограничивается случаем к = в = 1. Данный подход применим, когда рассматриваются не только ложные значения для соседней формулы модели, но и формулы с малыми значениями истинности (близкими к нулю). Аналогичное замечание для параметров справедливо при определении меры недостоверности.
3. Свойства расстояния. Докажем следующую теорему.
Теорема 1 (о свойствах расстояния ря(я)). Для любых формул ф,ф, таких что Б(ф) и Б(ф) С Б(Е), справедливы следующие утверждения:
1) 0 < ря^ф/Ф) < 1;
2) ря(ъ)(ф,ф) = ряр)(ф,ф);
3) ря^)(ф,ф) = 0 & ф = ф;
п—1п—1
4) Ря(^)(ф,Ф) = 1 & У У (Мой(ф)_к_фМой(ф)_±_) = Р(Б(Е)), где знак “ф” обозначает
1=1 к=1
прямое объединение;
5) Ря(,)(ф,ф) < Ря(,)(ф,Х) + Ря(^){х,ф);
6) если ф1 = ф2, то Рв(ъ)('ф,ф) = рв{,)(ф2,ф)-Доказательство проведем отдельно для каждого пункта.
1. Очевидно, что 0 < Рз(Т,) (ф,ф) < 1, причем верхняя и нижняя границы достижимы. Приведем примеры формул, на которых они достигаются:
— Ря(т,){ф, ф) = 0;
к
пусть ф — формула, не принимающая значение
п — 1'
к = 1, ...,п— 2. Тогда —ф также
к
к = 1,...,п — 2. Следовательно, ре(,)(ф, —ф) = 1.
не принимает значение ------,
п — 1‘
2. Данное свойство следует из определения расстояния и симметричности конъюнкции и дизъюнкции.
3. Докажем прямую импликацию:
П— 1
п— 1 П— 1
рвр)(ф,ф)= 0^\]( Мо(1в(ъ)(ф)^_ + Мойер,)(ф)^- ) —2^У^\мойз(т,)(ф_рт&ф_яТ)
• ^ у _ — 1 п — 1 / ■ » ■ » | _ 1 _ 1
к=1
Р=1 9=1
П1
П— 1 П— 1
р=1 9=1
^ ( Мой8(,)(ф) _к_ + Мойз(Ъ)(ф) _к- ) = 2^^2 \ Мойеру _р-&ф )
к=1 " "
По определению
У^\Мойз(,)(ф)^_ =^У"'\Моёз(ъ)(ф_±_&ф )
• ■* п — 1 • п — 1 _ 1
0;
(1)
П-1
П—1П-1
к=1
к=1 5=0
П1
П— 1 П— 1
^2\М^)(ф)-к-т = ££\ Мойз(,)(ф _^1 &ф _к_)
Следовательно,
п1
п— 1 п— 1
+
( Мойя(т,)(ф)-^ + Мойяр)(ф)-к_ ) = 2^^'У^\Мойяр)(,ф-^-&ф-^т)
• ■* \ — — 1 — — 1 * | — — 1 — 1
к=1 к=1 я=1
п— 1 \ \ п— 1 \
+ У^ \ Мойер) (ф_^_&Фо) + \Мойет)(фо&Ф-^)
— 1— 1 к=1 к=1
Вычитая (1) из (2), получим
(2)
п— 1 п1
к=1
Мойяр)(ф^_ &Фо) + Мойяр)(фо&ф_к_)
Следовательно,
п1
п1
п1
к=1
п1
\ Мойер) (ф-к.&фо) =0 ^ \\Мой(ф)С I I Мой(ф)_к_;
* ^ — — 1 - — 1 - — 1 '
к=1
п1
к=1
п1
к=1
\Мой3р)(фо&Ф-к.) =0 ^ II Мой(ф)^1 I Мой(ф)_±_
• ^ — — 1 - — 1 - — 1
(3)
(4)
к=1
к=1
Из (3), (4) получаем
п1
п1
I Мой(ф)= 1 I Мой3р)(ф)^ ф = ф.
- — 1 - — 1
к=1
к=1
Докажем обратное. Если ф = ф, то р(ф,ф) = 0. По определению ф = ф означает, что
п— 1
п1
п1
п1
I Мойяр)(ф)= I I Мойяр)(Ф).к., I I Мой(ф)С I I Мой(ф)_к_
— — 1 —-1 —-1 —-1
к=1
к=1
Мой(ф _к_&ф0) = 0, Мой(ф _к_ &ф0)
к=1
0к
к=1
Мой(ф0&ф _к_)
0к
4. Справедливы эквивалентности
п—1
и Мой(ф_к_&ф0)
к=1 ——1
+
п—1
и Мой(ф_к_&ф)
к=1 ——1
п
|Я(Е)|
0.
р(ф,ф) = 1 & Мойер) (ф-к_&фо)
+
п1
У Мойя(Е)(фо&Ф-к_)
к=1
п
|Я(Е)|
п1
У Мой(ф к &ф0)
к=1
Из (4), (5) получаем
+
п1
У Мой(ф к &фп)
+
п— 1п— 1
ииМой(ф &ф _
р=19=1
+1 Мой(фо&фо) | . (5)
0
Ч
п— 1 п— 1
и и Мой(ф —ъ&ф —ь)
р=1 9=1
+ 1Мой(фо&фо)1 = 0,
т. е. ф и ф одновременно не принимают значение, равное нулю. Если ф принимает значение, не равное нулю, то ф обязательно равно нулю, значит,
п—1п—1
I (Мой(ф)ф Мой(ф)= Р(Б(Е)).
1=1 к=1
Иными словами, модели Мой(ф) Ук = 1,п — 1 и Мой(ф) У1 = 1,п — 1 образуют
— — 1 — — 1
непересекающиеся множества, причем их объединение заполняет все рассматриваемое пространство.
5. Докажем неравенство треугольника:
Р(ф,Х)
р(ф,ф) =
Р(ф,Х)
п—1
и Мой(ф_к_&Хо) к=1 ——1
+
п— 1
и Мой(ф0&х-к)
к=1 ——1
п
п—1
и Мой(ф_к_&ф0)
к=1 ——1 '
|Я(Е)|
+
п—1
и Мой(ф0&ф_к_)
к=1 ——1
п—1
и Мой(ф_к_&Хо)
к=1 ——1
п1я(Щ +
п— 1
и Мой(ф0&х-к-)
к=1 ——1
пЯ(Щ п— 1
Мой(ф^_&х) = И (ф-^- Хоф
— — 1 ч—\ — — 1 — — 1
1=0
Следовательно,
Р(ф,Х)п13(^)1
р(ф,ф)п)3(^)1
Р(ф,Х)гп13(Щ
п— 1 п— 1
ии Мой (ф к &Х0&ф
к=1 1=0
п 1 п 1
к=11=0
п 1 п 1
ии Мой (ф к &ф0&Х
ии Мой (ф к &Х0&ф
I
п — 1
I
п — 1
к=1 1=0 п— 1 п— 1
+
+
+
п— 1 п— 1
1111 Мой (ф0&Х-к- &ф
' V п — 1 п — 1
к=1 1=0
п 1 п 1
к=1 1=0
п 1 п 1
ии Мой (ф0&ф к &х
I
п — 1
1111 Мой (ф0&Х-к_&ф
' V п — 1 п — 1
к=1 1=0 п— 1 п— 1
+
р(ф,Х)п13(т‘')1 = \{Мой(ф _к_&Х0&ф -к) + У^ У \Мой (ф0&Х -к &ф I
• ^ ^ | \ п — 1 п — 1 / • ^ ^ | \ п — 1 п — 1/
к=1 1=1
п—1 п—1
+ \,Мой (ф _^&Х0&ф^\ +^^\Мой(ф0&Х к &ф0
к=1
к=1
П— 1 П— 1
П— 1 П— 1
к=1 1=1
+
р(ф,ф)п13(т‘')1 = '[\Мой(ф _к_&ф0&х + У^ У \Моіі (ф0&ф _к_&х 1
• ^ ^ I \ п — 1 п — 1 / • ^ ^ | \ п — 1 п — 1 /
к=1 1=1
П—1 П—1
+ \Мой (ф _^&ф0&х^) +^^\Мой(ф0&х к &ф0
к=1
к=1
П— 1 П— 1
П— 1 П— 1
+
р(ф, х)п|е(Е)| = У^ 'У \Мой (ф_к_&х0&Ф-О + У^ 'У \Мой (ф0&х-к-&Ф 1
• ^ ^ | \ п — 1 п — 1 / • ^ ^ | \ п — 1 п — 1 /
к=1 1=1 к=1 1=1
П—1 П—1
+ ^\Мой(ф_к1 &хо&фо) ^^]\Мо^(ф0&х _^-&Фо) ^ Р(Ф,х) < Р(Ф,ф)+ Р(ф,х).
к=1 к=1
6. Выражение ф1 = ф2 обозначает, что
П1
П1
І Мой(ф1)= I I Мой(ф2)_к_
п — 1 п — 1
к=1
Значит, соотношение
П1
к=1
П1
I Мой(ф1 к &фо) = \ I Мой(ф2 к &фо)
Ч-У п — 1 4-у п — 1
к=1 к=1
очевидно, что и требовалось доказать.
Замечание 2. Так как в доказательствах не используются все свойства множества всех моделей, то расстояние можно рассматривать на любом непустом подмножестве всех моделей, если это необходимо или следует из условий конкретной задачи. Вычисление расстояния можно упростить, поскольку часто носители формул составляют небольшое подмножество всех носителей. Это позволит рассматривать модели только от носителей данного подмножества.
Возможность такого упрощения доказывает следующая теорема.
Теорема 2 (об инвариантности расстояния при расширении носителей). Для любого Б(Е0), такого что Б(ф) и Б(ф) С Б(Е0), и любого Б(Е1): Б(Е0) С Б(^) имеет место равенство рв,0)(ф,ф) = Рз(£і)(ф,ф).
Доказательство. Рассмотрим Б(Е1) = Б(Е0) и {х}, х Ф Б(Е0). При этом
Р(Б(Е^) = Р(Б(Ео)) и Ш {М и {хпкТ}М Ф р(Б[ , Р(Б(Е.))| = п\Р(Б(Ео))|.
Кроме того,
\ П— 1 \ \
У Мойя(,0)(ф&фо)
У Мойя(,1)(фпК[&ф)
к=1
П1
к=1
Таким образом,
П
п— 1
Р(в(Е1)) = Р(в(Ео))Ш {М и {х}\М € Р(3(Ее))}
1
'к=1
--V---
п— 1
Следовательно,
РЯ(^1 )(ф,ф)
п— 1
и Моёвр!)(ф-±-&Фо) к=1 п-!
+
п— 1
и Моёя(^!)(фо&Ф^-) к=1 п-!
п
п\Я^1)\
п— 1
и Моёя(Ьо)(ф-±-&Фо)
к=1 п-!
+ п
п—1
и Моёя(т,0)(фо&Ф^-) к=1 п-!
п ■ п\3(^°)\
Пусть 3(Е1)\3(Ео)| = \{А1,..., Ат}\ = т > 1. Тогда
рЯ(Ъо)(ф,ф)-
Р8(Т,о)(Ф,ф) = РЯ(Т,о) ^{А!}(ф,ф)
РЯ(Ео) ^{Ат}(ф,ф) = Р8(Т,1)(ф,ф),
что и требовалось доказать.
Заметим, что при поиске способов задания расстояния было рассмотрено большое количество других вариантов, отличных от предложенных, но для них свойства метрики не выполнялись.
4. Мера недостоверности п-значных формул и ее свойства. Введем понятие меры недостоверности и изучим ее свойства.
4.1. Определение меры недостоверности. Подход к определению меры недостоверности в п-значном случае учитывает вклад промежуточных значений истинности формулы, не включая истинного значения, равного единице. Данный подход основан на свойстве таких значений истинности формулы: чем больше доля моделей, на которых данное высказывание принимает неистинное (не равное единице) значение, тем меньше доля моделей, в которых оно истинно (в данной изучаемой теории). При условии истинности формулы на некоторой модели (некоторой теории) чем больше ее степень недостоверности, тем больше моделей, на которых эта формула неистинна, а число моделей у нового расширения — новой теории с этой формулой — будет меньше. Тогда степень недостоверности будет, естественно, выше. Доли моделей, в которых значения истинности формулы не равны единице, предлагается учитывать с весами, пропорциональными ее ложности. Доли моделей с меньшими истинностными значениями формулы учитываются с большим коэффициентом-весом. Степень недостоверности 1в(т,)(ф) для формулы из Ф(Е) = {ф|3(ф) С 3(Е)} п-значной логики зададим равенством
п— 2
а;
Мо(1я(Е)(ф-^)
;=о
п
\Я(Е)\
где параметры а; не возрастают монотонно с увеличением индекса суммирования. Например,
при нечетном п можно выбрать следующие а;
0,..., (п — 1)/2; ак > а; У к < г.
0 < а; < 1; а; + ап—1—г
1 V г =
Замечание 3. В случае п = 2,аг = 1 получаем ту же меру опровержимости, что и в [1,
2, 7]. В общем случае вместо п — 2 можно выбрать п — в, где 1 < в < п — 1 (что соответствует равенству нулю соответствующих весов для моделей с большим (например, более
06) значением истинности формулы). В приведенном определении в = 2. В приложениях все параметры определения являются адаптируемыми и оптимизируемыми по найденным критериям качества в конкретной задаче.
4.2. Свойства меры недостоверности. Докажем следующую теорему.
Теорема 3 (о свойствах меры ^(е)). Для любых формул ф Е Ф(Е),ф Е Ф(Е) справедливы следующие утверждения:
1) 0 < 1я(т,){ф) < 1;
2) !я(т,){ф) + 1я(т,){-ф) = 1;
3) ^(Е)(ф&Ф) > твх{^(Е)(ф),Ь(Е)(Ф)};
4) V ф) < т1п{1з(^){ф),1я(^){ф)}]
5) ^(Е)(ф V Ф) + ^(Е)(ф&ф) = ^(Е)(ф) + ^(Е)(ф).
Доказательство проводится для каждого утверждения.
1. Неравенство очевидно, так как множества Мов^зсЕ)^) попарно не пересекаются, а
-—1
их объединением является множество Р(Б(Е)).
2. Из определения меры недостоверности следует справедливость равенства
15\Е)(ф) + 1я(^)(-ф) =
\МоЛя(т,)(фо)\ \МоЛя(т,)(ф1)\
а0 ^(Е)| + ап—1
п— 2
п
п
|5(Е)|
+ (аг + ап—1—г)
М0ё,я{Ъ)(ф^ )
\Р (Б (Е))\
г=1
п
|5(Е)|
п
|5(Е)|
1.
3. Из определения меры недостоверности следует справедливость равенства
п—2
Моёз(Е)((ф&Ф) -±-)
г=о
п— 2 п— 1
Е а. ( Е (
г=о у к=г у
п
|5(Е)|
Mods(Е)(ф &ф _к_) Mods(Е)(ф _к_&Ф )
—-1 —-1 —-1 -—1
п
№)|
+
-1 -—1'
П^(Е)
ModS(Е)(ф _±_ &ф _±_)
-—1 -—1
аг
п
№)|
(6)
Распишем подробно ^(Е)(ф):
Mods(Е)(ф-L- )
п2
аг
г=о
п
|S(Е)|
п—2 п—1 \ModS(Е)(ф &ф_^_)
X ^ \ ^ -—1 -—1
2^аг2^ -------
г=0 к=0
п
^(Е)|
п—2 п—1 \ModS(Е)(ф &ф _к_)
\ ^ \ ^ -—1 - — 1
2^^-----------
г=0 к=г
п
№)|
п—2 ^ \Mods(Е)(ф-L- &ф_к_)
-— 1 -— 1
^2^ аг/^----------
г=0 к=0
аг
п^(Е)
ModS(Е)(ф &ф )
-—1 -—1
п
|S(Е)|
(7)
Вычислим разность двух полученных равенств:
п-2п-1
Ь(Е)(,~Р&ф) - 1я(Е){ф) — и2>
г=0 к=г
Мв(І8(Е)(ф &ф _к_ )
п—1 п — 1
п
|5(Е)|
п-2 п-1
-^Х! аі
г=0 к=г
Мов>з(Е)('ф &ф _к_ )
п—1 п — 1
п
№|
п 2 г
У У (ак — аг)
Мов>з(Е)(ф _і_&ф _к_ )
п—1 п—1
г=0 к=0
п
|5(Е)|
п- 2 п- 1
+ ^5] а
г=0 к=г
Мов>з(Е)('ф &ф _к_ )
п—1 п — 1
п
|5(Е)|
> 0.
В результате получаем ^(Е)(ф&ф) > ^(Е)(ф). Аналогично получаем неравенство для ф: ^(Е)(ф&ф) > Ія(Е)(ф) • Следовательно, 1в(Е)(ф&Ф) > т&х{Із(Е)(ф),І8(Е)(Ф)}-4. Из определения меры недостоверности следует справедливость равенства
п2
ІЯ(Е)(ф V ф) — ^ аг
Моёз(Е)((ф V ф)_^)
п2
г=0
п
|5(Е)|
Еа- (Е
г=0 к=0
\Мойз(Е)(ф &ф _к_)
п — 1 п — 1
п
|5(Е)|
+ Е
к=0
\Мойз(Е)(ф-Л-&ф і 1)
п
|5(Е)|
п-2 \Мойз(Е)(ф&ф-^)
Е]— п—1 п—1
|5(Е)|
г=0
(8)
Распишем подробно Із(Е)(ф):
ІЯ(Е)(ф) — ^2
п- 2
— ^2 аг
г=0
МоІЇя(Е)(ф-±- )
п
№|
п-2 п-1 \Мойз(Е)(ф &ф_к_)
\ ^ \ ^ п—1 п — 1
-----
г=0 к=0
п
|5(Е)|
п-2 п-1 \Мойз(Е)(ф &ф _к_)
X ^ X ^ п—1 п — 1
2^аг2^----------
|5(Е)|
г=0 к=г
п-2 * \Мойз(Е)(ф-^- &ф^-)
, \ ~ \ п — 1 п—1
+ 2^ аг2^ --------
г=0 к=0
п
|5(Е)|
— аг
Мов>з(Е)(ф &ф )
п—1 п—1
п
|5(Е)|
Вычислим разность двух полученных равенств:
(9)
п-2 п-1 \Мо<і$(Е)(ф &ф_^_)
ІЯ(Е)(ф) - Ь(Е)(<Р V ф) — ^2 аг^2 ---------
п- 1 к
п 1 к
к=0 к=0
аг
г=0 к=г
Mods(Е)(ф_і_&ф_к_ )
п—1 п—1
П^(Е)
п2
п-2 * \Mods(E)(ф^- &ф^_)
I \ \ п—1 п—1
+2^ а 2^--------
г=0 к=0
п
|S(E)|
аг
аг
г=0 к=0
п 2 г
п^Е
ModS(E)(ф _к_ &ф )
п — 1 п—1
>
ЕЕ'
> аг
г=0 к=0
^(Е)
ModS(E)(ф _к_&ф )
п — 1 п—1
п
№)|
0.
В результате получаем ^(Е)(ф V ф) < ^(Е)(ф). Аналогично получаем неравенство для ф: ^(Е)(ф V ф) < ^(Е)(ф)• Следовательно, ^(Е)(ф V ф) < тт{^(Е)(ф),^(Е)(ф)}.
5. Из формул (6)-(9) следует формула
^(Е)(ф V ф) + ^(Е)(ф&ф) = ^(Е)(ф) + ^(Е) (ф)■
Замечание 4. Связь введенной степени недостоверности формулы с приведенными выше расстояниями сложнее, чем в случае логического исчисления при п = 2 с расстоянием и мерой опровержимости [1]. Можно также предположить, что и в любом другом случае отсутствует прямая связь расстояния между компонентами формулы и степени недостоверности компонентов формулы с недостоверностью исходной формулы.
5. Приложения. В задачах и алгоритмах распознавания образов важным инструментом является возможность вычислять расстояния между изучаемыми объектами. Наличие подходящей геометрии (метрики) позволяет улучшать кластеризацию.
Нахождение нужной метрики для подходящей (или лучшей) кластеризации является достаточно сложной проблемой в распознавании образов. Предложенные расстояния позволяют адаптивно подобрать нужные метрики и даже выбрать из них лучшую. При этом знания экспертов можно рассматривать как дополнительные данные, позволяющие быстрее и точнее установить имеющиеся причинно-следственные связи между переменными задачи и построить решающую функцию.
Предложенные расстояния и меры недостоверности обладают полезными свойствами [1, 2] и поэтому могут быть использованы при создании баз знаний, анализе и их пополнении. Различные степени недостоверности высказываний и расстояния между ними позволят находить нужные метрики как для кластеризации баз знаний, так и в алгоритмах распознавания образов, а также для согласования знаний экспертов. Введенные понятия могут применяться при построении логических решающих функций распознавания на основе согласованных экспертных высказываний.
В настоящее время возрос интерес к построению решающих функций на основе анализа экспертной информации, заданной в виде вероятностных логических высказываний нескольких экспертов, и согласования высказываний экспертов [1-7, 9-11]. Если высказывания экспертов представлены в виде формул п-значной табулированной логики (например, логики Лукасевича [3]), то полученные выше результаты применимы к ним. Предлагаемый подход расширяет и обобщает случаи п = 2; п = 3 и отличается от вероятностного подхода [9-11], поскольку в указанных работах отсутствуют таблицы истинности [3]. Промежуточные значения истинности формул можно также рассматривать как нечеткие значения истинности формул или как значения ошибочности высказывания (интерпретация Д. Скотта). Еще раз отметим, что приведенные доказательства применимы и для других п-значных табулированных логик, а также в нечеткой логике по Заде и по таблицам Балдвина для нечетких значений истинности, поскольку при этом изменится только определение значений истинности формул на модели.
Ясно, что различные высказывания экспертов (и соответствующие им формулы) содержат разное количество информации, поэтому возникает вопрос о ранжировании высказываний экспертов. В исследуемом случае можно провести ранжирование по степени недостоверности, упорядочивая рассматриваемый ансамбль формул по этому параметру. Кроме того, можно рассмотреть вопрос о совместности множества формул.
В качестве примера рассмотрено дерево событий, используемое для анализа причин возникновения аварийных ситуаций при автоматизированной заправке емкости [2]. Структура дерева событий включает одно головное событие (авария, инцидент), которое соединяется с набором соответствующих нижестоящих событий (ошибок, отказов, неблагоприятных внешних воздействий), образующих цепи причин (сценарии аварий).
Проанализированы записанные по дереву (отказов) различные сложные высказывания (формулы) о конкретных отказах заправочной станции и найдены расстояния между различными формулами и меры их недостоверности при различных п. Результаты вычислений показали адекватность (согласованность с мнениями специалистов и экспертов) предлагаемого подхода, большую корректность результатов по сравнению со случаями п = 2 и п = 3, а также быструю стабилизацию вычисляемых величин с увеличением п. Упорядочение формул по степени (возрастания) недостоверности согласуется с мнениями опытных экспертов автоматизированной заправки и результатами, полученными в случае п = 2 или п = 3.
Автор выражает благодарность Р. А. Викентьеву и Д. В. Новикову за помощь при наборе первой версии текста, создание начальных программ и таблиц, проверку вычислений расстояний и мер недостоверностей формул в прикладной задаче, А. С. Морозову за консультации и поддержку, Г. С. Лбову и сотрудникам лаборатории анализа данных и знаний за поддержку исследований в этом направлении, за ценные замечания, указания ссылок на имеющиеся работы в этом направлении и позитивную критику первоначального изложения, а также Е. Е. Витяеву за консультации по статье.
Список литературы
1. Лбов Г. С. Логические решающие функции и вопросы статистической устойчивости решений / Г. С. Лбов, Н. Г. Старцева. Новосибирск: Ин-т математики СО РАН, 1999.
2. Викентьев А. А., Новиков Д. В. Расстояние и информативность на формулах-высказываниях экспертов и мера опровержимости (информативности) высказываний экспертов на моделях 3-значной логики // Вестн. Караганд. ун-та. Сер. мат. 2007. № 1. С. 8-18.
3. Карпенко А. С. Логики Лукасевича и простые числа. М.: Наука, 2000.
4. Lbov G. S., Gerasimov M. K. Constructing of a consensus of several experts statements // Proc. of the 12th Intern. conf. “Knowledge — dialogue — solution”, Varna (Bulgaria), June 20-25, 2006. Sophia: FOI-Commerce, 2006. P. 193-195.
5. Lbov G. S., Gerasimov M. K. Interval prediction based on experts’ statements // Proc. of the 13th Intern. conf. “Knowledge — dialogue — solution”, Varna (Bulgaria), June 18-24, 2007. Sophia: Ithea, 2007. V. 2. P. 474-478.
6. Lbov G. S., Gerasimov M. K. Determining of distance between logical statements in forecasting problems // Artificial Intelligence. 2004. N 2. P. 105-108.
7. Vikent’ev A. A. Measure of refutation and metrics on statements of experts (logical formulas) in the models for some theory // Inform. Theories Appl. 2007. V. 14, N 1. P. 92-95.
8. Кейслер Г. Теория моделей / Г. Кейслер, Ч. Ч. Чэн. М.: Мир, 1977.
9. Смердов С. О., Витяев Е. Е. Синтез логики, вероятности и обучения: формализация пред-
сказания // Сиб. электрон. мат. изв. Новосибирск: Ин-т математики СО РАН, 2009. Т. 6. С. 340-365.
10. Lukasiewicz T. Probabilistic logic programming with conditional constraints // ACM Trans. Comput. Logic. 2001. N 2. P. 264-312.
11. Kern-Isberner G., Lukasiewicz T. Combining probabilistic logic programming with the power of maximum entropy // Artificial Intelligence. 2004. N 157. P. 139-202.
Викентьев Александр Александрович — канд. физ.-мат. наук,
ст. науч. сотр. Института математики им. С. Л. Соболева СО РАН,
доц. Новосибирского государственного университета; тел. (383)363-42-67; e-mail: [email protected]
Дата поступления — 11.05.10