ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2013 Управление, вычислительная техника и информатика № 2(23)
УДК 519.67, 510.64, 519.24
Е.С. Кабанова, А.А. Викентьев
РАССТОЯНИЕ МЕЖДУ ФОРМУЛАМИ ПЯТИЗНАЧНОЙ ЛОГИКИ ЛУКАСЕВИЧА И МЕРА НЕДОСТОВЕРНОСТИ ВЫСКАЗЫВАНИЙ ЭКСПЕРТОВ В КЛАСТЕРИЗАЦИИ БАЗ ЗНАНИЙ
Определяются расстояние между формулами пятизначной логики Лукасеви-ча и мера недостоверности экспертных высказываний, записанных в виде логических формул, а также доказываются свойства данных величин. Также показывается возможное применение расстояния и меры на примере кластеризации группы формул пятизначной логики Лукасевича.
Ключевые слова: многозначная логика, логика Лукасевича, расстояние между формулами, мера недостоверности, кластеризация, иерархический алгоритм, базы знаний, экспертные высказывания, теория моделей.
На сегодняшний день актуальной является проблема анализа многозначной экспертной информации, представленной в виде высказываний экспертов, которые можно записать в виде логических формул исчисления высказываний. В данной работе экспертные высказывания представлены в виде формул пятизначной логики Лукасевича [1]. Ясно, что различные высказывания и соответствующие им формулы несут разное количество информации. Тем самым возникает вопрос о сравнении экспертных высказываний по информативности и, как следствие, их ранжировании. Ясно, что информативность всего высказывания должна зависеть от информативности элементарных компонент и степени различия содержащейся в них информации. Следовательно, необходимо ввести «расстояние» между логическими формулами, соответствующими высказываниям, для которого, по определению расстояния, должны выполняться аксиома тождества, аксиома симметрии и неравенство треугольника, а также меру недостоверности высказывания. В [2, 3] определены расстояние и мера недостоверности для случая классической двузначной логики [5]. Помимо основных свойств введённое там расстояние обладает свойствами, учитывающими семантику совпадения и различия информации.
Основной задачей работы являлось введение расстояния и меры недостоверности для формул пятизначной логики Лукасевича Ь5, причём таким образом, чтобы выполнялось как можно больше свойств, характерных для данных величин, введённых и доказанных для формул классической логики, и чтобы учитывались все возможные истинностные значения Ь5.
1. Расстояние между формулами
Теоретико-модельные понятия для случаев классической логики и Ь5, зуемые в данной работе, определены в [2-4].
Для краткости будем пользоваться следующими обозначениями:
исполь-
М (Ф к_) =
4
Моё,
(Ф) к
4
, к I
то есть количество моделей, где формула ф принимает значение —, а у - -.
М= М°^5(Е)((ф)к &(У)1) •
4
4
Расстояние между двумя формулами двузначной логики определяется как мощность симметрической разности моделей этих формул. Это расстояние задаёт метрику на классах эквивалентных высказываний [2,3].
Определение 1. [2, с. 89; 3] Расстоянием между формулами ф и у двузначной логики при £ (ф) и £ (у) с £ (Е) на множестве Р(£ (Е)) называется величина.
Таким образом, предположим, что для определения расстояния можно учитывать разность между истинностными значениями формул ф и у на каждой модели.
Замечание (доказательство в [2, с. 93; 4]): Для вычисления расстояния между формулами ф и у, такими, что £ (ф) и £ (у) с £ (Е), достаточно рассматривать не всё £(Е), а только £ (ф) и £ (у). Или, точнее, любое £(Е0), такое, что
Далее, нижний индекс £(Е) в записи р Х(2) будем опускать.
Обобщим этот подход на пятизначный случай. Объединим модели с одинаковыми модулями разности между значениями ф и у. Естественно предположить, что чем меньше модуль разности между значениями ф и у, тем формулы более близки в данной модели. Следовательно, умножим количество моделей с одинаковыми модулями разности на коэффициент, учитывающий близость формул. В качестве таких коэффициентов возьмём пять истинностных значений для Ь5:
Преобразуем формулу (1) к следующему виду:
Р5(і) (Ф, V) = 2^ \Modg(£) ((-ф & у) V (Ф & -у))| = М(0,1) + М(1,0) =
= 1-М(0,1) +1-М(1,0) + 0• М(0,0) + 0• М(1,1) = -іііт X X \к- 1|М(к,1).
2 к=011=01
к=0,11=0,1
£ (ф) ^ £ (у) є £ (І0) є ^ (і).
')+ (2)
+1( (0,1)+м (1,0) )=х X іМм (к-,1).
к=01=0 4 4 4
Остаётся только нормировать величину р .
Определение 2. Расстоянием между формулами ф и у пятизначной логики Ь5 при £ (ф) и £ (у) є £ (Е) на множестве Р(£ (Е)) назовём величину
1 4 4 к - Л и / /оч
рФ,у 5£(1)хХ 4 4,4 .
Теорема 1. Расстояние между двумя формулами Ь5, определённое равенством
(3), для любых ф, у, х є Е удовлетворяет следующим свойствам:
1) 0 <р(ф, у) <1;
2) р(ф, у) = 0 »ф = у;
3) р(ф, у) = р(у, ф);
4) р(ф, у) <р(ф, х)+р(х, у);
5) ф^ф1, у ^ ^р(ф, у) = р(ф1, у^;
6) р(ф, у) = р(-ф,-у);
7) р((флу),^у)) = р(ф, у)
8) р(ф, у) = р(ф ^ у, у У ф) .
Доказательство. Для удобства доказательства перепишем формулу для нахождения (3), учитывая (2), в следующем виде:
р(ф, у) = (0 •А+Ї •в+І •с+| • ° +1-Е +.
1) В формуле для вычисления расстояния участвуют все модели с коэффициентами от 0 до 1. р(ф,у)=0, если все модели содержатся в А, то есть, когда ф = у; р(ф,у)=1, если все модели содержатся в Е, то есть ф = —у и ф и у принимают на
моделях только значения 0 и 1. Значит, 0 < р(ф,у) < 1.
2) Необходимость. Следует из доказательства свойства (1).
Достаточность. По определению эквивалентности [4, с. 181], если ф = у,
то их значения на всех моделях совпадают. Следовательно, все
ModS(1)((ф)к &(у) 1) при к = 1 содержатся в А, и, значит, р(ф,у)=0.
4 4
3) Это свойство следует из того, что симметричные пары М(к /4,1 /4) Ф Ф М(1 /4, к /4) умножаются на один и тот же коэффициент.
4) Рассмотрим произвольную модель, на которой некоторые формулы ф, у, х принимают соответственно значения к/4,1 /4и і/4. Считаем, что изначально
расстояние равно нулю и это первая из рассматриваемых 5^5 (Е) моделей, которые по очереди добавляются в сумму. Распишем свойство для одной модели:
1 |к -1| < 1 |к - і| + 1 \і -1|
З^Е)! 4 “ 51 £(I) 4 + 51 £(I) 4 ;
|к - 1| < |к - і| + \і - к| .
Случай 1: к < і < 1. Тогда 1 - к = 1 - к, свойство выполнено.
Случай 2: к < 1 < і. Тогда 1 - к < і - к + і - 1, 1 < і, свойство выполнено.
Случай 3: і < к < 1. Тогда 1 - к < к - і + 1 - і, і < к, свойство выполнено.
В силу симметричности, для k > l - аналогично.
Так как свойство выполняется для каждой рассматриваемой модели, то для их общей суммы неравенство треугольника тоже будет выполнено.
5) Следует из определения эквивалентности двух формул.
6) Из соотношения ModS (£)(—A) k = Mods (£)(A)4_k [4] следует, что
4 4
Mods(E) ((ф)k & (у)i) = Mods(£) ((-ф)4_к & (—у)4-i), k, l = 0,.. .,4.
4 4 4 4
Рассмотрим произвольную модель, как в доказательстве свойства (4). Тогда в левой части предполагаемого равенства будет стоять |k -1|, а в правой
|(4 - k) - (4 -1)| = |4 - k - 4 +1| = |l - k| = |k - l| . Значит, свойство выполняется.
7) Рассмотрим произвольную модель, как в доказательстве свойства (4). В многозначной логике Лукасевича x v y = max{x, y}, x л y = min{x, y}. Тогда на
этой модели формула ^vy) принимает значение max{k/4,l/4}, а (флу) -
значение min{k /4, l /4}.
Случай 1: k > l. Тогда (фvy) принимает значение k / 4, а (флу) - значение
l/4.
Тогда и в левой, и в правой части предполагаемого равенства будет стоять
Ik - ll .
Случай 2: k < l. Аналогично первому случаю.
Случай 3: k = l. В обеих частях предполагаемого равенства будет стоять ноль. Других случаев нет. Равенство доказано.
8) Рассмотрим произвольную модель, как в доказательстве свойства (4). В многозначной логике Лукасевича x ^ y = min{1,1 - x + y} . Значит, нам надо доказать, что верно равенство |k -1| = |min{4,4 - k +1} - min{4,4 -1 + k}|.
Случай 1: k = l. Тогда 0 = 0.
Случай 2: k > l. Тогда |k -1| = |(4 - k +1) - 4, k -1 = |l - k\, k -1 = k -1.
Случай 3: k < l. Тогда l - k = |4 - (4 -1 + k)|, l -k = l -k .
Других случаев нет. Равенство доказано. Теорема доказана.
Замечание 1. Свойства 2) - 4) - это свойства метрики. Таким образом, мы получили метрическое пространство на классах эквивалентных высказываний.
Замечание 2. Для расстояния между формулами классической логики выполняется интуитивно понятное свойство р(ф, у) = 1» ф = —у , то есть расстояние между двумя формулами максимально тогда и только тогда, когда эти формулы противоположны. В случае определённого выше расстояния между формулами L5, достаточность выполняется только тогда, когда ф и у на всех моделях принимают значения только 0 и 1. Посмотрим, почему в многозначной логике это допустимо. Пусть ф на всех моделях принимает только значение 1/4, а формула у -только 3/ 4. Ясно, что ф = —у. Но в семантическом смысле (см. интерпретации многозначной логики Лукасевича [1, с. 76-90]) они различаются меньше, чем, например, тождественно истинная и тождественно ложная формулы. Поэтому выполнения свойства ф = —у ^ р(ф, у) = 1 не обязательно.
Замечание 3. Расстояние, заданное формулой (3) - это расстояние для случая, когда все значения переменных заранее не известны. Пусть теперь стали известны
истинностные значения некоторых переменных (например, х1 = 0 или х1 точно не равно 1 и 3/4).
Пусть переменные х1,..., хр , хі є 51 (ф) и 5і (у), і = 1,..., р , р = 5 (ф) и £ (у) соответственно принимают ш1,..,тр, ті < 5 истинностных значений. Тогда формула для нахождения расстояния между формулами ф и у выглядит следующим образом:
, ч 1 \к - 11„к ^ /,ч
p(ф, у) =---------Хх~ГМ (т,т). ()
Ш1 •... • трк=01=0 4 4 4
При этом свойства расстояния (3) выполняются и для (4). Доказательства полностью аналогичны, так как коэффициент ----------------------------------------1-, так же, как и . из вы-
Ш •...• тр 5^5(
ражения (3), необходим только для нормирования расстояния.
Как видно, формула (3) является частным случаем данной, если
Ш =... = тр = 5 и р = |5(ф) и5(у) .
Если все ш • .. • тр моделей занумеровать, то формулу (4) можно переписать в
виде
1 т1-...-тр
p(ф, у) =-------------------------------------------- X \Мі (ф) - Мі (у^
т1 •...• тр і=1
где Мі (ф) - значение формулы ф на модели Мі, і = 1,..., т1 •... • тр .
2. Мера недостоверности
В классической логике под информативностью высказывания подразумевается относительное число моделей, на которых данное высказывание эксперта ложно, или, что то же самое, нормированное расстояние от высказывания до тождественно истинной формулы. Чем меньше моделей, на которых высказывание истинно, тем оно информативней [2, 3] или менее достоверно.
Мера информативности для формул из Ф(Е) = {ф: 5(ф) с 5(Е)} в случае двузначной логики задаётся равенством
( ) ( ,ч \М°ё5 (Е)(-ф^
Ц(ф) = Р5(Е) (ф, 1) = ]-----------------------------25Е)- .
Но в случае Ь5 существует не одно, а четыре истинностных значений, отличных от 1.
Вместо термина «мера информативности» будем использовать термин «мера недостоверности» из тех соображений, что чем больше моделей, на которых данная формула не истинна, тем она менее достоверна.
Обобщим случай п = 2 на п = 5.
Распишем подробно, что есть расстояние от формулы ф до тождественно истинной формулы:
р5(Е) (ф,1) = ^
^ 113 ^
4 м (ф3,1)+^ м (ф1,1)+^ м (ф1,1)+1М (фо, 1)
V 4 2 4 -
5 S (Е)
^ 113 л
- M (ф 3) + - M (ф!) + - M (ф!) + 1M (ф0)
. 4 2 4
(ф,)-
Определение 3. Мера недостоверности Дф) для формул ф пятизначной логики
Ь5, таких, что £ (ф) с £ (Е), на множестве Р(£(Е)) задаётся равенством
1 (ф) = t
4 - i
"Г
м (ф,)
4
5 S (£)l
(5)
¿=о - ^
Теорема 2. Мера недостоверности, определённая равенством (5), для любых формул ф, у, х е Е удовлетворяет следующим свойствам:
1) 0 < I(ф) < 1;
2) I (ф) +1 (-ф) = 1;
3) I (флу) > тах{1 (ф), I (у)};
4) I(фvу) < min{I(ф),I(у)};
5) I ^у) +1 (флу) > I (ф) +1 (у);
6) I (флу) = р(ф, у) +1 ^у);
7) р(ф,у) <I(ф) +1(у);
8) I(ф) > р(ф ^ у, у);
9) I (ф ^ у) <р(ф, у);
10) I(фvу) < р(ф ^ у,флу) .
4 -1
Доказательство. Очевидно, так как
UModS(Е) (ф) i
4
■<1 для
любых i = 0,...,4.
1) Mods(Е)(-ф)k = Mods(Е)(ф)4_k [4]. Значит,
I (ф) +1 (-ф) =-
1
(
5
\S (Е)|
4 M (ф з) +1M (фі) + 3 M (фі) + 1M (фо) +
4 2 4
Л
1
+3 M (ф з)+2 M (ф!_)+4 M (ф 1)+1M (ф1)
4 2 4 /
Л
1
■ 55(Е)| ■
5S (Е)| =
= 1-
М (ф0) + М (ф 1) + М (ф1) + М (ф 3) + М (ф1)
4 2 4 J
Свойства 3) - 5) доказаны в работе [4].
6) Рассмотрим произвольную модель, как в доказательстве свойства (4) расстояния между формулами. Пусть на ней формула ф принимает значение к / 4, а формула у - значение I /4 . Учитывая, что х V у = тах{х, у}, х л у = тт{х, у}, свойство для одной модели примет вид 4 -1 < \к - /| + 4 - к или 4 - к < |к - /| + 4 -1, в зависимости от к и I. Рассмотрим случаи:
и
4
Случай 1: к, I Ф 4, к > I. Тогда 4 -1 = к -1 + 4 - к , 4 -1 = 4 -1, свойство выполняется.
Случай 2: к, I Ф 4, к < I. Тогда 4 - к = I - к + 4 -1, 4 - к = 4 - к .
Случай 3: к = 4 , I Ф 4 . Тогда 4 -1 = 4 -1 + 4 - 4, 4 -1 = 4 -1.
Случай 4: к Ф 4 , I = 4. Тогда, симметрично третьему случаю, 4 - к = 4 - к .
Случай 5: к = I. Тогда 4 - к = 4 - к , свойство выполнено.
Других случаев нет.
7) Следует из того, что мера недостоверности по определению равна расстоянию от данной формулы до тождественно истинной, а для расстояния между формулами выполняется правило треугольника.
8) Рассмотрим произвольную модель. Надо доказать неравенство
4 - к > |тш{4,4 - к +1} -/|.
Случай 1: к = I. Тогда 4 - к > |4 - /|, 4 - к = 4 -1.
Случай 2: к > I. Тогда 4 - к > |4 - к +1 - /|, 4 - к = 4 - к .
Случай 3: к < I. Тогда 4 - к > |4 -/|, 4 - к > 4 -1.
9) Рассмотрим произвольную модель. Надо доказать неравенство
4 - тт{4,4 - к +1} < |к -/|.
Случай 1: к = I. Тогда 0=0.
Случай 2: к > I. Тогда 4 - (4 - к +1) < к -1, к -1 = к -1.
Случай 3: к < I. Тогда 4 - 4 < I - к, 0 < I - к .
10) Рассмотрим произвольную модель. Надо доказать неравенство
4 - тах{к, 1} < |тт{4,4 - к +1} - тт{к, 1} .
Случай 1: к = I. Тогда 4 - к < |4 - к\, 4 - к = 4 - к .
Случай 2: к > I. Тогда 4 - к < |4 - к +1 - /| ,4 - к = 4 - к .
Случай 3: к < I. Тогда 4 -1 < I4 - к1 , 4 -1 < 4 - к . Теорема доказана.
Замечание: Попробуем подойти к определению меры недостоверности для Ь5 с другой стороны. Так как в Ь5 истинностных значений, отличных от 1, не одно, а четыре, то имеет смысл учитывать все модели, на которых формула ф принимает значения к/4 при к = 0,...,3. Естественно предположить, что при каждом М(фк/4) должен стоять коэффициент, учитывающий, насколько близко истинностное значение формулы ф к 1. Ясно, что модели, на которых формула принимает значение 1/4 , должны учитываться с большим коэффициентом, чем те, на которых формула принимает значение 3/4, так как 3/4 ближе к единице. А так как истинностные значения в логике Лукасевича распределены равномерно между 0 и 1, то можно определить значения коэффициентов как (4 -/)/4,1 = 0,.,3.
3. Примеры
Применим иерархический алгоритм кластеризации с объединением кластеров по методу ближайшего соседа к некоторой группе высказываний. Пусть есть п высказываний. Сначала считаем, что у нас есть п кластеров. Построим матрицу расстояний для группы из п высказываний, потом выделим наименьшее расстояние между формулами ф,- и фj и объединим формулы ф,- и фj в один кластер. Затем
пересчитаем матрицу расстояний уже для n-1 высказывания по правилу р(фк, фу) = шт{р(фк, фг-), р(фк, ф j)} и будем повторять действия до тех пор, пока
все высказывания не объединятся в один кластер.
ф1 = * ^ у; ф2 = —(x ^ у); фз = (x v z) ^ у ;
ф4 = —((x л y) v z) ^ w; ф5 = y ^ (x л z); ф6 = (—y v (x ^ z)) ^ w; ф7 = ((x ^ y) ^ z) ^ w; ф8 = (w ^ z) л (y ^ x).
Их меры недостоверности соответственно равны: /(ф1) = 0,2000; /(ф2) = 0,8000; /(ф3) = 0,3000; 1(ф4) = 0,3584; 1(ф5) = 0,3000; 1(ф6) = 0,4092; 1(ф7) = 0,2716; 1(ф8) =
0,3416.
Шаг 1: minр(фг-,фf) = 0,0508 = р(ф4,ф6). Кластеры: ф1,ф2,ф3,ф46,ф5,ф7,ф8.
i* j
Шаг 2: min р(фг-, ф.) = 0,1000 = р(ф1, ф3). Кластеры: ф13, ф2, ф46, ф5, ф7, ф8.
i* j
Шаг 3: minр(фг-,ф.) = 0,1300 = р(ф7,ф46). Кластеры: ф13, ф2, ф467, ф5, ф8.
i* j
Шаг 4: minр(фг-,ф.) = 0,1416 = р(ф5,ф8). Кластеры: ф13,ф2,ф467,ф58.
i* j
Шаг 5: minр(фг-,ф,) = 0,2460 = р(ф13,ф467). Кластеры: ф2, ф58, ф13467 .
i* j
Шаг 6: minр(фг,фf) = 0,4032 = р(ф58,ф13467). Кластеры: ф2,фт5678.
i* j
Шаг 7: р(ф2 , ф1345678 ) = 0,5000 . Кластер ф12345678 .
Мера недостоверности здесь может выступать в качестве критерия остановки процесса объединения формул в кластеры, если количество кластеров заранее не известно. Например, на шаге 4 максимальная разница между мерами недостоверности элементов одного кластера равна 0,1376, а на шаге 5 - 0,2092. В реальной задаче значение 0,2092 может оказаться неприемлемым (слишком большим). Поэтому перед началом кластеризации можно задать допустимую разницу между мерами недостоверности элементов одного кластера. Соответственно, алгоритм останавливается, когда разница между мерами недостоверности достигает допустимого значения.
Заключение
Введённое расстояние р между формулами L5 удовлетворяет не только свойствам расстояния (2) - (4), но и свойствам, учитывающим семантику совпадения и различия информации в высказываниях.
В дальнейшем, наряду с мерой недостоверности, можно ввести некую меру неопределённости, определив её как расстояние от произвольной формулы ф до формулы, тождественно равной 0,5.
Помимо иерархического алгоритма кластеризации были рассмотрены и другие, но наиболее подходящим был выбран указанный в данной работе.
Расстояние между высказываниями и меру недостоверности можно использовать при анализе баз знаний, их кластеризации, согласовании высказываний, создании экспертных систем, а также при построении логических решающих функций в распознавании [6; 7].
ЛИТЕРАТУРА
1. Карпенко А.С. Логики Лукасевича и простые числа. М.: Наука, 2000. 319 с.
2. Лбов Г.С., Старцева Н.Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Изд-во Ин-та математики, 1999. 212 с.
3. Vikent’ev A.A., Lbov G.S. Setting the metric and informativeness on statements of experts // Pattern Recognition and Image Analysis. 1997. V. 7. Na 2. P. 175-183.
4. Викентьев А.А. Мера опровержимости высказываний экспертов, расстояния в многозначной логике и процессы адаптации // XIV International Conference “Knowledge-Dialogue-Solution” KDS 2008. Varna, Bulgaria, 2008. С. 179-188.
5. Ершов Ю.Л., Палютин Е.А. Математическая логика. 2-е изд. М.: Наука, 1987. 336 с.
6. Лбов Г.С., Бериков В.Б. Устойчивость решающих функций в задачах распознавания образов и анализа разнотипной информации. Новосибирск: Изд-во ИМ СО РАН, 2005.
7. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: ИМ СО РАН, 1999. 270 с.
Кабанова Елизавета Сергеевна Новосибирский государственный университет
Викентьев Александр Александрович
Институт математики им. С.Л. Соболева СО РАН (г. Новосибирск),
Новосибирский государственный университет
E-mail: [email protected], [email protected] Поступила в редакцию 15 мая 2012 г.
Kabanova Elizaveta S., Vikentiev Alexander A. (Novosibirsk State University, Sobolev Institute of Mathematics of the Siberian Branch of the Russian Academy of Sciences). Distance between formulas of the five-valued Lukasiewicz logic and unreliability measure of expert statements on the clustering of knowledge databases.
Keywords: many-valued logic, Lukasiewicz logic, distance between formulas, unreliability measure, clustering, hierarchical algorithm, knowledge databases, expert statements, model theory.
In this paper statements of experts are represented as formulas of the five-valued Lukasiewicz logic. Likewise the case of the classical logic, using model theory, distance between formulas and unreliability measure were defined. The properties of introduced notions are defined and proved. These properties take into account semantics of similarity and differences of information contained in statements. These notions can be applied for clustering of many-valued knowledge databases. The example of grouping a set of statements using the hierarchical clustering algorithm is considered. In this case the unreliability measure is the stopping criterion of clustering procedure.