2012
УДК 519.711.3
Доклады БГУИР
№ 2 (64)
ПОСТРОЕНИЕ МНОГОМЕРНОГО НЕЧЕТКОГО РАСПОЗНАВАТЕЛЯ НА
ОБУЧАЮЩЕМ МНОЖЕСТВЕ
А Р. САМКО, Н.Л. БОБРОВА, О.В. ГЕРМАН
Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь
Поступила в редакцию 27 сентября 2011
Работа содержит описание модели многомерного нечеткого распознавателя на основе классифицирующего дерева, которое обеспечивает следующие преимущества: модель не использует функции нечеткой меры для оценки степени сходства нечетких векторов; модель ориентирована на вход векторов и не зависит от взаимного или группового соотношения элементов входных векторов. Это обстоятельство делает ненужной процедуру обучения, которая имеет решающее значение в моделях нейро-сетей с экспертом
Ключевые слова: распознавание, нечеткий распознаватель, классифицирующее дерево.
Введение
Проблема реализации нечеткого распознавателя может решаться с разных позиций, которым присущи те или иные ограничения.
Часто применяют методы нечеткого логического типа Мамдани, Сугено, Ларсена и т.д.
[1, 2]. Эти методы требуют определения меры близости входного экземпляра x = ^x1,..., xn ^, и посылочной части каждого логического правила, представленного в форме «если л1 = a1&... & лп = an, то .Кцу)».
Данная задача не имеет простого (видимого) решения тогда, когда диапазоны изменения значений xi (/ = 1, п) не известны заранее.
Можно рассмотреть подход на основе нечетких нейро-сетевых моделей [3]. Его ограничение состоит в том, что функция распознавания может быть весьма сложной, так что-либо процесс обучения окажется невозможным с практической точки зрения, либо качество распознавателя будет низким.
Большая часть алгоритмов нечеткого распознавания [4] использует функцию нечеткой меры для определения расстояния от входного образца до произвольного кластера. Выбор функций нечеткой меры в значительной степени субъективен и эвристичен.
В настоящей работе предлагается модель нечеткого многомерного распознавателя на основе классифицирующего дерева, исследование которого для четких объектов сообщалось в [5, 6]. С некоторыми модификациями это модель вполне может служить целям нечеткого распознавания. Достоинства описываемой модели таковы:
- она не использует функции нечеткой меры для оценки близости нечетких объектов;
- она ориентирована на большую размерность входных объектов и не критична к наличию индивидуальной или групповой корреляции разрядов входных объектов. Это обстоятельство отменяет необходимость в обучении распознавателя в смысле, принятом в нейро-сетевых моделях.
Классифицирующее дерево
Ограничимся фрагментарным описанием концепции иерархического классифицирующего дерева, поскольку детали его построения можно найти в [5, 6]. В качестве примера сошлемся на рис. 1.
Рис. 1. Иерархическое классифицирующее дерево
В узлах дерева помещены линейные дискриминаторные функции вида X = ^ р,х, (где
г—0
Хо=1). Пусть на вход системы поступает объект ). Вычисляется значение
fl — ао +а1 Х1 +... + апхп в корневом узле дерева. Если это значение >0, то переходим в вершину для вычисления /2 — Ро + Р1Х1 +... + Р пхп, в противном случае - в вершину /з — уо +71Х1 +... + упхп. Процесс последовательно распространяется на последующие вершины дерева, выбор которых зависит от значения функции, вычисленного в родительской вершине. Рано или поздно попадаем в вершину, являющуюся тупиковой (листовой), которая однозначно определяет, к какому классу принадлежит объект х.
Построение дерева и получение дискриминаторных функций в его узлах основаны на использовании метода устранения невязок [7] как частного варианта симплексного алгоритма для задачи линейного программирования.
Иерархическое классифицирующее дерево строится на основе обучающего множества, представленного экспертом (-ами). Типичный вид обучающего множества приведен в табл. 1.
Таблица 1. Обучающее множество
NN Х1 Х2 Хп Кластер
1 1 Х1 1 Х2 Х, К1
2 2 Х1 2 Х2 Х2 К2
3 3 Х1 3 Х2 ХЗ К2
N N Х1 N Х2 хЦ К1
Количество кластеров Р в общем случае более двух; в «базовом» случае Р=2 (случай Р>2 просто сводится к построению нескольких деревьев, для каждого из которых Р=2).
Исследование зависимости размера дерева от характера вероятностного распределения значений входных векторов, вида пересечений различных кластеров представляют самостоятельную задачу. Отметим, что эти размеры во многих практических ситуациях определяют дерево с числом ярусов, не превосходящих несколько единиц даже для обучающих таблиц с сотней строк.
Задача нечеткой многомерной классификации
Обучающее множество зададим в качестве иллюстраций в виде табл. 2 (случай трехмерных объектов).
NN Х1 Х2 Хз Кластер Мера принадлежности (Ю
1 0 1 -2 А 1,0
2 0 0 -1 А 0,8
3 -1 -5 -4 В 1,0
4 2 5 3 В 0,9
5 -1 -1 0 А 0,6
6 3 3 7 В 1,0
7 -1 1 -1 А 1,0
Здесь семь объектов, для которых указаны значения нечеткой меры (ц.), принадлежности к соответствующему кластеру.
Будем интерпретировать нечеткую меру принадлежности кластеру, как, например, субъективную вероятность, с которой эксперт относит данный объект в соответствующий кластер.
Мы хотим построить на основании табл. 2 классифицирующее дерево. Качество распознавания можно связать со статистическим критерием %2 таким образом. Пусть Чк=0, если объект с номером к из табл. 2 отнесен в кластер В, и чк=0, если объект отнесен в кластер А. Вычис-
2 .
ляем критерий х :
* (^ - чк )2
х2 = !■
г= 1
Цк #0
Цк
(1)
Чтобы считать распознавание удовлетворительным с точки зрения (1), необходимо
^(а, О,
(2)
где а - выбранная вероятность ошибки, например, а=0,05; п°в - число степеней свободы.
Число степеней свободы п°в зависит от количества независимых коэффициентов в лиг
нейной дискриминаторной функции ^ = ^а1.х1.. Проблема состоит в том, что в классифици-
i=0
рующем дереве несколько узлов, в общем случае, и для каждого узла используется собственная дискриминаторная функция, определенная на собственном обучающем множестве. Пусть
Г
мощность этого обучающего множества есть Мг, fz = ^а . Тогда число степеней свободы
i=0
пс; = мг - г. (3)
Из (2) следует, что наилучшее качество обеспечивается тогда, когда ГЦ > 0,5 ^дк = 1
V < 0,5 ^ Чк = 0
(4)
Это условие положено в основу нечеткого распознавателя, описанного в [8], однако метод построения такого распознавателя при большом числе объектов в обучающем множестве может оказаться крайне трудоемким, т.к. связан с решением *Р-полной задачи.
Данная статья излагает метод, который позволяет сохранить стратегию устранения невязок в качестве основы построения нечеткого классифицирующего дерева, отказавшись от требования (4), но сохранив условие (2). Таким образом, даже если обучающаяся таблица содержит сотни объектов, сложность построения нечеткого классифицирующего дерева не выходит за пределы сложности симплексного алгоритма.
Построение нечеткого классифицирующего дерева
Ограничим рассмотрение построением одного узла. По данным табл.2 составляем неравенства с неизвестными коэффициентами а0, ар а2, а3 :
а0 + а 1 • 0 + а 1 • 1 + а3 • (-2) > 0 (1,0)
а0 + а 1 • 0 + а2 • 0 + а3 • (-1) > 0 (0,8)
а0 - а1 • 1 -а2 • 5 -а3 • 4 < 0 (1,0)
• 2 + а2 • 5 + а3 • 3 < 0 (0,9) (5)
• (-1) + а2 • (-1) + а3 • 0 > 0 (0,6)
• 3 + а2 • 3 + а3 • 7 < 0 (1,0) а0 +а1 • (-1) + а2 • 1 + а3 • (-1) > 0 (1,0)
^ '> 0
Каждое неравенство получаем в виде У а; • х1
I=0 < 0
где х0 = 1, X' - координата вектора из табл. 2. Каждому неравенству приписывается соответствующая мера нечеткости. Далее заменяем каждое жесткое неравенство (<) нежестким (<) с помощью дополнительного малого слагаемого и приводим все неравенства к виду >. Заметим, что в (5) неравенства вида >0 относятся к кластеру А, а неравенства вида <0 - к кластеру В. Стартовая система имеет такой вид: а0 +а1 • 0 + а1 -а3 • 2 > 0 (1,0)
а 0 + а1 • 0 + а 2 • 0 - а 3 • 1 > 0 (0,8)
-а0 +а1 + 5 • а2 + 4 ^а3 > 1 (1,0)
-а0 + 2 •а1 - 5 •а2 -3-а3 > 1 (0,9) (6)
а0 -а1 -а2 +а3 • 0 > 0 (0,6)
-а0 - 3 • а1 - 3 • а2 - 7 • а3 > 1 (1,0)
а0 - а1 + а2 -а3 > 0 (1,0)
Стратегия устранения невязок (СУН) реализуется в две стадии. На первой стадии система неравенств приводится к виду с четырьмя (по числу переменных) базовыми неравенствами вида а к > 0, устанавливающими неотрицательность переменных. С этой целью строим замены для переменных из неравенств с положительной правой частью. Например, из
-а 0 + а1 + 5 •а 2 + 4 •а 3 > 1
получим
-а0 > 1 - а1 - 5 •а2 -4 • а3 -а0 = 1 - а1 - 5 • а2 - 4 • а3 + ю0
И далее а0 = -1 + а1 + 5 • а2 + 4 • а3 - ю0. Проводим эту замену в систему (6). Затем аналогичным образом заменяем а1, а2 и а3. В результате стадия 1 заканчивается следующей системой:
ю 1 > 0 (1,0)
ю3 > 0 (0,8)
Ю0 > 1 (1,0)
2 9 7 17
— ю. —ю0 -9•ю3 + —ю2 >— (0,9)
3 1 8 0 3 2 2 8 (7) ю2 > 0 (0,6)
11 11 13 19
--ю0 +--ю, +--ю2 -19•ю3 >— (1,0)
8 0 2 1 2 2 3 8
7 3 9 „ 3 „
—ю„ +—ю! +—ю2 -3ю3 >- (1,0)
8 0 2 1 2 2 3 8
На второй стадии СУН последовательно устраняются невязки.
1. Невязкой называется неравенство (>) с положительной правой частью.
2. Стоп-невязкой называется невязка, в левой части которой нет положительных коэффициентов при переменных.
СУН требует выражать из невязки переменную с положительным коэффициентом. Для случая нечеткой системы неравенств в первую очередь используем невязки с мерой (1,0). Так, из предпоследнего неравенства в (7) получим
19 1 13 38
ю1 =--+ — и0--ю2 +--ю3 (8)
1 44 4 0 11 2 11 3 1
Подставляя (8) в (7), получим новую систему
1 13 3 8 19 (1,0)
— ю 0--ю 2 Н--ю 3 + 2Л >--
4 0 11 2 11 3 1 44
ю3 > 0 (0,8)
ю0 > 1 (1,0)
3 19 42 3 65
—ю0 +—ю2---ю3 + — z2 >— (0,9) (9)
4 0 11 2 11 3 2 2 44
ю2 > 0 (0,6)
zз > 0 (1,0)
1 30 24 3 >3
—ю„ +--ю2--ю3 +—z1 >----(1,0)
2 0 11 2 11 3 2 1 11
Хотя СУН заканчивает итерации, когда нет невязок, в случае нечеткой системы неравенств мы ориентируемся на следующее условие. Если невязок нет среди неравенств с мерой (1,0), то СУН останавливает итерации.
Мы как раз имеем это условие. Подставим в систему (9) нулевые значения для переменных: Ю0 = 0,ю2 = 0,Ю3 = 0, = 0. Все неравенства будут выполнены, кроме четвертого
тт 2 2
по порядку с мерой (0,9). Проверим значение критерия %р. Вычисляем %р только (!) для нечетких неравенств, т.к. все четкие неравенства выполнены.
% 2 (0,8 -1)2 + (0 - 0,9)2 + (1 - 0,6)2
% р =--1---1--= 1,21
р 0,8 0,9 0,6
Табличное значение %2 находим для а=0,05 и числа степеней свободы псв = 7 - 4 = 3 (если неравенство использовано для описания четырех коэффициентов). Имеем %т = 7,81 > %р . Следовательно, найденное нами решение статистически значимо (адекватно) и должно быть принято. Отправляясь от «решения» ю0 = 0, ю2 = 0 , ю3 = 0, г1 = 0, получим (на основании произведенных подстановок)
=19 = 15 а° = 11 а1 = 44 а = 44 а = 11
Таким образом, нами получено линейное дискриминаторное неравенство в корневом узле дерева вида
I 19 15 1
----х +--х2--х3 (> 0)
II 44 1 44 2 11 3
Полученное дерево состоит из одного корневого узла.
При выполнении СУН для системы с нечеткими неравенствами используем следующие (кроме приведенных) правила:
- если стоп-невязка возникла в неравенстве с мерой ц=1 (неравенство четкое), то это неравенство исключается из системы, как и в случае четких неравенств [5, 6];
- если стоп-невязка возникла в неравенстве с нечеткой мерой ц<1, а среди четких неравенств (и=1) нет невязок, то проверяем критерий хр < %2т. При выполнении критерия СУН завершает операции, и получаем линейную дискриминаторную функцию для рассматриваемого узла. Если хр >%т , то стоп-невязка удаляется из числа неравенств текущей системы;
- если невязок вообще нет, но хр >Хт , то последовательно заменяем каждое нечеткое
неравенство с мерой р<1 набором четких неравенств (с р=1), как показано на следующем примере.
Пусть, например, нечеткое неравенство таково:
• х, +82 • х2+... + Бя • х >80 (О,6) (10)
Мера р=0,6 интерпретируется как «факт», что в среднем в трех случаях из пяти неравенство выполняется, а в двух - нет. Сгенерируем случайным образом пять векторов 8г- в
А -окрестности точки 8 2,..., 8 для достаточно малого А (А» 0,05-|8 г| для коэффициента 8г-). Из этих векторов получим коэффициенты для трех неравенств смысла >8 0 и двух - смысла < 8 0. Нечеткое неравенство (10) заменяем на пять четких неравенств.
Из исключенных неравенств (стоп-невязок) формируем новую систему и выполняем СУН на этой системе для формирования нового узла классифицирующего дерева, в который будет выполнен переход при выполнении дискриминаторного неравенства в родительском узле
[5, 6].
Заключение
Изложенная техника естественным образом обобщает метод построения классифицирующего дерева для четких объектов [5, 6]. Анализ качества распознавания увязан с критерием Х,2, что ориентирует систему на большое число объектов в обучающем множестве. Достоинства модели распознавателя связаны с отсутствием привязки к закону распределения и наличию корреляционной связи между группами разрядов (признаков).
BUILDING MULTIDIMENSIONAL FUZZY RECOGNIZER ON A LEARNING SET
A R. SAMKO, N.L. BOBROVA, O.V. GERMAN
Abstract
The paper contains a model of a multidimensional fuzzy recognizer on the basis of a classifying tree which provides the following advantages: the model does not use a fUzzy measure function to evaluate a degree of similarity of fuzzy vectors; the model is oriented at highly dimension input vectors and does not depend on the mutual or group correlation of the elements of input vectors. This circumstance makes not necessary a learning procedure which is crucial in neuro-nets with a teacher model.
Список литературы
1. Леоненков А.В. Нечеткое моделирование в среде MATLAB и fuzzyTECH. СПб., 2005.
2. Ярушкина Н.Г. Основы теории нечетких и гибридных систем. М., 2004.
3. Яхъяева Г.Э. Нечеткие множества и нейронные сети. М., 2006.
4. Вятченин Д.А. Нечеткие методы автоматической классификации. Мн., 2004.
5. Герман О.В., Дорожкина Н.Н. // Вестник Ставропольского университета. 1999. Вып. 20. С. 85-99.
6. Герман О.В., Боброва Н.Л., Самко А.Р. // Докл. БГУИР. 2011. №4(58). С. 86-93.
7. Герман О.В., Дорожкина Н.Н., Самко А.Р. // Труды БГТУ. 2007. СерЖ Вып. XV. С. 160-164.
8. Герман О.В., Дорожкина Н.Н., Самко А.Р. // Труды БГТУ. 2007. Сер. IX. Вып. XVI. С. 116-118.