Раздел III. Искусственный интеллект и нечеткие
системы
УДК 681.3: 519.8: 517.11
В.М. Г лушань, В.П. Карелин, О. Л. Кузьменко
ФОРМИРОВАНИЕ КЛАСТЕРОВ НА МНОЖЕСТВЕ НЕЧЁТКО ОПИСАННЫХ СИТУАЦИЙ ПРИ ПОСТРОЕНИИ МОДЕЛИ ПРИНЯТИЯ РЕШЕНИЙ
Для управления сложными системами или процессами важно наличие адаптивных быстро реагирующих управленческих механизмов, позволяющих принимать решение в условиях неопределенности, неполноты и нечеткости исходной информации. Эффективное управление требует не только большого опыта, знаний,
,
соответствующих интеллектуальных систем поддержки принятия решений
( ). ,
состояниях объекта управления (ОУ) и внешней среде, предлагают лицу, принимающему решения (ЛПР), несколько альтернативных вариантов решений (дейст-). .
Чтобы управлять сложным объектом, необходимо иметь либо достаточно , , объектом, что более целесообразно. Иначе говоря, имеет смысл моделировать не , - . , , количественные данные, но и нечеткие алгоритмы и качественные оценки, реализуют в виде нечетких систем управления, включающих ИСППР. Основными компонентами этих систем являются база знаний, база моделей, база данных, блок логического вывода - интеллектуальный решатель, блок лингвистического представления ситуаций, блок числового представления ситуаций [1-3].
Ситуацией называется набор значений признаков, описывающих состояние ОУ в некоторый момент времени. Под нечетким описанием ситуации понимается такое, где отображены не только количественные, но и ряд качественных характе-. -. -ность нечетких множеств первого уровня, например: £ = {качество среднее, производительность низкая, себестоимость высокая и т.д.}. В еще более неопределенных обстоятельствах принятия решений (ПР) описание ситуации представляется совокупностью нечетких множеств второго уровня [1, 4]. Примером такого описания ситуации, характеризующей некоторое состояние, возникшее при управлении технологическим процессом, является следующий: £ = {(<0.4/«низкое»>,
<0.8/«среднее»>, <0.2/«высокое»> «качество»), (<0.1/«очень низкая»>,
<0.4/«низкая»>, <0.8/«средняя»>, <0.6/«высокая»>, «производительность»),
(<0.1/«низкая»>, <0.6/«средняя»>, <0.9/«высокая»>, «себестоимость»>)}. Здесь ка-
ждому признаку (качество, производительность, себестоимость) соответствует лингвистическая переменная, значения которой (низкая, средняя, высокая и т.п.) в описании ситуации также заданы нечетко.
При разработке моделей, имитирующих процессы ПР человеком-оператором, исходят из того, что ЛПР представляет собой нечёткую систему распознавания обр^ов, соответствующих возможным управлениям в системе, а процесс принятия решений ЛПР есть процесс распознавания ситуаций в многомерном пространстве р . р р р , р Р.
конкретной ситуации её степени принадаежности каждому из эталонных классов, либо на вычислении сходства описания текущей ситуации с каждой из эталонных ситуаций, с последующим выбором решения, соответствующего тому классу или той эталонной ситуации, которой данная ситуация принадаежит с наибольшей степенью. Такие модели принятия решений (МПР), следуя [5], будем называть нечеткими классификационными моделями.
В работе рассмотрена процедура кластеризации нечетких ситуаций.
Задача кластеризации состоит в разбиении множества объектов на несколько подмножеств (классов, кластеров), в которых объекты более схожи между собой, чем с объектами из других кластеров. Чтобы сформировать на множестве объектов кластер, необходимо, в первую очередь, ввести меру сходства (подобия), которая может быть положена в основу правила отнесения объектов к кластеру, характери-зируемому некоторым центром (этадоном, представителем). Для кластеризации наиболее часто используют метод /^-средних, который основан на минимизации суммы квадратов расстояний между каждым из исходных объектов и центром его кластера [6].
Одной из важных задач, которую необходимо решать при построении клас,
( ), . -
бы нахождения для каждого класса своего представителя - эталона класса рассмотрены авторами в [7]. При проведении процедуры кластеризации методом /^-средних представители (этадоны) классов находятся в процессе разбиения объ-
( ) .
Процедура кластеризации методом /^-средних состоит из следующих шагов:
♦ выбираются или назначаются к объектов, которые будут первичными центрами кластеров;
♦
;
♦ текущие координаты первичных кл астерных центров заменяются на кла-
;
♦ предыдущие два шага повторяются до тех пор, пока изменения координат кластерных центров не станут минимальными.
Нами предлагается адаптация процедуры кластеризации к условиям нечетко , .
Для разбиения множества из N объектов (си^аций) на классы (кластеризация по сходству описаний) необходимо определить степень сходства (или расстояние) для каждой пары ситуаций из заданного множества. Поскольку каждая ситуация описывается совокупностью нечетких множеств, то при определении близости (степени сходства или несходства) ситуаций можно использовать те же формулы, по которым сравниваются нечеткие множества.
Пусть на базовом множестве X = {хь х2, ..., хп} заданы нечеткие множества: Л={м(*)М и В ={Мв(*)/*}, где хеХ, Ца(х), £1в(х) е [0, 1]. Для определения степени сходства (несходства) нечетких множеств А и В применяют различные меры близости и расстояний, в частности, меры сходства Дейка, Танимото, расстояние Хэмминга и др. [5].
Предлагается на всех этапах построения и применения классификационных МПР оперировать не значениями дискретных функций принадлежности сравниваемых нечетких множеств, а их репрезентативными числами [6]. В качестве репрезентативного числа гА, характеризующего данное нечеткое множество А, будем использовать значение центра масс (тяжести) его функции принадлежности, которое определяется по формуле:
п
Ем(х) • х
Га = ^----------------------------------------------. (1)
Емл(х)
1=1
В нечетких множествах второго уровня элементами базового множества являются словесные (лингвистические) строго упорядоченные (по индексам 1) значения 1Ь поэтому в формуле для получения репрезентативного числа гА такого нечеткого множества в качестве значения базовой переменной 1 правомерно использовать ее порядковый номер - индекс 1 [6]. Тем самым, формула (1) примет вид:
п
ИМл ({,) • 1
ГА = ^--------------------------------------------- . (2)
Ё Мл (11)
1=1
Поскольку любая ситуация задана нечеткими значениями каждой из к лин-( ), -строения усредненной ситуации необходимо для каждого нечеткого множества рассчитать репрезентативное число г (выполнить переход от нечеткого представления к четкому). В результате каждая из N ситуаций будет представлена репрезентативным вектором (РВ) Я=(г1, г2,... гк), состоящим из к репрезентативных чи-(к - , ). также будет представлена аналогичным репрезентативным вектором Кср, каждый элемент г1* (1 = 1, 2, ..., к) которого получен как среднее арифметическое соответствующих 1-х элементов всех N векторов К
Рассмотрим предложенный способ нахождения представителя класса нечетких ситуаций на конкретном примере.
Пусть С = {сь с2, с3, с4} - множество признаков, значениями которых описываются ситуации, возникающие на объекте управления. Каждый признак х1 соответствует лингвистической переменной (ЛП), множество значений 1 (термов) которой обозначим через Т. Значение каждой ЛП в описании ситуации задается нечетким множеством второго уровня в = {<ц0(11)/11>}, где базовым множеством яв- . -.
- ( ), силу их однотипности, примем одинаковыми: Т = {10 - несущественный уровень; 11 - очень низкий уровень; 12 - низкий уровень; 13 - средний уровень; 14 - высокий уровень; 15 - очень высокий уровень; 16 - значительный уровень}. Приведенные
11 , , -
ми первого уровня, функции принадлежности которых будем представлять нечеткими треугольными функциями или, иначе, нечеткими треугольными числами, определенными на базовом множестве и= {0; 0,17; 0,33; 0,5; 0,67; 0,83; 1}. Нечеткие треугольные или трапециевидные числа являются частным случаем функций принадлежности типа (Ь-Я), которые широко используются для описания экспертных суждений [3, 5, 7].
Зададим некоторое значение ЛП (признака) следующим нечетким множе-
ством: {<0/несущественный уровень>, <0/очень низкий ур.>, <0/низкий ур.>, <0/средний ур.>, <0,7/высокий ур.>, <0,7/очень высокий ур.>, <0/значительный .>}.
термов (низкий ур., средний ур. и т.д.) их обозначениями ti (1 = 0, 1, ..., 6) в терм-множестве Т. Получим для с\ запись: {<0Л0>, <0/tl>, <0Л2>, <0/tз>, <0,7/t4>, <0,7/t5>, <0/t6>}
Пусть задано множество £ = {£ь £2, £3, £4}, состоящее из следующих 4 нечетко описанных ситуаций:
1
Набор нечетко описанных ситуаций
т 0 1 2 3 4 5 6
Несу- ществ. Г0 Очень низкий Г1 Низкий Г2 - ний Г3 Высокий t4 Очень высокий ч - тельный t6
и 0 0,17 0,33 0,5 0,67 0,83 1
Яі
С1 0 0 0 0 0,3 1,0 0,3
С2 0 0 0 0,7 0,7 0 0
С3 0 0 0,3 1,0 0,3 0 0
С4 0 0 0 1,0 0 0 0
С1 0 0 0,3 1,0 0,3 0 0
С2 0 0 0 0 0,3 1,0 0,3
С3 0 0 0 0 0 0,7 0,7
С4 0 0 0 0 0,2 0,9 1,0
С1 0 0 0 0 0,7 0,7 0
С2 0 0 0 0 0,7 0,7 0
С3 0 0 0,3 1,0 0,3 0 0
С4 0 0 0 0 1,0 0 0
С1 0 0 0 0,2 0,5 0,7 1,0
С2 0 0 0 0,2 0,5 0,7 1,0
С3 0 0 0 0 0,2 0,9 1,0
С4 0 0 0 0,2 0,5 0,7 1,0
Проиллюстрируем процедуру кластеризации методом /^-средних. Построим матрицу сходства объектов по критерию:
С(А,В) = 1
ЕI На (X)-Нв (X )1
І=1____________________
п п
Е На (X) + Е Нв (X)
І=1 І=1
где п - мощность базового множества X.
Я
2
Я
3
Я
4
п
Преобразуем транзитивную матрицу сходства в матрицу расстояний по формуле: Бу = 1 - Су. Получим табл. 2.
Таблица 2
Матрица расстояний
^3 S4
Sl 0 0,60 0,46 0,60
0,60 0 0,60 0,35
^3 0,46 0,60 0 0,60
^4 0,60 0,35 0,60 0
Производим разбиение объектов на классы.
1. Задаем количество классов К=2. В качестве центров кластеров зададим объекты: 21(1) = 51; г2(1) = 52.
2. По матрице расстояний (табл. 2) проверяем расстояние объектов до центров кластеров: 5 - гг-(1)| < 5 - ^(1)|, где / = 3, 4; ] = 1, 2; если это неравенство выполняется, то Si принадлежит первому классу, если не выполняется, то Si принадлежит второму классу.
, :
Л(1) = {5!, 53}, Р2(1) = №, ^ }.
3. .
На этом этапе предлагается каждый объект исходного множества объектов представить репрезентативным вектором Я = (гь г2, ..., гк), состоящим из к репрезентативных чисел, рассчитанных по формуле (2).
Применение репрезентативного представления объектов позволяет работать со средними значениями РВ без восстановления нечеткого описания объектов на каждом этапе алгоритма.
Для отыскания РВ каждого объекта вычислим значения репрезентативных чисел г/ (/ = 1, ..., 4) для каждого признака. Полученные значения представим в табл. 3.
Таблица 3
Представление исходных ситуаций посредством РВ
Sl ^3 ^4
Сі 5,0 3,0 4,5 5,1
С-2 3,5 5,0 4,5 5,1
С-3 3,0 5,5 3,0 5,4
С4 3,0 5,4 4,0 5,1
Затем найдем среднее арифметическое значений г/ объектов каждого класса по каждому из признаков. Полученные значения представлены в табл. 4, 5.
Таблица 4
Значения элементов центра первого кластера
Гі ВД) ВД) ^(2)=Яср 1={Гі}
с-1 5,0 4,5 4,8
С-2 3,5 4,5 4,0
С-3 3,0 3,0 3,0
С4 3,0 4,0 3,5
Таблица 5
Значения элементов центра второго кластера
Гі ^2(^2) ВД) Z2(2)=Rcp 2={г,]
с-1 3,0 5,1 4,0
с2 5,0 5,1 5,0
С3 5,5 5,4 5,5
С4 5,4 5,1 5,2
Гі
классе дает РВ, соответствующие новым усредненным объектам (центрам) полу.
Так как 71(1) Ф ^1(2), 72(1) Ф г2(2), необходимо пересчитать расстояния от объектов множества до новых центров кластеров.
4. -
тивами воспользуемся формулой Хэмминга:
к
ЕХЗ„ ч) = £|Г'-г/|. (3)
I =1
.6.
Таблица 6
Расчет расстояний объектов до центров кластеров
Zl(2) Sl ^2 ^3 ^4
С1 4,8 0,3 1,8 0,3 0,3
С2 4,0 0,5 1,0 0,5 1,1
Сі 3,0 0,0 2,5 0,0 2,4
С 4 3,5 0,5 1,9 0,5 1,6
Ср. арифметическое 0,3 1,8 0,3 1,4
Z2(2) Sl S2 Sз S4
с-1 4,0 1,0 1,0 0,5 1,0
С2 5,0 1,5 0,0 0,5 0,0
С-3 5,5 2,5 0,0 2,5 0,0
С4 5,2 2,2 0,2 1,2 0,2
Ср. арифметическое 1,8 0,3 1,2 0,3
Номер кластера 1 2 1 2
, :
Р\(2) = {51, 53}, Р2(2) = {52, 54}.
5. :
7
Центры кластеров на третьей итерации
^(3) Z2(3)
С1 4,8 4,0
с2 4,0 5,0
С'3 3,0 5,5
С'4 3,5 5,2
Так как 7^3) = ^(2), 72(3) = г2(2), выполнение алгоритма закончено, получено искомое разбиение на 2 класса: Р^2) = {51, 53}, Р2(2) = {52, 54}. Эталонные элемен-( , ) .
Так как алгоритм кластеризации методом /Г-средних предполагает заранее заданное количество кластеров, оценка результатов процесса кластеризации может быть проведена посредством анализа расстояний между центрами классов и расстояний между объектами одного класса. В нашем случае подобный анализ пока, -.
Предложенный способ представления объекта посредством РВ выгодно использовать (с точки зрения трудоемкости вычислений) и при сравнении некого нового объекта (си^ации) с эталонами классов. Для этого необходимо получить РВ для исследуемого объекта (дая каждого представителя классов соответствующие РВ получены заранее). Расстояние D между объектами 50 и 5у определяется по формуле (3). Ближайшим к анализируемому объекту 50 считаем тот из 5^ до которого расстояние D(50, 5^ меньше, чем для остальных эталонов.
В реальных условиях значимость выбранных параметров для оценки ситуаций не всегда одинакова. С точки зрения экспертов, одни из них более весомы, другие менее. Эта информация может изменить состав выделенных классов и, со, -. -
дения среднего взвешенного значений сходства объектов по каждому из выбран.
Рассмотренные метод кластеризации нечетких ситуаций и метод распознавания текущей ситуации позволяют строить классификационные модели принятия
, -
лученной от экспертов и находить лучшее решение в конкретной сложившейся .
Переход от нечеткой функции принадлежности к ее репрезентативному значению не приводит к потере информации об объекте и является допустимым в
рамках процедуры кластеризации. Данные выводы подтвердились в процессе про,
также и методом иерархической агломеративной процедуры кластеризации, и в результате были получены абсолютно идентичные представители классов.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Мелихов А.Н., Берштейн Л.С., Коровин С.Я. Ситуационные советующие системы с нечеткой логикой. - М.: Наука, 1990. - 272 с.
2. . ., . .
решений в условиях нечеткости, неопределенности и многокритериальности // Вестник Таганрогского института управления и экономики. - 2007, № 1(5). - С.73-77.
3. . ., . . -
ского вывода // Информационные технологии. - 2007, №7. - С.12-18.
4. . . -
женных решений. - М.: Мир,1976. - 168 с.
5. . ., . ., . . -
рированных интеллектуальных системах. - Ростов-на-Дону: РГУ, 1999. - 276 с.
6. Ту Дж, Гонсалес Р. Принципы распознавания образов // Пер. с англ. И.Б. Гуревича под ред. Ю.И. Журавлева. - М.: Мир, 1978. - 414 с.
7. . ., . .
построении модели принятия решений // Известия вузов Северо-Кавказский регион. Технические науки. - 2008, №4. - С. 50-54.