2009
Доклады БГУИР
№ 6 (44)
УДК 510.22+519.237.8
АНАЛИЗ УСТОЙЧИВОСТИ КЛАСТЕРНОЙ СТРУКТУРЫ В ЗАДАЧАХ НЕСТАЦИОНАРНОЙ КЛАСТЕРИЗАЦИИ
ДА. ВЯТЧЕНИН
Объединенный институт проблем информатики НАН Беларуси Сурганова, 6, Минск, 220012, Минск, Беларусь
Поступила в редакцию 24 февраля 2009
Формулируется задача определения устойчивости кластерной структуры при автоматической классификации объектов с варьирующимися в интервале значениями признаков и представлен метод ее решения, основанный на эвристическом алгоритме возможностной кластеризации.
Ключевые слова: возможностная кластеризация, распределение по нечетким кластерам, типичная точка, динамические признаки, устойчивость кластерной структуры.
Введение
В задачах кластеризации, именуемых также задачами автоматической классификации, необходимо принимать во внимание, что признаки классифицируемых объектов могут изменять свои значения с течением времени или при наличии внешних воздействий. Объекты, характеризующиеся подобными признаками, называются динамическими [1], нечеткими [2], либо объектами с динамическими признаками [3]. Естественно, что кластерная структура исследуемой совокупности, состоящей из таких объектов, также является динамической и зависит от значений признаков и их количества в момент классификации.
Задачи автоматической классификации динамических объектов условно объединяются в класс задач нестационарной кластеризации, который, в свою очередь, включает в себя ряд подклассов задач, таких, например, как задачи структурно-классификационного прогнозирования многомерных динамических объектов [1], задачи динамической кластеризации [4] и задачи кластеризации так называемых многонаправленных данных [5, 6]. Следует отметить, что основой существующих методов решения всех перечисленных типов задач являются методы нечеткой кластеризации [7], в которых результатом классификации является не только отнесение / -го объекта исследуемой совокупности X = {х1,...,хп) к 1-му
классу А1, / = 1,..., с, но и указание функции принадлежности |дй е [0,1], / = 1,..., с, г = 1,..., п ,
с которой объект хгеХ V г = 1, ...,п, принадлежит нечеткому кластеру А1,1 = 1..... с. Разновидностью методов нечеткой кластеризации являются методы возможностной кластеризации [8], специфика которых заключается в том, что структура, образуемая нечеткими кластерами, удовлетворяет условию возможностного разбиения, являющегося менее жестким, чем условия нечеткого разбиения или нечеткого покрытия, и значения принадлежности интерпретируются как степени типичности объекта хг нечеткому кластеру, а функция принадлежности интерпретируется как функция распределения возможностей.
В статье на содержательном уровне формулируется задача построения устойчивой кластерной структуры совокупности объектов с варьирующимися в интервале значениями
признаков и представлен метод определения устойчивости кластерной структуры, в основе которого лежит алгоритм построения распределения объектов по нечетким а-кластерам.
Постановка задачи
В задачах кластеризации данные об исследуемой совокупности традиционно
представлены матрицей Хпхт1 = [х/1 ], /=1 ,...,п, ^ где хг, / = 1 — объекты
исследуемой совокупности X, а х1, — значения признаков объектов е X .
каждый из которых, таким образом, представляет собой точку в шх -мерном признаковом
пространстве. Данные об объектах исследуемой совокупности именуются многонаправленными, если они содержат также информацию о значениях признаков объектов в различных состояниях — в случае, когда данные представляют собой описание вида "объект-признак-состояние", так что каждый признак х'. описывается т2 -мерным
вектором значений х'1 = (х'1..... х'1 <"'2]) и каждый объект х1■ , г — \,...,п, исследуемой совокупности X может быть представлен матрицей вида Хй = [х/1^2-1 ], Хг—\,...,тг [3], данные именуются тринаправленными [5]. В [5] задача кластеризации многонаправленных данных состоит в построении нечеткого с -разбиения исследуемой совокупности п объектов X = {х1,...,хп} на априори известное число классов, и ее решение основано на многокритериальной оптимизации, а в [6] задача состоит в построении возможностного разбиения объектов х;е1, /=1,...,п, на заданное с число классов, однако основой предложенного метода является построение матрицы слабой нечеткой толерантности, представляющей геометрическую структуру исследуемой совокупности объектов.
В задачах динамической кластеризации предполагается, что каждый объект хг,
/ = 1,...,и, исследуемой совокупности X характеризуется я?, -мерным вектором признаков, измеренных в дискретные моменты времени 12 е {1 ,...,т2} , так что объект х; е X в момент
времени t2 представляется точкой х'2 = (х,"'2'..... х'1 ('2'..... х"'1 ]). причем число объектов не предполагается фиксированным, так как при анализе кластерной структуры рассмотрению подлежат только объекты, которые фиксировались в момент, предшествовавший текущему, и задача заключается в обнаружении временного изменения кластерной структуры с ее последующей коррекцией [4].
В свою очередь, в задачах структурно-классификационного прогнозирования многомерных динамических объектов [1] число классов с, как и число объектов исследуемой совокупности п, предполагается известным, и задача состоит в прогнозировании класса каждого объекта хг еХ, описанного в виде ху = (х;"'2'.....х;''('2'.....х'"1 ') У/2 = 1.....т2. в момент времени т2 +1.
Вместе с тем признаки х'1, /, —\.....тл объектов х; еХ могут принимать не какое-то конкретное значение в некоторый дискретный момент времени /2 е {\... ..т2 ). и, таким образом, описываться вектором значений х'1 = (х'1..... х'1 <"'2'). а принимать значения в непрерывном интервале безотносительно к моменту измерения соответствующей характеристики объекта, так что каждый признак х'1. для объекта х., / = 1,..п
?
представляет собой интервал значений [Хс^™^, х. В подобной ситуации кластерная структура исследуемой совокупности X также является динамической, однако в ряде задач оказывается важным установить, образуют ли классифицируемые объекты устойчивую кластерную структуру. В [4] выделяются следующие основные типы динамических изменений кластерной структуры, образуемой объектами исследуемой совокупности с течением времени:
1) образование новых кластеров;
2) слияние кластеров;
3) расщепление или дробление кластеров;
4) элиминация или исчезновение кластеров;
5) дрейф прототипов кластеров.
Как отмечается в [4], первые четыре типа изменений кластерной структуры носят скачкообразный характер, тогда как пятый тип изменений кластерной структуры носит непрерывный, и, как правило, латентный характер. Вместе с тем изменение координат прототипов кластеров указывает, с одной стороны, на потенциальное изменение числа кластеров, а с другой — на геометрическую форму, и, как следствие, свойства кластеров рассматриваемой структуры, что имеет большое значение в практических приложениях. Следует отметить, что подобные изменения кластерной структуры могут иметь место не с течением времени, а зависеть от значений признаков объектов исследуемой совокупности, которые могут изменяться не только с течением времени, но и в зависимости от характера внешней среды.
Содержательно задача построения устойчивой кластерной структуры, в общем, может быть сформулирована следующим образом: найти такое априори неизвестное число c областей
признакового пространства 91™, в которых отображаются кластеры, при различных значениях
принимаемых объектами исследуемой совокупности X признаков х1, tl = 1, ...,т1,
варьирующихся в интервале [xt1mn , x^limx ] .
Для построения устойчивой кластерной структуры исследуемой совокупности объектов в первую очередь необходимо установить тип динамических изменений кластерной структуры. Если при изменении в соответствующем интервале [xt1mm , xt1maax] значений признаков xt1, t1—\,...,m1, объектов хгеХ исследуемой совокупности число с кластеров ¡А'..... Ас} не изменяется и не изменяются координаты их прототипов {г1..... г' }. то структура, образуемая кластерами {A1,..., Ac} , будет именоваться устойчивой, если с изменением значений признаков объектов число c кластеров {Al,... , Ac } не изменяется, но изменяются координаты их прототипов {г1,...,гс}, то соответствующая кластерная структура будет именоваться квазиустойчивой, а если при изменении значений признаков наблюдаемых объектов хг е X изменяется число c кластеров, то кластерная структура будет именоваться неустойчивой. Первые четыре из перечисленных выше типов динамических изменений обуславливаются неустойчивой кластерной структурой, а пятый тип изменений определяется квазиустойчивой кластерной структурой. Таким образом, задача заключается в определении типа кластерной структуры совокупности объектов с варьирующимися в интервале значениями признаков.
Эвристический метод возможностной кластеризации
В [9] предложен эвристический метод нечеткой кластеризации, заключающийся в построении распределения по априори задаваемому числу с нечетких а -кластеров, удовлетворяющих введенному определению, в силу чего базовая версия алгоритма, являющаяся процедурой прямой классификации, от аббревиатуры английских терминов direct — прямой и allotment among fuzzy clusters — распределение по нечетким кластерам, получила обозначение D - A F С (с) -ал горит ма [10]. Если X = {х1,...,хй} — совокупность объектов, на которой определена нечеткая толерантность Т с функцией принадлежности juT (хг. х ,). i,j — \,...,n, т.е. бинарное нечеткое отношение на X, удовлетворяющее условиям симметричности и рефлексивности, и информация об X представлена в виде матрицы коэффициентов близости рп/п = [ц7 (xr,xj)] • так что строки или столбцы этой матрицы
являются нечеткими множествами {А1,...,А"}, то для некоторого а, а е ( 0,1]. нечеткое множество уровня а, определяемое условием А'а) = {(хг, ц ,, (хг)) | ц ,, (хг) > а}, / е [1, п\, такое,
что А!а) ci А1, А1 е {А1..... А"). будет называться нечетким а-кластером с функцией
»
принадлежности \iu объекта хг е X нечеткому а -кластеру Д.',, ., определяемой выражением
ГцДхД xteAl
, (!)
[О, иначе
где Äa={xi&X\\x ¡{х^)>а.} — а-уровень А1, /е{1, ...,п) . Объект х;е1, обладающий
наибольшим значением функции принадлежности \iu некоторому нечеткому а -кластеру ,,
именуется его типичной точкой и обозначается т', а функция принадлежности, определяемая выражением (1), показывает степень сходства i -го объекта множества X с типичной точкой х' соответствующего нечеткого а -кластера. Следует отметить, что в соответствии с принятой в [9] терминологией, функция принадлежности (1Й в смысле выражения (1) интерпретируется
как степень типичности i -го объекта для / -го нечеткого а -кластера, и термин "типичность" использовался в [9] для определения содержательного смысла функции принадлежности (1) независимо от работы Р. Кришнапурама и Дж.М. Келлера [8]. В свою очередь, если условие
с
цй >0, >0,/ = 1,...,с, 7 = 1,...,и (2)
i=i
выполняется для всех А'(/} е R" (X). где R'' (Х) — {Д:'(/ . / = 1,с, 2 < с < // J — семейство с
нечетких а -кластеров для некоторого значения а, порожденных нечеткой толерантностью Т , заданной на множестве объектов X, то это семейство является распределением множества классифицируемых объектов X по с нечетким а -кластерам. Условие (2), представляющее собой условие возможностного разбиения [8], требует, чтобы все объекты совокупности X были распределены по с нечетким а-кластерам {А)ц ;i ,..., Д.^ ;i \ с положительной степенью
принадлежности \iu, / = 1,...,с, i — \,...,n. Таким образом, распределение по нечетким
а -кластерам представляет собой частный случай возможностного разбиения, и соответствующая процедура представляет собой эвристический алгоритм возможностной кластеризации [10].
Сущность D-AFC(c)-aiiropHTMa заключается в построении множества допустимых решений В (с) = {i?"(X)} для с классов с последующим выбором в качестве решения задачи
классификации некоторого единственного распределения R*(X)gB(c). Выбор R* (X)
основывается на вычислении для всех распределений R" {X) е В(с) критерия, определяющего качество каждого распределения:
с 1 "i
F(i?:(I),a) = X-&S" «с, (3)
1=1 П1 i=\
где //, = сагс1(Д';) — мощность носителя нечеткого множества Д'(/| е R' (X). / е {1..... с}.
a е (0,1], так что критерий (3) определяет среднюю суммарную принадлежность объектов
исследуемой совокупности X нечетким а-кластерам {Д1,^,..., Д'(;;| \ распределения R''(X) за
вычетом величины а с, регуляризующей число классов в R" {X), и наилучшему из множества
В(с) распределению объектов R (X) соответствует максимальное значение (3), так что решение задачи состоит в построении распределения, удовлетворяющего условию
R* (X) = arg max F(R°(X), а). (4)
Результатом работы D-AFC(c)-anropHTMa будет не только распределение R*(X) объектов исследуемой совокупности X по заданному числу с нечетких а -кластеров, но и соответствующее значение порога сходства а.
Как указывалось выше, D-AFC(c)-arropmM представляет собой базовую версию кластер-процедуры, в работе [11] предложена ее модификация, использующая транзитивное замыкание нечеткой толерантности, в силу чего от аббревиатуры выражения transitive closure — предложенная в [11] процедура получила условное обозначение D-AFC-TC-алгоритма. Так как транзитивное замыкание нечеткой толерантности представляет собой нечеткую эквивалентность, разбивающую предметную область на непересекающиеся классы, то для
распределений iÇ (X) различных уровней а число нечетких кластеров с будет различным, и задачей классификации является выделение априори неизвестного числа нечетких а -кластеров, для чего в последовательности 0 < а0 < ... < а, < ... < az =1 на основе вычисления скачка значений порога а определяется такое , которому соответствует некоторое неизвестное "естественное" число нечетких а -кластеров с . Помимо того, что D-AFC-TC-алгоритм отыскивает априори неизвестное число с нечетких а -кластеров, отличающими его от D-AFC(c)-алгоритма особенностями являются, во-первых, то, что для D-AFC-TC-алгоритма матрицей исходных данных является матрица "объект-признак" и для решения задачи классификации используются как критерий (5), так и некоторая метрика d(x, x . ) , в качестве
которой могут выступать относительное обобщенное расстояние Хемминга, относительное евклидово расстояние или относительная евклидова норма [12], а во-вторых, то, что результатом работы D-AFC-TC-алгоритма будут также координаты прототипов {т1,...,тс} нечетких а-кластеров {Д.'(/.,..., AcUi) } распределения 11 (X).
Метод определения устойчивости кластерной структуры
Для определения типа кластерной структуры предполагается, как это рассматривается в [13], классифицировать исследуемую совокупность объектов для предельных значений их признаков, т.е. исходными данными для решения задачи классификации является матрица
значений признаков = [i?lmin ], / = 1,...,//. =1,...,от,. где i?lmin соответствует
наименьшему значению ^ -го признака для i -го объекта, и матрица значений признаков = [.€""" ]. / = 1,...,//. tx =\,...,т1, где i?lm" соответствует наибольшему значению /, -го
признака для / -го объекта. Особенности D-AFC-TC-алгоритма, заключающиеся в автоматическом определении числа с нечетких а -кластеров вместе с их прототипами, позволяют использовать его для решения стоящей задачи. Таким образом, предлагаемый метод определения типа кластерной структуры заключается в построении матриц X™" = [.€'""" ] и
= [£"llir': ] с их последующей обработкой D-AFC-TC-алгоритмом при выбранном исследователем способе нормировки и расстоянии между нечеткими множествами с последующим сопоставлением числа с нечетких а-кластеров в распределениях R*(X), координат их прототипов и значений принадлежности объектов, полученных при обработке каждой из двух матриц. В отличие от предлагаемого подхода, изложенный в [13] метод состоит в построении нечеткого c -разбиения каждой из матриц с последующим рассмотрением изменений значений принадлежностей объектов классам нечеткого c -разбиения для задаваемого исследователем числа c классов, что является сильным допущением.
Иллюстративный пример
Эффективность предложенного подхода к определению устойчивости кластерной структуры целесообразно проиллюстрировать на примере, и для проведения вычислительного
эксперимента были выбраны представленные в табл. 1 тестовые данные о 8 объектах, описываемых тремя признаками, каждый из которых принимает значение в интервале [13].
Таблица 1. Тестовые данные М. Сато - Илик и Л. Джейна
Номер объекта Номера признаков
1 2 3
1 [10, 101 [1, И [2, 2]
2 [9, 9] [3, 3] [4, 4]
3 [13, 13] [3, 3] [2, 2]
4 [14, 14] [4, 4] [5, 5]
5 [4, 81 [11, 1Ц [2, 12]
6 [6, 101 [9, 9] [1, 8]
7 [2, 111 [10, 10] [1, 11]
8 [3, 9] [8, 8] [2, 9]
Обозначая объекты символами хг, i — 1,.. .,8 , а признаки — соответственно символами х'. = 1... ..3. были получены две матрицы "объект-признак" X'™" = |х;''""" ] и = |х'1 '""х ],
обработанные с помощью нормализации
х
х} =-, i = l,...,n, t1=l,...,m1, (5)
max x'1
i 1
вследствие чего каждый объект может интерпретироваться как нечеткое множество на
универсуме признаков с функцией принадлежности ¡л (х'1), i — \,...,n, с последующим
использованием в D-AFC-TC-алгоритме относительного евклидова расстояния [12] между нечеткими множествами:
е(хг,х]) =
1 А 2
X ИхД^О-Цх/^1) » i = l,...,n, tx =\,...,Щ, (6)
щ t=l
и применением операции дополнения для построения нечеткой толерантности [11].
Значения принадлежностей объектов, полученные в результате обработки матриц
А^""' =|х'||П|П | и =|х'|п"ч: | Б-АРС-ТС-алгоритмом, приведены на рисунке.
а б
Значения принадлежностей объектов двум классам при кластеризации по наименьшим (а) и наибольшим
(б) значениям динамических признаков
В свою очередь, в табл. 2 приведены координаты прототипов двух нечетких а -кластеров, полученных в обоих случаях распределений К* (X).
Поскольку число классов в обоих распределениях оказывается одинаковым, а координаты прототипа нечеткого а -кластера, соответствующего второму классу, в зависимости от вида обрабатываемой матрицы исходных данных оказываются различными, очевидно, что кластерная структура является квазиустойчивой.
При обработке матрицы При обработке матрицы
Номер класса наименьших значении признаков наибольших значений признаков
номера признаков номера признаков
1 2 3 1 2 3
1 11,5 2,75 3,25 11,5 2,75 3,25
2 3,75 9,5 1,5 9,5 9,5 10
Следует отметить, что для первых четырех объектов исследуемой совокупности, как следует из табл. 1, значения признаков не изменяются, как и не изменяются координаты прототипа нечеткого а-кластера, соответствующего первому классу, в котором оказались указанные объекты, при обработке как матрицы X™'" = [.€'""" ], так и матрицы = [£'""а": ],
однако для первого класса типичной точкой, т.е. объектом, обладающим наибольшей степенью принадлежности в смысле (1) к тому или иному классу, при обработке матрицы X"1"1 = [.в1""" ]
является второй объект, а при обработке матрицы ; = [£'|""г': ] — третий. Данное
обстоятельство, как и существенное изменение значений принадлежности объектов первого класса, обусловлено, в первую очередь, выбором (5) для нормировки исходных данных. Например, используя для нормировки исходных данных унитаризацию [10], а в качестве расстояния вместо (6) — относительную евклидову норму [12], в обоих случаях также было получено распределение по двум нечетким а -кластерам, но при обработке матрицы
— [.в1""" ] типичными точками нечетких а -кластеров оказались объекты х2 и х7, а при обработке матрицы = ] — объекты х3 и х8 соответственно, причем, как и
в рассмотренном случае, имел место дрейф прототипа второго класса.
Для детального анализа результатов эксперимента с целью сравнения представляется целесообразным привести результаты, представленные в [13], где исходные данные были разбиты на два класса БА^ЫУ-алгоритмом нечеткой кластеризации, предложенным Л. Кофманом и П.Дж. Рауссеу в [14].
Таблица 3. Результаты обработки тестовых данных FANNY-алгоритмом
Номер объекта Значения принадлежностей объектов классам
при обработке матрицы наименьших значений признаков при обработке матрицы наибольших значений признаков
1 2 1 2
1 0,86 0,14 0,87 0,13
2 0,82 0,18 0,82 0,18
3 0,90 0,11 0,88 0,12
4 0,84 0,16 0,76 0,24
5 0,09 0,91 0,15 0,85
6 0,18 0,82 0,15 0,85
7 0,09 0,91 0,12 0,88
8 0,11 0,89 0,13 0,87
Сравнительный анализ результатов, представленных на рисунке и в табл. 3 демонстрирует их некоторое сходство, однако из представленных в табл. 3 матриц нечетких с -разбиений однозначного вывода о типе кластерной структуры сделать нельзя, что наглядно демонстрирует преимущество предлагаемого подхода.
Заключение
Анализ приведенных результатов наглядно демонстрирует, помимо указанного по сравнению с методом М. Сато-Илик и Л. Джейна [13] преимущества, существенную особенность предлагаемого подхода, заключающуюся в возможности рассмотрения вместо изменения координат прототипов кластеров изменения номеров типичных точек нечетких
а -кластеров распределений Я* (X), полученных при обработке матриц Хпхт — [_^1тш ] и
= ]. Если в полученных распределениях число классов с остается неизменным и не
изменяются номера типичных точек нечетких а-кластеров — элементов полученных при
обработке матриц Х™1^ =[х'1тп] и X™™ =[х'1тах] распределений R (X). то даже в случае
дрейфа прототипов кластеров кластерная структура может считаться устойчивой, а дрейф прототипов — несущественным.
Направление дальнейших исследований определяется необходимостью обобщения предложенного в [6] подхода, позволяющего определять меру различия между динамическими объектами, на случай интервально-значных нечетких множеств с целью построения матрицы слабой нечеткой толерантности, представляющей геометрическую структуру исследуемой совокупности. Если в результате проведенного с помощью предложенного подхода анализа кластерная структура исследуемой совокупности окажется устойчивой или квазиустойчивой, то матрица слабой нечеткой толерантности должна разбиваться В-ЛРС(с)-алгоритмом на определенное в результате анализа число c классов. В случае если кластерная структура оказывается неустойчивой, то определяются значения наименее возможного с* и наиболее
возможного с* числа областей признакового пространства У?"'. в которых отображаются кластеры при различных значениях признаков, принимаемых объектами совокупности X, после чего матрица слабой нечеткой толерантности обрабатывается Б-ЛРС(с)-алгоритмом для всех се [с,, с*] с определением оптимального числа с на основе вычисления некоторого показателя валидности числа нечетких а -кластеров, разработка которого также представляет собой одно из направлений дальнейших исследований.
ANALYSIS OF THE CLUSTER STRUCTURE ROBUSTNESS IN NONSTATIONARY CLUSTERING PROBLEMS
DA. VIATTCHENIN Abstract
The problem of explaining of robustness of cluster structure in automatic classification of objects for varying in an interval attributes values is formulated and a method for the problem solving based on a heuristic algorithm of possible clustering is presented.
Литература
1. ДорофеюкЮ.А., Дорофеюк А.А. // Искусственный интеллект. 2006. № 2. С. 138-141.
2. ZakL. // Archivum Mathematicum. 2002. Vol. 38. P. 37-50.
3. Вятченин Д.А. // Вестник Военной академии Республики Беларусь. 2005. № 3. С. 32-37.
4. Гимаров В.А., Дли М.И., Битюцкий С.Я. // Нефтегазовое дело. 2004. № 2. С. 203-209.
5. Sato M., Sato Y. // Int. J. of Uncertainty, Fuzziness and Knowledge-Based Systems. 1994. Vol. 2. P. 127-142.
6. Viattchenin D.A. // J. of Uncertain Systems. 2009. Vol. 3. P. 64-80.
7. Вятченин Д.А. Нечеткие методы автоматической классификации. Минск, 2004.
8. Krishnapuram R., Keller JM. // IEEE Trans. on Fuzzy Systems. 1993. Vol. 1. P. 98-110.
9. Viattchenin D.A. // Control & Cybernetics. 2004. Vol. 33. P. 323-340.
10. Вятченин Д.А. // Вести Института современных знаний. 2008. № 3. С. 205-216.
11. Вятченин Д.А. // Искусственный интеллект. 2007. № 3. С. 205-216.
12. Кофман А. Введение в теорию нечетких множеств. М., 1982.
13. Sato-IlicM., Jain L.C. Innovations in Fuzzy Clustering: Theory and Applications. Heidelberg, 2006.
14. Kaufman L., Rousseeuw P.J. Finding Groups in Data: An Introduction to Cluster Analysis. N.Y., 1990.