Научная статья на тему 'Совместном использовании методов кластерного анализа многомерных данных'

Совместном использовании методов кластерного анализа многомерных данных Текст научной статьи по специальности «Математика»

CC BY
359
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
кластерный анализ / K-Means / Tree Clustering / Fuzzy Relation Clustering / BelSim / STATISTICA / MS Excel

Аннотация научной статьи по математике, автор научной работы — А И. Якимов, Е М. Борчик, В В. Башаримов

Предложена процедура проверки и уточнения результатов разделения многомерных наблюдений на кластеры с использованием нескольких методов кластерного анализа. В результате разбиения множества X на кластеры каждый из методов ставит в соответствие номерам элементов множества X соответствующие им номера кластеров. Показано, что в случае, если элементы множества X представляют собой наблюдения n параметров множества объектов, то результат кластеризации X может быть интерпретирован как матрица вероятностей принадлежности объектов определенным кластерам. Предложен критерий принадлежности объекта определенному кластеру, получена формула вычисления значений элементов обобщенной матрицы через элементы матриц вероятностей принадлежности объектов определенным кластерам. Экспериментальные исследования проведены с использованием методов кластерного анализа K-Means, Tree Clustering, Fuzzy Relation Clustering и программно-технологического комплекса имитации сложных систем BelSim, пакета статистической обработки данных STATISTICA, табличного процессора MS Excel.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT JOINT USE OF METHODS OF MULTIDIMENSIONAL DATA CLUSTER ANALYSIS

A procedure of validation and refinement of assignment of multidimensional observations into clusters is given. Every clustering method divides the set X into the clusters and assigns numbers of members of the set X to numbers of the clusters that corresponding to them. It is shown that if the members of the set X are observations of n parameters of a set of objects, then the result of clustering of X can be interpreted as a matrix of probability of object membership to clusters. Criterion of the object membership to the cluster is introduced; a formula to calculate values of elements of generalized matrix based on elements of the matrices of probability of object membership to clusters. Clustering methods K-Means, Tree Clustering, Fuzzy Relation Clustering and software engineering kit for computer simulation BelSim, statistics and analytics software package STATISTICA, spreadsheet application Microsoft Excel are used to perform an experimental research.

Текст научной работы на тему «Совместном использовании методов кластерного анализа многомерных данных»

Доклады БГУИР

2011 №5 (59)

УДК 004.8

О СОВМЕСТНОМ ИСПОЛЬЗОВАНИИ МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗА

МНОГОМЕРНЫХ ДАННЫХ

А.И. ЯКИМОВ, Е.М. БОРЧИК, ВВ. БАШАРИМОВ

ГУВПО «Белорусско-Российский университет», пр. Мира, 43, Могилев, 212000, Беларусь

Поступила в редакцию 31 мая 2011

Предложена процедура проверки и уточнения результатов разделения многомерных наблюдений на кластеры с использованием нескольких методов кластерного анализа. В результате разбиения множества X на кластеры каждый из методов ставит в соответствие номерам элементов множества X соответствующие им номера кластеров. Показано, что в случае, если элементы множества X представляют собой наблюдения n параметров множества объектов, то результат кластеризации X может быть интерпретирован как матрица вероятностей принадлежности объектов определенным кластерам. Предложен критерий принадлежности объекта определенному кластеру, получена формула вычисления значений элементов обобщенной матрицы через элементы матриц вероятностей принадлежности объектов определенным кластерам. Экспериментальные исследования проведены с использованием методов кластерного анализа K-Means, Tree Clustering, Fuzzy Relation Clustering и программно-технологического комплекса имитации сложных систем BelSim, пакета статистической обработки данных STATISTICA, табличного процессора MS Excel.

Ключевые слова: кластерный анализ, K-Means, Tree Clustering, Fuzzy Relation Clustering, BelSim, STATISTICA, MS Excel.

Введение

В имитационном моделировании часто возникает необходимость анализа многомерных данных, полученных при проведении имитационных экспериментов, в частности - задачи разделения множеств данных X с Rn на непересекающиеся подмножества. Для решения данной задачи используются методы кластерного анализа.

Пусть в ходе имитационных экспериментов получено множество наблюдений X = {x.\x. е Rn, i = 1,..., m}, которое необходимо разбить на непересекающиеся подмножества (кластеры).

При решении такой задачи используются методы кластерного анализа, основанные на использовании матриц сходства, эвристических алгоритмов перебора, идей математического программирования, на оценивании функций плотности статистического распределения и др. [1, 2]. В результате анализа существующих методов кластеризации разработана их классификация [3, 4]. Для исследования выбраны методы кластеризации, являющиеся представителями основных методологических подходов к разделению исходного множества объектов на кластеры: K-Means, Tree Clustering, Fuzzy Relation Clustering (FRC).

Метод K-Means строит заданное количество кластеров, но требует охвата каждого кластера отдельным выпуклым множеством. Методы Tree Clustering и FRC не имеют этого ограничения, но не гарантируют построения заданного количества кластеров. Следует отметить, что метод FRC наиболее точен, но характеризуется трудоемкостью 0(n4) от числа элементов.

Гарантированное разбиение множества X на кластеры предполагает использование нескольких методов кластеризации для проверки и уточнения результатов. Вначале разбиение

производится двумя методами. Если результаты разбиений не совпадают, то применяют третий метод. В результате разбиения множества X на кластеры каждый из методов ставит в соответствие номерам i = 1,..., m элементов x. е X соответствующие им номера кластеров Kj, j е 1, •••, k . При этом требуется решить задачу обобщения полученных результатов кластеризации множества наблюдений X несколькими методами.

Описание кластерного анализа данных

Кластерный анализ проводится на заранее подготовленных данных

X = {x.\x. е Rn, i = 1,..., m} . (1)

Пусть элементы x. е X, i = 1,..., m представляют собой измерения n параметров объектов b множества

r

B = {br \ r = 1,...,\B\},\B\< m . (2)

Тогда каждому x. е X соответствует некоторый объект br и идентифицирующая информация об этом объекте.

Кластерный анализ методами K-Means и Tree Clustering проводится с использованием пакета STATISTICA 6.0. Метод кластерного анализа FRC реализован в составе программно-технологического комплекса имитации сложных систем BelSim [5].

В результате разбиения множества X на кластеры каждый из методов ставит в соответствие номерам i = 1, ..., m элементов x. е X соответствующие им номера кластеров

K., j е 1,..., k .

j ' '

Обобщение результатов кластеризации данных несколькими методами

Утверждение 1. Если элементы x. е X, i = 1,..., m представляют собой измерения n параметров объектов br е B, r = 1,..., | B |, | B\< m , то результат кластеризации множества X вида (1) может быть представлен в виде матрицы вероятностей принадлежности объектов br определенным кластерам Kj, j е 1,..., k

P = |\pn\|, pn е [0,1], r = 1, ...,| B\, j = 1,..., k, (3)

где r - номер объекта, j - номер кластера, k - количество кластеров Kj, p^ — вероятности принадлежности объектов br кластерам Kj.

Вероятности p^ в (3) рассчитываются на основе классического определения вероятности как отношение количества случаев попадания объекта br в кластер Kj к общему количеству измерений, выполненных над объектом br. Сумма строчных элементов матриц P вида (3) постоянна и равна единице.

Определение 1. Объект br е B, r = 1,..., | B | является элементом кластера Kj, j = 1,..., k

тогда и только тогда когда он отнесен к данному кластеру по крайней мере L методами из L выбранных методов кластерного анализа, причем L/ 2 < L < L, L > 3.

Вероятности отнесения объектов к определенным кластерам одновременно L выбранными методами очень низкие, напротив - вероятности отнесения объектов к определенным кластерам, по крайней мере, одним из выбранных методов очень высоки. Поэтому рассматривается аналогия голосования большинством голосов - случай отнесения объекта к данному кластеру L методами из L выбранных методов кластерного анализа.

Утверждение 2. Пусть P1, P2,..., PL - матрицы вида (3) вероятностей принадлежности объектов br, r = 1, ...,| B | определенным кластерам Kj, j = 1,..., k согласно методам кластерного анализа M1,M2,...,ML, соответственно. Тогда значения элементов p^ е [0,1] обобщенной

(в смысле Определения 1) матрицы Р могут быть найдены суммированием коэффициентов РуЬ, V = I,..., I производящей функции

I I

ф(^) = П (Яь- + Рг 'г) = X ' * ,

1=1 V=0

где р1г1 - элементы матрицы Р1,1 = 1,..., I, р1/} е[0,1]; цг = 1 - р1/}, I = 1,..., I, г = 1, ...,| В |, - = 1,...,k , соответственно,

Р, = . (4)

V=I*

Доказател ьство.

Пусть производится I независимых испытаний. Под испытанием будем понимать проведение кластерного анализа одним из I методов М1,М2,...,Мь .

Кластерный анализ разными методами проводится в одинаковых условиях, используются одни и те же исходные данные. Результаты обработки данных одним из методов не зависят от результатов анализа другими методами кластерного анализа. Указанные испытания независимы.

Введем в рассмотрение событие А - попадание объекта в результате испытания в определенный кластер. В каждом испытании событие А появляется со своими вероятностями. Обозначим:

р1, Р2,..., Рх^ - вероятности попадания объекта в определенный кластер в 1-м, 2-м, ..., !-м испытании, соответственно; = 1 - р1, ц2 = 1 - р2,..., qI = 1 -Рх^ - вероятности непопадания объекта в определенный кластер в 1-м, 2-м, ..., !-ом испытании, соответственно.

Вероятность того, что в этих I испытаниях событие А появится ровно 0, 1, 2, ..., I раз равна коэффициенту при соответствующей степени * производящей функции

ф(*) = П (Ц + Р1 ' = (Ц + А ' *)(Ц2 + Р2 ■ *) ■ ... ■ Я + РI ' *) =

I=1

I

= ЯЯ '...'VI +... + Р1Р2 '...'РI'^ =Х'^е[0,1].

Таким образом, вероятность того, что в этих I испытаниях событие А не появится ни

разу: = ЯЯ' ..' VI; .; ровно I раз из I: Ры = Р:Р2'...'РI.

Тогда вероятность события У - попадание объекта в определенный кластер, по крайней мере, в I испытаниях из I:

Р(У) = . (5)

V=I*

В результате кластеризации множества данных X вида (1) I методами кластерного анализа получены матрицы вероятностей Р1, Р2,..., Рь вида (3) принадлежности объектов определенным кластерам

Р =|\Ptrj 11, Р- е [0,1], I = 1,..., I, г = 1,...,\В\,- = 1,..., k . (6)

Для получения обобщенного результата кластеризации I методами, применяя к элементам Р1г--, I = 1,..., I матриц Р1, Р2,..., Рь формулу (5), получим обобщенную матрицу

Р = 1УI, Р- е [0,1], г = 1,..., \В\, - = 1,..., k . (7)

В общем виде элементы матрицы Р могут быть вычислены по формуле

Р, = Е^,ь, Г = 1,..., В ] = 1,..., k ,

у=Ь*

где РуЬ - коэффициенты производящей функции

ь ь

ф(^) = П ((1" Р,)+ Рщ • г) = ■ ^ , г = 1,..., В |, , = 1,..., k .

/=1 у=0

Доказательство закончено.

Замечание 1. На элементы строк обобщенной матрицы Р вида (7) налагается условие равенства единице их суммы. Поэтому в общем виде элементы обобщенной матрицы Р вероятностей принадлежности объектов множества В = {Ьг 1г = 1,..., | В|} определенным кластерам К,, , е 1,..., k могут быть вычислены по следующей формуле:

Рг, =

Е < к;

у,Ь

у=Ь*

к-1

(8)

1 -Е р,1,=к.

,=1

Доказател ьство.

Введем в рассмотрение события С1, С2,..., Ск попадание объекта Ьг е В в кластер К1, К2,..., Кк , соответственно.

При проведении испытания (отнесение методами кластерного анализа элементов xi е X множества (1) к определенному кластеру) объект обязательно попадет, по крайней мере, в один из к кластеров, то есть произойдет одно из событий Сг, г = 1,..., к. Тогда Сг, г = 1,..., к образуют полную группу событий и должно выполняться условие

РС) + р(С 2) +... + р(Ск) = 1. (9)

Таким образом, элементы Р, обобщенной матрицы Р вида (7) при , = 1,..., к — 1, г = 1,..., |В| могут быть вычислены по формуле (4); при , = к, г = 1,..., |В| с учетом (9) - по формуле (8).

Доказательство закончено.

Замечание 2. Обобщаемые матрицы Р1, Р2,..., Рь должны иметь одну размерность. В случае разбиения множества X на к1 < к , к2 < к, ..., кь < к кластеров, необходимо предварительно привести матрицы Р1, Р2,..., Рь к одной размерности к = тах{к1, к2,..., кь}. Приведение матрицы к необходимой размерности возможно за счет ее дополнения столбцами с нулевыми вероятностями попадания объекта в добавленные кластеры.

В результате кластеризации множества X вида (1) Ь методами, получена обобщённая матрица Р = ||рг- 11, г = 1,..., | В |, , = 1,..., к, на основе анализа значений элементов которой определяется принадлежность объекта к определенному кластеру.

Определение 2. Объект Ьг е В принадлежит кластеру К, тогда и только тогда, когда

вероятность принадлежности объекта кластеру в г-й строке обобщенной матрицы Р максимальна: Р, = тах{Р, , = 1,...,к}.

Экспериментальная часть

Проведем сравнение методов кластерного анализа на искусственно сгенерированном множестве данных с известной структурой. Пусть X - множество двумерных наблюдений, составленное из нескольких подмножеств X = А1 и А2 и А3 и А4 и А5 и А6 (см. рис. 1) таким образом, что кластеры выделяются визуально:

A =

A4 =

|0 < х < 1; [0 < y < 1, [-1 < x < 2;

I- 2 < y <-1,

A2 =

A5 =

[0,5 < x < 2,5; [2 < y < 3, [- 2 < x <-1; I-1 <y <3,

A3 =•

A6 =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I 2 < x < 3; [-1 < y < 2, [-1 < x < 0; I 4 < y < 5.

Области A1,...,A6 заполнены равномерно распределёнными на интервале [0,1] точками, сгенерированными в MS Excel с использованием функции f (i) = СЛЧИС():

A = {(х, y I х = f (i), y = f (i)} ,

A2 = {(х, y)\ х = 2 • f (i) + 0,5, y = f (i) + 2},

A3 = {(х, y)\ х = f(i) + 2, y = 3 • f(i) -1},

A4 = {(х, y)\ х = 3 • f(i) -1, y = f(i) - 2},

A5 = {(х, y)| х = f(i) -2, y = 4• f(i) -1},

A6 = {(х, y)\ х = f (i) -1, y = f (i) + 4}, i = 1, ...,51.

Для каждой из областей Aj,..., A6 сгенерировано одинаковое количество точек (наблюдений) хг е X с R2, i = 1,..., 51 (см. рис. 2).

♦ Л -

■ А1 □ А2 д A3 а А4 + А5 о AG

* + +

Ф +

И-

3

2 Н 1

ib

Q

ЙДуА А "1д

(I

ДА

Д й д

Д^ д

Д Д ¿А Д ЛдА д А Ч Ад д

^дД "дд

д д

л а

Рис. 1. Подмножества множества наблюдений Х

Рис. 2. Кластеризуемое множество наблюдений Х

Количество элементов xi множества X с R2 вида (1): |Х| = 51 - 6 = 306. Необходимо разделить объекты (наблюдения из областей А1,...,А6) на непересекающиеся подмножества (кластеры).

Гипотеза относительно числа кластеров: k = 3 . Ожидается, что элементы подмножеств А1 и А6 будут выделены в отдельные кластеры; элементы областей А2,..., А5 имеют точки соприкосновения, поэтому будут объединены в один кластер.

Для решения данной задачи множество наблюдений X = [xi\xi е R2, i = 1,..., m}, m = 306 обрабатывается методами K-Means, Tree Clustering, FRC. Количество выбранных методов кластерного анализа L = 3 .

Вначале разбиение производится методами K-Means и Tree Clustering.

Метод K-Means разделил множество X на 3 кластера таким образом, что в кластер K1 преимущественно попала большая часть элементов подмножеств A1, A4 ; в кластер K2 - большая часть элементов множеств A2, A3; к кластеру K3 отнесено 50% элементов множества A5 (см. рис. 3).

В результате разрезания на высоте 0,6 дендрограммы, построенной методом Tree Clustering, множество X разделено на 3 кластера. На основании анализа элементов матрицы Amalgation Schedule пакета STATISTICA 6,0 определен состав кластеров. Кластер K1 полностью состоит из элементов подмножества A1, кластер K2 включает элементы A2 - A5, кластер K3 полностью состоит из элементов подмножества A6 (см. рис. 4).

К**Ли V/Av д д д Л Дд Д j ♦ Кластер 3 □ Кластер 2 ^^^^^^ д Кластер1^^^^

£ йЛ л 1 , -Ъ й -1 ( л й W t "v Ддд 1 «?□□ й Пгср д ДдДДЛдДд д -...

о Кластер 1 □ Кластер 2 д Кластер 3

Рис. 3. Разделение множества X на кластеры методом K-Means

Рис. 4. Разделение множества X на кластеры методами Tree Clustering, FRC

Ниже приведены интерпретированные результаты кластеризации элементов множества X в соответствии с методами K-Means, Tree Clustering - матрицы P1, P2 вида (3) вероятностей принадлежности наблюдений из областей A1,..., A6 кластерам K}-, j = 1,..., 3 :

P =

( 0,82 0,00 0,04 1,00 0,49 0,00

0,18 0,98 0,96

0,00 ^

0,02

0,00

0,00 0,00

0,00 0,00

0,51 1,00

P2 =

(1,00 0,00 0,00 0,00 0,00 0,00

0,00 1,00 1,00 1,00 1,00 0,00

0,00^1 0,00 0,00 0,00 0,00 1,00

Элементы матриц P1, P2 рассчитаны как отношение количества случаев попадания элементов множества X в определенный кластер к общему количеству точек, сгенерированных для заданной области.

Если результаты разбиений не совпадают (как в данном случае), для уточнения результатов применяется третий метод кластерного анализа - метод FRC.

Методом FRC при значении параметра а = 0,85 множество X разделено на 3 кластера. Результаты разбиения исходного множества методами FRC и Tree Clustering совпали (рис. 4). Ниже приведен интерпретированный результат кластеризации методом FRC элементов множества X - матрица P3 вида (3) и матрица P, которая является обобщенной матрицей вероятностей принадлежности элементов областей A1,..., A6 определенным кластерам.

P, =

(1,00 0,00 0,00^1

0,00 1,00 0,00

0,00 1,00 0,00

0,00 1,00 0,00

0,00 1,00 0,00

0,00 0,00 1,00

P =

(1,00 0,00 0,00^

0,00 1,00 0,00

0,00 1,00 0,00

0,00 1,00 0,00

0,00 1,00 0,00

0,00 0,00 1,00

При значениях L = 3, L = 2 Определение 1 принимает следующий вид: «Объект Ьг е В, г = 1,..., 6 (наблюдения из областей А^..., А6) является элементом кластера К,, , е 1,..., 3 тогда и только тогда, когда он отнесен к данному кластеру по крайней мере дву-

мя из трех методов кластерного анализа».

Результаты и обсуждение

Обобщение результатов кластеризации методами K-Means, Tree Clustering, FRC и построение матриц Pj, P2, P3 проведено по формуле (8).

При L = 3, L* = 2, k = 3, |Я| = 6 с учетом производящей функции

3 3

3

ф00 = ^((1 -Plrj) + Plrj •z) = IPv,3 •zV , формулы (4) Pjj = IPv,3 , r = ^ 6 j = 1,..., 3 и фор-

l=1 v=0

v=2

мулы (9) расчет элементов обобщенной матрицы Р по формуле (8) принимает вид:

(1 - Р1, )Р2пРзп + Р1, (1 " Р2„ )Рзг, + Р1„Р2„ (1 " Рзг, ) + Р1„Р2„Р3„ I 7 < 3;

Pj =

1 -IPjl j = 3

j=1

где р¡7 - элементы матриц Р1, Р2, Р3 соответственно, I = 1,..., 3, г = 1,..., 6, , = 1,..., 3 .

Например, элементы 1-й строки р11, р12, р13 матрицы Р = |11, г = 1,..., 6, , = 1,..., 3 рассчитываются следующим образом: р11 = (1 - 0,82) -1 -1 + 0,82 • (1 -1) -1 + 0,82 -1 • (1 -1) + 0,82 -1-1 = 1 - 0,82 + 0,82 = 1; р12 = (1 - 0,18) - 0 - 0 + 0,18 - (1 - 0) - 0 + 0,18 - 0 - (1 - 0) + 0,18 - 0 - 0 = 0 ; р13 = 1 -1 - 0 = 0 .

Анализ обобщенного результата кластеризации по матрице Р позволяет выделить 3 кластера: К1 = А1, К2 = А2 и,...,иА5 и К3 = А6. Таким образом, ожидаемый результат кластеризации исходного множества со специально заданной структурой подтвердился.

Заключение

В результате разбиения множества X на кластеры каждый из методов кластеризации ставит в соответствие номерам i = 1,..., т элементов xi е X соответствующие им номера кластеров К, 7 = 1,..., k .

Результат кластеризации множества многомерных данных, соответствующих наблюдениям объектов Ьг е В для каждого из методов кластерного анализа, можно представить в виде матрицы вероятностей принадлежности объектов Ьг определенным кластерам К,.

Обобщенный результат кластеризации несколькими методами получен посредством применения теорем сложения/умножения вероятностей. Анализ обобщенного результата кластеризации позволяет выявить группы объектов с эквивалентным поведением.

Проведено сравнение методов кластерного анализа на множестве X двумерных наблюдений, составленном из нескольких подмножеств таким образом, что кластеры выделяются визуально. Области, соответствующие подмножествам множества X заполнены одинаковым количеством равномерно распределенных на интервале [0,1] значений.

Проведена кластеризация множества X методами K-Means, Tree Clustering, FRC. Вначале произведено разбиение методами K-Means и Tree Clustering. Поскольку результаты разбиений не эквивалентны, для уточнения результатов применен третий метод кластеризации -FRC. Все три метода кластеризации разбили множество X на ожидаемое количество кластеров k=3.

Анализ обобщенного результата кластеризации позволил выделить 3 кластера. Ожидаемый результат кластеризации исходного множества со специально заданной структурой подтвердился, что подтверждает работоспособность предложенной процедуры обобщения результатов кластеризации несколькими методами.

ABOUT JOINT USE OF METHODS OF MULTIDIMENSIONAL DATA CLUSTER ANALYSIS

A.I. YAKIMAU, E.M. BORCHYK, V.V. BASHARIMOV

Abstract

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

A procedure of validation and refinement of assignment of multidimensional observations into clusters is given. Every clustering method divides the set X into the clusters and assigns numbers of members of the set X to numbers of the clusters that corresponding to them. It is shown that if the members of the set X are observations of n parameters of a set of objects, then the result of clustering of X can be interpreted as a matrix of probability of object membership to clusters. Criterion of the object membership to the cluster is introduced; a formula to calculate values of elements of generalized matrix based on elements of the matrices of probability of object membership to clusters.

Clustering methods K-Means, Tree Clustering, Fuzzy Relation Clustering and software engineering kit for computer simulation BelSim, statistics and analytics software package STATISTICA, spreadsheet application Microsoft Excel are used to perform an experimental research.

Литература

1. Барсегян А.А. Методы и модели анализа данных: OLAP и Data Mining. СПб., 2004.

2. Паклин Н. [Электронный ресурс] Режим доступа: http: // www.basegroup.ru/library/analysis/clusterization /datamining/.

3. Башаримов, В.В. // Информационные технологии, энергетика и экономика : сб. трудов 7-ой Межрег. науч.-техн. конф. студентов и аспирантов. 2010. Т.2. С. 21-26.

4. Отчет по НИР. №20091957. Могилев, 2011.

5. Якимов А.И. Технология имитационного моделирования систем управления промышленных предприятий. Могилев, 2010.

i Надоели баннеры? Вы всегда можете отключить рекламу.