Научная статья на тему 'Метод частичного обучения для эвристического алгоритма возможностной кластеризации при неизвестном числе классов'

Метод частичного обучения для эвристического алгоритма возможностной кластеризации при неизвестном числе классов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
238
43
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вятченин Д. А.

Предлагается метод построения подмножества помеченных объектов для использования в эвристическом алгоритме возможностной кластеризации с частичным обучением. Метод основан на предобработке данных эвристическим алгоритмом возможностной кластеризации, использующим транзитивное замыкание нечеткой толерантности. Эффективность метода демонстрируется на иллюстративном примере.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод частичного обучения для эвристического алгоритма возможностной кластеризации при неизвестном числе классов»

ЕСТЕСТВЕННЫЕ И ТОЧНЫЕ НАУКИ

УДК 510.22+519.237.8

МЕТОД ЧАСТИЧНОГО ОБУЧЕНИЯ ДЛЯ ЭВРИСТИЧЕСКОГО АЛГОРИТМА ВОЗМОЖНОСТНОЙ КЛАСТЕРИЗАЦИИ ПРИ НЕИЗВЕСТНОМ ЧИСЛЕ КЛАССОВ

Канд. филос. наук ВЯТЧЕНИН Д. А.

Объединенный институт проблем информатики НАН Беларуси

В задачах сегментации изображений, обработки результатов научных исследований, при проектировании разнообразных систем поддержки принятия решений особая роль отводится нечетким методам автоматической классификации, в специальной литературе [1] именуемым также методами нечеткой кластеризации или нечеткими методами численной таксономии. В задачах кластеризации данные об исследуемой совокупности традиционно представляются либо матрицей X пУт — \ х' ], 1 = 1, ..., п, 1 = 1,...,т, именуемой матрицей «объект-признак», где хг, / = 1, ..., п -

объекты исследуемой совокупности X, а х', 1 = 1,..., т - значения признаков объектов хг е X, каждый из которых, таким образом, представляет собой точку в т -мерном признаковом пространстве, либо матрицей Р„у„ = |р,; |. /, / = 1, ..., п попарных коэффициентов близости или различия объектов, носящей название «объект-объект». При обработке данных методами нечеткой кластеризации результатом классификации является не только отнесение 7-го объекта исследуемой совокупности X = {хх, ..., х„} к 1-му классу А1. 1 = 1, ..., с, но и указание функции принадлежности ии е [ОД], 1 = 1, ..., с, г=1, ..., п, с которой объект х; е X . V/ = 1, ..., п принадлежит нечеткому кластеру А1, 1 = 1, ..., с, так что главной особенностью нечетких методов кластеризации является сочетание высокой точности с содержательной осмысленностью результатов классификации.

Наиболее распространенным подходом к решению нечеткой модификации задачи автоматической классификации является оптимизационный подход, методы которого отыскивают экстремум некоторого критерия качества классификации, примером которого может послужить критерий Дж. Беждека:

сп 2

ев(лт)=££мй%-т'||, (1)

1=1 1=1

где с - число нечетких кластеров в искомом нечетком с-разбиении Р; 1 < у < со - показатель, определяющий степень нечеткости классификации; Т = {т1, ..., тс} - множество прототипов нечетких кластеров А1, 1 = 1, ..., с. Локальный минимум критерия (1) отыскивается при ограничении:

с

IX =!, 1 = \ *' = 1, п, (2)

г=1

именуемом в специальной литературе условием нечеткого с-разбиения и являющемся общим для всех оптимизационных методов нечеткой кластеризации. Численная процедура, минимизирующая (1), широко известна в специальной литературе под обозначением FCM-алгоритма и является основой семейства других нечетких кластер-процедур.

Разновидностью оптимизационных методов нечеткой кластеризации являются методы воз-можностной кластеризации [2], специфика которых заключается в том, что структура, образуемая нечеткими кластерами, удовлетворяет условию возможностного разбиения:

с

^|1Й>1, 1 = 1,..., с; 1=1 ,...,п, (3)

1=1

являющегося менее жестким, чем условие нечеткого с-разбиения (2), и значения принадлежности |1й, 1 = 1,..., с, г=1, ..., п интерпретируются как степени типичности объекта х^ для нечеткого кластера, а функция принадлежности интерпретируется как функция распределения возможностей. Методы возмож-ностной кластеризации получают все большее распространение как в теоретических исследованиях, так и на практике в силу их устойчивости к наличию в исследуемой совокупности аномальных наблюдений и простоты интерпретации результатов классификации.

В [3] предложен подход к решению нечеткой модификации задачи автоматической классификации, использующей так называемый механизм частичного обучения, сущность которого заключается в том, что относительно некоторого подмножества Хь={хьт, ..., Хцс)} объектов исследуемой совокупности X = = {хъ ..., х„} имеется априорная информация об

их принадлежности классам А1, 1 = 1, ..., с нечеткого с-разбиения Р, которая может быть использована при построении оптимальной классификации. Иными словами, если Хь - множество помеченных объектов, Хь с Л . элементы которого представлены булевыми векторами 5 = (5Ь 52,..., я„)Т, где Т - символ транспонирования и = 1, если х; е Хь и объект х( является меткой для нечеткого кластера А1, /е{ 1, ..., с], т. е. хг =х£(/); в противном случае, если X! £ Хь, то имеет место = 0. В свою очередь 7СХй = [ун ], 1 = 1,..., с; г = 1,...,п-матрица нечеткого с-разбиения, составляемая исследователем в соответствии со следующим правилом: если х; е X1. то уи задается иссле-

с

дователем с соблюдением условия ^ ун -1,

1=1

где уи - степень принадлежности помеченного объекта хг, х; е I, классу А1, 1 = 1, ..., с; иначе, при хг <£ Хь соответствующий столбец в матрице Усхп оказывается не нужным и пропускается при обработке матрицы Ус/п. В таком

случае задача классификации состоит в минимизации критерия вида

2

еР(ЛТ)=££ый2|х1.-т'|| +

и ,-=1 (4)

сп 2

+Цц, - ^л)2 Ы

1=1 1=1

при ограничении (2).

В [3] предложены различные модификации критерия (4), одна из которых базируется на взвешивании в (4) обоих слагаемых, а другая -с заменой в качестве функции расстояния квадрата евклидовой нормы на квадрат расстояния Махаланобиса. С содержательной точки зрения, минимизация первого слагаемого в (4), полностью совпадающего с критерием (1) при у = 2, минимизирует нечеткие суммы квадратов расстояний от объектов до прототипов нечетких кластеров, а второе слагаемое в (4) является взвешенной по квадратам расстояний суммой отклонений расчетных значений функции принадлежности объектов нечетким кластерам от заданных априорно. Очевидно, что помеченные объекты частично определяют структуру строящейся классификации исследуемой совокупности X, и множество Хь может интерпретироваться как частично обучающая выборка, элементы которого являются эталонами для классификации. Однако следует указать, что выбор экспертом помеченных объектов и априорных значений принадлежности существенно влияет на результат классификации.

Априорная информация о принадлежности некоторых объектов исследуемой совокупности классам искомого нечеткого с-разбиения позволяет значительно повысить как точность классификации, так и скорость сходимости кластер-процедуры, что также демонстрируется в [3], в силу чего подход к нечеткой кластеризации, использующей аппарат частичного обучения, получил дальнейшее развитие, а соответствующие методы широко внедряются при решении разнообразных задач [4, 5].

Как отмечалось выше, наибольшее распространение получили оптимизационные методы нечеткой кластеризации, вводящие задачу классификации в сугубо математическое русло, однако эвристические методы нечеткой кластеризации, несмотря на меньшее распространение, являются также удобным инструментом

анализа данных в силу их простоты и наглядности. В [6] предложен эвристический метод нечеткой кластеризации, заключающийся в построении так называемого распределения по априори задаваемому числу с нечетких а-кла-стеров, удовлетворяющих введенному определению. В свою очередь в [7] было продемонстрировано, что распределение по нечетким -кластерам является частным случаем воз-можностного разбиения (3), и соответствующая процедура, как и ее последующие модификации, представляет собой эвристический алгоритм возможностной кластеризации, в силу чего предложенная в [6] версия алгоритма, от аббревиатуры английских терминов direct -прямой и allotment among fuzzy clusters - распределение по нечетким кластерам, получила обозначение D-AFC(c)-anropnTMa. Если X = {л"|, ..., х„} - совокупность объектов, на которой определена нечеткая толерантность Т с функцией принадлежности \xr(xi.xi).

г,7=1, ..., п, т. е. бинарное нечеткое отношение на Х, удовлетворяющее условиям симметричности и рефлексивности, и информация о совокупности X представлена в виде матрицы коэффициентов близости рйХй =[|аГ(хг,х^)], так

что строки или столбцы этой матрицы являются нечеткими множествами {A..., A"}, то для некоторого а, ае (0,1], нечеткое множество уровня а, определяемое условием = = {(.x1,\iA,(x1))\\iAl(x1)>a), /е[1,и], такое, что А^а) с А1, А1 е {А1,...,А"}, будет называться

нечетким а-кластером с функцией принадлежности \хи объекта xi е X нечеткому а-кла-

стеру A\U). определяемой выражением

М-й

(I; противном случае,

(5)

где IIхА1 (хг)-а) ~ а-уровень А1,

/е{1, ..., п}. Объект хг е X, обладающий наибольшим значением функции принадлежности цй некоторому нечеткому а-кластеру Д.',,,. именуется его типичной точкой и обозначает-

ся х\ а функция принадлежности, определяемая выражением (5), показывает степень сходства 7-го объекта множества X с типичной точкой т' соответствующего нечеткого а-кластера. Если условие (3) выполняется для всех А[а)^Щ{Х\ где ад = Ц'а)|/ = й 2<с<п}~

семейство с нечетких а-кластеров для некоторого значения а, порожденных заданной на X нечеткой толерантностью Т, то это семейство является распределением множества классифицируемых объектов X по с нечетким а-кластерам. Условие (3) в рассматриваемом случае требует, чтобы все объекты совокупности X были распределены по с нечетким

а-кластерам {А](а), ..., А'((/)} с положительными значениями |1Й, 1 = 1, ..., с, 1 = 1, ..., п.

Сущность D-AFC(c)-алгоритма заключается в построении множества допустимых решений

В(с) = {Щ (X)} для с классов с последующим выбором в качестве решения задачи классификации некоторого единственного распределения Я*(Х)еВ(с). Выбор IV (X) основывается на вычислении для всех Я" (X) е В (с) критерия

1

¡■(П'НХШ^-^-ас.

(6)

1=1 'Н i=l

определяющего качество каждого 1(2 (X) е В (с). где щ = сагс1(Ага) - мощность носителя нечеткого множества А'(и) е И''(X). 1е{1, ..., с}, осе (0, 1], так что (6) определяет среднюю суммарную принадлежность объектов множества X нечетким а-кластерам >А('а). ..., Ас{и)}

распределения Н" (X) за вычетом величины

ас, регуляризующей число классов в Щ (X), и

оптимальному распределению Я*(Х) соответствует максимальное значение (6), так что решение состоит в построении распределения, удовлетворяющего условию

И (.V) агц тах ¡■(/<''(Х). а). (7)

Н?(Х)еВ(с)

П

С

Результатом работы D-AFC(c)-arroprnMa является не только распределение R' (X) объектов совокупности X по заданному числу с нечетких а-кластеров, но и соответствующее значение порога сходства а.

Как указывалось выше, D-AFC(c)-aлгоритм представляет собой базовую версию кластер-процедуры. В работе [7] предлагается его модификация, использующая аппарат частичного обучения, в силу чего (partial supervision - частичное обучение) получившая обозначение D-AFC-PS(c)-aлгоритмa. Механизм частичного обучения, используемый в D-AFC-PS(c)-anro-ритме, достаточно прост: если Х£={х£(1), ...,

хИс)} ~ множество помеченных объектов, и объект хг е XL является меткой для нечеткого а-кластера А'1/г /е {1, ..., с}, т. е. xi = х/(/). то априорное значение принадлежности yu помеченного объекта хг соответствующему Д',,,. /е{1, ..., с} задается исследователем, при этом card(XL) = с, т. е. общее количество помеченных объектов равно числу с нечетких а-кластеров в искомом распределении R*(X), и каждый помеченный объект должен быть распределен в единственный нечеткий а-кластер,

a результирующее значение принадлежности \iu помеченного объекта хг нечеткому а-кла-

стеру А1^а:р /е{ 1, ..., с} должно быть не меньшим, чем заданное априорно yH. По сравнению с методом, используемым в алгоритме В. Пе-дрича, метод частичного обучения, используемый в D-AFC-PS(c)-aлгоритме, очевидно, является менее громоздким, простым в реализации и ясным с содержательной точки зрения.

Вместе с тем при решении задач, требующих высокой точности классификации в условиях ограниченного лимита времени, что имеет большое значение в системах поддержки принятия решений специального назначения, помимо экспертного знания о принадлежности объектов классам, используемого при построении множества XL ={х£(1), ..., х£(с)} и задании

априорных значений принадлежности y для

элементов XL, оказывается необходимым проведение предварительного анализа исследуемой совокупности с целью получения обучающей информации для последующего применения методов нечеткой кластеризации с частичным обучением. Указанный подход, основанный на предварительной обработке исследуемой совокупности с помощью D-AFC(c)-aл-горитма и выбором в качестве помеченных

объектов типичных точек {х1, ..., Xе} нечетких а-кластеров Д'(/). 1 = 1, ..., с, полученного распределения R*(X) с последующей обработкой данных алгоритмом В. Педрича, был предложен в [8] и продемонстрировал высокую эффективность. В [9] предложен подход к построению множества XL и соответствующих значений уг для использования в D-AFC-PS^)^-горитме, основанный на предварительной обработке данных об X некоторой оптимизационной нечеткой кластер-процедурой с последующим вычислением расстояния d(xt, х') от всех объектов xi € X до прототипов {х1, ..., Xе} кластеров А1, 1 = 1, ..., с нечеткого с-разбиения

Р, нормировкой d(x ,х1 ) = d(xt ,х1 )j max d(xt ,x1)

и вычислением коэффициентов близости s(xn т' ) = 1 ~c/(xn x1), так что объекты, находящиеся наиболее близко к прототипам, могут быть выбраны в качестве помеченных, а соответствующие значения \(х;. х') - в качестве априорных значений принадлежности yu .

Подходы, предложенные в [8, 9], требуют априорного знания о числе c классов в искомом нечетком с-разбиении Р или распределении по нечетким а-кластерам R(X). В ряде ситуаций оказывается необходимым построить максимально точную классификацию в условиях полного отсутствия информации об исследуемой совокупности Х. В таком случае вначале представляется целесообразной обработка X кластер-процедурой, автоматически определяющей число классов с, с последующим выделением множества X с соответствующими значениями уи, /е {1, ..., с}, для чего можно воспользоваться предложенной в [10] моди-

фикацией D-AFC(c)-arroprnMa, использующей транзитивное замыкание нечеткой толерантности, в силу чего - от аббревиатуры выражения transitive closure - получившей условное обозначение D-AFC-TC-алгоритма. Так как транзитивное замыкание нечеткой толерантности представляет собой нечеткую эквивалентность, разбивающую предметную область на непересекающиеся классы, для распределений R" (X) различных уровней а число нечетких кластеров c будет различным, и задачей классификации является выделение априори неизвестного числа нечетких а-кластеров, для чего в последовательности 0 < а0 <... < а1 <... < az = 1 на основе вычисления скачка значений порога а определяется такое значение а,. которому соответствует некоторое неизвестное число нечетких а-кластеров с. Помимо того, что D-AFC-TC-алгоритм отыскивает априори неизвестное число с нечетких а-кластеров, отличающих его от D-AFC(c)-aлгоритмa, особенностями является, во-первых, то, что для D-AFC-TC-алгоритма матрицей исходных данных является матрица «объект-признак», и для решения задачи классификации используются как критерий (6), так и некоторая метрика d(x, Xj), а, во-вторых, то обстоятельство, что результатом работы D-AFC-TC-алгоритма будут также координаты прототипов {т1, ..., т6} нечетких а-кластеров {А'(а), ..., A'U/j} распределения IV (X). В силу того что транзитивное замыкание нечеткой толерантности искажает геометрическую структуру исследуемой совокупности X, D-AFC-TC-алгоритм оказывается полезным только на этапе разведочного анализа данных. Таким образом, сущность предлагаемого метода частичного обучения для использования в D-AFC-PS(c)-aлгоритме в условиях отсутствия информации о числе классов с, на которые «расслаивается» множество объектов X, заключается в построении с помощью D-AFC-TC-алгоритма распределения R '(X) по неизвестному числу с нечетких а-кластеров с последующим выбором в качестве элементов множества XL типичных точек {т1, ..., тс} не-

четких а-кластеров. В качестве значения уи, /е{1, ..., с}, общего для всех помеченных объектов, целесообразно выбрать полученное в результате работы Б-АБС-ТС-алгоритма значение порога сходства а, так как при обработке данных D-AFC-PS(c)-алгоритмом геометрическая структура X не претерпевает изменений, и типичными точками классов распределения

Я* (X), полученного с помощью Б-АРС-Р8(с)-ал-горитма, могут оказаться другие объекты.

Эффективность предложенного подхода к построению подмножества помеченных объектов и определению априори задаваемой функции принадлежности для использования в D-AFC-PS(c)-алгоритме целесообразно проиллюстрировать на простом примере. Для проведения вычислительного эксперимента были выбраны представленные на рис. 1 двумерные данные о 15 объектах, предложенные в [11].

;15

"12 3 : 14

■""1Ö1 "1 'б.....I-...... '4 ; "э "2 11" ...... 13"

D 2 А 6 8

Рис. 1. Двумерные данные для проведения вычислительного эксперимента

На рис. 1 визуально выделяются три группы объектов {х, х^, х^, х^}, {х^, х^, Х2, Х4, Х5} и {х2, х5, х, х9, хп, х13}, которые в дальнейшем будут использованы для верификации результатов вычислительных экспериментов. Обозначая объекты символами хг, / = 1, ..., 15 ,

а признаки - символами х', / = 1, 2, была получена матрица «объект-признак» Х15х2 = \ х' ], которая обработана с помощью нормализации [12]:

х- = -

у

1=1

п: г = \.

т,

(8)

тах X:

вследствие чего каждый объект может интерпретироваться как нечеткое множество на универсуме признаков с функцией принадлежности Xх'), 1 = \ п, с последующим применением квадрата относительного евклидова расстояния между нечеткими множествами [10]

1

е2 (хг, х ) = - £ (X (х*) - (X (х0

/',7=1, ..., и; ¿ = 1,

/и.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(9)

и операции дополнения и7 (хг, х;) = 1 - е2(хг, х,), /', / = 1, ..., 15, была построена матрица нечеткой толерантности 7{5х15 =[цГ(хг, х-)], результатом обработки которой с помощью 0-АРС(с)-ал-горитма при числе классов с = 3 является распределение Я (X) по полностью разделенным нечетким а-кластерам, полученное при значении порога сходства а = 0,7912. Значения принадлежности объектов исследуемой совокупности нечетким а-кластерам представлены на рис. 2.

Значения 1,0 принадлежностей \Хц 0.

0

5 10

Номер объекта 7

15

Рис. 2. Результат обработки множества объектов Б-АЕС(с)- алгоритмом

На рис. 2 и последующих рисунках значения принадлежностей объектов 1-му классу обозначены символом «•», 2-му - символом «▲», и 3-му - символом «□». Анализ представленного на рис. 2 результата классификации позволяет выделить в качестве типичной точки

т1 первого класса объект х10, типичной точки X2 второго - объект х15, а для третьего класса

з

имеет место I =х7; в свою очередь носители нечетких а-кластеров полученного распределения IV (X) образуют группы ¡х,. х4, х6, х10, х,: |.

{х^, х^, , } "Л {Х^, Х^, Х^, Х^, Х^ , Х^з }, что ввиду отнесения объекта х12 к 1-му классу не совпадает с визуальным выделением классов на рис. 1.

В результате обработки исходных данных D-AFC-TC-алгоритмом с помощью нормировки (8) и расстояния (9) было получено распределение Я* (X) также по трем нечетким а-кластерам при значении порога сходства а = = 0,9609, значения принадлежности объектов которым изображены на рис. 3.

Значения 1,0 принадлежностей \Хц 0,8

¿-о * о * □

А +

0 5 10 15

Номер объекта 7

Рис. 3. Результат обработки множества объектов Б-АЕС-ТС-алгоритмом

Носители нечетких а -кластеров представляют собой подмножества {х , х4, Х, Хо},

{Х, , , Ха, } , Х, Ху, Х^, |, Х|з},

соответствующие визуально выделенным на рис. 1 классам, а типичными точками нечетких а-кластеров являются объекты т

и т3 = х7 соответственно. Таким образом, соответствующие объекты были выбраны в качестве помеченных с общим для всех значением априорной функции принадлежности уи = = 0,9609, 1 = 1, ..., 3, /'= 1, ..., 3, для обработки тестовых данных с помощью Б-АЕС-Р8(с)-ал-горитма. Значения принадлежностей объектов

нечетким а-кластерам распределения Я\Х), построенного с помощью Б-АЕС-Р8(с)-алгоритма, изображены на рис. 4.

Значения 1,0 принадлежностей \Хц 0,8

АА

0 5 10

Номер объекта 7

15

Рис. 4. Результат обработки множества объектов Б-АЕС-РВ(с)-алгоритмом

Значение порога сходства при обработке данных с помощью 0-АРС-Р8(с)-алгоритма составило а = 0,8220, а выделение носителей нечетких а-кластеров дает классы {х,, х4,

хб, х10 }, {хз, х8, х12, х14, х15} и {х2, х5, х7, х9,

х , х }, соответствующие визуально выделенным классам. Кроме того, в этом эксперименте, как и при обработке данных Б-АРС-ТС-алгоритмом, типичными точками нечетких а-кластеров являются объекты т1 = хг, т2 =х3 и т3 = х7, которые наименее удалены от геометрических центров соответствующих групп. Таким образом, вычислительный эксперимент наглядно демонстрирует не только преимущество использования механизма частичного обучения при обращении к эвристическому методу нечеткой кластеризации для решения задач классификации, но и эффективность предложенного метода частичного обучения.

Анализ результатов, полученных с помощью D-AFC(c)-алгоритма и D-AFC-PS(c)-ал-горитма, проводился в сравнении с оптимизационными алгоритмами нечеткой кластеризации - FCM-алгоритмом и алгоритмом В. Пе-дрича [3], минимизирующим критерий (4), при этом в обоих экспериментах полагалось с = 3, а в эксперименте с РСМ-алгоритмом значение показателя нечеткости у полагалось равным двум. Значения принадлежностей объектов нечетким кластерам, полученным с помощью FCM-алгоритма, изображены на рис. 5.

Интерпретация результатов классификации с помощью правила наибольшей принадлежности приводит к выделению групп {х , х , х

хб, х10

х8, х12, х14, ^5} и {х2, х5, х9,

, хз}, что совпадает с визуально выделенными на рис. 1 классами и результатами обработки данных D-AFC-PS(c)-алгоритмом. Однако следует отметить сравнительно невысокое значение принадлежности объекта х второму нечеткому кластеру.

5 10

Номер объекта I

15

Рис. 5. Результат обработки множества объектов

ЕСМ-алгоритмом Обработка данных алгоритмом В. Педрича проводилась с помощью обучающей информации, использовавшейся при их обработке D-AFC-PS(c)-алгоритмом. Но так как обращение к алгоритму В. Педрича подразумевает использование в качестве обучающей информации матрицы нечеткого с-разбиения Усуп = \уИ |, для ее построения значения уи

принадлежностей помеченного объекта классам, для которых он не является меткой, вычислялись по формуле уи= (1-а)/(с-1), что обеспечивает выполнение условия нечеткого с-разбиения для Усул . Значения принадлежностей объектов классам нечеткого с-разбиения Рсхп = \ии ], полученного при обработке тестовых данных алгоритмом В. Педрича, изображены на рис. 6.

5 10

Номер объекта I

15

Рис. 6. Результат обработки множества объектов алгоритмом В. Педрича

Как и в случае эксперимента с FCM-алго-ритмом, результат классификации интерпретировался на основе правила наибольшей принадлежности, что позволило выделить группы

{х1, хб, х8, х14}, {хз, ^О, х12, х15} и {x2, X4, X5,

0

0

}. Подобное искажение результатов классификации в сравнении с FCM-ал-горитмом объясняется выбором нормализации (8), достаточно сильно искажающей геометрию исходных данных, для нормировки исходных данных при их обработке алгоритмом В. Пе-дрича - на это обстоятельство указывают и одинаковые значения принадлежностей объектов Х и Х всем трем классам полученного нечеткого с-разбиения. В свою очередь, использование унитаризации [12] для нормировки данных при сохранении прежней обучающей информации приводит к результатам, сходным с резуль-

татами обработки исходных данных FCM-ал-горитмом, что свидетельствует о высокой чувствительности алгоритма В. Педрича к выбору способа нормировки. Кроме того, очевидно, что использованный способ задания априорных значений принадлежности для помеченных объектов в алгоритме В. Педрича недостаточно адекватен в силу различия условий нечеткого с-разбиения (2) и возможностного разбиения (3).

В Ы В О Д

В работе предложен метод построения подмножества помеченных объектов и соответствующих априорных значений принадлежности для использования в эвристическом алгоритме возможностной кластеризации с частичным обучением, основой которого является предварительная обработка данных с помощью модификации эвристического алгоритма возможностной кластеризации, не требующей задания параметров, что делает предложенный метод пригодным в условиях полного отсутствия априорной информации о структуре исследуемой совокупности. Анализ результатов вычислительных экспериментов наглядно демонстрирует высокую эффективность метода, использующего аппарат частичного обучения, в сравнении с базовой версией метода, а также нечеткими кластер-процедурами. Следует также отметить, что предложенная схема двухэтапной возможност-

ной кластеризации позволяет производить классификацию данных

в полностью автоматическом режиме.

Л И Т Е Р А Т У Р А

1. Bezdek, J. C. Pattern recognition with fuzzy objective function algorithms / J. C. Bezdek. - New York: Plenum Press, 1981. - 230 p.

2. Krishnapuram, R. A possibilistic approach to clustering / R. Krishnapuram, J. M. Keller // IEEE Transactions on Fuzzy Systems. - 1993. - Vol. 1. - P. 98-110.

3. Pedrycz, W. Algorithms of fuzzy clustering with partial supervision / W. Pedrycz // Pattern Recognition Letters. -1985. - Vol. 3. - P. 13-20.

4. Abonyi, J. Supervised fuzzy clustering for the identification of fuzzy classifiers / J. Abonyi, F. Szeifert // Pattern Recognition Letters. - 2003. - Vol. 24. - P. 2195-2207.

5. Liu, H. Evolutionary semi-supervised fuzzy clustering / H. Liu, S.T. Huang // Pattern Recognition Letters. -

2003. - Vol. 24. - P. 3105-3113.

6. Viattchenin, D. A. A new heuristic algorithm of fuzzy clustering / D. A. Viattchenin // Control & Cybernetics. -

2004. - Vol. 33. - P. 323-340.

7. Viattchenin, D. A. A direct algorithm of possibilistic clustering with partial supervision / D. A. Viattchenin // Journal of Automation, Mobile Robotics and Intelligent Systems. -2007. - Vol. 1. - P. 29-38.

8. Viattchenin, D. A. A methodology of fuzzy clustering with partial supervision / D. A. Viattchenin // Systems Science. - 2007. - Vol. 33. - P. 61-71.

9. Viattchenin, D. A. Fuzzy objective function-based technique of partial supervision for a heuristic method of pos-sibilistic clustering / D. A. Viattchenin // Neural Networks and Artificial Intelligence: Proceedings of the Fifth International Conference ICNNAI'2008. - Minsk, 2008. - P. 51-55.

10. Вятченин, Д. А. Прямые алгоритмы нечеткой кластеризации, основанные на операции транзитивного замыкания и их применение к обнаружению аномальных наблюдений / Д. А. Вятченин // Искусственный интеллект. -2007. - № 3. - С. 205-216.

11. Looney, C. G. Interactive clustering and merging with a new fuzzy expected value / C. G. Looney // Pattern Recognition. - 2002. - Vol. 35. - P. 2413-2423.

12. Walesiak, M. Ugolniona miara odleglosci w statys-tycznej analizie wielowymiarowej / M. Walesiak. - Wroclaw: Wydawnictwo Akademii Ekonomicznej im. Oskara Langego, 2002. - 107 s.

Поступила 23.03.2009

i Надоели баннеры? Вы всегда можете отключить рекламу.