Научная статья на тему 'Гибридный алгоритм нечёткой кластеризации'

Гибридный алгоритм нечёткой кластеризации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
92
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРИЗАЦИЯ / МАТЕМАТИЧЕСКИЙ АНАЛИЗ / ФУНКЦИИ ПРИНАДЛЕЖНОСТИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вельмисов Александр Петрович

Из множества существующих алгоритмов кластеризации лишь несколько ориентированны на кластеризацию плотных скоплении точек. Эти методы предполагают, что пользователем задано число кластеров и/или некоторые пороговые значения. изменение которых сильно влияет на результат. Предлагается новая функция оценки, которая пригодна для использования даже при очень большом количестве кластеров. Также предлагается новый гибридный алгоритм кластеризации

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вельмисов Александр Петрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Гибридный алгоритм нечёткой кластеризации»

УДК 004.8

А. П. ВЕЛЬМИСОВ

ГИБРИДНЫЙ АЛГОРИТМ НЕЧЁТКОЙ КЛАСТЕРИЗАЦИИ

4 4 - 1 •

Из множества существующих алгоритмов кластеризации лишь несколько ориентированны на кластеризацию плотных скоплении точек. Эти методы предполагают, что пользователем задано число кластеров и/гиги некоторые пороговые значения. изменение которых сильно влияет на результат. Предлагается новая функция оценки, которая пригодна для использования даже при очень большом количестве кластеров. Также предлагается новый гибридный алгоритм кластеризации.

Ключевые слова: кластеризация, математический анализ, функции принадлежности.

Функция оценки

Функция оценки основана на мерах сепарабельности и компактности кластеров. Определение!

Дано множество кластеров С = Сс} для

множества объектов X = {х\>х2У">хы}. Пусть С = {^>"1, где СР1 е С и Ср1 _ не единичное

множество, * = 1,2,—Д, где к = С\

Компактность СР множества кластеров

г

^ задана как

СР =

к

/

\

(=1 СцХ^г, у

где

у / - значение функции принадлежности х/ к Ср1} /*. - центр , с - количество кластеров» 2 < с < N» ^') - расстояние между и

Определение 2

Сепарабельность множества С = {СрС2,...,Сс} для множества объектов -АГ = {я, ,х2,...>хы} за-

дается как

5? =

/

/ = 1 1<

V

/

где с - количество кластеров, центр /-го кластера ^(/, >) - расстояние между 7} и г].

Определение 3

Дано множество кластеров С - {С,, С2Сс} для множества объектов X = {х} ,х2 }. Пусть

сп/ еС и С • -

где ^ <= ^ и - не единичное

множество, / = где к = С- Сепара-

бельность / компактность 8Р множества класте-

г ЗС = -хЗРхСР

ров с определяется как с

Целью алгоритма является нахождение множества кластеров, удовлетворяющего

шах шах {£С}

2<г<А/ [ Ог

где определяет все мно-

жества, которые являются кандидатами для определённого количества кластеров с.

Медиана множества и функция принадлежности

Для подмножества множества данных определим понятие медианы вместо среднего значения. Пусть С, - подмножество множества данных с функцией расстояния • Точка

е С/

0 ' называется

медианой,

С:

1 если

уеС( *еС* {уеС,

Пусть X - {хх,хг,...хы}- множество данных, пусть г] - центр у -го кластера,

7 =1,2...,с. функцию принадлежности Мс,, У = 1,2,...,с для УхеХопределим как

А. П. Вельмисов, 2006

Мс О) =

1 если с}(х,г) = О,

О если с1(х,гк)= О,к ф у,

\-1

V

* й (х, г] )

Ы <1 (х, /;.)

/

иначе.

Таким образом, у=1

и

X Ас, (хА.)<

*=1

Нечёткое разбиение может быть преобразовано в чёткое следующим образом:

1 если /и^ (хк) = та(хА.)}

О иначе.

Очевидно, что

Мс, М =1 , если — ближайший

центр к точке хк.

Алгоритм слияния

Алгоритм слияния применяет меру схожести для выбора наиболее похожих пар кластеров. В алгоритме слияния выбирается наиболее «плохой» кластер и затем удаляется. Все элементы, принадлежащие данному кластеру, перемещаются в «ближайший» кластер, после чего происходит переопределение центров кластеров. Определение 4

С = {С, , С2 Сс |

Дано множество кластеров

X — , Х2|

. Для

множества объектов каждого С, е С, если не единичное множе-

С.

ство, компактность ' обозначим как редел им

1

ср, =

ср,

и оп-как

х)еС1Ух^г, /

Х;С, ,Х/ ФГ,

М, {xJ)

- значение функции принадлежности

х, С1 г С,

к кластеру ', ' - центр кластера ', с - ко-

2 < с < N

личество кластеров и Определение 5

Дано множество

С — , с 2с с}

кластеров

X — |Х|, Х2 хл, |

для множества объектов

тт С,- е С

. Для каждого ' , если

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

С

' не единичное множество, сепарабельность

С:

обозначим как

/

Щ

и определим как

Щ =

С.

У

, где

центр кластера

, - центр кластера С/, с - количество кластеров и ^ ^ с < N Определение 6

с = \с С С }

Дано множество кластеров 1 " 2''"' с)для множества объектов ^ ~{хх,х1,....>хИ} д^

С, е С С,

каждого ' , если ' не единичное множе-

с

ство, сепарабельность / компактность ' обозна-

— ¿'С X СП

чим как ' и определим как ' .

Таким образом «наихудший» кластер будет

■УС.

иметь наименьшее значение '.

Процедура слияния

Вход: оптимальное множество кластеров

1 '' 2'"'' для множества дан-

X = где с>2

ных

множество

Выход:

С — , С 2 »■••» Сс}

Шаг 1. Создаётся массив

кластеров

г* = {Г*19Г*2,...,Г*с+1}

такой, что каждое

С* еС*

для кластера

является центром . Вычисляется значение

С* еС*

для каждого ' , удаляется из г центр кластера с наименьшим значением ^. Формируется новый массив г =

Шаг 2. Выводится новое множество кластеров

С - {С„С2,...,СЛ основанное на г.

Процедура пересчёта центров кластеров

Вход: Массив центров кластеров

г* = {г*рг*2,...,г*с}

, где X — {х, ,х2>...,хц}

для множества данных

Выход: Новый массив центров кластеров

у — {г,

Шаг 1. Выбирается наиболее близкий центр

г* х,е!

'для каждого элемента ' и включается

X г *

7 в кластер С * ■ с центром '.

Шаг 2. Вычисляется медиана для каждого

р

С как новый центр ', все новые центры группируются в массив г так, что г = {г;,г2,...,гс}.

Шаг 3. Если г* * г и не достигнут порог количества итераций, то переход на шаг 1. Шаг 4. Выход г .

Многошаговый Махппп алгоритм С помощью алгоритма находится оптимальное множество кластеров на первом этапе гибридного алгоритма, а также после каждого процесса слияния до тех пор, пока с < 2 . В алгоритме на каждой итерации для различных начальных точек проводится разделение насколько это возможно. Произведена модификация алгоритма и выполнение алгоритма прерывается тогда, когда достигается заданное число кластеров.

Модифицированный Махтт алгоритм

Шаг 1. Пусть х = {хх,х2,...,хы) _ множество

данных. ' - первый центр кластера обозначим как .

Шаг 2. Определяем наиболее дальний объект от

7! и обозначим его как г2. Вычисляем расстояние

V т*

до всех остальных объектов от 1 и 2. Из каждой пары расстояний оставляем минимальное. Выбираем объект с максимальным из выбранных минимальных расстояний в качестве центра

г,

кластера 3.

Шаг 3. Вычисляем расстояние от каждого из

Т V V

трёх объектов 1, 2, 3 до оставшихся объектов и оставляем минимальный. Выбираем максимальный из выбранных минимальных в качестве нового центра кластера.

Шаг 4. Повторяем процедуру до тех пор, пока не будет достигнуто заданное количество кластеров. Шаг 5. Присоединяем оставшиеся объекты к ближайшим центрам.

Многошаговый Махтт алгоритм

Вход: множество данных ^ - {х1,х2,...,хи}^ количество кластеров с, точка старта Р, цело-

численное значение 1. Выход: Множество кластеров

С — , С 2 V? сс}

Шаг 1. Инициализируем сепарабельность / компактность ^ . зс = О

Шаг 2. Определяем Р как точку старта для модифицированного Махтт алгоритма для получения множества кластеров

_ [г** Г* С* 1

^ ] •> ^ 25*,,? с )

Шаг 3. Пересчитываем центры кластеров, ис-

пользуя процедуру пересчёта для с .

Шаг 4. Вычисляем значение сепарабельности /

компактности для

С * . Если ^С* > 9

тогда

у — 1 р = г*1 г* 1 - 1, ' ', где

Шаг 5. Если 1 > с, тогда 1 центр С*;, / = / +1. Переход на шаг 2 до сходимости алгоритма или достижения точки останова. Шаг 6. Вывод С .

Гибридный алгоритм кластеризации

Вход: множество данных ^ 'ХгХи тахпиш - максимальное количество кластеров. Выход: Оптимальное множество кластеров

С — , С2 V ' 5 Сс |

Шаг 1 °орг = ШаХ Шт , с = тах пит, ' = 1 Случайным образом выбирается объект х е X в

качестве точки старта Р. Выполняется многошаговый тахпнп алгоритм с параметрами

•>с,1,р для поиска оптимального множества

кластеров С - {С19С23...,Сс} для с Вычисляется функция оценки для ^. Шаг 2. Выполняется алгоритм слияния для получения множества кластеров

с=\с С С } С

к I» 2»—» выбирается центр Ткачестве точки старта Р, с - с- \ ^ / = 2 Выполняется многошаговый тахтт алгоритм с пара-

у . •

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

' 9 >Р для поиска оптимального

р* _ * р * Г'*)

— I 1 . и л * * # ♦ « х^ /% I

множества кластеров 1 1 - с>

для с. Вычисляется функция оценки для

Г* ЯГ* г- яг* ■> яг

^ и принимается как . Если ,

тогда ЗС = ЗС*5 С = С * ^ с _ Повтор шага 2, пока с - ^ .

Шаг 3. Вывод: С = 1С"С2_ ное множество кластеров.

метрами

оптималь-

Данный алгоритм имеет ряд преимуществ перед другими алгоритмами кластеризации.

Таблица 1

Сравнение алгоритмов кластеризации_

Алгоритм Применимость к сильно сгруппированным данным Необходимость указания количества кластеров Чувствительность к входным параметрам Применимость к неравномерно распределённым данным

Гибридный алгоритм Да Нет Нет Да

к-средних Да Да Да Да

Субстракти вн ы й Да Нет Да Нет

Maxmin Да Нет Да Да

Fuzzy c-means Нет Да Да Да

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Ярушкина, Н. Г. Нечёткие нейронные сети (Часть 1) / Н. Г. Ярушкина // Новости ИИ. -2001.-№2-3.

2. Ярушкина, Н. Г. Нечёткие нейронные сети (Часть 2) / Н. Г. Ярушкина // Новости ИИ. -2001,- №4.

3. Bosk, P., Pivert О. Extended functional dependences, redundancy and update management // EUFIT-98.

4. Cubero, J. C., Cuenca F., Vila M. A. // EUFIT-98.

УДК 621.391

5. Fuller R. Hybrid systems. Tutotium.

http://www.abo. fi/' fuller/

6. Zadeh, L. A. Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic. Fuzzy sets and systems. 1997, Vol. 90, №2.

Вельмисов Александр Петрович, аспирант кафедры «Информационные системы» УлГТУ. Имеет публикации в области генетических алгоритмов, нейронных сетей, нечёткой логики.

А. Г. ТАШЛИНСКИИ, Г. Л. МИШИНА, Г. В. ДИКАРИНА

АДАПТИВНОЕ ФОРМИРОВАНИЕ ОБЪЁМА ЛОКАЛЬНОЙ ВЫБОРКИ В ПСЕВДОГРАДИЕНТНЫХ ПРОЦЕДУРАХ ОЦЕНИВАНИЯ МЕЖКАДРОВЫХ ГЕОМЕТРИЧЕСКИХ ДЕФОРМАЦИЙ ИЗОБРАЖЕНИЙ

Объём локальной выборки отсчётов изображений, используемый для нахождения псевдоградиента при псевдоградиентном оценивании параметров изображений, влияет как на характер сходимости оценок, так и на вычислительные затраты. Известна методика априорной оптимизации объёма выборки, однако вопросы оптимизации в процессе выполнения процедуры оценивания параметров исследованы явно недостаточно. В работе для задачи оценивания параметров межкадровых геометрических деформаций изображений предложен алгоритм адаптивного апостериорного формирования объёма выборки, способствующий выводу процедуры из локальных экстремумов целевой функции, что позволяет повысить точность оценивания.

Работа выполнена при поддержке Российского фонда фундаментальных исследований (проект 05-08-65472-а). Ключевые слова: геометрические деформации, локальная выборка, целевая функция, псевдоградиент.

Оценивание параметров межкадровых геометрических деформаций изображений (МГДИ)

© А. Г. Ташлинский, Г. J1. Минкина, Г. В. Дикарина, 2006

- одна из задач обработки последовательностей изображений [2-4], при решении которой используются псевдоградиентные процедуры

(ПГП) вида [5]

?

i Надоели баннеры? Вы всегда можете отключить рекламу.