УДК 519.23
Н.И. Куприянова КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ КЛАСТЕРИЗАЦИИ ДАННЫХ
Сформирована и проанализирована концептуальная модель кластеризации данных. Заданы начальные характеристики данной модели, описываются возможные алгоритмы, реализуемые в ее рамках. Каждый алгоритм оценивается с точки зрения применяемости к различным типам данных и описывается с точки зрения его параметров и универсальности. Особое место уделяется анализу группы нечетких алгоритмов. Параллельно формули-« ». задается на основе нечеткой и лингвистической переменной. В статье также освещаются функции принадлежности для ввода и вывода данных в концептуальной модели нечеткой .
Концептуальная модель кластеризации; нечеткая переменная; лингвистическая пе-; .
N.I. Kupriyanova CONCEPTUAL MODEL OF CLUSTERING DATA
This article formed the conceptual model and analyzed the clustering of data. Given the initial characteristics of this model describes the possible algorithms are implemented within its framework. Each algorithm is evaluated in terms of applicability to different types of data and is described in terms of options and versatility. Particular attention is given to the analysis of fuzzy algorithms. In parallel, formulated the concept of "fuzzy and linguistic variables. Each fuzzy set algorithm based on fuzzy and linguistic variables. The article also highlights the membership functions for input and output data in a conceptual model of fuzzy clustering.
onceptual model of clustering; fuzzy variable; linguistic variable; the clustering algorithm.
Под концептуальной моделью понимается модель предметной области, состоящей из перечня взаимосвязанных понятий, используемых для описания этой области, вместе со свойствами и характеристиками, классификацией этих понятий,
, ,
в ней [1].
Рассмотрим на основе данного определения процесс кластеризации данных. Он может реализовываться как кластеризация множества характеристик одного объекта или множества объектов при делении их на кластеры. В первом случае модель начинает описываться с помощью формальных определений.
Они описывают процесс кластеризации с точки зрения активно используемых структур data mining. Вектор характеристик (объект) х - единица данных для алгоритма кластеризации. Обычно это элемент d -мерного пространства: х = (хі,..., Xd). Характеристика (атрибут) Xi - скалярная компонента вектора х. Размерность d - количество характеристик объекта х. Множество объектов
x = (хі,..., хп) - набор входных данных. i-й объект из X определяется как
xi = (хі i,..., х{ d ). Часто X представляют в виде матрицы характеристик размера n x d. Кластер - подмножество «близких друг к другу» объектов из X . Расстояние d(хі х j) между объектами хі и хі - результат применения выбранной метрики
(или квазиметрики) в пространстве характеристик. Данные определения - начальные как в формировании кластеров и кластеризации, так и начальные в множестве задач data mining [2].
Раздел VII. Информационные технологии и интеллектуальные системы
Под кластерным анализом для множества объектов понимается задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. С точки зрения концептуальной модели опишем процесс кластеризации формально: Пусть X - множество объектов, У(формально) — множество номеров (имён, меток) кластеров. Задана функция
расстояния между объектами р(x, x ). Имеется конечная обучающая выборка объектов Xm ={xj,..., xm }с X . Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из , , -лись. При этом каждому объекту Xj е X m приписывается номер кластера. Номер кластера может задаваться явно - как конкретное значение yj, так и функция принадлежности (Membership Function) че рез MFc (x) - степень принадлежности к нечеткому множеству C, представляющей собой обобщение понятия характеристической функции обычного множества [2].
, -
:
♦ Простая кл астеризация.
♦ Нечеткая кластеризация данных.
♦ Кластеризация нечетких данных.
♦ Нечеткая кластериз ация нечетких данных.
Данные альтернативы реализуются с помощью алгоритмов кластеризации.
Алгоритм кластеризации - это функция, которая любому объекту ставит в соответствие номер кластера. Множество в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.
Рассмотрим стандартные алгоритмы кластеризации, а затем опишем возможную альтернативу применениях их к нечетким данным или преобразуем в нечет:
1. Алгоритмы иерархической кластеризации. Среди алгоритмов иерархической кластеризации выделяются два основных типа: восходящие и нисходящие алгоритмы. Нисходящие алгоритмы работают по принципу «сверху-вниз»: вначале все объекты помещаются в один кластер, который затем разбивается на все более
. , работы помещают каждый объект в отдельный кластер, а затем объединяют кластеры во все более крупные, пока все объекты выборки не будут содержаться в одном .
расстояниями: одиночной связью или полной связью. К недостатку иерархических алгоритмов можно отнести систему полных разбиений, которая может являться излишней в контексте решаемой задачи.
2. Алгоритмы квадратичной ошибки. Задачу кластеризации можно рассматривать как построение оптимального разбиения объектов на группы. При этом оптимальность может быть определена как требование минимизации среднеквадратической ошибки разбиения. Самым распространенным алгоритмом этой категории является метод k-средних.
К недостаткам данного алгоритма можно отнести необходимость задавать количество кластеров для разбиения.
3. Алгоритмы, основанные на теории графов. Суть таких алгоритмов заключается в том, что выборка объектов представляется в виде графа 0=(У, Е), вершинам которого соответствуют объекты, а ребра имеют вес, равный «расстоянию» между объектами. Достоинством графовых алгоритмов кластеризации явля-
,
, .
Основным алгоритмом является алгоритм послойной кластеризации.
4. Алгоритм выделения связных компонент. В алгоритме в ыделения связных компонент задается входной параметр И и в графе удаляются все ребра, для которых «расстояния» меньше И. Соединенными остаются только наиболее близкие пары объектов. Смысл алгоритма заключается в том, чтобы подобрать такое значение И, лежащее в диапазоне всех «расстояний», при котором граф «р^валит-
» . . Параметр И подбирается из зоны минимума между этими пиками. При этом управлять количеством кластеров при помощи порога расстояния довольно за.
5. Алгоритм минимального покрывающего дерева. Алгоритм минимального покрывающего дерева сначала строит на графе минимальное покрывающее
, .
6. Послойная кластеризация. Алгоритм послойной кластеризации основан на выделении связных компонент графа на некотором уровне расстояний между
( ). -вательность подграфов графа О, которые отражают иерархические связи между кластерами. Посредством изменения порогов расстояния возможно контролировать глубину иерархии получаемых кластеров. Таким образом, алгоритм послойной кластеризации способен создавать как плоское разбиение данных, так и ие-.
Анализ на основе сравнения для алгоритмов кластеризации представлен в табл. 1.
Таблица 1
Алгоритм кластеризации Форма кластеров Входные данные Результаты
Иерархический Произвольная Число кластеров или порог расстояния для усечения иерархии Бинарное дерево кластеров
к-средних Г иперсфера Число кластеров Центры кластеров
с-средних Г иперсфера , степень нечеткости Центры кластеров, матрица принадлежности
Выделение связных компонент Произвольная Порог расстояния И Древовидная структура кластеров
Минимальное покрывающее дерево Произвольная Число кластеров или порог расстояния для удаления ребер Древовидная структура кластеров
Послойная кластеризация Произвольная Последовательность порогов расстояния Древовидная структура кластеров с уровнями иерархии
Далее рассмотрим нечеткую кластеризацию.
В большинстве современных работ данный тип кластеризации реализуется с помощью степени принадлежности к определенному кластеру С (MFc (x)). Тогда нечетким кластером С называется множество упорядоченных пар вида C = MFC (x)}MFc (x) е [0,1]. Значение MFC (x) =0 означает отсутствие принадлежности к множеству, 1 - полную принадлежность.
c-
means и его обобщение в виде алгоритма Густафсона-Кесселя. Это стандартные четкие иерархические алгоритмы, использующие меру принадлежности к различ-. , нечеткой ошибки и затем реализуется ее уменьшение. Формирование такого алгоритма близко к возможностям метода квадратичной ошибки в четкой кластеризации. Если реберные веса представить в интервале от 0 до 1 - метод минимального покрывающего дерева и алгоритм связанных компонент как наглядно, так и функционально реализует возможности нечеткости и данных функциональных механизмов data mining.
Адаптивно возможно и использование популярного алгоритма горной кластеризации. Он близок к c-means алгоритму, но каждый кластер, характеризуясь 2, , -рых и строится нечеткая принадлежность в разрезе разделения всех элементов на .
,
концептуальной модели за счет описания в нечеткости матрицы принадлежности.
Также алгоритм кластеризации может быть реализован на изначально нечетких и лингвистической переменных.
Нечеткая переменная описывается набором (N,X,A), где N - это название переменной, X - универсальное множество (область рассуждений), A - нечеткое множество на X [3].
Значениями лингвистической переменной могут быть нечеткие переменные,
. . , -. :
♦ из наз вания;
♦ множества своих значений, которое также называется базовым терм-множеством T.
Элементы базового терм-множества представляют собой названия нечетких :
♦ X;
♦ синтаксического правила G, по которому генерируются новые термы с применением слов естественного или формального языка;
♦ семантического правила P, которое каждому значению лингвистической
X.
Существует свыше десятка типовых форм кривых для задания функций принадлежности. Наибольшее распространение получили: треугольная, трапецеидальная и гауссова функции принадлежности [4].
Треугольная функция принадлежности определяется тройкой чисел (a,b,c), и ее значение в точке x вычисляется согласно выражению
MF ( x) =
1 - -—X, a < x < b, b - a
1 - £-±, ь < x < c,
c - b
0, в остальных случаях.
(1)
При (Ь-а) = (с-Ь) имеем случай симметричной треугольной функции принадлежности, которая может быть однозначно задана двумя параметрами из тройки (а,Ь,с).
Аналогично для задания трапецеидальной функции принадлежности необходима четверка чисел (а,Ь,с,ё), описанная формулой
MF ( x) =
1----------Х, a < x < b,
b - a
1, b < x < c,
1 - , c < x < d,
(2)
d - с
0,в остальных случаях.
При (Ь-а) = (<1-с) трапецеидальная функция принадлежности принимает сим.
Функция принадлежности гауссова типа описывается формулой
ч2"
MF(x) = exp
x - c
(3)
Зачастую треугольную и трапецеидальную функцию используют для ввода и вывода в кластеризуемой системе. В отечественных и западных источниках возможности кластеризации нечетких данных реализованы сжато, без подробного
,
.
БИБЛИОГРАФИЧЕСКИМ СПИСОК
1. Толковый словарь по искусственному интеллекту / Авторы-составители AM. Аверкин, М.Г. Гаазе-Рапопорт, ДА. Поспелов. - М.: Радио и связь, 1992. - 256 с.
2. Чубукова КА. Data Mining: Учебное пособие. - М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. - 382 с.
3. Дюк В., Самойленко A. Data Mining. - СПб.: Питер, 2001. - 368 с.
4. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. - М.: Фазис, 2006.
Статью рекомендовал к опубликованию д.т.н., профессор В.П. Карелин.
Куприянова Наталия Игоревна - Технологический институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге; e-mail: [email protected]; 347928, г. Таганрог, пер. Некрасовский, 44; тел.: 88634371743; кафедра прикладной информатики; аспи-.
Kupriyanova Natalia Igorevna - Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”; e-mail: [email protected]; 44, Nekrasovskiy, Taganrog, 347928, Russia; тел.: +78634371743; the department of applied information science; postgraduate student.