Научная статья на тему 'Многомерная классификация с использованием нечеткой логики'

Многомерная классификация с использованием нечеткой логики Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
664
115
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
нечеткая многомерная кластеризация / система нечеткого вывода / компьютерная программа / математическая модель / fuzzy multidimensional classifier / fuzzy output system / computing program / mathematical model

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лабинский Александр Юрьевич

Рассмотрена многомерная классификация с использованием нечеткой логики. Классификация выполнялась с использованием системы нечеткого вывода с четкими функциями принадлежности. Рассмотрена классификация 9 и 20 объектов по пяти признакам, в результате которой объекты объединены в два кластера.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE PROBLEM OF USE THE FUZZY LOGIC FOR MULTIDIMENSIONAL CLASSIFICATION

This article presents the problem of using the fuzzy logic for multidimensional classification. The classification calculation work with use fuzzy output system with precise membership functions. The mathematical model use the fuzzy control.

Текст научной работы на тему «Многомерная классификация с использованием нечеткой логики»

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В ТЕОРИИ УПРАВЛЕНИЯ СЛОЖНЫХ ПРОЦЕССОВ

МНОГОМЕРНАЯ КЛАССИФИКАЦИЯ С ИСПОЛЬЗОВАНИЕМ НЕЧЕТКОЙ ЛОГИКИ

А.Ю. Лабинский, кандидат технических наук, доцент. Санкт-Петербургский университет ГПС МЧС России

Рассмотрена многомерная классификация с использованием нечеткой логики. Классификация выполнялась с использованием системы нечеткого вывода с четкими функциями принадлежности. Рассмотрена классификация 9 и 20 объектов по пяти признакам, в результате которой объекты объединены в два кластера.

Ключевые слова: нечеткая многомерная кластеризация, система нечеткого вывода, компьютерная программа, математическая модель

THE PROBLEM OF USE THE FUZZY LOGIC FOR MULTIDIMENSIONAL CLASSIFICATION

A.Yu. Labinskiy. Saint-Petersburg university of State fire service of EMERCOM of Russia

This article presents the problem of using the fuzzy logic for multidimensional classification. The classification calculation work with use fuzzy output system with precise membership functions. The mathematical model use the fuzzy control.

Keywords: fuzzy multidimensional classifier, fuzzy output system, computing program, mathematical model

Многомерная классификация объектов производится с помощью формирования различных классов методами кластерного анализа [1]. Кластерный анализ заключается в разбиении заданного множества (выборки) объектов на подмножества (кластеры) таким образом, чтобы каждый кластер содержал схожие объекты, характеризуемые общим свойством, а объекты различных кластеров существенно различались.

Кластерный анализ выполняется для достижения следующих целей [1]:

- нахождение групп схожих объектов в выборке;

- анализ данных путем выявления кластерной структуры;

- обработка данных в целях принятия решений путем применения к каждому кластеру своего метода анализа данных;

- сжатие данных в целях уменьшения объема выборки;

- выявление нетипичных объектов в выборке.

Процедура кластерного анализа включает в себя следующие этапы [1]:

- отбор объектов классификации;

- определение множества переменных (признаков), по которым будут оцениваться объекты;

- выбор оценки сходства между объектами;

- использование метода кластерного анализа;

- проверка достоверности результатов.

Кластерный анализ может быть выполнен применительно к исходным данным, отвечающим следующим требованиям [1]:

- данные не должны быть коррелированны;

- данные должны быть безразмерными (нормированными) или в одинаковых единицах измерения;

- распределение данных в выборке должно быть близким к нормальному;

- влияние случайных факторов на данные должно быть минимальным;

- выборка данных должна быть однородной.

В кластерном анализе могут быть использованы следующие исходные данные [1]:

- объекты описываются с помощью набора числовых признаков;

- объекты описываются с помощью матрицы расстояний между объектами.

Задача классификации не имеет однозначного решения в силу следующих причин [1]:

- не существует однозначно наилучшего критерия качества кластеризации;

- число кластеров обычно заранее неизвестно и устанавливается в процессе кластеризации в соответствие с некоторым критерием;

- результат кластеризации зависит от меры оценки сходства между объектами, выбор которой определяется экспертом.

Обычно с увеличением числа кластеров значение критерия качества кластеризации уменьшается.

Выбор меры близости является ключевым моментом процесса классификации. В каждом конкретном случае этот выбор должен производиться в зависимости от целей исследования, природы вектора наблюдений Х и априорных сведений о характере вероятностного распределения Х. Обычное евклидово расстояние определяется по формуле [1]:

p(Xi, Xj) = VZkM (xik - xjk)2,

где xik и xjk - величины k компоненты у i-го (j-го) объекта; k=1, 2, ..., M; i, j=1, 2, ..., n; M - число признаков; n - число объектов.

Использование евклидова расстояния оправдано в следующих случаях [1]:

- наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение, то есть компоненты Х взаимно независимы и имеют одну и ту же дисперсию;

- компоненты вектора Х однородны и одинаково важны для классификации;

- признаковое пространство совпадает с геометрическим пространством.

С геометрической точки зрения и точки зрения содержательной интерпретации евклидово расстояние может оказаться бессмысленным, если признаки классификации имеют разные единицы измерения. Для приведения признаков к одинаковым единицам используют процедуру нормировки путем деления центрированной величины на среднее квадратическое отклонение и таким образом получают нормированную матрицу с элементами, определяемыми по формуле:

XikN=(xik-xkcp)/ sk,

где xik - значение k признака у i-го объекта; xkcp - среднее арифметическое значение k признака; sk=V[(1/n)X(xik-xkcp)2] - среднее квадратическое отклонение k признака. Однако нормировка может привести к нежелательным последствиям. Если кластеры хорошо разделимы по первому признаку и плохо разделимы по второму, то после нормировки разделимость кластеров по первому признаку может быть ухудшена.

Для оценки качества кластеризации используется понятие функционала Q(S) качества разбиения на классы (кластеры) S [1]. Одним из функционалов качества разбиения является сумма внутриклассовых дисперсий, определяемая по формуле:

Ql(S)=Zk=lM р2№, Xkcp),

где р - евклидово расстояние; Xkcp - среднее арифметическое значение k признака.

Другим функционалом качества разбиения является сумма попарных внутриклассовых расстояний между объектами классификации, определяемая по формуле [1]:

Q2(S)=Zk=lM (1/П) p2(Xi, X,).

Особенности классификации на основе нечеткой логики

Каждый из формируемых в процессе классификации классов может быть представлен в виде нечеткого множества. Отнесение объекта классификации к определенному классу может быть определено по значениям функции принадлежности к нечеткому множеству этого класса [2].

Классификация на основе обучающей выборки предполагает указание для каждого объекта степени принадлежности к некоторому классу. В случае классификации без обучающей выборки принадлежность объекта классу и количество классов могут быть не заданы. Для каждого значения вектора входных переменных может быть задано значение вектора выходной переменной [2].

Рассмотрим постановку задачи классификации на основе нечеткой логики [3]. Дана система с N входными параметрами X={X1, X2, ..., Xn}, определяющими состояние объекта, и одним выходным параметром Y, содержащим М термов A={A1, A2,...,Am} лингвистической переменной. Область значений каждого входного параметра Xi может содержать Bi лингвистических термов. Задача классификации заключается в построении нечеткой функции вида: Yj=Fj (XI, X2, ..., Xn). Для вычисления значений функции ^ могут использоваться различные операторы нечеткой логики (операторы «И», «ИЛИ» и др.).

Лингвистические термы входных параметров X и выходного параметра Y представляются в виде нечетких множеств с функциями принадлежности вида [3]:

Mx(xi)=Jxi-X1+Mx(xiУxi и Му(Д|На1-Д,+Му(Д|УД|.

Классификация с использованием нечеткой логики происходит на основе базы логических правил, содержащей логические правила (условия и заключения) вида:

- если в некотором логическом правиле входная переменная XI принадлежит одному из интервалов (лингвистических термов Д,) и вес заключения больше некоторого значения, то выходная переменная У, относится к классу Д,;

- если в результате процедуры нечеткой кластеризации объект одновременно относится к нескольким классам, выбирается тот класс (нечеткое множество), значение функции принадлежности которого максимально.

Компьютерная модель нечеткой классификации

Компьютерная модель нечеткой классификации была реализована в виде программы для ЭВМ, интерфейс которой представлен на рис. 1.

' Ри-г^СИиИсппц О^д УЛ1Н 5

КЗУПЬТАТи ГАСиСТд КШСТСГИ-ИЦИН: Оли.|-(р< I _К?ЛЗ .XI

рм 1 -II а о ■ I пин :| I» и :ш

№-4И л га В2 и 1111 3 Ш II 1111 р_1 41-11.1 и Ki-t.es * К«-П. К5-1ЛВ. С.500

™ 1-ол милшшмтир

Р1и-П.+К.[].1Б.11.И1.0.1111.11.1Н.11.1111 Р 2 Л1-С,«; ЕМ1.Х11]Л,11

Х1-0ЛЗ. ХЯ-О.ЗЗ.ОРЛ.*« г 41 II 77.0.20:0.00:0.ВВЛ.00:В ВС РЧ 2-0.17.0.ВГ:В.01 .О.ВВЛ.ОО.ВЛО Р_Э Х1-Л.1+. X7M3.3SX3-D.HR

ы И Л^Й |)н .и ии 141 -и оо и.2и:и г/.и.ии и ио.и ЛИ РЧ 2-01.17.0.Вг:В.01:0.ВОЛ.00:0 ЛО Р 4 К 1-Я.В*: XJ4J.MX3-0.il К4-0.13. Х5-П.И1. Г.* -Ч1.Ги"|П НИ 1 -0 /Г □ /и II из и N11 II 1X1 II 1111

РЙ2-0,<е.О.1£:0,«1:|).и0;(1.Я1:0Л0

р_5 н1-о.«: x2-t.25x3-0.2j Х4-0.И. К5-0Л7. Ор-0.191 г н 1-и. т.п. -1 п.п:'.п ни з.пп.н.зн

Н НII 1 / □ и;, и 1Л и МИ II 1X1 и им

р 6 »1-4,11: хг-0.:Н*3-0,2Э Х*-[и5. Х5-0Л7. ОР -0.198 ИИ 1 -О Л2.0.В1 :В. 10.О.ВВЛ.ОО:В ЛО г нг-и. 31.1.1м: п.оч.п 1111.3.01.11.1111 р г хм)|аг;хн]|ихз-ц2э А-ОЛЪ:ЙЛ-1 ЛО ГН1 -0 Л 0.0.5^:0. 30:0.00 Л.00:0л0 ииг ОЛ2.0.|Т:В.О|!.О.ВаЛ.ОО:ВЛО р а к I -я.71. ifMi.i3X3-o.il цн^о МНиК 1)1--1|1ЙН Ш1 -0.62 и.31.и 1 и и.ии и 1X1.и им | чг о 1/ о.||/." и1.о.ии о.оо.и он

Р 1 К1.0.57: Х2-0.МХЗ 0.11 ЙД13;«М1Л ПР-11.1ЭЗ

ппыап

|1Гдма1н:11ни 5

о.ге

Ск,М„р£1 .хч Щ " Ипа

I 55

□ глр№ннг

laiJi-hLlu.il

— — — — — — — —

1

1

! 1 к

;

С

г

1Г ш

Г1 2

£

■ -

I

»е|р

ЫМ1

0 11.25 11.9 0.75 1.0

ЕЦ Э(Х1 хы Ьлщ СИ

гк11чх1 гисщхг ■ мшр| ■ гм1лри гшци^ ни«

||КШ1 № 1 3 1 В Т и и

щЗнлыКОЬ ^ 2 1 г 1 1 1 5 е 5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Нпрн^ 7 1 3 3 2 3 1 1 э

5 в 3 Е 5 5 5 1 ■

XI Гш в в 1 Т 5 5 7 4

5Ш 1 1 2 1 3 3 1 1 3

V и ^ии 11,199 ИМИ ЦП (ММ и 13и о,ме

Чк - МЯЬ 1 г 3 1 Б в 7 В 3

М9И и. чз |< 0.123 В.ИЗ 0.857 0.1 <3 0.12Э 01571 Я.П4 0.571 > а

Рис. 1. Интерфейс программы нечеткой классификации

В данной компьютерной модели применяется система нечеткого вывода,

использующая нечеткую модель Мамдани-Заде [4]. Фаззификация входных переменных

осуществлялась с помощью функций принадлежности ц(х) типа кривой Гаусса:

2 2 и ц

д(х)=ехр[-(х-с) /(2*а )]. Фаззификация выходной переменной осуществлялась с помощью

функции принадлежности ц(х) треугольного типа. Для оценки качества кластеризации

использовался функционал качества О^Б).

Для графического представления многомерных данных был использован следующий

подход. Данные были представлены в виде квадратов 10*10 пикселов, причем для каждого

признака использовался свой цвет и на каждом квадрате выводился номер объекта. Значения

одного («базового») признака откладывались по оси абсцисс, а значения остальных

признаков откладывались по оси ординат. Все значения были нормированы применительно

к интервалу [0, 1]. Пример графического представления многомерных данных представлен

на рис. 2.

9 3 1 > 5

1 5 ■

2 12

8 13

10 ■ 13 14

С

_: п ■ 1

3 ( ■5 А

5

! 2

« 1 Ъ 1В 14 ь

3 1 & 1 3

1 I 4

12

№ 1 8 11 12 4

1 ) Я 13

7 1 1 11

□ 0,25 0,5 0,75 1,0

Рис. 2. Графическое представление 16 объектов

В данной работе использование нечеткой логики для многомерной классификации объектов демонстрируется на двух примерах.

Пример 1 - классификация девяти объектов по пяти признакам. В данном примере используется результат исследования структуры команды специалистов, коллективно принимающих решения и выполняющих сложные работы в различном составе [5]. Матрица оценки специалистов по различным характеристикам (пять признаков классификации: приверженность стандартам организации, ответственность, работоспособность, целеустремленность, мотивация) по 10-бальной системе [5] представлена в табл. 1.

Таблица 1

№ Х1 Х2 Х3 Х4 Х5

п/п Прив. станд. Ответ-ть Работосп-ть Целеустр-ть Мотивация

1 2 7 9 10 4

2 4 2 8 8 2

3 2 3 9 8 2

4 7 3 6 5 3

5 2 2 5 7 2

6 4 3 5 5 3

7 5 4 5 5 4

8 6 1 4 7 1

9 5 3 4 4 3

Матрица расстояний по Евклиду между девятью объектами классификации представлена в табл. 2.

Таблица 2

№ 1 2 3 4 5 6 7 8 9

1 0,0 6,16 4,90 9,75 7,14 7,87 7,68 9,75 9,33

2 6,16 0,0 2,45 5,57 3,87 4,47 5,20 4,8 5,92

3 4,90 2,45 0,0 7,14 4,36 5,48 6,24 6,86 7,14

4 9,75 5,57 7,14 0,0 6,32 3,87 4,0 4,24 3,46

5 7,14 3,87 4,36 6,32 0,0 3,0 4,24 4,69 4,47

6 7,87 4,47 5,48 3,87 3,0 0,0 1,73 4,12 1,73

7 7,68 5,20 6,24 4,0 4,24 1,73 0,0 4,9 2,0

8 9,75 4,80 6,86 4,24 4,69 4,12 4,9 0,0 4,24

9 9,33 5,92 7,14 3,46 4,47 1,73 2,0 4,24 0,0

Используя иерархическую процедуру классификации классического метода кластерного анализа, последовательно объединяем наиболее близкие объекты и пересчитываем матрицу расстояний. В результате получаем два кластера: первый кластер -объекты (1, 2, 3, 4) и второй кластер - объекты (5, 6, 7, 8, 9). Первая группа специалистов характеризуется как независимые, ответственные, работоспособные, целеустремленные и мотивированные специалисты. Вторая группа специалистов характеризуется как приверженные стандартам организации, недостаточно ответственные, имеющие среднюю работоспособность и слабо целеустремленные и мотивированные.

Таким образом, первая группа специалистов способна принимать ответственные решения. Вторая группа специалистов - хорошие исполнители.

Исходные данные примера 1 (табл. 1 ) были использованы для проведения вычислительного эксперимента на ЭВМ с применением разработанной компьютерной модели нечеткой классификации. Исходные данные были нормированы применительно к интервалу [0, 1]. Результат кластеризации представлен на рис. 3.

. ■

2

1 1 ■ ■

3 2

1 ■ ■ ■

4 |

3 Б 9

2

5 ■ ■

■ о

У н <

8

Рис. 3. Результат кластеризации девяти объектов по пяти признакам

На рис. 3 объекты объединены в два кластера, выделенные красным и голубым цветом. В первый кластер (голубой цвет) объединены объекты 1, 2, 3 и 4. Во второй кластер (красный цвет) объединены объекты 5, 6, 7, 8 и 9.

Пример 2 - классификация 20 объектов по пяти признакам. В данном примере в качестве исходных данных использованы данные о потреблении основных продуктов питания (кг в год на человека) по 20 странам [1], которые можно условно разделить на две группы: страны Европы, Австралия и Канада, а также Россия и страны, входившие до 1990 г. в состав СССР.

Данные представлены в табл. 3.

Таблица 3

Признаки Х1 Х2 Х3 Х4 Х5

Наименование Мясо Масло Сахар Фрукты Хлеб

1 Россия 55 3,9 30 28 124

2 Австралия 100 2,6 47 121 87

3 Австрия 93 5,3 37 146 74

4 Азербайджан 20 4,1 12,4 52 141

5 Армения 20 3,7 4,3 72 134

6 Беларусь 72 3,6 28 38 120

7 Бельгия 85 6,9 48 83 72

8 Болгария 65 3 18 92 156

9 Великобритания 67 3,5 39 91 91

10 Венгрия 73 1,7 40 73 106

11 Германия 88 6,8 35 138 73

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

12 Греция 83 1 24 99 108

13 Грузия 21 3,8 36 55 140

14 Дания 98 5 38 89 77

15 Ирландия 99 3,3 31 87 102

16 Испания 89 0,4 26 103 72

17 Италия 84 2,2 27 169 118

18 Казахстан 61 4,2 19,2 10 191

19 Канада 98 3,1 44 123 77

20 Киргизия 46 4,1 23,5 20 134

Исходные данные были нормированы применительно к интервалу [0, 1]. Результат кластеризации с использованием разработанной компьютерной модели нечеткой классификации представлен на рис. 4.

1 18 17

t 2

7 1 1_ J- 19

9 1 ] 1 1

3 14 _

1 a 1 1 li2

3 Ys

13 1 1 1 1Б

8- ■ ■ 17

J J В 1 Л'1 4 s

к ) 1

■ я ? 17 Lsa

a 12

1 n 7 15

9 ■

1 1 1 16

■ 1 1 19

18 71

Рис. 4. Результат кластеризации 20 объектов по пяти признакам

На рис. 4 объекты объединены в два кластера, выделенные красным и зеленым (голубым) цветом. В первый кластер слева (красный цвет) объединены страны бывшего СССР (1 - Россия, 4 - Азербайджан, 5 - Армения, 6 - Беларусь, 13 - Грузия, 20 - Киргизия). Во второй кластер справа объединены страны Европы, Австралия, Казахстан и Канада. Таким образом, в результате классификации выделены две группы стран, население которых отличается структурой потребления продуктов питания.

Созданная компьютерная модель, использующая систему нечеткого вывода и реализованная в виде программы для ЭВМ, способна обеспечить многомерную классификацию объектов по пяти признакам и представлять результаты классификации в наглядном графическом виде.

Литература

1. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. М.: Финансы и статистика, 2000.

2. Пегат А. Нечеткие моделирование и управление. М.: БИНОМ, 2013.

3. Зак Ю.А. Принятие решений в условиях нечетких и размытых данных: Fuzzy-технологии. М.: ЛИБРОКОМ, 2013.

4. Лабинский А.Ю. Моделирование системы нечеткого вывода // Природные и техногенные риски (физико-математические и прикладные аспекты). 2016. № 2 (18). С. 5-10.

5. Савченко Т.Н. Применение кластерного анализа для обработки данных психологических исследований // Экспериментальная психология. 2010. № 2.

References

1. Dubrov A.M., Mhitaryan V.S., Troshin L.I. Mnogomernye statisticheskie metody. M.: Finansy i statistika, 2000.

2. Pegat A. Nechetkie modelirovanie i upravlenie. M.: BINOM, 2013.

3. Zak Yu.A. Prinyatie reshenij v usloviyah nechetkih i razmytyh dannyh: Fuzzy-tekhnologii. M.: LIBROKOM, 2013.

4. Labinskij A.Yu. Modelirovanie sistemy nechetkogo vyvoda // Prirodnye i tekhnogennye riski (fiziko-matematicheskie i prikladnye aspekty). 2016. № 2 (18). S. 5-10.

5. Savchenko T.N. Primenenie klasternogo analiza dlya obrabotki dannyh psihologicheskih issledovanij // Ehksperimental'naya psihologiya. 2010. № 2.

i Надоели баннеры? Вы всегда можете отключить рекламу.