Научная статья на тему 'Влияние типа данных на результаты классификации объектов'

Влияние типа данных на результаты классификации объектов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
337
65
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДВУХЭТАПНЫЙ КЛАСТЕРНЫЙ АНАЛИЗ / ДИСКРИМИНАНЫЙ АНАЛИЗ / КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Саввина Е. А.

В работе показано влияние типа данных на классификацию объектов, выявлены наиболее информативные признаки для разных классов качества, результаты классификации подтверждены дискриминантным анализом.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The influence of the data’s type on the results of the objects classification

This work shows the influence of the type of data on the classification of objects and revealed the most informative signs for different classes of quality, the results of the classification are confirmed by discriminant analysis.

Текст научной работы на тему «Влияние типа данных на результаты классификации объектов»

ВестникВГУИТ, №1, 2013_

УДК 675.03.031.81:577.15

Аспирант Е.А. Саввина

(Воронеж. гос. ун-т. инж. технол.) кафедра информационных и управляющих систем, тел. (473) 255-38-75

Влияние типа данных на результаты классификации объектов

В работе показано влияние типа данных на классификацию объектов, выявлены наиболее информативные признаки для разных классов качества, результаты классификации подтверждены дискриминантным анализом.

This work shows the influence of the type of data on the classification of objects and revealed the most informative signs for different classes of quality, the results of the classification are confirmed by discriminant analysis.

Ключевые слова: двухэтапный кластерный анализ, дискриминаный анализ, коэффициент корреляции Пирсона.

Качество белого хлеба из пшеничной муки зависит от качества рецептурных компонентов и точности соблюдения норм технологического процесса. При одних и тех же параметрах протекания технологического процесса возможно получение хлеба различного качества, в зависимости от качества ингредиентов, основным из которых является мука. Поэтому задача прогнозирования качества готовой продукции по информации о рецептурных компонентах весьма актуальна.

Исходная цель работы: определить взаимосвязь между показателями муки и качеством хлеба, выявить наиболее информативные признаки, построить алгоритм классификации данных.

В ходе выполнения работы была сформирована база данных, состоящая из 80 анализов, характеризующих качество белого хлеба по семи количественным признакам. Каждый анализ описывался органолептическими показателями качества муки (влажность, массовая доля и качество клейковины и т.д.) и показателями качествами хлеба (влажность, кислотность и пористость). В соответствии с классификацией, предложенной Пономаревой Е.И. данные были разделены на 4 группы. Первая группа (класс 1 высшего качества) - 20 наблюдений (25,0 %); вторая (класс 2 хорошего качества) - 14 (17,5 %); третья (класс 3 плохого качества) - 26 (32,5 %); четвертая (класс 4 очень плохого качества) - 20 (25,0 %).

Для принятия решений об отнесении хлеба к определенному классу необходимо отобрать наиболее информативные признаки.

© Савина Е.А., 2013

Выявление наиболее информативных признаков осуществлялось в три этапа. На первом этапе использовался корреляционный анализ. На втором этапе формировалась классификационная система признаков методом двухэтапного кластерного анализа. На третьем этапе строилась дискриминантная функция.

Одним из методов определения типов сходства является коэффициент корреляции Пирсона, который рассчитывается:

г _ 2(х, -х)-(у1 -у) ,

Ху (X, - X)2(у - У)2 '

где х - значения, принимаемые переменной Х, у - значения, принимаемые переменной У,

X - средняя по Х, у - средняя по У.

Кластерный анализ позволяет группировать «однородные» или «близкие» объекты в классы по какому-либо признаку. Наиболее распространены иерархическая кластеризация и к-средними. Недостатком иерархических методов кластеризации является то, что модель предлагает несколько вариантов разбиения или объединения данных в кластеры, выбор результирующей модели остается за человеком. Кластеризация к-средними, или «метод ближайшего соседа» основан на том, что число кластеров задается изначально. Затем элементы перераспределяются по кластерам, улучшая качество модели. Недостатком данного метода является то, что необходимо применять процедуры несколько раз для различного числа кластеров, не всегда разбиение оптимально для заданной задачи.

ВестникВГУИТ, №1, 2013=

Модель двухэтапного подхода (TwoStep Cluster) позволяет кластеризовать различные группы по отдельности, а после этого объединять полученные результаты в конечную структуру кластеров. Двухэтапный кластерный анализ используется как основной инструмент для сокращения размерности данных при создании кластеров или подгрупп данных, более удобных для анализа. Последующий многомерный анализ выполняют над кластерами, а не над отдельными наблюдениями. Для измерения расстояния между объектами используется Евклидова метрика:

dkl =

m

j Ixkj - xv )

2

(2)

d

где - расстояние между объектом к и 1, а

х. . -и х.. - это )-е свойства объектов соответ-У

ственно к и 1.

На первом этапе двухэтапного кластерного анализа рассчитывается межкластерная дисперсия, логарифмическая функция правдоподобия и первоначальное количество кластеров через критерии Акаике и Байеса. Дисперсия & в кластерах

p 1 q mv

£ (I Tlog(^v + j "I In log(nj)) (3)

£2

j=i i=\

состоит из двух частей: p 1

"ni(1~log(Sj + S^)- мера дисперсии не-

j

2

прерывных переменных Х1 в пределах кластера

д

и \о£,(Жу) мера дисперсии категори-

]=1 ¿=1

альных переменных. Кластеры с минимальным расстоянием 5) будут объединены на каждом шаге итерации. Логарифмическая функция правдоподобия для шага с к-кластерами вычисляется по формуле:

1. L =I£

(4)

i=1

Число кластеров в двухэтапном кластером анализе может быть задано автоматически. Информационный критерий Акаике (А1С):

AICk =-2Lk + 2rk.

(5)

где rk - число параметров или Информационный критерий Байеса

BICk =-2Lk + rk log n . (6)

Информационные критерии (5) и (6) определяют максимальное число кластеров.

На втором этапе кластерного анализа рассчитывается расстояние для k- кластеров:

R(k) =

dk-i

d,r

(7)

где dk-l - расстояние, в котором кластер к слит с кластером (к-1). Минимальное расстояние между кластерами:

d = Т " Т

uk ~ ^k-1 ^k

(8)

В следующем этапе анализа был использован дискриминантный анализ. Данный метод заключается в разработке методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам. Процедуры дискриминантного анализа позволяют не только интерпретировать различия между существующими классами, но и проводить классификацию новых объектов в тех случаях, когда заранее неизвестно, к какому из существующих классов они принадлежат. Методы пошагового дискриминантного анализа предполагают проверку (в начале каждого шага) всех дискриминантных переменных на соответствие двум условиям: необходимой точности вычисления (толерантности) и превышению заданного уровня различения (использование статистик —-ввода и —-исключения). Статистика —-ввода оценивает улучшение различения благодаря использованию данной переменной по сравнению с различением, достигнутым с помощью отобранных переменных. Статистика - -исключения определяет значимость ухудшения различения после удаления переменной из списка уже отобранных. Переменная с наибольшим значением - -исключения дает наибольший вклад в различение.

Каноническая дискриминантная функция вычисляется по формуле:

F (x) = a1x1 + a2 x2

(9)

где а1, а2 - коэффициенты функции, х 1, х2 -дискриминантные переменные.

Коэффициенты дискриминантной функции а, определяются таким образом, чтобы

ВесжнмкВГУИТ, №1,, 203

средние значения функций / (х) и /2 (х) , как можно больше различались между собой, т.е. чтобы для двух множеств (классов) было максимальным выражение:

Л1 (Х) - ./2 (Х) = 2 а1 Х1г - 2 а1 X

(10)

,=1

,=1

=

Вектор коэффициентов дискриминант-ной функции определяется по формуле:

а=1ст1 - Х2), (11)

где 1 - объединенная ковариационная матрица признаков:

-1--Х X + х2 Х2), (12)

п1 + п2 - 2 1 1 22 где X - матрицы отклонений наблюдаемых значений исходных переменных от их средних величин в группах.

Константа детерминации для классификации рассчитывается по формуле:

С = + /2), (13)

С помощью корреляционного анализа в общей выборке было установлено, что признаки коррелируют на уровне значимости 0,05 с классом качества хлеба. Информативных признаков, коэффициент корреляции для которых превышает 0,7, выявлено не было.

На основании проведенного корреляционного анализа можно утверждать, что выделение классов 1, 2, 3, 4 в общей выборке невозможно, из-за отсутствия специфических признаков в классах.

Кластерный анализ, проведенный на основе 7 признаков показал следующие результаты. Для получения приемлемых результатов классификации необходимо построение иерархической схемы, показанной в работе [3].

Для повышения точности классификации исходный набор количественных признаков был преобразован в категориальные, так как для описания класса важнее не само значение признака, а попадание этого значения в категорию (диапазон значения от и до), определяющую принадлежность к классу качества.

Полученные категориальные признаки были преобразованы в бинарные, где каждый признак имел 2 состояния (0 - признак не принадлежит диапазону, 1 - принадлежит). В результате в базе данных количество признаков увеличилось с 7 до 37.

С помощью корреляционного анализа в общей выборке было установлено, что признаки коррелируют на уровне значимости 0,01 с классом качества хлеба. В качестве наиболее информативных были отобраны признаки с коэффициентом корреляции превышающем 0,7.

Т а б л и ц а 1

Таблица информативных признаков

Показатели 1 класс 2 класс 3 класс 4 класс

Массовая доля клейковины 32-33 (Х 7) 0,814** -0,075 -0,323** -0,367**

Качество клейковины 66-75 (Х11) 0,788** -0,302** -0,163 -0,315**

Качество клейковины 35-50 (Х12) -0,279* -0,230* 0,721** -0,289**

Газообразующая способность 1400-1500 (Х17) 0,742** -0,249* -0,425** -0,031

Кислотность мякиша 3 (Х29) 0,764** -0,441* 0,238* 0,389*

Пористость мякиша 67-68 (Х 34) -0,218 0,806** 0,230* -0,300**

Пористость мякиша 69-70 (Х 35) 0,965** -0,248* -0,374** -0,311**

Пористость мякиша ниже 63 (Х 37) -0,333** -0,275* -0,111 0,705**

Для класса 1 было выявлено 5 информативных признаков (массовая доля клейковины 32-33, качество клейковины 66-75, газообразующая способность 1400-1500, кислотность мякиша 3, пористость мякиша 69-70), для которых коэффициент корреляции превышает 0,7. Для 2 признаков г находится в диапазоне 0,624 до 0,684 по модулю, и имеет среднюю тесноту связи с классом качества. Во второй группе специфических признаков не обнаружено, значение г находится в диапазоне

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

от 0,485 до 0,689. В группе 3 обнаружено 2 специфических признака с теснотой связи от 0,721 до 0,806. Для 6 признаков коэффициент корреляции находится в диапазоне от 0,586 до 0,664 с средней теснотой связи. Класс 4 имеет один специфический признак (пористость мякиша) со значением коэффициента корреляции более 0,7; теснота связи сильная. Для 4 признаков в данной группе коэффициент корреляции г находится в диапазоне от 0,525 до 0,656, теснота связи средняя (больше 0,5).

ВестникВТУИЖ №1, 2011

На основании проведенного корреляци- С помощью двухэтапного кластерного

онного анализа можно утверждать, что воз- анализа была получена четырехкластерная

можно выделение 4-х классов. структура данных, представленная на рис. 1.

Рис. 1. Четырехкластерная структура данных.

К классу 1 (22,5 %) относится хлеб очень хорошего качества, к классу 2 (30,0 %) - хлеб плохого качества, 3 класс (21,3 %) - хлеб хорошего качества, класс 4 (26,3 %) - хлеб очень плохого качества. Было допущено 11 ошибок (13,75 %). Из них: 4 ошибки первого рода (5 %), класс плохого качества был ошибочно отнесен к классу хорошего качества; 2 ошибки второго рода (2,5 %); 5 ошибок по-

Результат двухэтап

падания наблюдений плохого качества в очень плохое (6,25 %) не являются существенными для классификации, так как классы (3 и 4) не должны использоваться в хлебопечении. Следовательно, в классификации задан порог чувствительности выше необходимого. Результат классификации 86,25 %.

Результаты двухэтапного кластерного анализа представлены в табл. 2.

Т а б л и ц а 2

кластерного анализа

Распределение по кластерам % ошибок

N % объединенных

1 класс очень хорошего качества 18 22,5 %

2 класс плохого качества 24 30,0 % 2,5

3 класс хорошего качества 17 21,3 % 5

4 класс очень плохого качества 21 26,3 % 6,25

Объединенный 80 100,0 % 13,75

Были построены дискриминантные функции и оценена их значимость по коэффициенту Уилкса (X):

Б^Х) = -3,994+2,206Х7+3,390Хп+0,413Х 12+3,486Х 17+1,496Х29+1,811Х30+2,739Х 31; (13) Б2(Х)=-0,649-2,619Х 7+2,130ХП+1,987Х и+3,034Хп-2,341Х29-2,475Х 30+4,353Х 31 ; (14)

Б3(Х)=-1,148-2,754Х т+1,419Хп+0,670Х12+1,098Х 17+1,111Х 29+3,169Х30+0,967Х 31; (15)

Т а б л и ц а 3

Результаты дискриминантного анализа

Функция Собственное значение % объясненной дисперсии Каноническая корреляция Л -Уилкса Хи-квадрат

D1(X) 13,745 75,4 0,965 0,007 366,024

D2(X) 3,027 16,6 0,867 0,101 168,245

D3(X) 1,450 8,0 0,769 0,408 65,864

По результатам дискриминантного анализа (таблица 3) было выявлено, что наибольший вклад в дискриминацию вносит функция В1(Х). На основании внутригрупповой корреляции между дискриминантными переменными и дис-

криминантными функциями было выявлено, что наибольший вклад в дискриминацию вносят переменные качество клейковины 66 - 75 (Х7) 0,402*, газообразующая способность 1400 - 1500 (Х11) 0,385* и кислотность мякиша 3 0,362*.

ВестникВГУИТ, №1, 2011

Результаты классификации методом дискриминантного анализа показали, что высокая точность достигнута в первой, третей и четвертой группах (100 %). Менее точные результаты получены во второй группе (8,75 %), где 5 наблюдений были ошибочно отнесены к плохому качеству (6,25 %), 2 наблюдения (2,5 %), классифицированные в базе данных как хорошее качество, были неправильно распознаны как очень плохое качество.

Результаты классификации свидетельствуют о том, что для 91,25 % наблюдений классификация проведена корректно.

Подводя итоги работы, можно сделать выводы:

- был предложен трехэтапный анализ для отбора наиболее информативных признаков, где на первом этапе проводится корреляционный анализ, на втором - двухэтапный кластерный анализ, на третьем - дискриминантный анализ. Показано, что коэффициент корреляции между признаками и классом определяет точность классификации.

- была предложена категориальная структура. Показано, что структура базы данных влияет на классификацию.

- выполнена классификация качества хлеба. При использовании метода двухэтапно-го кластерного анализа было допущено 11 ошибок (13,75 %): 4 ошибки первого рода (5 %), класс плохого качества был ошибочно отнесен к классу хорошего качества; 2 ошибки второго рода (2,5 %); 5 ошибок попадания наблюдений плохого качества в очень плохое (6,25 %), не являются существенными для классификации, так как классы (3 и 4) не должны использоваться в хлебопечении. Метод дискриминантного анализа классифицирует с точностью 91,3 %. Было допущено 7 ошибок: 5 наблюдений были ошибочно отнесены к плохому качеству (6,25 %), 2 наблюдения (2,5 %), классифицированные в базе данных как хорошее качество были неправильно распознаны как очень плохое качество.

ЛИТЕРАТУРА

1 Бююль, А. SPSS: искусство обработки информации, анализ статистических данных и восстановление скрытых закономерностей [Текст] / А. Бююль, П. Цёфель. - СПб.: ООО «ДиаСофтЮП», 2002. - 608с.

2 Бессокирная, Г. П. Дискриминантный анализ для отбора информативных переменных [Текст] / Г. П. Бессокирная // Статистические методы и анализ данных. - 2003. - №16. - С. 25-26.

3 Балашова, Е. А. Классификация качества хлеба методом двухэтапного кластерного анализа [Текст] / Е. А. Балашова, В. К. Битю-ков, Е. А. Журавлева. - Сборник трудов конференции ММТТ-25. - Волгоград: ВолгГТУ, 2012. - С. 67-70.

4 Сидоренко, Е.А. Информационное описание и диагностика состояния иерархически организованных систем [Текст] / Е. А. Сидоренко. - Воронеж,2001. - с. 192.

5 Bacher, J. SPSS TwoStep Cluster - A First Evaluation [Text] / J. Bacher, K. Wenzig. -Nürnberg: Universitet Erlanger, 2004.

REFERENCES

1 Byuyul, A. SPSS: art of treatment of information, analysis of statistical data and renewal of the hidden conformities to law [Text] / And. Byuyul, P. of Cefel. - SPb.: LTD. «DiaSoftYUp», 2002. - 608 p.

2 Bessokirnaya, G.P. Discriminant analysis for the selection of informativevariables [Text]/ G.P. Bessokirnaya // the Statistical methods and analysis of data. - 2003. - №16. - P. 25-26.

3 Balashova, E.A. Classification of quality of bread by the method of a twostage cluster analysis [Text] / E.A. Balashova, V.K. Bityukov, E.A. Zhuravleva. it is Collection of labours of conference of MMTT-25. - Volgograd: Vol-gGTU, 2012. - P. 67-70.

4 Sidorenko, E.A. Informative description and diagnostics of the state of the hierarchically organized systems [Text] / E.A. Sidorenko. -Voronezh,2001. - p. 192.

5 Bacher, J. SPSS TwoStep Cluster -A First Evaluation [Text] / J. Bacher, K. Wenzig. -Nurnberg: Universitet Erlanger, 2004.

i Надоели баннеры? Вы всегда можете отключить рекламу.