УДК 681.3
КЛАССИФИКАЦИЯ БОЛЬНЫХ САХАРНЫМ ДИАБЕТОМ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА Д.В. Данилов, Е.Н. Коровин
Рассматривается классификация пациентов по типу сахарного диабета на основе классификационных признаков с помощью кластерного анализа
Ключевые слова: кластерный анализ, классификация, сахарный диабет
Кластерный анализ является одним из методов многомерного анализа данных, предназначенный для группировки (кластеризации) совокупности элементов, которые характеризуются многими признаками, и получения однородных групп (кластеров). Формирование кластеров осуществляется на основе использования некоторой метрики, например, евклидова расстояния.
В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных.
Методы кластеризации можно разделить на две группы:
- иерархические;
- неиерархические.
Каждая из групп включает множество подходов и алгоритмов.
В качестве основных методов анализа пакет STATISTICA предлагает Joining (tree clustering) -группу иерархических методов (7 видов), которые используются в том случае, если число кластеров заранее неизвестно, и K-Means Clustering (метод К-средних), в котором пользователь заранее определяет количество кластеров.
К иерархическим методам кластерного анализа относится метод Уарда (Ward’s method), который целесообразно применять для небольшого количества элементов при выборе кластеров с примерно равным количеством объектов.
Основная задача иерархической кластеризации состоит в последовательном разделении больших кластеров на меньшие кластеры или объединении меньших кластеров в большие.
Иерархические алгоритмы связаны с построением дендрограмм (от греческого dendron - "дерево"), которые являются результатом иерархического кластерного анализа. Дендрограмма описывает близость отдельных точек и кластеров друг к другу, представляет в графическом виде последовательность объединения (разделения) кластеров.
Существует много способов построения дендрограмм. В дендрограмме объекты могут распола-
Данилов Денис Викторович - ВГТУ, аспирант, тел. (473) 246-76-99
Коровин Евгений Николаевич - ВГТУ, д-р техн. наук, профессор, тел. (473) 246-76-99
гаться вертикально или горизонтально. Пример вертикальной дендрограммы приведен на рис. 1.
Рис. 1. Пример дендрограммы
Для вычисления расстояния между объектами используются различные меры сходства (меры подобия), называемые также метриками или функциями расстояний.
Наиболее употребительными являются Euclidean distance (евклидово расстояние):
кХіїХг') л S (Хіт Хіт) V m=l
где i, z =1,2,3...и.
Также используют Squared Euclidean distance (квадратическое евклидово расстояние):
’Ух,
■ Xz) ~
!ії=\
В данной статье с помощью кластерного анализа нам предстоит классифицировать пациентов по типу сахарного диабета на основе таблицы классификационных признаков (табл. 1).
Прежде, чем приступить непосредственно к методам кластерного анализа, произведем нормирование исходных данных. Для этого воспользуемся пакетом 8ТЛГШТ1СЛ.
Стандартизация или нормирование исходных данных приводит значения всех преобразованных переменных к единому диапазону значений путем выражения через отношение этих значений к некой величине, отражающей определенные свойства конкретного признака. Существуют различные способы нормирования исходных данных.
Таблица 1
Классификационные признаки СД
Симптом Наименование симптома
Х1 Увеличение количества мочи
Х2 Есть ли ожирение
Х3 Присутствует запах ацетона
Х4 Ухудшение зрения
Х5 Наличие обезвоживания
Х6 С-пептид
Х7 Наличие кетоновых тел
Х8 Ь клетки вырабатывают инсулин со сниженной активностью
Х9 Возраст
Х10 Присутствие лейкоцитарных антигенов
Х11 Большое выделение инсулина в поджелудочной железе
Х12 Гипергликемия
Х13 Нарушение функций почек
Два наиболее распространенных способа:
- деление исходных данных на среднеквадратичное отклонение соответствующих переменных;
- вычисление Z-вклада или стандартизованного вклада.
После этого можно провести анализ, выбрав соответствующий пункт и задав все необходимые значения.
Рис.2. Дендрограмма
На данном графике (рис. 2) произошло разделение на два кластера как и предполагалось. То есть пациенты разделились на две группы: СД2 - первый кластер и СД1 - второй кластер. Но разделение произошло с ошибками. Ошибка разбиения для первого кластера составила 26%, а для второго кластера составила 6,25%.
Так как число кластеров известно, применим теперь метод К-средних для двух кластеров (СД1 и СД2).
После необходимых преобразований мы получили следующие средние значения по каждому из двух кластеров (табл. 2 и рис. 3). В качестве меры расстояния использовалось евклидово расстояние.
Рис. 3. График средних значений показателей по кластерам
Таблица 2
Переменные Кластер 1 Кластер 2
Х1 0,365801 -0,214151
Х2 -0,108935 0,252173
Х3 0,775534 -0,775827
Х4 0,013216 0,120605
Х5 -0,084446 0,345468
Х6 -0,178460 0,133000
Х7 -0,449183 0,408973
Х8 -0,037178 -0,095798
Х9 -0,002413 -0,061835
Х10 0,380037 -0,570874
Х11 -0,135501 0,130268
Х12 0,117842 -0,044222
Х13 -0,281373 0,501129
Исследуя полученный рис. 3 можно сделать некоторые выводы.
Среднее значение увеличения количества мочи (Х1) близко во втором кластер, в то время как в первом кластере этот показатель возрастает. Что касается наличия ожирения (Х2), то среднее значение этого показателя близко в первом и втором кластерах. Среднее значение показателя запаха ацетона (Х3) как в первом так и во втором кластере сильно различаются. Среднее значение ухудшения зрения (Х4) очень близко в первом и во втором кластерах. Среднее значение наличия обезвоживания (Х5) близко в первом кластере и увеличение во втором. Среднее значение С-пептида (Х6) различаются в первом и втором кластере.. Среднее значение наличия кетоновых тел (Х7) и среднее значение присутствия лейкоцитарных антигенов (Х10) сильно различаются в первом и втором кластерах. Среднее значение выработки инсулина Ь клетками со сниженной активностью (Х8) как и среднее значение возраста (Х9) очень близки в первом и втором кластерах. Среднее значение большого выделение инсулина в поджелудочной железе (Х11) довольно схоже с Х6 Среднее значение гипергликемии (Х12) возрастает в следующем порядке по номерам кластеров: 2,1. И, наконец, среднее значение нарушения
функций почек (Х13) возрастает в следующем порядке по номерам кластеров: 1,2 и схоже с Х10, Х7.
Приведем статистику по признакам, входящим в каждый кластер, таблица 3, таблица 4 для первого и второго кластера соответственно.
Таблица 3
Статистические данные по признакам первого кластера
Признак Среднее значение Отклонение Дисперсия
X1 0,365801 0,947505 0,897766
X2 -0,108935 0,998720 0,997442
X3 0,775534 0,807940 0,652767
X4 0,013216 1,007225 1,014502
X5 -0,084446 0,999330 0,998660
X6 -0,178460 0,901078 0,811941
X7 -0,449183 0,916217 0,839453
X8 -0,037178 1,007776 1,015613
X9 -0,002413 1,087407 1,182454
X10 0,380037 0,847587 0,718403
X11 -0,135501 1,012122 1,024390
X12 0,117842 1,006060 1,012156
X13 -0,281373 0,907288 0,823171
Исходя из данных таблицы можно сделать вывод, что в первом кластере меньшее среднеквадратичное отклонение и дисперсию имеет признак Х3 -значение показателя запаха ацетона (0,807940 и 0,652767), из этого следует что значения данного показателя располагаются ближе к своим средним. Наиболее высокое значение среднеквадратичное
Литература
1. Жамбю М. Иерархический кластерный анализ и соответствия. М.: Финансы и статистика, 1988 342 с.
2. Факторный, дискриминантный и кластерный анализ: Пер. с англ., / Джон Ким, Ч.У.Мьюллер и др. М.: Финансы и статистика, 1989. 215 с.
3. Коровин Е.Н., Родионов О.В. Методы обработки биомедицинских данных. Воронеж: ВГТУ, 2007. 152 с.
отклонение и дисперсию имеет признак Х9 - значение возраста (1,087407 и 1,182454), следовательно значения данного показателя располагаются дальше от своих средних.
Таблица 4
Статистические данные по признакам второго кластера
Признак Среднее значение Отклонение Дисперсия
X1 -0,214151 0,907409 0,823391
X2 0,252173 0,981568 0,963475
X3 -0,775827 0,373938 0,139830
X4 0,120605 1,014593 1,029399
X5 0,345468 0,962120 0,925675
X6 0,133000 1,248283 1,558211
X7 0,408973 0,904705 0,818492
X8 -0,095798 1,012729 1,025619
X9 -0,061835 0,974853 0,950338
X10 -0,570874 0,952288 0,906852
X11 0,130268 0,987608 0,975370
X12 -0,044222 1,144594 1,310095
X13 0,501129 0,978383 0,957232
Из данных таблицы видно, что значения, расположенные ближе к средним обладает показатель Х3 - значение показателя запаха ацетона, так как он имеет низкое среднеквадратичное отклонение и дисперсию (0,373938 и 0,139830). Наибольшие значения имеет признак Х6 - значение С-пептида (1,248283 и 1,558211).
4. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977. 128 с.
5. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.
6. Новикова Е.И., Родионов О.В., Коровин Е.Н. Моделирование биомедицинских систем. Воронеж: ВГТУ. 2008. 196 с.
7. Подвальный, Е.С. Модели индивидуального прогнозирования и классификаций состояний в системах компьютерного мониторинга. Воронеж: изд. ВГТУ. 1998. - 127 с.
Воронежский государственный технический университет
CLASSIFICATION OF PATIENTS WITH DIABETES BASED ON CLUSTER ANALYSIS D.V. Danilov, E.N. Korovin
The classification of patients by type of diabetes based on the classifications using cluster analysis Key words: cluster analysis, classification, diabetes