Научная статья на тему 'Классификация больных сахарным диабетом на основе кластерного анализа'

Классификация больных сахарным диабетом на основе кластерного анализа Текст научной статьи по специальности «Экономика и бизнес»

CC BY
508
372
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРНЫЙ АНАЛИЗ / КЛАССИФИКАЦИЯ / САХАРНЫЙ ДИАБЕТ / CLUSTER ANALYSIS / CLASSIFICATION / DIABETES

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Данилов Д. В., Коровин Е. Н.

Рассматривается классификация пациентов по типу сахарного диабета на основе классификационных признаков с помощью кластерного анализа

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Данилов Д. В., Коровин Е. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLASSIFICATION OF PATIENTS WITH DIABETES BASED ON CLUSTER ANALYSIS

The classification of patients by type of diabetes based on the classifications using cluster analysis

Текст научной работы на тему «Классификация больных сахарным диабетом на основе кластерного анализа»

УДК 681.3

КЛАССИФИКАЦИЯ БОЛЬНЫХ САХАРНЫМ ДИАБЕТОМ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА Д.В. Данилов, Е.Н. Коровин

Рассматривается классификация пациентов по типу сахарного диабета на основе классификационных признаков с помощью кластерного анализа

Ключевые слова: кластерный анализ, классификация, сахарный диабет

Кластерный анализ является одним из методов многомерного анализа данных, предназначенный для группировки (кластеризации) совокупности элементов, которые характеризуются многими признаками, и получения однородных групп (кластеров). Формирование кластеров осуществляется на основе использования некоторой метрики, например, евклидова расстояния.

В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных.

Методы кластеризации можно разделить на две группы:

- иерархические;

- неиерархические.

Каждая из групп включает множество подходов и алгоритмов.

В качестве основных методов анализа пакет STATISTICA предлагает Joining (tree clustering) -группу иерархических методов (7 видов), которые используются в том случае, если число кластеров заранее неизвестно, и K-Means Clustering (метод К-средних), в котором пользователь заранее определяет количество кластеров.

К иерархическим методам кластерного анализа относится метод Уарда (Ward’s method), который целесообразно применять для небольшого количества элементов при выборе кластеров с примерно равным количеством объектов.

Основная задача иерархической кластеризации состоит в последовательном разделении больших кластеров на меньшие кластеры или объединении меньших кластеров в большие.

Иерархические алгоритмы связаны с построением дендрограмм (от греческого dendron - "дерево"), которые являются результатом иерархического кластерного анализа. Дендрограмма описывает близость отдельных точек и кластеров друг к другу, представляет в графическом виде последовательность объединения (разделения) кластеров.

Существует много способов построения дендрограмм. В дендрограмме объекты могут распола-

Данилов Денис Викторович - ВГТУ, аспирант, тел. (473) 246-76-99

Коровин Евгений Николаевич - ВГТУ, д-р техн. наук, профессор, тел. (473) 246-76-99

гаться вертикально или горизонтально. Пример вертикальной дендрограммы приведен на рис. 1.

Рис. 1. Пример дендрограммы

Для вычисления расстояния между объектами используются различные меры сходства (меры подобия), называемые также метриками или функциями расстояний.

Наиболее употребительными являются Euclidean distance (евклидово расстояние):

кХіїХг') л S (Хіт Хіт) V m=l

где i, z =1,2,3...и.

Также используют Squared Euclidean distance (квадратическое евклидово расстояние):

’Ух,

■ Xz) ~

!ії=\

В данной статье с помощью кластерного анализа нам предстоит классифицировать пациентов по типу сахарного диабета на основе таблицы классификационных признаков (табл. 1).

Прежде, чем приступить непосредственно к методам кластерного анализа, произведем нормирование исходных данных. Для этого воспользуемся пакетом 8ТЛГШТ1СЛ.

Стандартизация или нормирование исходных данных приводит значения всех преобразованных переменных к единому диапазону значений путем выражения через отношение этих значений к некой величине, отражающей определенные свойства конкретного признака. Существуют различные способы нормирования исходных данных.

Таблица 1

Классификационные признаки СД

Симптом Наименование симптома

Х1 Увеличение количества мочи

Х2 Есть ли ожирение

Х3 Присутствует запах ацетона

Х4 Ухудшение зрения

Х5 Наличие обезвоживания

Х6 С-пептид

Х7 Наличие кетоновых тел

Х8 Ь клетки вырабатывают инсулин со сниженной активностью

Х9 Возраст

Х10 Присутствие лейкоцитарных антигенов

Х11 Большое выделение инсулина в поджелудочной железе

Х12 Гипергликемия

Х13 Нарушение функций почек

Два наиболее распространенных способа:

- деление исходных данных на среднеквадратичное отклонение соответствующих переменных;

- вычисление Z-вклада или стандартизованного вклада.

После этого можно провести анализ, выбрав соответствующий пункт и задав все необходимые значения.

Рис.2. Дендрограмма

На данном графике (рис. 2) произошло разделение на два кластера как и предполагалось. То есть пациенты разделились на две группы: СД2 - первый кластер и СД1 - второй кластер. Но разделение произошло с ошибками. Ошибка разбиения для первого кластера составила 26%, а для второго кластера составила 6,25%.

Так как число кластеров известно, применим теперь метод К-средних для двух кластеров (СД1 и СД2).

После необходимых преобразований мы получили следующие средние значения по каждому из двух кластеров (табл. 2 и рис. 3). В качестве меры расстояния использовалось евклидово расстояние.

Рис. 3. График средних значений показателей по кластерам

Таблица 2

Переменные Кластер 1 Кластер 2

Х1 0,365801 -0,214151

Х2 -0,108935 0,252173

Х3 0,775534 -0,775827

Х4 0,013216 0,120605

Х5 -0,084446 0,345468

Х6 -0,178460 0,133000

Х7 -0,449183 0,408973

Х8 -0,037178 -0,095798

Х9 -0,002413 -0,061835

Х10 0,380037 -0,570874

Х11 -0,135501 0,130268

Х12 0,117842 -0,044222

Х13 -0,281373 0,501129

Исследуя полученный рис. 3 можно сделать некоторые выводы.

Среднее значение увеличения количества мочи (Х1) близко во втором кластер, в то время как в первом кластере этот показатель возрастает. Что касается наличия ожирения (Х2), то среднее значение этого показателя близко в первом и втором кластерах. Среднее значение показателя запаха ацетона (Х3) как в первом так и во втором кластере сильно различаются. Среднее значение ухудшения зрения (Х4) очень близко в первом и во втором кластерах. Среднее значение наличия обезвоживания (Х5) близко в первом кластере и увеличение во втором. Среднее значение С-пептида (Х6) различаются в первом и втором кластере.. Среднее значение наличия кетоновых тел (Х7) и среднее значение присутствия лейкоцитарных антигенов (Х10) сильно различаются в первом и втором кластерах. Среднее значение выработки инсулина Ь клетками со сниженной активностью (Х8) как и среднее значение возраста (Х9) очень близки в первом и втором кластерах. Среднее значение большого выделение инсулина в поджелудочной железе (Х11) довольно схоже с Х6 Среднее значение гипергликемии (Х12) возрастает в следующем порядке по номерам кластеров: 2,1. И, наконец, среднее значение нарушения

функций почек (Х13) возрастает в следующем порядке по номерам кластеров: 1,2 и схоже с Х10, Х7.

Приведем статистику по признакам, входящим в каждый кластер, таблица 3, таблица 4 для первого и второго кластера соответственно.

Таблица 3

Статистические данные по признакам первого кластера

Признак Среднее значение Отклонение Дисперсия

X1 0,365801 0,947505 0,897766

X2 -0,108935 0,998720 0,997442

X3 0,775534 0,807940 0,652767

X4 0,013216 1,007225 1,014502

X5 -0,084446 0,999330 0,998660

X6 -0,178460 0,901078 0,811941

X7 -0,449183 0,916217 0,839453

X8 -0,037178 1,007776 1,015613

X9 -0,002413 1,087407 1,182454

X10 0,380037 0,847587 0,718403

X11 -0,135501 1,012122 1,024390

X12 0,117842 1,006060 1,012156

X13 -0,281373 0,907288 0,823171

Исходя из данных таблицы можно сделать вывод, что в первом кластере меньшее среднеквадратичное отклонение и дисперсию имеет признак Х3 -значение показателя запаха ацетона (0,807940 и 0,652767), из этого следует что значения данного показателя располагаются ближе к своим средним. Наиболее высокое значение среднеквадратичное

Литература

1. Жамбю М. Иерархический кластерный анализ и соответствия. М.: Финансы и статистика, 1988 342 с.

2. Факторный, дискриминантный и кластерный анализ: Пер. с англ., / Джон Ким, Ч.У.Мьюллер и др. М.: Финансы и статистика, 1989. 215 с.

3. Коровин Е.Н., Родионов О.В. Методы обработки биомедицинских данных. Воронеж: ВГТУ, 2007. 152 с.

отклонение и дисперсию имеет признак Х9 - значение возраста (1,087407 и 1,182454), следовательно значения данного показателя располагаются дальше от своих средних.

Таблица 4

Статистические данные по признакам второго кластера

Признак Среднее значение Отклонение Дисперсия

X1 -0,214151 0,907409 0,823391

X2 0,252173 0,981568 0,963475

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

X3 -0,775827 0,373938 0,139830

X4 0,120605 1,014593 1,029399

X5 0,345468 0,962120 0,925675

X6 0,133000 1,248283 1,558211

X7 0,408973 0,904705 0,818492

X8 -0,095798 1,012729 1,025619

X9 -0,061835 0,974853 0,950338

X10 -0,570874 0,952288 0,906852

X11 0,130268 0,987608 0,975370

X12 -0,044222 1,144594 1,310095

X13 0,501129 0,978383 0,957232

Из данных таблицы видно, что значения, расположенные ближе к средним обладает показатель Х3 - значение показателя запаха ацетона, так как он имеет низкое среднеквадратичное отклонение и дисперсию (0,373938 и 0,139830). Наибольшие значения имеет признак Х6 - значение С-пептида (1,248283 и 1,558211).

4. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977. 128 с.

5. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.

6. Новикова Е.И., Родионов О.В., Коровин Е.Н. Моделирование биомедицинских систем. Воронеж: ВГТУ. 2008. 196 с.

7. Подвальный, Е.С. Модели индивидуального прогнозирования и классификаций состояний в системах компьютерного мониторинга. Воронеж: изд. ВГТУ. 1998. - 127 с.

Воронежский государственный технический университет

CLASSIFICATION OF PATIENTS WITH DIABETES BASED ON CLUSTER ANALYSIS D.V. Danilov, E.N. Korovin

The classification of patients by type of diabetes based on the classifications using cluster analysis Key words: cluster analysis, classification, diabetes

i Надоели баннеры? Вы всегда можете отключить рекламу.