Научная статья на тему 'Прогнозирование удержания синусового ритма на основе деревьев решений'

Прогнозирование удержания синусового ритма на основе деревьев решений Текст научной статьи по специальности «Математика»

CC BY
123
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОГНОЗИРОВАНИЕ В МЕДИЦИНЕ / ИЗВЛЕЧЕНИЕ ЗНАНИЙ / МЕТОДЫ КЛАССИФИКАЦИИ / ДЕРЕВЬЯ РЕШЕНИЙ / PROGNOSIS IN MEDICINE / KNOWLEDGE EXTRACTING / METHODS OF CLASSIFICATION / DECISION TREES

Аннотация научной статьи по математике, автор научной работы — Васильева Ирина Васильевна

В работе рассматривается применение современных интеллектуальных методов извлечения знаний из медицинских данных и прогнозирование результатов данных на основе этих методов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Васильева Ирина Васильевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PREDICTION OF CONSERVATION OF SINUS RHYTHM BASED ON DECISION TREES

In this paper the application of modern methods for knowledge extracting from medical data and forecasting results of data based on trees methods.

Текст научной работы на тему «Прогнозирование удержания синусового ритма на основе деревьев решений»

УДК 519.172

ПРОГНОЗИРОВАНИЕ УДЕРЖАНИЯ СИНУСОВОГО РИТМА НА ОСНОВЕ ДЕРЕВЬЕВ РЕШЕНИЙ

© И.В. Васильева

Ключевые слова: прогнозирование в медицине; извлечение знаний; методы классификации; деревья решений.

В работе рассматривается применение современных интеллектуальных методов извлечения знаний из медицинских данных и прогнозирование результатов данных на основе этих методов.

Извлечение знаний - это процесс обнаружения знаний в больших массивах информации, при котором используются методы и приемы, применимые в различных областях знаний [1]. Данная работа посвящена исследованию зависимости между клинико-инструментальными данными в начальный момент времени и результатом лечения кардиологического заболевания.

Для решения задачи применялись современные интеллектуальные методы, в т. ч. логистическая регрессия (Logistic), нейронные сети (Perceptrons), байесовская классификация (Naive Bayes, Bayes Net), поиск правил (RBF Network, OneR, PART), построение деревьев решений (J48, Simple Cart, Naive Bayes Tree). Среди этих методов одним из самых простых и понятных для пользователей являются деревья решений, представляющие собой совокупность правил в виде иерархической, последовательной структуры. Деревья решений разбивают данные на группы, в результате чего возникает иерархия классифицирующих правил.

Задача построения прогнозной модели проводилась в системе анализа данных Weka [2] и состояла из трех этапов: построение моделей классификации, оценка их обобщающей способности и выбор модели для прогноза будущих событий.

В данной работе исследовалась возможность прогнозирования времени удержания синусового ритма после купирования мерцательной аритмии. Выборка содержала 129 наблюдений, 25 входных переменных (X1 - X25) и 1 выходную переменную (7). Вся выборка была разделена на обучающую (81 наблюдение) и тестовую (48 наблюдений) группы. Прогнозировалось время удержания синусового ритма (7) до одного месяца (7 = 1) и свыше одного месяца (7 = 2). Время, равное одному месяцу, было определено вследствие максимальной опасности рецидива мерцательной аритмии в течение первого месяца после купирования пароксизма мерцательной аритмии [3].

Обобщающая способность методов оценивалась по точности на тестовой группе. Информация по полученным данным по методам классификации сведена в табл. 1. Как видно из табл. 1, все методы обладают высокой точностью на обучающей группе. Однако анализ результатов на тестовой группе показал, что методы обладают различной обобщающей способностью.

Наилучшие результаты были получены с помощью деревьев решений Random Tree (100 % -средняя точность на обучающей группе и 89,6 % - на тестовой). Были выявлены шесть наиболее значимых переменных: Х15 - конечный диастолический размер левого желудочка (мм); X16 - конечный систолический размер левого желудочка (мм); X17 - конечный диастолический объем левого желудочка (см2); Х22 - ускорение трансмитрального потока (м/с2); Х24 - количество дней с момента появления мерцательной аритмии до восстановления (дни); X25 - перемен-

1911

ная, характеризующая способ лечения (1, 2, 6). Дерево решений содержало 11 правил.

Большая часть наблюдений (82,7 %) классифицируется с помощью четырех правил:

( X 24 > 19,5) ^ У = 2 [13 - правильно / 0 - неправильн о];

(X24 < 19,5) & (X22 > 4,15) ^ У = 2 [36 /0];

(X24 < 19,5) & (X22 > 4,15) & (X25 = 2) ^ У = 1 [12 /0];

(X24 < 19,5) & (X22 > 4,15) & (X25 = 1) & (X15 > 50) ^ У = 1 [6/0],

где У - прогнозируемое время удержания синусового ритма.

Таблица 1

Результат классификации на обучающей (тестовой) выборке, %

Метод Средняя точность Точность по 1 классу (1) Точность по 2 классу (2) Матрица классификации*

22 3 (13 5 Л 1

Naive Bayes 93,8 (81,3) 88,0 (72,2) 96,4 (86,7) 2 54 14 26 у 2

24 1 (14 4 ^ 1

Bayes Net 95,1 (85,4) 96,0 (77,8) 94,6 (90,0) 3 53 1 3 27 У 2

25 0 (12 6" 1

Logistic 100,0 (75,0) 100,0 (66,7) 100,0 (80,0) 0 5б v 6 24 у 2

25 0 (12 6 > 1

Perceptrons 100,0 (81,3) 100,0 (66,7) 100,0 (90,0) 0 5б V 3 27 У 2

22 3 (15 3 Л 1

RBF Network 95,1 (85,4) 88,0 (83,3) 98,2 (86,7) 1 55 V 4 26 У 2

22 3 (17 1 ' 1

OneR 87,7 (87,5) 88,0 (94,4) 87,5 (83,3) 7 49 V 5 25 у 2

25 0 (16 2 > 1

PART 92,6 (85,4) 100,0 (88,9) 89,3 (83,3) б 50 V 5 25 У 2

25 0 (16 2 ^ 1

J48 92,6 (85,4) 100,0 (88,9) 89,3 (83,3) 6 50 V 5 25 У 2

24 1 (16 2 Л 1

Simple Cart 96,3 (87,5) 96,0 (88,9) 96,4 (86,7) 2 54 V4 26 У 2

25 0 (14 4 Л 1

Random Tree 100,0 (89,6) 100,0 (77,8) 100,0 (96,7) 0 5б V 1 29 У 2

25 0 (15 3 > 1

Random Forest 100,0 (87,5) 100,0 (83,3) 100,0 (90,0) 0 5б V 3 27 У 2

Примечание. * Матрица классификации содержит количество наблюдений в обучающей и в тестовой (в скобках) группах, в строках указываются истинные наблюдения, а по столбцам - количество прогнозируемых наблюдений из соответствующего класса.

1912

Таким образом, были получены достаточно простые и интерпретируемые результаты прогнозирования времени удержания синусового ритма после купирования мерцательной аритмии. Сравнительный анализ методов классификации показал, что деревья решений не уступают по точности другим интеллектуальным методам и обладают высокой обобщающей способностью.

ЛИТЕРАТУРА

1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Stanford, 2009. URL: http://www-stat.stanford.edu/tibs/ElemStatLearn.

2. Seewald A., Scuse D. WEKA Manual for Version. University of Waikato, Hamilton, New Zealand. 2008. URL: http://www.cs.waikato.ac.nz/ml/weka.

3. Русяк И.Г., Пономарев С.Б, Суфиянов В.Г. Некоторые статистические аспекты прогнозирования времени сохранения синусового ритма // Вестник Ижевского государственного технического университета. 2001. Вып. 1. С. 61-64.

Поступила в редакцию 20 августа 2010 г.

Vasilyeva I.V. Prediction of conservation of sinus rhythm based on decision trees

In this paper the application of modern methods for knowledge extracting from medical data and forecasting results of data based on trees methods.

Key words: prognosis in medicine; knowledge extracting; methods of classification; decision trees.

1913

i Надоели баннеры? Вы всегда можете отключить рекламу.