Секция ««Математические методы моделирования, управления и анализа данных»
УДК 519.87
СРАВНЕНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ПРИ ДИАГНОСТИКЕ КАРДИАЛГИИ
Т. С. Карасева Научный руководитель - Е. С. Семенкин
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: [email protected]
Рассматривается решение задачи классификации болей в области сердца с использованием системы RapidMiner. Проведено сравнение эффективности используемых методов классификации между собой. Представлено сравнение показателей точности отдельных технологий с ансамблем методов.
Ключевые слова: сердечные боли, классификация, дерево решений, наивный байесовский классификатор, нейронная сеть, метод k-ближайших соседей, индукция правил, машина опорных векторов, логистическая регрессия, голосование.
DATA MINING TECHNIQUES COMPARISON INCARDIALGIA DIAGNOSIS
T. S. Karaseva Scientific supervisor - E. S. Semenkin
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
The paper considers the classification of pain in the heart area using RapidMiner system. The comparison of the applied classification methods effectiveness is conducted. The comparison of the accuracy rates of separate techniques with the ensemble methods is given.
Keywords: cardiac pain, classification, decision tree, naïve Bayes classifier, neural net, k-nearest neighbors, rule induction, support vector machine, logistic regression, voting.
Большинство людей хотя бы раз в жизни испытывало боль или другие неприятные ощущения в области сердца. Причин этих болей множество. Ими могут стать такие болезни сердца, как стенокардия, инфаркт миокарда, воспаление сердца и его оболочек, ревматические поражения [1]. Однако зачастую источник боли находится вне сердца.
При жалобах больного на боли в области сердца, прежде всего, следует решить вопрос, имеют ли боли действительно отношение к сердцу или к большим сосудам, или же больной напрасно сосредоточивает свое внимание на этих органах.
С этой целью следует проводить классификацию болей по их принадлежности к классу сердечных болей или болей, не связанных с заболеванием сердца.
Для решения задачи были выбраны исходные данные, касающиеся диагностики патологии сердца. Используемые данные были получены в Кливлендской клинике, в Венгерском Институте кардиологии (г. Будапешт), в Медицинском центре Лонг-Бич Мемориал и в Университетском госпитале (г. Цюрих) [2].
Задача состоит в определении наличия болезни сердца по известной симптоматике.
Анализ данных осуществлялся с помощью системы RapidMiner [3]. Получены модели относительно целевого атрибута: отсутствие (0) или наличие (1) болезни сердца.
Был создан процесс, содержащий методы классификации: наивный байесовский классификатор (NB, [4]); метод k-ближайших соседей (k-NN, [5]); деревья решений (DT, [6]); индукция правил (IR, [7]); логистическая регрессия (LR, [8]); машина опорных векторов (SVM, [9]); нейронная сеть (ANN, [10]).
Актуальные проблемы авиации и космонавтики - 2015. Том 1
С помощью оператора 77-Те81 проведено сравнение используемых методов, чтобы увидеть, имеется ли между ними статистически значимое различие. Данный оператор используется для сравнения производительности векторов, выполняя г-тест Стьюдента для определения вероятности нулевой гипотезы, то есть «актуальные значения одинаковы».
Эффективность каждого метода (усредненная по 10 экспериментам доля правильно классифицированных событий и ее разброс), полученная описанным способом в ходе численных экспериментов с системой RapidMiner, а также результаты представлены в таблице.
Эффективность различных методов в диагностике кардиалгии
ANN k-NN DT SVM NB LR IR
0.781 +/- 0.663 +/- 0.741 +/- 0.819 +/- 0.844 +/- 0.826 +/- 0.781 +/-
0.051 0.101 0.072 0.075 0.052 0.066 0.077
ANN 0.004 0.206 0.283 0.015 0.134 1.000
k-NN 0.074 0.001 0.000 0.000 0.009
DT 0.033 0.002 0.014 0.323
SVM 0.387 0.820 0.412
NB 0.502 0.052
LR 0.237
Значения, выделенные полужирным шрифтом меньше, чем а = 0.050, что указывает, на существенную разницу между фактическими средними значениями.
В результате анализа таблицы можно утверждать, что наименьшей эффективностью при диагностировании кардиалгии обладают метод k-ближайших соседей и метод деревьев решений, причем это отличие статистически достоверно и существенно. При этом наибольшей эффективностью обладает наивный Байесовский метод, хотя его точность классификации (84 %) явно не может быть признана достаточной. К тому же его превосходство над методом опорных векторов не является статистически значимым. Поэтому далее был использован оператор ансамблирования Vote.
Оператор Vote использует большинство голосов нескольких методов классификации, объединенных в ансамбль, реализуя голосование простым большинством голосов. В ансамбль были включены не только машина опорных векторов инаивный байесовский классификатор, но и нейронная сеть, логистическая регрессия ииндукция правил, показавшие сопоставимую с ними точность в предыдущем численном эксперименте.
Результат вектора производительности равен 91,19 %, т. е. достаточно простой ансамбль методов способен решать задачу эффективнее, чем отдельные технологии. Однако ошибка в диагностике кардиалгии, составляющая почти 9 % случаев не может быть признана приемлемой в медицинской практике. Из этого следует, что методы интеллектуального анализа данных, реализованные в пакете RapidMiner не позволяют построить достаточно эффективные системы диагностики кардиалгии, т. е. необходимо их модифицировать или даже разрабатывать и реализовывать более мощные интеллектуальные технологии анализа данных. Наиболее перспективным направлением в это связи является разработка технологий автоматизированного проектирования классификаторов на нечеткой логике [11; 12], машин опорных векторов [13], искусственных нейронных сетей [14; 15], а также других методов анализа данных, с применением самонастраивающихся адаптивных алгоритмов оптимизации и моделирования [16; 17] для выбора их эффективных структур и настройки параметров.
Библиографические ссылки
1. Ярошевский А. А., Морозова О. Г. Скелетно-мышечные боли в области грудной клетки как междисциплинарная проблема // Новости медицины и фармации, 2012. № 405: Неврология. С. 34-40.
2. Machine Learning Repository [Электронный ресурс]. URL: http://archive.ics.uci.edu/ml/ datasets.html (дата обращения: 4.12.2014).
3. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 18.12.2014).
4. An analysis of Bayesian classifiers / P. Langley, W. Iba, & K. Thompson // Proceedings of the Tenth National Conference on Artificial Intelligence. 1992. p. 223-228. San Jose, CA: AAAI.
5. Soft k-nearest-neighbour classifiers / S. Bermejo, J. Cabestany, Adaptive // Pattern Recognition, 2000. Vol. 33, p. 1999-2005.
Секция «Математические методы моделирования, управления и анализа данных»
6. Quinlan J. R. Generating production rules from decision trees. In McDermott, John. Proceedings of the Tenth International Joint Conference on Artificial Intelligence (IJCAI-87). Milan, Italy. 1987, p.304-307.
7. Rule Induction as a Technique of Detecting Severity of Myocardial Infarction / RaquibRidwan, MdIbneaSina Bony and Kamrul Hasan // 4th International Conference on Bioinformatics and Biomedical Technology. 2012, p. 34-39.
8. An introduction to logistic regression analysis and reporting / Peng, Chao-YingJoann; Lee, KukLida; Ingersoll, GaryM // Journal of Educational Research 96(1). 2002, p. 3-13.
9. Data classification using support vector Machine Durgesh K. Srivastava,LekhaBhambhu Journal of theoretical and applied information technology. 2009, р. 67-74.
10. Regularization theory and neural network architecture / F. Girosi, M. Jones, T. Poggio // Neural Computation. 1995. Vol. 7, p. 219-270.
11. Fuzzy Rule Bases Automated Design with Self-configuring Evolutionary Algorithm / E. Semenkin, V. Stanovov // Informatics in Control, Automation and Robotics (ICINCO), 11th International Conference on. INSTICC, 2014. Vol. 1, р. 318-323.
12. Stanovov V., Semenkin E. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Вестник СибГАУ. 2013. Вып. 4 (50). С. 148-152.
13. Co-operation of biology related algorithms for support vector machine automated design / Sh. Akhmedova, E. Semenkin, T. Gasanova and W. Minker. // International Conference on Engineering and Applied Sciences Optimization (OPT-i), Kos Island, Greece, 2014, June.
14. Brester K., Semenkin E. Development of adaptive genetic algorithms for neural network models multicriteria design // Вестник СибГАУ. 2013. Вып. 4 (50). С. 99-103.
15. Akhmedova Sh., Semenkin E. Co-operation of Biology Related Algorithms meta-heuristic in ANN-based classifiers design // Proceedings of the IEEE Congress on Evolutionary Computation 2014, р. 867-872.
16. Akhmedova S., Semenkin E. Co-operation of biology related algorithms // 2013 IEEE Congress on Evolutionary Computation, CEC 2013; Cancun; Mexico. P. 2207-2214.
17. Semenkin E. S., Semenkina M. E. Self-configuring Genetic Algorithm with Modified Uniform Crossover Operator // Advances in Swarm Intelligence. Lecture Notes in Computer Science 7331. SpringerVerlag, Berlin Heidelberg, 2012, р. 414-421.
© Карасева Т. С., 2015