УДК 519.87
ПРИМЕНЕНИЕ МЕТОДОВ АНАЛИЗА ДАННЫХ В ЗАДАЧАХ
БАНКОВСКОГО СКОРИНГА
Е. А. Иванцова1, В. В. Становов2
1Краевая школа-интернат по работе с одаренными детьми «Школа космонавтики» Российская Федерация, 662971, Красноярский край, г. Железногорск, ул. Красноярская, 36, а/я 222 E-mail: [email protected] 2Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: [email protected]
Рассматривается выбор настроек для генетического алгоритма, который оптимизирует параметры классификаторов в задачах банковского скоринга с использованием системы RapidMiner. Будут представлены оценки эффективности используемых методов классификации и их оптимизированных вариантов.
Ключевые слова: данные, классификация, банковский скоринг, дерево решений, нейронные сети, метод k-ближайших соседей, машина опорных векторов, логистическая регрессия.
THE APPLICATION OF THE DATA ANALYSIS METHODS FOR THE BANKING SCORING PROBLEM
E. A. Ivantsova1, V. V. Stanovov2
1Regional boarding school for talented children "Cosmonautics school" P.O.B. 222, 36, Krasnoyarskaya Str., Zheleznogorsk, Krasnoyarskiy kray, 662971, Russian Federation
E-mail: [email protected] 2Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: [email protected]
The choice of settings for the genetic algorithm that optimizes the classifier parameters in banking scoring problems using the RapidMiner system is considered. The effectiveness of the classification methods used and their optimized variants are evaluated.
Keywords: data, classification, banking scoring, decision tree, neural networks, k-nearest neighbor method, support vector machine, logistic regression.
Кредитами пользуются очень многие, что такое «кредитная история» представляют себе почти все, о кредитных бюро говорят, чуть ли каждый день по телевизору. А вот что такое «кредитный скоринг» - ясно уже единицам. Кредитный скоринг - это процесс оценки заемщика банком или другой кредитной организацией. По результатам этой оценки потенциальный кредитор принимает решение по кредитной заявке. Если в ходе этого процесса, (а кредитный скоринг это именно процесс), заемщик не набирает строго определенного количества баллов - то в получении кредита ему отказывают [1]. Все крупные банки России используют современный кредитный скоринг. Мелкие ошибки не влияют на популярность методики, но сам скоринг постоянно нуждается в доработке, усовершенствовании, обновлении [2].
Для исследования эффективности методов классификации применяется программный пакет RapidMiner 5.3 [3] и 5 встроенных методов классификациих [4].
Актуальные проблемы авиации и космонавтики - 2018. Том 2
В работе для решения задач будут рассмотрены наиболее распространенные методы классификации:
1. Дерево решений (Decision Tree, DT) [5].
2. Нейронные сети (Neural Networks, NN) [6].
3. Метод k-ближайших соседей (k-Nearest Neighbor, k-NN) [7].
4. Машина опорных векторов (Support Vector Machine, SVM) [8].
5. Логистическая регрессия (Logistic Regression, LR) [9].
Для анализа будут использованы банковские данные Германии и Австралии [10; 11]. Будут применены оптимизированные и неоптимизированные методы классификации данных. Также, для того, чтобы улучшить эффективность классификации, созданы ансамбли из 3 лучших и 3 худших алгоритмов.
В табл. 1, 2 приведены результаты работы алгоритмов в виде процента правильно классифицированных примеров из тестовой выборке (60 % обучающая, 40 % тестовая). Так как алгоритмы используют случайные числа, то приводится среднее значение точности классификации.
Таблица 1.
Результаты сравнения эффективности неоптимизированных методов и ансамблей
Базы данных German Australian
Наиболее эффективные методы классификации по отдельности NN (72.50% +/-4.67%) SVM (75.83% +/-4.55%) LR(77.50% +/-3.67%) NN(85.25% +/-3.82%) SVM(85.27% +/-4.34%) DT(85.51% +/- 4.16%)
Наименее эффективные методы классификации по отдельности k-NN(64.17% +/-6.84%) DT(72.33% +/-0.82%) SVM(75.83% +/- 4.55%) k-NN(65.71% +/-6.58%) LR(84.80% +/-4.89%) NN(85.25% +/-3.82%)
Наиболее эффективный ансамбль NN; SVM; LR 75.00% +/-3.79% NN; SVM; DT 85.36% +/-3.00%
Наименее эффективный ансамбль k-N; DN; SVM 73.00% +/-2.14% k-NN; LR; NN 85.36% +/-3.58%
Таблица 2. Результаты сравнения эффективности оптимизированных методов и ансамблей
Базы данных German Australian
Наиболее эффективные методы классификации по отдельности DT (70.00% +/-0.00%) SVM (74.60% +/-3.20%) LR ( 75.10% +/-4.39%) DT (84.78% +/-3.44%) NN (85.80% +/-2.66%) LR (85.94% +/-3.04%)
Наименее эффективные методы классификации по отдельности k-NN (61.80% +/-3.09%) NN (71.30% +/- 3.07%) SVM (74.60% +/-3.20%) k-NN (66.23% +/-2.83%) SVM (85.51% +/-3.04%) NN (85.80% +/-2.66%)
Наиболее эффективный ансамбль DT ; SVM ; LR 75.00% +/-3.79% DT; NN; LR 85.51% +/-3.04%
Наименее эффективный ансамбль k-NN ;NN;SVM 72.10% +/-1.64% k-NN ;NN;SVM 84.93% +/-3.19%
По результатам ансамбли с оптимизированными методами оказались наиболее эффективными при решении задач банковского скоринга. Для German, как и для Australian наиболее эффективным оказался метод Logistic Regression.
Бнблнографнческне ссылки
1. Кредит, кредитный скоринг [Электронный ресурс]. URL: http://factoringpro.ru/index. php/credit-scoring-statya/408-skoring-statya-kredit (дата обращения: 07.04.2018).
2. Минусы кредитного скоринга [Электронный ресурс]. URL: https://ojivaem.ru/potrebite lskie-kredity/kreditniy-skoring/ (дата обращения: 07.04.2018).
3. Data Science platform - RapidMiner [Электронный ресурс]. URL: https://rapidminer.com (дата обращения: 19.03.2018).
4. Описание методов интеллектуального анализа данных [Электронный ресурс]. URL: https://docs.rapidminer.com/studio/operators (дата обращения: 19.03.2018).
5. Decision Tree - RapidMiner Documentation [Электронный ресурс]. URL: https://docs. rapidminer.com/studio/operators/modeling/predictive/trees/parallel_decision_tree.html (дата обращения: 20.03.2018).
6. Neural Net - RapidMiner Documentation [Электронный ресурс]. URL: https://docs. rapidminer.com/studio/operators/modeling/predictive/neural_nets/neural_net.html (дата обращения: 20.03.2018).
7. k-NN - RapidMiner Documentation [Электронный ресурс]. URL: https://docs.rapidminer. com/studio/operators/modeling/predictive/lazy/k_nn.html (дата обращения: 20.03.2018).
8. Support Vector Machine - RapidMiner Documentation [Электронный ресурс]. URL: https://docs.rapidminer.com/studio/operators/modeling/predictive/support vector modeling/support_ vector_machine.html (дата обращения: 20.03.2018).
9. Logistic Regression (Evolutionary) [Электронный ресурс]. URL: https://docs.rapidminer. com/studio/operators/modeling/predictive/logistic_regression/logistic_regression_evolutionary.html (дата обращения: 20.03.2018).
10. German [Электронный ресурс]. URL: https://archive.ics.uci.edu/ml/datasets/Statlog+ %28German+Credit+Data%29 (дата обращения: 01.04.2018).
11. Australian [Электронный ресурс]. URL: https://archive.ics.uci.edu/ml/datasets/Statlog+ %28Australian+Credit+Approval%29 (дата обращения: 28.03.2018).
© Иванцова Е. А., Становов В. В., 2018