УДК: 004.9 ГРНТИ: 82.29.09 DOI: 10.15643/jscientia.2017.6.006
ОБЗОР МЕТОДОВ КРЕДИТНОГО СКОРИНГА
В. В. Кочеткова, К. Д. Ефремова
Национальный исследовательский университет «Высшая школа экономики» Россия, 101000 г. Москва, ул. Мясницкая, 20
И Кочеткова Вероника Викторовна - [email protected]
В представленной статье рассмотрены основные методы кредитного скоринга. Кредитный скоринг подразумевает применение алгоритмов, полученных с использованием математических и статистических методов, для деления потенциальных кредитных операций на непересекающиеся группы риска. В статье описаны преимущества и ограничения различных моделей и алгоритмов, используемых в кредитном скоринге, а также перспективы дальнейшего развития данного способа оценки кредитных рисков.
Ключевые слова: кредитный скоринг, скоринговые модели, кредитные риски, деревья решений, нейронные сети.
REVIEW OF THE CREDIT SCORING METHODS V. V. Kochetkova, K. D. Efremova
National Research University The Higher School of Economics 20 Myasnitskaya St., 101000 Moscow, Russia
H Kochetkova Veronika - [email protected]
In the presented article the main methods of credit scoring are considered. Credit scoring implies the use of algorithms obtained using mathematical and statistical methods to divide potential credit transactions into non-overlapping risk groups. The article describes advantages and limitations of various models and algorithms used in credit scoring, as well as prospects for further development of this method of credit risk assessment.
Keywords: credit scoring, scoring models, credit risks, decision trees, neural networks.
Кредитные отношения являются неотъемлемой частью современной экономики. Благодаря кредитованию большее число домашних хозяйств имеет возможность поддерживать удовлетворяющий их уровень потребления, улучшать бытовые условия, а в случае предприятий возникают дополнительные возможности для инвестирования и т.д.
В зависимости от целей и задач кредитных учреждений механизм формирования ставок по кредиту и степень влияния на них отдельных факторов различны. Чтобы не устанавливать ставки слишком высокими, поддерживая конкурентоспособность и привлекательность для потенциальных клиентов, банки проводят оценку рисков и разрабатывают программу по их минимизации.
Одним из основных рисков является невозврат заемщиком суммы кредита в полном объеме или в указанный срок, т.е. нарушение обязательств. Оценка кредитных рисков потенциального заемщика называется кредитным скорингом (от англ. credit scoring). Говоря о кредитном скоринге, как правило, имеют в виду анализ рисков по кредитованию физических лиц, хотя методы оценки надежности организаций также существуют.
Оценка кредитных рисков в соответствии с преследуемыми целями может быть разделена на 4 категории:
- application scoring - оценка кредитоспособности заемщиков для выдачи кредитов;
- behavioral scoring - оценка динамики состояния кредитного счета заемщика и кредитного портфеля в целом;
- collection scoring - определение приоритетных дел и направлений работы с проблемными заемщиками, мониторинг задолженности и выбор оптимального коллекторского воздействия;
- fraud scoring - своевременно выявление мошенниче-
ства со стороны клиентов-заемщиков [14].
Кредитный скоринг состоит в применении алгоритмов, полученных с использованием математических и статистических методов, с тем, чтобы разделить потенциальные кредитные операции на непересекающиеся группы риска, хорошие и плохие. Плохие риски подразумевают большую вероятность нарушения обязательств заемщиком, поэтому необходимо выявлять факторы кредитного риска, их значимость и взаимозависимость. Предполагается, что созданные модели могут выявлять закономерности, так что кредитные операции в будущем будут иметь такой же исход, как и операции со схожими характеристиками, для которых известна принадлежность к одному из рисков.
Факторы, учитываемые при кредитном скоринге могут отличаться в зависимости от алгоритмов и целей скоринга. К типично используемым факторам можно отнести демографические данные (семейное положение, возраст и др.) и характеристики занятости заемщика (тип занятости, должность и др.), информацию о кредитной истории и предыдущих отношениях с кредитором, характеристики предоставляемой услуги, данные о финансовом благополучии клиента [8, 13]. Следует, однако, отметить, что использование некоторых данных в кредитном скоринге может быть ограничено законодательно. Так, например, в США, согласно Федеральному Закону «Об отчете по кредитным операциям» и Законе «О равных кредитных возможностях», запрещено учитывать семейное положение, расу, религиозные убеждения и пол в качестве признаков в кредитном скоринге и принятии решений о выдаче кредита в целом [6, 10]. Для оценки рисков не менее важны и характеристики запрашиваемого кредита (например, кредиты в иностранной валюте, как правило, считаются более рискованными).
На сегодняшний день наряду с данными о потенциальных
заемщиках, которые банк может получить самостоятельно из кредитной заявки, активно используются сведения, которые предоставляют Кредитные бюро/Бюро кредитных историй. Кредитные бюро помогают банкам и другим кредиторам устранить асимметрию информации относительно имеющихся и потенциальных заемщиков, обеспечивая тем самым более эффективный кредитный скоринг, что в свою очередь улучшает уровень безопасности в финансовом отношении, снижает операционные расходы в розничном кредитовании и кредитовании малого и среднего бизнеса [12]. Функционирование подобных организаций выгодно не только кредиторам, но и добросовестным заемщикам, потому что при снижении рисков банки в меньшей мере пытаются компенсировать риски за счет высоких процентных ставок, а решения о выдаче кредита принимаются быстрее.
Для разработки алгоритмов кредитного скоринга применяются самые различные методы: классические [3], основанные на статистическом дискриминантном и регрессионном анализах, деревья решений, методы, основанные на нейронных сетях и т.д.
Первые модели кредитного скоринга были разработаны Fair Isaac Corporation более полувека назад. Скоринговые баллы, являющиеся результатом работы этих моделей, названы в честь компании - FICO. Сейчас FICO широко известен и повсеместно применяется в США и Канаде при принятии решений о выдаче кредитов. Рассчитывается FICO исходя из информации трех крупнейших национальных кредитных бюро: Experian, Equifax и TransUnion. Кредитный балл в зависимости от того, по чьим данным считается, незначительно различается.
Точная формула расчёта является коммерческой тайной, однако известно, какая информация и в какой мере используется при формировании кредитного балла FICO [2]:
- 35%: кредитная история (в т. ч. история платежей по счетам);
- 30%: бремя задолженности (в т. ч. количество счетов с остатками, сумма задолженности по различным видам счетов, доля используемых средств от возможного кредита и др.);
- 15%: продолжительность кредитных историй (например, средний возраст аккаунта, возраст самого продолжительного аккаунта);
- 10%: типы использованных кредитов (например, возобновляемый кредит, ипотечное кредитование и др.);
- 10%: недавние заявки на получение кредита.
FICO изменяется в диапазоне от 300 до 850 баллов. Более высокий балл, как и в большинстве других моделей, соответствует более низким рискам. Следует отметить, что определение порога, по которому отсеиваются заявки, которые не будут удовлетворены, требует дополнительных усилий. Нет строго определенной процедуры и выбор этой черты зависит от стратегии банка: какие риски готов принимать банк, насколько он стремится расширять свой кредитный портфель и т.д. Ситуация осложняется еще и тем, что в случае FICO сравнение значений скоринговых баллов во времени невозможно: если у заемщика в текущий период балл выше, чем был в предыдущий, это вовсе не значит, что кредитная операция с его участием стала менее рискованной, поскольку балл FICO зависит не только от характеристик конкретного заемщика, но и от поведенческих паттернов больших групп населения, целой страны или отдельных регионов [2].
Поскольку FICO не учитывает факторы, относящиеся, например, к демографическим характеристикам потенциального заемщика, решения по удовлетворению или отклонению заявки на кредит не всегда принимаются исключительно на скоринго-
вом балле, полученном от агентств кредитной отчетности. Этот балл может быть использован как один входных признаков для используемого в банке алгоритма или рассматриваться в совокупности с результатами проверки отделом внутренней безопасности банка и оценкой других рисков, производимых кредитором.
В том случае, когда компания еще достаточно мала, принципиальной разницы между кредитованием юридического лица (компании) и физического лица (заявителя) не существует. На практике часто для оценки кредитных рисков достаточно использовать данные о собственнике этого бизнеса, потому что его паттерны поведения хорошо описывают возможное поведение компании. Безусловно, характеристики организации и особенности ее функционирования, такие как финансовые показатели и характер деятельности, приносящей прибыль, важны и с определенного этапа тоже учитываются.
Регрессии, как линейные, так и логистические, достаточно распространены в кредитном скоринге. Поскольку перед банком стоит задача отобрать лучших заемщиков, не обязательно действовать в рамках задачи классификации: вместо нее может быть реализована задача ранжирования, для которой подходят и линейная, и логистическая регрессии (так как могут предсказывать вероятность принадлежности к одному из бинарных классов, по которой и будут упорядочены потенциальные заемщики). Стоит заметить, что регрессионный анализ может быть использован не только непосредственно для кредитного скоринга, но и для предшествующего ему отбора признаков для построения моделей. Хотя логистическая регрессия и не является самым эффективным методом для классификации, она значительно менее чувствительна к размеру выборки и соотношению плохих и хороших рисков в ней по сравнению со многими другими методами, применяемыми для классификации вообще и кредитного скоринга в частности.
Наряду с упомянутыми выше методами для классификации плохих и хороших кредитных рисков используются деревья решений. Вне зависимости от алгоритма построения дерева (ID3, C4.5, C5.0, CART) метод имеет некоторые достоинства, среди которых простота в интерпретации и понимании, менышая необходимость в предобработке данных (может работать одновременно с переменными, измеряемыми по разным шкалам, не требует шкалирования, нормирования или заполнения пропусков в данных). Между тем, задача построения оптимального дерева вычислительно затратная, а сами деревья склонны к переобучению. Проблема переобучения в частности может быть решена подбором гиперпараметров, таких как критерии останова (прекращение построения дерева, при выполнении некоторого условия, например, достижение определенной глубины), «стрижкой» деревьев, а также композицией нескольких алгоритмов или созданием комитета решающих деревьев, усредняющего ошибку и улучшающего обобщающую способность модели.
Для нахождения нелинейных зависимостей в данных часто используют нейронные сети. Применимы они и в задачах кредитного скоринга, и зачастую показывают лучшие результаты, чем традиционные статистические модели. Однако у них имеются некоторые ограничения, связанные с тем, что они долго обучаются, работают значительно хуже, если в данных имеются нерелевантные атрибуты или если сеть обучена на недостаточно большой выборке данных. Хотя полученная модель сложна для интерпретации, алгоритмы кредитного скоринга, работающие на базе нейронных сетей, реализованы во многих коммерческих решениях для банков.
Исследования показывают, что метод опорных векторов
(Support Vector Machine, далее SVM), основная идея которого заключается в переходе от исходного пространства признаков в пространство более высокой размерности (или даже бесконечномерное) и поиск в нем гиперплоскости максимально разделяющей классы, зарекомендовал себя как весьма эффективный метод классификации. В частности, в задачах кредитного скоринга SVM достигает примерно такую же долю правильных ответов, как и нейронные сети [4]. Одним из главных недостатков этого метода является то, что он, как и нейронные сети, работает по принципу «черного ящика» и не поддается объяснению или интерпретации доступным человеку образом. Требования к интерпретируемости не являются случайными: на практике кредитные организации не всегда могут необоснованно отвергнуть заявку на кредит, что, например, в США закреплено законодательно.
Отказываться от преимуществ весьма точной классификации, которую могут обеспечить нейронный сети или SVM, никто, разумеется, не готов, поэтому к построенным моделям применяют технику извлечения правил. Её ключевое предположение заключается в том, что обученная модель лучше представляет датасет, чем исходные данные. В зависимости от специфики метода, используемого для извлечения правил из обученной модели, получаемые правила могут иметь вид простых выражений «если ..., то...», M-из-Ы-правил («Если как минимум M из N условий (У1, У2, ... УЫ), ... то.»), нечетких правил, обеспечивающих большую гибкость, деревьев решения и проч. Методы, позволяющие извлекать правила из нейронных сетей и SVM, могут как являться декомпозирующими, так и воспринимать обученные модели как «черный ящик» и аппроксимировать их работу на сгенерированных (иногда и части исходных) данных. Исследованиями подтверждено, что извлеченные правила несильно уступают исходным моделям в качестве предсказаний, но значительно более понятны для человека [5].
По крайней мере на академическом уровне были совершены попытки применения генетического программирования для решения проблемы кредитного скоринга. Группа исследователей из Тайваня сравнила частоту ошибок, достигаемую при использовании генетического программирования, с полученными при работе логистической регрессии, нейронной сети, решающих деревьев, а также аппроксимации при помощи грубых множеств (rough sets). В результате применения вышеперечисленных моделей к так называемым Австралийскому и Немецкому датасетам генетическое программирование в среднем показало самую низкую долю ошибочно классифицируемых объектов, что дает основания для более детального рассмотрения идей по его применению к реальным задачам [7].
С развитием различных интеллектуальных методов все больше из них находят свое приложение в деятельности банков. Например, анализ профилей заемщика в социальных сетях при помощи интеллектуального анализа текстов (text mining).
Для принятия решений кредитным учреждениям необходимы знания как о возможных потерях при выдаче кредита, так и о прибыли, которую возможно получить. Важно также понимать, какие убытки понесет банк при ошибочной классификации рисков. Убытком может являться упущенная выгода, если в кредите отказано клиенту с хорошими кредитными рисками (ошибка первого рода), или, в случае одобрения плохой кредитной операции (ошибка второго рода), потеря невыплаченных заёмщиком средств (сама сумма и процент, на которые рассчитывал банк). Конечно, фактические убытки от ошибок второго рода значительно выше. Единого определения плохо-
го кредитного риска не существует, потому что оно зависит от характеристик кредита, его целевой аудитории и самого кредитора.
Кредитный скоринг позволяет упростить работу кредитных специалистов и сделать оценку кредитных рисков менее затратной, хотя не исключает некоторый контроль со стороны экспертов. В некоторых банках производится дополнительная работа с заявками, которые оказались близко к зоне отказа. Однако стоит относиться к этому с осторожностью: злоупотребление внешней корректировкой модели может либо приводить к более субъективной оценке рисков, либо свидетельствовать о недостаточной эффективности модели и необходимости ее доработки.
Выбор и построение модели, внедрение кредитного ско-ринга и его применение, безусловно, сложная и трудоемкая задача. В условиях существования кредитных бюро задача несколько упрощается в отношении заемщиков, которые еще не были клиентами конкретного банка, однако существуют заявители, не обращавшиеся к услугам кредиторов прежде. Поэтому вполне естественно существует практика раздельно оценивать заявителей, имеющих и не имеющих кредитную историю.
Особое внимание стоит обратить на данные, по которым обучается и оценивается модель. С одной стороны, выборки должна быть репрезентативны, поэтому в них отражены как хорошие, так и плохие кредитные риски. С другой стороны, генеральная совокупность кредитных операций, для которых известно, к какому риску они принадлежат, не является беспристрастной: эти операции когда-то были отобраны кредитными специалистами или были оценены другими алгоритмами, а информация о неудовлетворённых кредитных заявлениях отсутствует вовсе. В общем случае решают либо считать, что ранее отсеянные кредитные риски настолько велики, что и построенная модель их выявит, либо применять более радикально настроенный алгоритм и использовать в обучении заявки, по которым было отказано, как операции с плохими рисками. Последнее чревато сохранением субъективности, унаследованной от экспертного оценивания рисков до внедрения кредитного скоринга.
Работа с данными сложна еще и потому, что характеристики заявителей и заемщиков описаны как при помощи количественных, так и при помощи качественных признаков. Из-за этого, например, возникает проблема классификации заемщиков в пространстве разнотипных признаков. В таких условиях, например, могут нарушаться некоторые существенные предположения о характере распределения случайных величин, что делает заведомо невозможным применение ряда алгоритмов классификации. Разработка, внедрение и поддержание кредитного скоринга могут быть реализованы и самим банком, но из-за описанных выше и других сложностей банки обращаются к аутсорсингу. Существуют не только готовые решения под определенный вид скоринга, но и возможность заказать разработку этих моделей под конкретные нужды банка, кроме того, на рынке представлено специальное программное обеспечение для самостоятельного создания скоринговых моделей. Например, Scorto, поставщик решений и услуг для управленческих решений и снижения рисков, предлагает весь диапазон соответствующих продуктов и услуг, среди которых [14]:
- комплексное решение для оценки заемщика и поддержки принятия решений в розничном кредитовании -Scorto™ Loan Desicion;
- решение для анализа и управления кредитным портфелем (поведенческий скоринг) - Scorto™ Behavia;
- решение для планирования и управления коллектор-
ской деятельностью - Scorto™ Ample Collection;
- решение для выявления мошенничества как со стороны заемщиков (с момента подачи заявления и на всех последующих этапах жизненного цикла кредита), так и внутри кредитной организации - Scorto™ Fraud Barrier;
- инструмент для разработки собственных скоринговых моделей - Scorto™ Loan Manager SME.
Существую также продукты для оценки кредитных рисков компаний, среди которых RiskCalc Plus™, использующий базы данных кредитных исследований Moody's Analytics [11].
Кредитный скоринг может обеспечить банку значительные конкурентные преимущества, сократить операционные расходы и увеличить прибыль, в том числе за счет снижения рисков [9]. Для его эффективного использования необходимо помнить о преимуществах и ограничениях моделей и алгоритмов и уметь использовать их, отвечая на требования бизнес-условий. Важно осваивать лучшие из существующих подходы к кредитному скорингу и участвовать в разработке новых, чтобы обеспечить оптимальное качество оказываемых кредитных услуг и положение банка в отрасли.
ЛИТЕРАТУРА
1. Berger A.N., Frame W.S. Small Business Credit Scoring and Credit Availability // Journal of Small Business Management. 2007. Vol.45. No.1. Pp. 5-22.
2. Demyanyk Y. Your Credit Score Is a Ranking, Not a Score // Economic Commentary. 2010. №2010-16. URL: https://www.clevelandfed. org/en/newsroom-andevents/publications/economic-commentary/ economic-commentary-archives/2010-economiccommentaries/ec-201016-your-credit-score-is-a-ranking-not-a-score.aspx.
3. Hand D.J., Henley W.E. Statistical Classification Methods in Consumer Credit Scoring: a Review // Journal of the Royal Statistical Society: Series A (Statistics in Society). 1997. Vol.160. No.3. Pp. 523-541.
4. Huang C.L., Chen M.C., Wang C.J. Credit Scoring with a Data Mining Approach Based on Support Vector Machines // Expert systems with applications. 2007. Vol.33. No.4. Pp. 847-856.
5. Martens D. et al. Comprehensible Credit Scoring Models Using Rule Extraction from Support Vector Machines // European Journal of Operational Research. 2007. Vol.183. No.3. Pp. 1466-1476.
6. Mester L.J. et al. What's the Point of Credit Scoring? // Business review. 1997. Vol.3. No. Sep/Oct. Pp. 3-16.
7. Ong C.S., Huang J.J., Tzeng G.H. Building Credit Scoring Models Using Genetic Programming // Expert Systems with Applications. 2005. Vol.29. No.1. Pp. 41-47.
8. Гринь Н.В. Методологические аспекты построения скоринговых моделей // Экономика, моделирование, прогнозирование: сб. науч. тр. №6. Минск: НИЭИ Минэкономики РБ, 2012. С. 174180.
9. Can advanced analytics for credit scoring change the mortgage market? // SAS Institute Inc. URL: https://www.sas.com/en_my/ insights/articles/analytics/can-advanced-analytics-for-creditscoring-change-the-mortgage-market.
10. Credit Scoring Models: FICO, VantageScore & Credit Scores // America's Debt Help Organization. URL: https://www.debt.org/ credit/report/scoringmodels.
11. RiscCalc Plus™ - probability of default software // Moody's Analytics, Inc. URL: http://www.moodysanalytics.com/riskcalcrussia.
12. Кредитное бюро: Путь к финансовой безопасности // Финансист. 2013. №3(126). С. 14.
13. Малые кредиты и кредитный скоринг // IFC. URL: http://www. ifc.org/wps/wcm/connect/ffcfd3804dd77a31a36aab7a9dd66321/ ACAFI_KG_Article_LiSim_Bimasov_Rus.pdf?MOD=AJPERES.
14. Системы кредитного скоринга. Построение скоринговых моделей - Scorto / Scorto Corporation. URL: http://www.scorto.ru/ scoring_models_development.htm.
Поступила в редакцию 08.06.2017