8
ЭКОНОМИКА И ФИНАНСЫ.
МЕНЕДЖМЕНТ
УДК 519.862.6
КРИТЕРИИ ИДЕНТИФИКАЦИИ ЛОГИКО-ВЕРОЯТНОСТНЫХ МОДЕЛЕЙ КРЕДИТНОГО РИСКА ПО СТАТИСТИЧЕСКИМ
Выполнен анализ приложений логико-вероятностных (ЛВ) моделей риска, показана важность процедуры идентификации ЛВ моделей риска по статистическим данным. Приведено краткое математическое описание ЛВ моделей риска. Предложены и исследованы разные критерии идентификации и даны рекомендации по их применению.
Ключевые слова: модель, статистика, система, состояния, логика, идентификация, критерий, вероятность, градиенты, Монте-Карло, алгоритм, оптимизация, база знаний.
Для оценки кредитных рисков физических и юридических лиц применяются методики классификации на «хорошие» и «плохие» кредиты на основе линейного (LDA) и квадратичного (QDA) дискриминантного анализа, кластерного анализа (CARD) и нейронных сетей (NN) [1]. Эти методики имеют в два раза меньшую точность классификации, чем логико-вероятностные (ЛВ) модели риска [2]. Однако процесс идентификации (обучения, оптимизации) ЛВ моделей риска по статистическим данным о ранее выданных кредитах банка отличается исключительно высокой, до нескольких часов, вычислительной сложностью. Это связано с целочисленным критерием оптимизации (число корректно классифицируемых кредитов, у которых классификация совпала по модели и по статистике) и большим числом оцениваемых коэффициентов-вероятностей (до 100), которые, к тому же, нужно вычислять до 6-7 знака после запятой. Поэтому выбор и исследование других критериев оптимизации с меньшей вычислительной сложностью, например, дискретно-непрерывных, является актуальной задачей.
ЛВ модели широко используются в технике для решения задач надежности и безопасности, в которых инициирующие события и итоговое событие принимают только два значения (0 и 1) [3]. ЛВ модели риска и эффективности имеют также многочисленные приложения в экономике, где инициирующие события имеют много значений-градаций (до 50 и более) и необходимо решать задачи идентификации ЛВ моделей риска (оценки вероятностей инициирующих событий ) по статистическим данным. ЛВ модели риска неуспеха применяются в следующих приложениях [2-5]:
- оценка и анализ кредитного риска физических и юридических лиц,
- анализ риска и эффективности экономических и социальных процессов.
В ряде приложений ЛВ моделей риска задача классификации является основной. Состояния (объекты) системы классифицируются на хорошие и плохие (возможно большее число классов). Задача идентификации формулируется так: максимизировать число корректно распознанных хороших и плохих состояний системы, которые рассматриваются как случайные, имеющие вероятности; используется статистическая база данных (БД), и решается обратная оптимизационная задача. В проблемах эффективно-
ДАННЫМ
Д.С. Строков, Е.Д. Соложенцев
Введение
Приложения ЛВ моделей риска
сти задача идентификации решается для детального анализа риска и эффективности системы по вкладам процессов, влияющих на итоговый процесс.
Новизна ЛВ подхода для управления риском и эффективностью по статистическим данным мониторинга в экономических и социальных системах и процессах состоит в следующем:
- Представление экономических и социальных систем как структурно-сложных с использованием для их описания Л-переменных и случайных событий. На статистических данных состояний сложной системы рассматриваются два типа событий: появление состояний (объектов, кредитов) и неуспех состояний (объектов, кредитов);
- Введение в статистическую табличную базу данных (БД) конечных множеств (групп несовместных событий) для значений параметров, что позволяет получить систему Л-уравнений или базу знаний (БЗ), использовать ЛВ исчисление Рябинина и формулу Байеса для связи вероятностей и решать задачи риска, эффективности и управления.
Технология ЛВ управления риском в приложениях включает в себя процедуры:
1. формулировка сценария риска и запись Л- и В-функций риска для всех состояний;
2. идентификация ЛВ модели риска системы по статистическим данным;
3. анализ риска состояния и всех состояний по вкладам параметров и градаций параметров, описывающих состояния;
4. управление риском и эффективностью системы.
Оценка и анализ кредитных рисков является ярким примером задач классификации. Поэтому реальные исследования проблемы выбора критериев идентификации ЛВ моделей риска по статистическим данным проведены на примере кредитных рисков физических и юридических лиц.
Преимущества ЛВ модели риска на примере кредитных рисков подробно изложены в [2, 6]. ЛВ модели кредитного риска разительно отличаются от распространенных скоринговых методик. Идентификация ЛВ модели риска по статистическим данным позволяет решать следующие задачи:
- строить В-модель кредитного риска, определяя вероятности событий-градаций;
- выполнять анализ точности ЛВ модели риска;
- определять вклады событий-параметров, описывающих кредит, и их градаций в точность, робастность и прозрачность оценки кредитного риска;
- управлять кредитным риском банка, изменяя число параметров в описании кредита и градаций в параметре, асимметрию распознавания хороших и плохих кредитов.
Наряду с большими достоинствами ЛВ моделей риска, их идентификация по статистическим данным отличается большой вычислительной сложностью из-за большого числа оцениваемых вероятностей (для кредитного риска их число доходит до 100), наличия локальных экстремумов из-за ступенчатости целевой функции, учета связей вероятностей в группах несовместных событий (ГНС) и вычисления логических разностей. Поэтому необходимы тщательные исследования методик идентификации ЛВ моделей по статистическим данным, что приведет к их более широкому распространению.
Математическое описание ЛВ моделей риска
Общим для ЛВ моделей является одинаковое табличное представление статистических данных. Табличная БД содержит информацию об однородных объектах (кредитах) или состояниях системы в разные моменты времени (портфель ценных бумаг). В таблице количество столбцов может достигать нескольких десятков, а количество строк
- нескольких сотен. В ячейках таблицы находятся значения параметров (качественные или количественные, целые или дробные), характеризующие объекты или состояния
системы. Последний столбец таблицы - параметр эффективности состояния системы. Параметры, описывающие объект, обозначим строчными буквами г1, ..., г, ..., гп, а параметр эффективности объекта - строчной буквой у-, '=1, 2, ..., N. В клетках таблицы находятся значения параметров и для последнего столбца - значения параметра эффективности у
Модифицируем исходное представление БД, заменив значения параметров их градациями (интервалами). В модифицированной БД параметры называют событиями-параметрами и Л-переменными и обозначают прописными буквами Z1, ..., Zj, ..., Zn, а параметр эффективности - событием-параметром эффективности и обозначают У. В ячейках новой таблицы находятся события-градации Zjr, j=1, 2 ,..., п; г=1, 2, ..., N. параметров Z, а в последнем столбце - события-градации У„, т=1,2,...^у параметра эффективности У.
Сценарий риска неуспеха состояния системы в статистических данных формулируется так: неуспех происходит, если происходит какое-либо одно, какие-либо два ... или все события из Z1, Z2, ..., Zn. Сценарий риска определяет ЛВ модель риска для полного множества событий в системе и записывается в виде совершенной дизъюнктивной нормальной формы (СДНФ) с учетом не двух состояний каждого события-параметра, а нескольких состояний, составляющих ГНС.
Обозначим параметр эффективности в статистических данных У2 и номер строки верхним индексом. Запишем систему Л-функций риска неуспеха состояний системы в статистических данных,
'z]лv- - V Z1 V- - V Z1 = У1 ; 2„у '
jrj пгп
- V Т. jrj V- - V Zг пг = У' 2„у ■> (1)
^ V- - V ZN V- - V ZN пг = yN 2 „у
и соответствующую систему В-функций (В-полиномов):
\Р1 + Р^С - -Р1,)+Р3Г3 (1 - Р;)С - + . - = РУ1 = = 0};
Р' + Р,(1 - -РЦ)+РЗ„З (1 - РР;)(1 - Л)+.. = Р{У2 = 0}; (2)
PN 1 1„1 +р27Т2 (1 - о+- <Х1 - <)+. . = рУ = 0}.
где ' = 1,2,..., N; j = 1,2,..., п;гу е NJ;гу е Ny; п - число параметров для описания состояний; N - число градаций в параметре.
Вероятность неуспеха любого состояния системы находится в интервале {0,1} при любых значениях вероятностей инициирующих событий [3].
Вместо Л-переменных Z1, Z2, ..., Zn в выражение (1) следует подставить Л-переменные для градаций этих переменных. Для перехода от системы Л-функций к системе В-функции (2) выполнена логическая ортогонализация системы (1). Наибольшее число разных объектов или состояний системы (1) равно
N^=N1 х^х... х.... х^, (3)
где ^ ..., N. ..., N - число градаций в событиях-параметрах. Астрономическое значение Дпах косвенно характеризует вычислительную сложность идентификации, однако разные состояния системы логически ортогональны, и сложности преодолеваются.
Системы (1) и (2) будем называть базой знаний (БЗ) и использовать для получения новых знаний. В ЛВ теории риска с ГНС события-параметры связаны Л-операциями AND, OR, NOT, и могут иметься циклы. Событиям-параметрам соответствуют Л-переменные, которые могут быть зависимыми, но не изначально, а только потому, что они содержатся в Л-формуле, которая и определяет зависимость между ними. События-градации для каждого параметра являются зависимыми и образуют ГНС.
Идентификация ЛВ модели риска неуспеха
Задача идентификации решается алгоритмическими итеративными методами и подробно описана в [2]. Предложена следующая схема решения задачи. Пусть известны в первом приближении оценки вероятностей для градаций Pjr, r = 1, 2, ..., Nf, j = 1, 2, ..., n, и вычислены риски Pi, i=1, 2, ..., N кредитов статистических данных. Определим допустимый риск Pad так, чтобы принятое нами расчетное число хороших кредитов Ngg имело риск меньше допустимого и соответственно число плохих кредитов Nbb=N-Ngg имело риск больше допустимого. В индексах «bb» и «gg» первая буква означает классификацию по статистике, а вторая - по модели. На шаге оптимизации нужно так изменить вероятности Pjr, r = 1, 2, ..., Nf, j = 1, 2, ..., n, чтобы число распознаваемых кредитов увеличилось.
Разработаны следующие программные средства (ПС) для идентификации ЛВ модели риска и анализа риска:
1. демоверсия для оценки и анализа кредитных рисков;
2. ПС для дистанционного обслуживания кредитной деятельности банков,
3. ПС для оценки кредитов и управления кредитной деятельности банка.
ПС работают в среде MS Windows и используют статистику по объектам в виде файла, который загружается в программу.
Критерии идентификации ЛВ модели риска
Для идентификации можно использовать следующие целевые функции:
1. Число корректно классифицируемых состояний
F = Nbb + Ngg ® max, (4)
Pjr
где Ngg , Nbb - соответственно числа состояний, классифицируемых как хорошие и плохие и статистикой, и В-моделью (корректные оценки);
2. Энтропия вероятностей корректно классифицируемых состояний
Nk
H = -£ Pk • In Pk ® max, (5)
k=1 jr где Pk - вероятности корректно классифицируемых состояний;
3. Сумма вероятностей корректно классифицируемых состояний
Nk
S = 2Pk ® max. (6)
k=1 f
Критерий F является целочисленным, изменяется дискретно и равен числу корректно распознанных хороших и плохих состояний (4). Критерии H и S являются непрерывно-дискретными, так как их значения зависят от числа корректно распознанных состояний и от их вероятностей (риска). Дискретно-непрерывные критерии оптимизации H и S позволяют применить больший арсенал методов нелинейной оптимизации [7].
Итеративная алгоритмическая идентификация ЛВ модели риска выполняется по формуле
АР] = К ^ К Кп]г,] = 1,2,...,п;Г = 1,2,...,N], (7)
Nopt
где К1 - коэффициент, равный ~ 0,05; Nopt, N - число оптимизаций и номер текущей оптимизации, К3 - случайное число в интервале [-1,+1]. В процессе итеративной алгоритмической оптимизации АР1]Г стремится к нулю. Формула (7) обеспечивает простое задание максимального приращения вероятностей и определение точности оценки вероятностей по величине приращений на шаге последней оптимизации.
Различные критерии оптимизации сведены в табл. 1. Критерии по некорректно распознанным состояниям gb и bg являются дополнениями критериев корректно распознанных состояний gg и ЬЬ.
Критерии по порядку Энтропия состояний (Н-критерии) Число состояний (Б-критерии) Сумма вероятностей (8-критерии) Примечание
1 Hgg 1 gg Хороших корректно распознанных
2 Ньь Рьь £ьь Плохих корректно распознанных
3 H=Hgg+Hbb S=Sgg+Sbb Хороших и плохих корректно распознанных
Таблица 1. Критерии оптимизации
Исследование критериев идентификации
Исследования выполнялись с использованием статистических данных о 1000 кредитах, приведенных в работе [1]. Проводилась оценка 96 вероятностей событий-градаций. Исследовалось влияние шага отступлений на конечное значение целевой функции. Результаты исследований при оптимизации по Н и £ приведены в табл. 2 и 3 соответственно.
№ АH H р £
1 0,075 224,73 840 190,89
2 0,09 224,43 842 190,95
3 0,1 224,78 842 191,33
4 0,105 225,65 845 190,95
5 0,11 225,65 845 190,95
6 0,12 225,21 844 190,34
7 1,376 221,89 826 190,75
Таблица 2. Зависимость критериев от величины «отступления» при оптимизации по Н
№ H р £
1 0,06 221,91 828 197,0
2 0,1 222,44 828 195,4
3 0,12 223,98 830 197,13
4 0,18 222,25 826 195,52
5 0,972 221,74 826 193,52
Таблица 3. Зависимость критериев от величины «отступления» при оптимизации по в
Оптимальные величины «отступлений» для критериев оптимизации составили АР=4 и АН =А£ = 0,1125. Результаты исследований для разных критериев оптимизации приведены в табл. 4.
Различие процессов оптимизации по разным критериям характеризуют величины «отступлений» в случае неуспеха попыток оптимизаций на шаге. Отступление для кри-
терия ¥ равно А ¥=4 и составляет примерно 4/800=1/200 от оптимального значения целевой функции. «Отступлению» А¥=4 соответствуют «отступления» АН=1,376 (строка 7 в табл. 2) и А £=0,972 (строка 5 в табл. 3). Оптимальные «отступления» для критериев Н и £ равны А Н = А £ » 0,1125 и составляют примерно 0,1125/225=1/2000 от оптимального значения целевых функций, т.е. для непрерывно-дискретных критериев Н и £ высота ступенек при оптимизации уменьшается в десять раз.
Оптимизация по критериям Значения
¥ Н £
¥ 844 223,35 182,84
Н 842 225,21 190,34
£ 830 223,98 197,13
Таблица 4. Результаты оптимизации по разным критериям
Наибольшее значение числа корректно распознанных кредитов или, что то же самое, наибольшая точность ЛВ модели риска достигается при оптимизации с использованием прямого целочисленного критерия ¥ (табл. 4). Косвенные непрерывно-дискретные критерии Н и £, хотя сами принимают наибольшие значения при оптимизации по ним, распознают меньшее число кредитов, их следует использовать для определения начальных значений вероятностей Р1уг и р при оптимизации по критерию ¥, а также контроля оптимизации по этому критерию. Эти критерии дают неоптимальные и смещенные оценки для числа корректно распознанных кредитов ¥. Косвенный критерий оптимизации Н предпочтительнее косвенного критерия £, так как дает более высокое значение прямого критерия ¥ и меньшее смещение его от оптимального значения.
Выводы
1. Анализ приложений ЛВ моделей риска показал, что в технологии ЛВ управления риском и эффективностью систем важной и самой сложной в вычислительном отношении является процедура идентификация ЛВ модели риска по статистическим данным.
2. Для идентификации ЛВ модели риска по статистическим данным методами Монте-Карло и градиентов предложены формулы одинаковой структуры, отличающиеся простотой и прозрачностью и обеспечивающие приемлемое время вычислений, сходимость процесса обучения, простое задание начальных значений.
3. Метод Монте-Карло и метод градиентов дают одинаковые результаты при оптимизации и позволяют взаимно контролировать результаты идентификации.
4. Идентификация методом градиентов требует меньшего времени вычислений, и ей следует отдать предпочтение для определения достаточно хороших начальных значений вероятностей. Окончательную оптимизацию следует выполнять методом Монте-Карло.
5. Оптимизация по дискретно-непрерывным критериям Н и £ имеет меньшую вычислительную сложность и позволяет использовать весь арсенал нелинейных методов оптимизации. Но число корректно распознаваемых состояний меньше, поэтому эти критерии следует использовать для оценки начальных приближений вероятностей.
6. Изложенные результаты и методика нашли применение при разработке ПС для разных типов и классов ЛВ моделей риска (кредитные риски, риск портфеля ценных бумаг, риск коррупции и взяток и др.).
Литература
1. Seitz J., Stickel E. Consumer Loan Analysis Using Neural Network // Proc. of the Bankai Workshop: Adaptive Intelligent Systems. - Brussels, 14-19 October 1996.
2. Solojentsev E.D. Scenario Logic and Probabilistic Management of Risk in Business and Engineering. - Second edition. - Springer, 2008. - 500 p.
3. Рябинин И.А. Надежность и безопасность структурно-сложных систем. - 2-е изд. -СПб: Изд-во СПбГУ, 2007. - 276 с.
4. Соложенцев Е.Д., Степанова Н. В., Карасев В.В. Прозрачность методик оценки кредитных рисков и рейтингов. - СПб: Изд-во СПбГУ, 2005. - 200 с.
5. Исследование рисков. Методические указания к проведению лабораторных работ «Логико-вероятностная теория кредитных рисков» / Н.С. Медведева, Е.Д. Соложенцев, Д.С. Строков. - СПб: СПбГУАП, 2007. - 23 с.
6. Соложенцев Е.Д. Управление риском и эффективностью в экономике: Логико-вероятностный подход. - СПб: Изд-во СПбГУ, 2009. - 259 с.
7. Аттетков А.В., Галкин С.В., Зарубин В.С. Методы оптимизации: Учеб. для вузов / Под ред. В.С. Зарубина, А.П. Крищенко. - 2-е изд., стереотип. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2003. - 440 с.
Строков Дмитрий Сергеевич - Санкт-Петербургский государственный университет аэрокосмического приборостроения, аспирант, dima.src@ gmail. com
Соложенцев Евгений Дмит- - Институт проблем машиноведения РАН, доктор технических
риевич наук, профессор, [email protected]