Научная статья на тему 'Проблематика проектирования гибридных скоринговых систем оценки кредитоспособностиюридических лиц'

Проблематика проектирования гибридных скоринговых систем оценки кредитоспособностиюридических лиц Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
270
115
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРЕДИТНЫЙ СКОРИНГ / ГИБРИДНЫЕ СИСТЕМЫ / НЕЧЕТКИЙ НЕЙРОГЕНЕТИЧЕСКИЙ АЛГОРИТМ / ПРОЕКТИРОВАНИЕ / CREDIT SCORING / HYBRID SYSTEMS / FUZZY NEIROGENETIC ALGORITHM / MODELING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рындин А. А., Ульев В. П.

В статье рассматриваются основные проблемы проектирования гибридных скоринговых систем оценки кредитоспособности юридических лиц. Рассмотрена компенсационная модель проектирования гибридной системы, проведена классификация видов компенсационных решений. Рассмотрены основные процессы предложенной схемы гибридной системы и способы их реализации. Приводится пример алгоритмов основных модулей скоринговой гибридной системы

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Рындин А. А., Ульев В. П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODELINGPROBLEMS OF HYBRID SYSTEMS SCORING CREDIT RATING OF CORPORATE CLIENTS

The article reviews the main challenges of designing a hybrid scoring systems for evaluating the creditworthiness of legal entities. We consider the compensatory model of designing a hybrid system, the classification of compensation decisions. The basic processes of the proposed scheme of hybrid systems and methods for their implementation. An example of scoring algorithms, the main modules of the hybrid system

Текст научной работы на тему «Проблематика проектирования гибридных скоринговых систем оценки кредитоспособностиюридических лиц»

УДК 004.891

ПРОБЛЕМАТИКА ПРОЕКТИРОВАНИЯ ГИБРИДНЫХ СКОРИНГОВЫХ СИСТЕМ ОЦЕНКИ КРЕДИТОСПОСОБНОСТИ ЮРИДИЧЕСКИХ ЛИЦ

А.А. Рындин, В.П. Ульев

В статье рассматриваются основные проблемы проектирования гибридных скоринговых систем оценки кредитоспособности юридических лиц. Рассмотрена компенсационная модель проектирования гибридной системы, проведена классификация видов компенсационных решений. Рассмотрены основные процессы предложенной схемы гибридной системы и способы их реализации. Приводится пример алгоритмов основных модулей скоринговой гибридной системы

Ключевые слова: кредитный скоринг, гибридные системы, нечеткий нейрогенетический алгоритм,

проектирование

1 Основной задачей скоринговых систем является определение некоторой итоговой оценки заданному процессу, в рамках статьи -кредитоспособности юридических лиц. С математической точки зрения, скоринг есть процедура определения нелинейной функции и вычисление ее значений при заданных исходных данных. Определение вида функции зависимости оценки кредитоспособности потенциальных заемщиков юридических лиц от их показателей эффективности финансовой деятельности определяет прогнозирующую возможность скоринга. В настоящее время известно множество методик исследования вариации зависимой переменной от набора независимых. В целом, следует отметить у каждого из методов исследования вариации результата от исходных данных наличие, в определенной степени, как положительных качеств, так и отрицательных. Поэтому проектирование гибридной скоринговой системы продиктовано не только реализацией поставленных задач, но и возможностью компенсации недостатков одних методов за счет достоинств других.

Рассмотрим основные проблемы

проектирования гибридных систем:

- проблема выбора интегрируемых методик;

- порядок взаимодействия разнородных подсистем;

- формирование итогового решения гибридной системы посредством объединения результатов составных разнородных подсистем;

Решение проблемы выбора интегрируемых методик лежит в плоскости определения целей и задач, поставленных перед гибридной системой, а также в контексте фундаментального подхода компенсации недостатков одних методов за счет преимуществ других. Рассмотрим основные задачи,

Рындин Александр Алексеевич - ВГТУ, д-р техн. наук, профессор, e-mail: варг1в@,таИ.ги,тел. 8(473) 243-77-04 Ульев Виталий Петрович - ВГТУ, соискатель, e-mail: и [email protected], тел. 8(903) 850 49 37

предъявляемые скоринговой системе оценки кредитоспособности юридических лиц:

- расчет скоринговой оценки

кредитоспособности юридических лиц;

- возможность построения и обработки различных скоринговых моделей оценки кредитоспособности;

- возможность самоконтроля корректности результирующей оценки;

- возможность обучения на основе исторических данных;

- возможность ввода и учета экспертной оценки кредитоспособности, а также общей политики условий кредитования;

- возможность самостоятельного

эволюционирования в целях обеспечения более качественной оценки

кредитоспособности и выявления слабых связей между финансовыми показателями.

Исходя из поставленных задач и возможностей их реализации, наиболее подходящими являются такие методики исследования зависимостей результата от исходных параметров как нейронные сети, теория нечетких множеств и генетические алгоритмы.

Рассмотрим упрощенную компенсационную модель предложенных методов:

1. Нейронные сети:

- недостатки: отсутствие оперативной

гибкости результирующей оценки

обусловлено актуальностью эталонной статистической выборки; качество вывода может быть оценено косвенно испытанием на эталонной выборке исходных данных; нейронная сеть не способна к самостоятельному развитию; проблема

выбора эффективной топологии нейросети.

- компенсация: оперативная гибкость

может быть улучшена за счет использования методики нечетких

множеств, реализующих текущую

экспертную субъективную модель, что в целом положительным образом должно отразиться на качестве результата;

эволюция нейросети, поиск оптимальной

топологии реализуется методикой генетических алгоритмов.

2. Нечеткие множества:

- недостатки: нечеткие правила носят

субъективный характер, проблема

формирования базы нечетких знаний ввиду необходимости учета всех возможных

факторов;

- компенсация: субъективность метода

компенсируется объективностью

статистических методов, в частности технологией нейронных сетей;

мультивариантность нечеткой базы компенсируется технологией генетических алгоритмов, способных к поиску и

выделению наиболее значимых правил.

3. Генетические алгоритмы:

- недостатки: путь эволюции может быть

непрерывным, ветвь развития может оказаться тупиковой, функция

приспособленности не актуальной.

- компенсация: актуальность функции

принадлежности может быть поддержана методикой нечетких множеств.

Модель скоринговой нечеткой

нейрогенетической системы (далее ННГ-системы) предполагает использование указанных выше методик и реализует следующую компенсационную модель:

- основной решающий модуль основан на технологии нейронных сетей и производит обработку данных на основе имеющейся статистики;

- дополнительный модуль экспертной оценки, основанный на теории нечетких множеств, вносит субъективный локальный (региональный, отраслевой) момент смещения вектора результирующей оценки;

- дополнительный модуль эволюции системы, основанный на технологии генетических алгоритмов, производит поиск оптимальной топологии нейросети;

- в результате оценки варианта топологии

нейросети подсистемой настройки основного решающего модуля, модуль эволюции получает оперативные сведения,

необходимые для дальнейшей селекции.

Предложенная компенсационная модель, по сути, является по большей степени радиальнолинейной, где за основу решающего блока выбрана нейросетевая технология. Таким образом все компенсационные схемы интеграции методик в единой скоринговой системе можно категорировать следующим образом:

- линейная (каждая из применяемых методик компенсирует недостатки последующей);

- радиально - линейная (вспомогательные методики компенсируют недостатки основной);

- замкнутые (методики взаимно

компенсируют друг друга в той или иной степени);

Далее рассмотрим аспекты проектирования основных подсистем скоринговой ННГ-системы.

На рис. 1 представлена компоновочная логическая модель нечеткой нейрогенетической (далее ННГ) скоринговой системы.

Рис.1. Компоновочная логическая модель ННГ - системы скоринговой оценки

Для реализации блока оценки кредитоспособности на основе экспертных правил обратимся к теории нечетких множеств и рассмотрим метод многокритериального выбора альтернатив на основе композиционного правила агрегирования описаний альтернатив с информацией о предпочтениях лица, принимающего решения, заданных в виде нечетких суждений.

Основной задачей теории нечетких множеств, согласно основополагающей работе Л.Заде «Fuzzy sets», является возможность описания и определения явлений и понятий, имеющих многозначный и неточных характер, возможность получения некой точной оценки исходя из совокупности начальных неточных определений и правил. В какой-то степени, теория нечетких множеств также как и теория нейронных сетей, является некой попыткой реализации процесса человеческого мышления, оперирующего не только числовыми и строго определенными данными, но и неточными и многозначными понятиями. Подходы теории нечетких множеств наиболее удачным образом предоставляют возможность реализовать механизм экспертной оценки кредитоспособности,

основанный на системе экспертных рассуждений и правил, лежащих в плоскости нечетких условий. Оперируя совокупностью показателей, выраженных в неточных единицах измерений таких как «высокий», «низкий», «средний», эксперт способен определить показатель кредитоспособности потенциального заемщика. Аппарат теории нечетких множеств позволяет формализовать данную возможность экспертной оценки с математической точки зрения, тем самым обеспечивая возможность автоматизации и алгоритмизации использования моделей экспертных

рассуждений. Ниже на рис.2 представлена схема блока нечеткой логики.

Блок

фузэифжаиии

База

правил

Оценка

альтернатив

Блок

дефуззифмкаиии

Рис.2. Схема блока нечеткой логики.

Рассмотрим основные положения теории нечетких множеств и подходы реализации блока оценки кредитоспособности на основе экспертных правил. Предположим, что существует некое четкое множество X, охватывающее совокупность объектов определенного класса. В рамках заданного четкого множества Х можно выделить некоторое подмножество А, содержащее объекты по некоторому критерию их принадлежности или функции принадлежности /ИА (х), X £ X . Таким образом, сформированное подмножество А будет иметь нечеткий характер. Функция принадлежности /ИА (х) определяется на отрезке вещественных чисел [0,1]. Нормальным нечетким множеством является множество с высотой равной 1.

Если множество Х состоит из конечного набора элементов хг, 1 е[1,п], то нечеткое множество А можно записать в следующем виде:

А = т а (х1) + тА (Х2) + +тА хп) =^п тА (х).

=Z!

Л1 2 п ¿=1 г

Причем, следует обратить внимание, что форма записи вышеуказанного выражения носит символьный, а не алгебраический характер, и знак суммы следует понимать как совокупность. Таким образом, описываются варианты состояния каждого критерия, участвующего в модели, т. е формируются нечеткие подмножества требуемых лингвистических категорий, например, «недостаточное значение», «низкое значение», «среднее значение», «выше среднего», «высокое значение» и т.п., путем

определения функций принадлежности к каждому множеству А1, А2, А3 и т.д. Фактически, процедура приведения реальных значений критериев оценки к их степени принадлежности нечетким множествам обеспечивает приведение к единым единицам измерений абсолютно разных по природе и масштабу критериев оценки, при условии, что все полученные нечеткие множества - нормальные. Этот момент является основополагающим принципом теории нечетких множеств, позволяющим перевести в единую плоскость абсолютно разные по природе свойства объектов.

Увязка значений набора критериев и значением результата является экспертным суждением, а согласно теории нечетких множеств -нечетким правилом. В лингвистической форме нечеткое правило записывается в виде: «Если

критерий х1 имеет «среднее значение», и критерий х2 имеет «низкое» значение, и критерий х3 имеет «высокое» или «среднее» значение, то результат у1 имеет «низкое» значение». Тем самым, правило

определяет необходимые процедуры объединения или пересечения совокупности нечетких множеств с целью получения результирующего терма нечеткого множества результата.

Рассмотрим классические операции конъюнкции и дизъюнкции (пересечения и объединения) нечетких множеств:

1. пересечению нечетких множеств

(A1 n A2)( xt, xj) = A1( xt, xj) a A2( xi, xj) соотв

етствует нахождение минимума их функций принадлежности:

iia (x) = min(mAi(xi), mA2( xi);...; mAi( xn )mA xn))

2. объединению нечетких множеств

(A1 u A2)( xt, xj) = A1( xt, xj) v A2( xt, xj) соотв

етствует нахождение максимума их функций принадлежности:

mA (x) = max^i(xi\mA2( xi);...;mAi( xn )mA2(xn))

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тем самым, сложность функции результирующего терма напрямую зависит от количества учитываемых критериев и форм их термов функций принадлежности. Наличие нелинейности факторных термов определяет ее наличие в результирующем терме. Таким образом, для каждого показателя выбранной совокупности финансовых и статистических показателей формируются функции принадлежности или термы. Совокупность нечетких правил, охватывающих все области нечеткого определения критериев и результата формирует базу нечетких знаний (fuzzy knowledge base). Тем самым, нечеткая база знаний реализует скоринговую модель.

Итак, подведя некий промежуточный итог, можно отметить следующее: в результате

экспертной оценки возможных значений некоего критерия формируются нечеткие множества, принадлежность к которым описывается показателем степени принадлежности. Учитывая, что степень принадлежности определена на отрезке [0, 1], аппарат нечеткой логики фактически

предлагает механизм приведения различных по сути единиц измерений к единой области определения. Нечеткая база знаний представляет совокупность нечетких правил. Результат обработки нечеткой базы является нечетким логическим выводом (fuzzy logic inference), представляющим аппроксимацию

зависимости y = f (x1, x2,...,xn) результата от

набора критериев. Так, для каждого потенциального заемщика набор показателей кредитоспособности, выраженный в виде функций принадлежности к нечетким множествам, обрабатывается на нечеткой базе, т. е фактически пропускается через каждое нечеткое правило. Каждое нечеткое правило определяет совокупность необходимых

преобразований, в нашем случае достаточно конъюнкции дизъюнкции, функций принадлежности участвующих показателей кредитоспособности. Результатом обработки данных на нечеткой базе знаний является конъюнкция результатов множества нечетких правил

Б (П1П02 П... ППп) , т.е. минимальное значение функции принадлежности.

Для представления правил используется операция импликации, для которой предложены различные способы нечеткой реализации. Процедура импликации позволяет сформировать меру удовлетворения объектов каждому правилу на единичном интервале. В случае если, нечеткие правила сформированы логично и не находятся во взаимном противоречии, то результатом

конъюнкции нечетких подмножеств импликации каждого правила является результирующий терм удовлетворенности альтернативы на единичном интервале. В результате расчета нечеткой импликации правил по Лукасевичу будет получено множество значений степени удовлетворения результата заложенным правилам. Следующим и заключительным шагом является сопоставление альтернатив на основе точечных оценок. Лучшей считается альтернатива с наибольшей точечной оценкой. Определение пороговых значений точечных оценок производится также экспертным путем.

Т ехнология нейронных сетей позволяет решать задачи по категорированию исследуемых объектов, используя статистическую информацию. Тем самым, нейросетевой блок формирует объективную оценку на основе статистической информации. Используя статистику по финансовым показателям и оценкам кредитоспособности юридических лиц, обученная нейросеть с определенной степенью точности способна прогнозировать

кредитоспособность исследуемого заемщика. Достоверность вывода нейросетевого блока оценивается в результате выполнения следующих условий:

- корректное завершение обучения нейросети, т. е переход системы в установившийся режим, когда весовые коэффициенты перестают изменяться в процессе обучения

0, іп) = 0, и

і 0

■и’,

: и

і 2

■■и,,

);

- соответствие оценки кредитоспособности на

контрольной выборке ожидаемым

результатам;

- соответствие оценки результатам работы экспертного блока в ожидаемых пределах;

Рассмотрим основные задачи, возлагаемые на нейросетевой блок:

- оценка кредитоспособности потенциального заемщика на основе статистической информации;

- настройка нейросети и проверка ее качества;

Исходя из общей компоновочной схемы ННГ -системы, нейросетевой модуль является основным решающим блоком. Способность системы к процессу эволюции характеризуется способностью к саморазвитию ее составных элементов. Тем самым, эволюция нейросетевого блока, основного решающего элемента системы, позволяет в полной

мере выделить это свойство у всей скоринговой системы в целом.

Учитывая основные задачи нейросетевого модуля, очень важно разделить основные процессы: рабочий процесс выработки скоринговой оценки и внутренний процесс настройки нейросети. Рассмотрим каждый процесс в отдельности.

Процесс определения скоринговой оценки. Выработка решения по скоринговой оценке происходит в результате работы настроенной и обученной нейросети принятой топологии. На вход в решающую нейросеть подается массив входных данных: финансовые и статистические показатели потенциального заемщика, на выходе формируется скоринговая оценка.

Процесс настройки нейросети. Основной задачей процесса является настройка нейронной сети, обеспечивающей ее наиболее качественную реакцию. Данный процесс предполагает решение таких задач как обучение нейронной сети, проверка качества реакции на контрольной выборке, определение наиболее удачного варианта нейросети. При этом, оба процесса в рамках нейросетевого модуля должны функционировать независимо друг от друга, разделяя бизнес и сервисные функции.

Для решения поставленных задач наиболее очевидным представляется реализация описанных основных процессов в виде независимых блоков, представленных_на риа^.

Рис.3. Схема реализации нейросетевого модуля ННГ-системы

Таким образом, в целом в рамках

нейросетевого модуля скоринговой системы в

режиме реального времени должны

функционировать две нейронных сети: одна

нейросеть находится в режиме настройки и оценки качества реакции, вторая в промышленном режиме определяет скоринговую оценку

кредитоспособности потенциального заемщика. При этом, блоку развития нейросети отводится важная роль взаимодействия с генетическим модулем эволюции нейросети. Тем самым, инициализация блока развития должна происходить при следующих событиях:

- первый старт скоринговой системы (настройка базовой топологии нейросети);

- изменение обучающей выборки;

- изменение базовой топологии нейросети (при поступлении новой топологии от модуля эволюции).

Настройка нейронной сети промышленного блока производится путем загрузки варианта топологии и настройки весовых коэффициентов, переданного от блока развития, и признанного им наиболее оптимальным.

Генетический модуль скоринговой системы реализует важнейший сервисный процесс -эволюцию инструмента определения скоринговой оценки кредитоспособности потенциальных заемщиков. Наличие данного модуля в составе системы позволяет ей развиваться и более качественно решать поставленную задачу.

Процесс развития нейросетевого модуля нацелен главным образом на решение задачи поиска оптимальной топологии нейронной сети, обеспечивающей максимально точную оценку за минимальное время. Учитывая комплексность задачи, процесс развития следует рассматривать в тесном взаимодействии с выше описанным сервисным процессом обучения нейросети. Моделирование новой топологии нейросети предполагает решение таких задач как определение количества слоев, количества нейронов в каждом из них, вида и количества межнейронных связей, применение той или иной функции активации нейрона, формирование блочных структур нейронов в рамках слоя. Результат совместного функционирования процесса эволюции и обучения -определение оптимальной топологии и настройки нейронной сети. На рис.4. представлен классический генетический алгоритм.

Рис.4. Классический генетический алгоритм Рассмотрим более подробно основные этапы алгоритма. Исходная популяция особей. На данном этапе формирование популяции заключается в случайном выборе заданного количества хромосом

(особей), представляемых двоичными

последовательностями фиксированной длины.

Оценка приспособленности. Для каждой особи рассчитывается функция приспособленности. Чем больше значение этой функции, тем выше «качество» особи. Форма функции

приспособленности зависит от характера решаемой задачи. Предполагается, что функция приспособленности всегда принимает

неотрицательные значения и, кроме того, что для решения оптимизационной задачи требуется максимизировать эту функцию. Если исходная форма функции приспособленности не удовлетворяет этим условиям, то выполняется соответствующее преобразование.

Проверка условия остановки алгоритма. Определение условия остановки генетического алгоритма зависит от его конкретного применения. В оптимизационных задачах, если известно максимальное или минимальное значение функции приспособленности, то остановка алгоритма может произойти после достижения ожидаемого оптимального значения, возможно - с заданной точностью. Остановка алгоритма также может произойти в случае, когда его выполнение не приводит к улучшению уже достигнутого значения. Алгоритм может быть остановлен по истечении определенного времени выполнения, либо после выполнения заданного количества итераций. Если условие остановки выполнено, то производится переход к завершающему этапу выбора «наилучшей» особи. В противном случае производится селекция.

Селекция особей или хромосом заключается в выборе тех особей, которые будут участвовать в процессе формирования потомков для следующей популяции. Такой выбор производится согласно принципу естественного отбора, по которому наибольшие шансы на участие в создании новых особей имеют особи с наибольшими значениями функции приспособленности. Существуют различные методы селекции. Наиболее популярным считается так называемый метод рулетки (roulette wheel selection). Суть его заключается в том, что каждой особи может быть сопоставлен сектор рулетки, величина которого устанавливается пропорционально значению функции

приспособленности. Поэтому чем больше значение функции приспособленности, тем больше сектор на колесе рулетки. Все колесо рулетки соответствует сумме значений функций приспособленности всех особей популяции. Каждой хромосоме, обозначаемой chi соответствует сектор колеса

v(chi ), выраженной в процентах согласно формуле:

v(chi ) = ps (chi )100%,

F (chi)

где ps {cht )

IN F (chi )

причем F (chi) - значение функции

приспособленности хромосомы cht, а ps (cht) -

вероятность селекции хромосомы cht. Селекция

хромосомы может быть представлена как результат поворота колеса рулетки, поскольку «выигравшая» хромосома относится к выпавшему сектору этого колеса. Очевидно, что чем больше сектор, т.е значение функции приспособленности особи, тем больше вероятность, что данная особь будет выбрана. Поэтому вероятность выбора данной хромосомы оказывается пропорциональной значению ее функции приспособленности. В результате процесса селекции формируется множество родительских особей, или так называемый родительский пул.

Применение генетических операторов к хромосомам, отобранным с помощью селекции, приводит к формированию новой популяции потомков. В классическом генетическом алгоритме применяются два основных оператора: оператор скрещивания (crossover) и оператор мутации (mutation). Причем, следует отметить важный момент: посредством оператора скрещивания

формируются новые особи, оператор мутации применяется для изменения свойств существующих особей.

Формирование новой популяции. Хромосомы, полученные в результате применения генетических операторов над родительским пулом, включаются в состав новой популяции. Она становится текущей для данной итерации генетического алгоритма. Если условие остановки алгоритма выполнено, то следует выбрать лучшую хромосому. Лучшим решением считается хромосома с наибольшим значением функции принадлежности.

Далее рассмотрим взаимодействие подсистем гибридной скоринговой системы. Взаимодействие аппарата генетических алгоритмов с блоком настройки нейросетевого модуля двустороннее: эволюционный блок вырабатывает решение и предлагает его нейросетевому блоку, в ответ получает некоторую оценку предложенному решению, необходимую в процедуре оценки приспособленности.

Взаимодействие экспертного блока и основного решающего сведено к сравнению итоговой оценки кредитоспособности. Для каждой оценки можно определить рамки или область определения, и рассчитать среднее взвешенное значение или так называемый «центр тяжести». Соответственно, степень доверия снижается на границах области определения категорий кредитоспособности. Итоговая оценка может быть рассчитана как средняя величина, или взята исходя из коэффициента доверия. Результат принятия решения прямым образом влияет на инициацию процессов изменения в рассматриваемых подсистемах скоринговой гибридной системы.

Литература

1. Д. Рутковская, М. Пилинский, Л. Рутковский. Нейронные сети, генетические алгоритмы и нечеткие системы /: Пер. с польск. И.Д. Рудинского. - М.: Горячая линия - Телеком, 2006. -452 с.

2. Ярушкина Н.Г. Основы теории нечетких и гибридных систем: учеб.пособие. -М.: Финансы и статистика, 2009. -320 с.

Воронежский государственный технический университет

MODELING PROBLEMS OF HYBRID SYSTEMS SCORING CREDIT RATING OF CORPORATE

CLIENTS

A.A. Ryndin, V.P. Ulyev

The article reviews the main challenges of designing a hybrid scoring systems for evaluating the creditworthiness of legal entities. We consider the compensatory model of designing a hybrid system, the classification of compensation decisions. The basic processes of the proposed scheme of hybrid systems and methods for their implementation. An example of scoring algorithms, the main modules of the hybrid system

Key words: credit scoring, hybrid systems, fuzzy neirogenetic algorithm, modeling

i Надоели баннеры? Вы всегда можете отключить рекламу.