Научная статья на тему 'Прогнозирование банкротства организации на основе метрических методов интеллектуального анализа данных'

Прогнозирование банкротства организации на основе метрических методов интеллектуального анализа данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
278
54
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАНКРОТСТВО / BANKRUPTCY / РИСК / RISK / МЕТРИЧЕСКИЕ МЕТОДЫ / METRIC METHODS / МАШИННОЕ ОБУЧЕНИЕ / MACHINE LEARNING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ариничев Игорь Владимирович, Матвеева Людмила Григорьевна, Ариничева Ирина Владимировна

В статье предлагается подход к оценке риска банкротства организаций различных сфер деятельности и отраслевой принадлежности, в том числе предприятий водохозяйственных комплексов, на основе индуктивных метрических методов интеллектуального анализа данных. Одна из задач такого анализа данных проблема классификации, возникающая в различных сферах и отраслях бизнеса. В настоящей работе рассматриваются бинарная классификация, когда каждый объект относится к одному из двух классов: «банкрот» или «не банкрот». Отличительной особенностью статьи является использование качественных признаков оценок экспертов по шести признакам данного риска: отраслевой риск, риск управления, финансовая гибкость, кредитоспособность, конкурентоспособность и операционный риск. При этом каждый признак оценивается экспертами по трем уровням: «положительный», «средний» и «отрицательный». В статье проводится сравнительный анализ по пяти группам методов с различными видами функций расстояния, включая евклидову метрику и расстояние Чебышева, а также четырех типов ядер для метода потенциальных функций. Для настройки параметров алгоритмов осуществляется кросс-проверка их качества по обучающей и тестовой выборках. Результаты моделирования показали, что для некоторых из метрик в пространстве объектов рассматриваемые методы обучения хорошо согласуются с исходными данными и демонстрируют незначительную ошибку на тестовых данных. Обучение и оптимизация алгоритмов осуществлялись в среде разработки Visual Studio 2017 на языке программирования C#. Учитывая простоту реализации метрических методов, их надежность, способность алгоритмов анализировать значительные объемы информации, предполагается, что рекомендованный подход к прогнозированию банкротства будет полезен представителям малого и среднего бизнеса и позволит получить объективную и точную картину о финансовом положении предприятия, текущих угрозах и риске банкротства.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ариничев Игорь Владимирович, Матвеева Людмила Григорьевна, Ариничева Ирина Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Forecasting the bankruptcy of an organization based on metric methods of data mining

The article presents an approach to estimating the risk of bankruptcy of organizations of various fields of activity and industry, including water management complexes, based on inductive metric methods of data mining. One of the tasks of data analysis is the classification problem that arises in different spheres and branches of business. In the present paper a binary classification is considered when each object belongs to one of the two classes “bankrupt” or “not bankrupt”. A distinctive feature of this work is the use of qualitative factors assessments of experts on the six features of this risk. The article compares five groups of methods with different types of distance functions, including the Euclidean metric and the Chebyshev distance, as well as four types of kernels for the method of potential functions. To adjust the parameters of the algorithms, a cross-validation of their quality is performed on the training and test samples. The simulation results showed that for some of the metrics in object space, the learning methods discussed show a good agreement with the initial data and demonstrate a small error on the test data. Training and optimization algorithms were implemented in the development environment of Visual Studio 2017 in the programming language C #. Given the simplicity of the implementation of metric methods, their reliability, the ability of algorithms to analyze significant amounts of information, it is assumed that the proposed approach to forecasting bankruptcy will be useful to representatives of small and medium-sized businesses and will provide an objective and accurate picture of the financial situation of the enterprise, current threats and the risk of bankruptcy.

Текст научной работы на тему «Прогнозирование банкротства организации на основе метрических методов интеллектуального анализа данных»

www.hjournal.ru DOI: 10.17835/2078-5429.2018.9.1.061-073

ПРОГНОЗИРОВАНИЕ БАНКРОТСТВА ОРГАНИЗАЦИИ НА ОСНОВЕ МЕТРИЧЕСКИХ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ1

АРИНИЧЕВ ИГОРЬ ВЛАДИМИРОВИЧ,

кандидат экономических наук, доцент, Кубанский государственный университет, г. Краснодар, Россия, e-mail: [email protected];

МАТВЕЕВА ЛЮДМИЛА ГРИГОРЬЕВНА,

доктор экономических наук, профессор, Южный федеральный университет, г. Ростов-на-Дону, Россия, e-mail: [email protected];

АРИНИЧЕВА ИРИНА ВЛАДИМИРОВНА,

доктор биологических наук, профессор, Кубанский государственный аграрный университет,

г. Краснодар, Россия, e-mail: [email protected]

В статье предлагается подход к оценке риска банкротства организаций различных сфер деятельности и отраслевой принадлежности, в том числе предприятий водохозяйственных комплексов, на основе индуктивных метрических методов интеллектуального анализа данных. Одна из задач такого анализа данных - проблема классификации, возникающая в различных сферах и отраслях бизнеса. В настоящей работе рассматриваются бинарная классификация, когда каждый объект относится к одному из двух классов: «банкрот» или «не банкрот». Отличительной особенностью статьи является использование качественных признаков -оценок экспертов по шести признакам данного риска: отраслевой риск, риск управления, финансовая гибкость, кредитоспособность, конкурентоспособность и операционный риск. При этом каждый признак оценивается экспертами по трем уровням: «положительный», «средний» и «отрицательный». В статье проводится сравнительный анализ по пяти группам методов с различными видами функций расстояния, включая евклидову метрику и расстояние Чебышева, а также четырех типов ядер для метода потенциальных функций. Для настройки параметров алгоритмов осуществляется кросс-проверка их качества по обучающей и тестовой выборках. Результаты моделирования показали, что для некоторых из метрик в пространстве объектов рассматриваемые методы обучения хорошо согласуются с исходными данными и демонстрируют незначительную ошибку на тестовых данных. Обучение

1 Статья подготовлена в рамках гранта РФФИ 18-010-00623 «Интеллектуальное моделирование организационно-экономического механизма управления водоресурсным обеспечением региональных водохозяйственных комплексов». This publication has been prepared in the framework of the project funded by the Russian Foundation for Basic Research Project № 18-010-00623 «The intellectual modeling of organizational - economic mechanism of water supply management in regional water management complexes».

© Ариничев И. В., Матвеева Л. Г., Ариничева И. В., 2018

оо ■н о

2

o n

СП

£

§ m

н а в

о

р и

<

е р

15 о О

р

с

О

В

о ш ее о

о о ш

о <

и оптимизация алгоритмов осуществлялись в среде разработки Visual Studio 2017 на языке программирования C#. Учитывая простоту реализации метрических методов, их надежность, способность алгоритмов анализировать значительные объемы информации, предполагается, что рекомендованный подход к прогнозированию банкротства будет полезен представителям малого и среднего бизнеса и позволит получить объективную и точную картину о финансовом положении предприятия, текущих угрозах и риске банкротства.

Ключевые слова: банкротство; риск; метрические методы; машинное обучение.

FORECASTING THE BANKRUPTCY OF AN ORGANIZATION BASED ON METRIC METHODS

OF DATA MINING

IGOR V. ARINICHEV,

Candidate of Economics, Associate Professor, Kuban State University,

^ Krasnodar, Russia,

S e-mail: [email protected];

o>

5 ,o

о

X

§

m

LYUDMILA G. MATVEEVA,

Doctor of Economics, Professor, Southern Federal University, Rostov-on-Don, Russia, e-mail: [email protected];

IRINA V. ARINICHEVA,

Doctor of Biologic science, Professor, ro Kuban State Agrarian University,

CO

° Krasnodar, Russia,

< e-mail: [email protected] E? _

CD 15

O O

o methods of data mining. One of the tasks of data analysis is the classification problem that arises in different spheres and branches of business. In the present paper a binary classification is considered

O when each object belongs to one of the two classes "bankrupt" or "not bankrupt". A distinctive feature of this work is the use of qualitative factors - assessments of experts on the six features of this

g risk. The article compares five groups of methods with different types of distance functions, including

qJ the Euclidean metric and the Chebyshev distance, as well as four types of kernels for the method of

o potential functions. To adjust the parameters of the algorithms, a cross-validation of their quality is

q performed on the training and test samples. The simulation results showed that for some of the metrics

q in object space, the learning methods discussed show a good agreement with the initial data and

yj demonstrate a small error on the test data. Training and optimization algorithms were implemented

q in the development environment of Visual Studio 2017 in the programming language C #. Given

^ the simplicity of the implementation of metric methods, their reliability, the ability of algorithms to

gg analyze significant amounts of information, it is assumed that the proposed approach to forecasting

O bankruptcy will be useful to representatives of small and medium-sized businesses and will provide

The article presents an approach to estimating the risk of bankruptcy of organizations of various fields of activity and industry, including water management complexes, based on inductive metric

an objective and accurate picture of the financial situation of the enterprise, current threats and the risk of bankruptcy.

Keywords: bankruptcy; risk; metric methods; machine learning.

JEL: C45; C58; G33.

Введение

Существенный прогресс в области хранения и обработки цифровых данных привел к появлению значительного числа информации, содержащейся в хранилищах данных и других видах репозиториев, включая всемирную сеть. Сбор и поиск информации стали проще, но прилагаемые усилия, необходимые для получения соответствующих знаний и выявления структур в данных, стали значительно выше. Как следствие, возрастает интерес к интеллектуальному анализу данных, который способен установить наличие полезных закономерностей в исходных массивах. Открытие зависимостей в бизнес-данных является важной задачей, решение которой способно обеспечить значительное конкурентное преимущество для бизнес-организаций за счет использования потенциала больших баз данных. Интеллектуальный анализ информации может быть осуществлен в различных областях бизнеса, таких как маркетинг, финансы, банковское дело, производство и телекоммуникации (Brachman, Khabaza, Kloesgen, Piatesky-Shpiro and Simoudis, 1996). Одной из задач анализа данных является проблема классификации, возникающая в различных сферах и отраслях бизнеса. В качестве типичных примеров, демонстрирующих процесс отнесения объекта к одному или нескольким непересекающимся классам, можно представить одобрение кредитной заявки, оценка риска компании, выбор продуктов, прогнозирование банкротства, подбор персонала и т.д. >

Банкротство — это ситуация, когда фирма неспособна разрешить свои денежные % обязательства, ведущая к правовой угрозе. Финансовые активы компаний продаются для погашения задолженности, что приводит к огромным потерям как для собственников, так s и для инвесторов. Таким образом, необходимо разрабатывать эффективные стратегии о прогнозирования банкротства на более раннем этапе, чтобы избежать финансового кризиса. Заинтересованными лицами в определении финансовой устойчивости организации могут выступать не только собственники и инвесторы. Различные физические и юридические лица нуждаются в информации о «реальном положении дел в компании, с которой они связаны» от поставщиков и партнеров до сотрудников, настоящих и потенциальных.

С институциональной точки зрения, чем большей информацией обладают все экономические агенты, тем меньше будет риск возникновения трансакционных g издержек. Другими словами, благодаря полноте информации, полученной в результате с применения простой и надежной методики оценивания финансовой устойчивости ш и отслеживания угрозы наступления банкротства, ключевые игроки рынка смогут ^ проявлять высокий уровень доверия к данной организации: клиенты будут уверены в р качестве продукции, сотрудники — в оплате труда и премиях за результат, поставщики, ^ подрядчики и партнеры — в благонадежности и кредитоспособности организации в качестве заемщика, что, в свою очередь, положительно скажется на деловой репутации ^ данной компании.

оо ■н о см

о с

СП

m

Обзор литературы §

Приложения интеллектуального анализа данных для прогнозирования банкротства

использовали три основных подхода. Наиболее популярным методом интеллектуального ^

анализа является разработка количественных моделей прогнозирования банкротства. ^

Основополагающей в данном классе моделей риска банкротства, получившей широкое ^

распространение в нашей стране и за рубежом, является модель Z-счета Альтмана ?

(Altman, 1968), относящаяся к классу моделей множественного дискриминантного анализа и позволяющая на основе показателей финансовой и бухгалтерской отчетности разделить предприятия на потенциальных банкротов и не банкротов.

В дальнейшем ряд ученых в многочисленных исследованиях продолжили разработку подходящих количественных моделей, применяя методы интеллектуального анализа данных, включая дискриминантный анализ (Altman, Marco and Varet, 1994; Chesser, 1974), логит (Ohlson, 1980), пробит (Zmijewski, 1984), нейронные сети (Bredart, 2014; Fletcher and Goss, 1993; Odom and Sharda, 1990; Tam and Kiang, 1992), вероятностные методы (Jarrow and Turnbull, 1995; Merton, 1974). Ядром указанного подхода является построение классифицирующий функций, состоящих из набора весов перед финансовыми переменными.

Другой количественный подход заключается в том, чтобы автоматически извлекать правила прогнозирования банкротства из финансовых баз данных огромной размерности. Методы интеллектуального анализа данных, такие как методы индуктивного обучения, нейронные сети и генетические алгоритмы, были успешно реализованы в получении полезных правил прогнозирования банкротства (Messier and Hansen, 1988; Shaw and Gentry, 1990; Shin and Lee, 2002).

Третьим подходом интеллектуального анализа данных является построение качественных моделей, называемых субъективными, основанных на знаниях экспертов в рассматриваемой области. Знания экспертов играют немаловажную роль в реальном процессе оценки рисков, так как неполностью зависят от результатов количественных методов к определению риска банкротства конкретной организации. Вместо этого они работают со своей индивидуальной структурой субъективных знаний, чтобы выработать соответствующие выводы, интегрируя при этом имеющуюся количественную и качественную информации, которая может быть использована # при оценке риска дефолта. Интерактивные методы, такие как собеседование или анкетирование, могут быть применены для формирования базы знаний экспертов, s связанной с прогнозированием банкротства. Однако в данном случае как сам процесс о сбора знаний, так и процессы обработки и агрегирования результатов суждений § являются достаточно трудоемкими.

к В некоторых исследованиях по прогнозированию банкротства используется

^ количественный подход с нефинансовыми переменными, такими как количество о сотрудников в организации или число лет, прошедших после создания предприятия. s Но лишь несколько работ посвящены предсказанию банкротства, в них сообщается о системных подходах, позволяющих увидеть закономерности в субъективных качественных оценках экспертов (Myoung-Jong and Ingoo, 2003; Martin, Lakshmi and Venkatesan, 2014). При этом основным методом оптимизации в данных работах выступают генетические алгоритмы. Несмотря на все достоинства, включая широту

оо ■н о см

о

5 ,о

15 о О с^ а О

т охвата, высокую переносимость, надежность вычислении, эволюционные алгоритмы

2 не освобождены от критики, которая вкратце сводится к скорости их реализации

р и настройки параметров. Благодаря бурному развитию вычислительной техники,

^ технологиям распараллеливания и значительному числу исследований в этой области

частично эти проблемы решаются. В то же время в российской действительности

^ это потребует от предприятий дополнительных финансовых вливаний, связанных

с приобретением программного обеспечения, компьютерной техники, а также

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

§ определенной квалификации специалистов, что, например, для малого бизнеса не

§ всегда является доступным. ш

о

В настоящей работе предлагается сравнительный анализ алгоритмов классификации организаций, основанных на метрических методах индуктивного машинного обучения, ^ способных извлекать правила принятия решений исходя из качественных суждений з экспертов о банкротстве.

Исходные данные

Качественная информация, которая должна быть собрана для прогнозирования риска дефолта, состоит из многочисленных компонентов этого риска, каждый из которых может быть отнесен к одной из групп признаков риска банкротства. Придерживаясь классификации в работах (Martin, Lakshmi and Venkatesan (2014); Myoung-Jong and Ingoo, 2003), нами были выделены шесть таких групп: отраслевой риск (IR industry risk), риск управления (MR management risk), финансовая гибкость (FF financial flexibility), кредитоспособность (CR creditability), конкурентоспособность (CO competitiveness) и операционный риск (OR operating risk).

IR отражает стабильность и рост отрасли, степень конкуренции в ней и характеризует вероятность потерь в результате изменения экономического состояния отрасли. MR связан с эффективностью управления, зависит от способностей менеджеров организации, включая высшее руководство, а также устойчивости организационной структуры, возможностей бизнес-планов. Под FF понимается способность предприятия быстро формировать необходимый объем заемных инвестиционных ресурсов при неожиданном появлении высокоэффективных инвестиционных предложений, обеспечивающих новые возможности ускорения экономического роста. CR характеризует репутацию компании, связанную с кредитной историей, достоверностью информации, предоставляемой организацией, и отношения с финансовыми учреждениями. CO выражает степень конкурентного преимущества, определяемого рыночным положением и мощностью располагаемых технологий. OR - риск, связанный с выполнением компанией бизнес-функций (закупки, производство, продажи, политика сбора дебиторской задолженности), включая риски мошенничества и внешних событий. Детали качественных признаков риска банкротства представлены в табл. 1.

оо ■н о см

о с

О)

Таблица 1

Качественные факторы риска банкротства организации

Название фактора (признака) банкротства Обозначение переменной Компоненты фактора

Отраслевой риск IR Политика правительства и внешние соглашения. Цикличность. Степень конкуренции. Цена и стабильность рыночного предложения. Размер и рост рыночного спроса. Чувствительность к изменениям макроэкономических факторов. Внутренняя и международная конкурентоспособность. Жизненный цикл продукта

Риск управления MR Способность и компетентность менеджмента. Стабильность организационной структуры. Отношения между менеджером / владельцем бизнеса. Управление человеческими ресурсами. Процесс роста / эффективность бизнеса. Краткосрочное и долгосрочное бизнес-планирование, достижения

Финансовая гибкость FF Прямое финансирование. Косвенное финансирование. Другое финансирование (владелец, филиалы, третьи лица)

Кредитоспособность CR Кредитная история. Надежность предоставляемой информации. Отношения с финансовыми институтами

§ m

X

пз ш о

s <

ф

15 о О

с

о m

о §

з О ш ее о

о о ш

Ll_

о <

Окончание табл. 1

Название фактора (признака) банкротства Обозначение переменной Компоненты фактора

Конкурентоспособность CO Позиция на рынке. Уровень потенциала компании. Дифференцированная стратегия

Операционный риск OR Стабильность и разнообразие закупок. Стабильность финансовых операций. Эффективность производства. Перспективы спроса на продукцию и услуги. Диверсификация продаж. Цены продаж и условия расчетов. Управление дебиторской задолженностью. Эффективность сети продаж

оо ■н о см

СП

5 ,о

о

X

§

m

te ш о œ

s <

b ф

œ

15 о О

с О

m

о §

3

о ш ее о

о о ш

Ll_

о

_J <

Эксперты оценивают качественные факторы риска банкротства и назначают им соответствующие уровни, такие как «положительный» = « Positive», «средний» = «Average» и «отрицательный» = «Negative», используя их субъективные знания. Наконец, они классифицируют организации по таким категориям, как «банкрот» = «B» и «не банкрот» = «NB». Предложенная порядковая шкала, используемая нами при описании признаков объекта и описании классов банкротства, не освобождена от критики и выбрана нами для конкретизации проводимого исследования. В общем случае эта шкала может быть определена произвольно. Например, задавая множество меток классов банкротства как набор натуральных чисел от 1 до 10, мы фактически получаем финансовую модель оценки риска банкротства скорингового типа.

Разложение риска по перечисленным группам факторов выбрано нами, с одной стороны, по причине ее полноты — ряд крупных финансовых организаций в мире идентифицирует потенциальных банкротов именно по рассмотренным группам рисков (Caouette, Altman, and Narayanan, 1998; Martin, Lakshmi and Venkatesan, 2014). С другой стороны, учитывая популярность такого представления, в открытых репозиториях содержатся значительного объема репрезентативные выборки экспертных оценок для установления банкротства компаний.

С учетом введенных обозначений в табл. 2 представлен фрагмент размеченной экспертами выборки, содержащей признаковое описание объектов с соотнесенными метками классов.

Таблица 2

Фрагмент размеченной выборки

Качественные признаки банкротства Банкротство

IR MR FF CR CO OR Class label

P N N N A A B

P P A A A P NB

N N P P P A NB

N A N N N P B

P N N N A A B

Метрические методы машинного обучения

Процесс реализации машинного обучения для решения проблемы, как правило, является двухшаговым. На первом этапе, называемым этапом обучения, по обучающей выборке X (выборке признаковых описаний объектов, для которых заранее известны ответы У) с помощью некоторого метода р строится алгоритм классификации: а = /л(Х1 х У1), способный выявить закономерности в исходных данных. Целью второго этапа, называемого тестирование, является оценка производительности алгоритма а,

построенного на первом шаге. При этом оценка алгоритма производится на объектах, не входящих в обучающую выборку. Если на втором этапе алгоритм a демонстрирует допустимую ошибку, то он может использоваться в дальнейшем для диагностики банкротства. В противном случае производится переобучение алгоритма путем подбора для него новых параметров. Чтобы измерить точность ответа алгоритма a на одном отдельном объекте x, рассматривается функция потерь:

I1, a( x) ф y( X),

L(a,x) = In " л " " (1)

[0, a(x) = y(x),

которая равна 0, если алгоритм верно проклассифицировал объект, и 1 - в противном случае. Тогда величина ошибки в задаче классификации определяется при помощи функционала качества, который характеризует долю правильных ответов на тестовой выборке:

Q(a4 X") = "хЦ X ) , (2)

где Xtest — тестовая выборка.

Чтобы получить адекватное значение функционала качества, исходная выборка

должна разбиваться на обучающую и тестовую X = X' u Xlesl случайным образом ^

в заданной пропорции. Но и в этом случае данный функционал (эмпирический °

риск на тестовых данных) существенно зависит от разбиения. Можно так неудачно ■н

выбрать разбиение, что оценка будет субъективной, смещенной. В некоторых случаях ^

осуществляется кросс-проверка (cross-validation, CV) качества алгоритма, когда о"

производится N разбиений выборки и на каждом разбиении осуществляется обучение и [о контроль. После чего ошибка усредняется:

1 N —■

CV (a, Xtest) = ~Yq Q (a, X 'es') §

N 1 1

о

Важным частным случаем кросс-проверки является скользящий контроль о (leave-one-out, LOO), когда разбиение осуществляется по каждому объекту выборки: о X = X \{x е X} u {x е X}. Преимущества LOO состоят в том, что каждый объект ровно один раз участвует в контроле, а длина обучающих подвыборок лишь на единицу меньше

X

го ш

длины полной выборки, однако обучать алгоритм нужно столько раз, сколько объектов в выборке.

<

На практике скользящий контроль применяется для оптимизации некоторых критически ^ важных параметров, как правило, определяющих структуру или сложность используемой модели алгоритма и имеющих относительно небольшое число возможных значений:

1 L

LO O (a; X) = - £ Q( a , X \ { х, } ) ^ min (3)

Метрические методы машинного обучения, обсуждаемые в настоящей работе, ь

используют функции расстояния в пространстве объектов. Исходной идеей их применения =3

является гипотеза компактности, предположение о том, что «близкие» объекты лежат ш

в одном классе. Аналогом в непрерывном случае выступает гипотеза непрерывности, 0

а соответствующий метод — регрессия (Vorontsov, 2014). Поэтому исходные данные 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

необходимо оцифровать. Учитывая порядковый тип оценок экспертов, будем кодировать 21

их k = 3 независимыми числовыми признаками: ]-й вторичный признак х^ равен 1, если о исходный признак принимал]-е значение, и 0 в противном случае.

Тогда, ранжируя объекты обучающей выборки х1;х2,...,х, до классифицируемого

объекта х по убыванию расстояния р(х,х(1)) < р(х,х(2)) <... < р(х,х(,)), определяется ^

обобщенный метрический классификатор (Vorontsov, 2014): ^

i

a (x; X l ) = arg m ax У [ y( ') = y ] • w (i , x) (4)

У^ i=1

где Y — множество меток классов {B, NB}; p — метрика в пространстве объектов; x(l) — i-й ближайший объект («сосед») объекта x; y(l) — ответ на x(i);

w(i, x) — вес i-го соседа, неотрицательный, не возрастающий по i.

Частные случаи обобщенного классификатора в зависимости от вида весовых функций w(i, x) приведены в табл. 3.

Таблица 3

Типы метрических методов машинного обучения в зависимости от весовой функции

Номер Название метода Весовая функция Описание

1 Метод ближайшего соседа w( 1, X) = [ 1 < 1] Алгоритм запоминает выборку и присваивает классифицируемому объекту метку класса «ближайшего соседа»

2 Метод к ближайших соседей (к > 1) w(/, х) = [1 < k ] Алгоритм запоминает выборку и присваивает классифицируемому объекту метку класса, которая чаще всего встречается среди к «ближайших соседей»

3 Метод парзеновского окна фиксированной ширины Ж'", X) = *х,х)) ] , где h — ширина окна, К — ядро (положительное, монотонно убывающее на [0; 1]) Функция т построена таким образом, что объекты, удаленные на большее расстояние от классифицируемого объекта, имеют меньший вес при классификации

4 Метод парзеновского окна переменной ширины w(i,x) = *f P(x' f) ] U x, x(k+1)) J По сравнению с предыдущим методом демонстрирует лучшие результаты в областях, где объекты сосредоточены неравномерно

5 Метод потенциальных функций , J p( x, x(i))Л w(i, x) = Y К V hi J где у — веса объектов Метод содержит настраиваемый параметр (вес в линейном классификаторе). Электростатическая аналогия — величина заряда в точке х.

О О ш

LL

О

_J <

Результаты и дискуссия

При обучении алгоритмов нами использовались следующие виды метрик:

l

: Р(x, у) = 4

= plxi - yjР + lx2 - у 2 Ip + ... + k

-yj , при p > 1

с: p( x, у ) = max{ xi- yi |; | x2- у 21;...; К- yn

Для метода ближайших соседей был осуществлен скользящий контроль (3) по параметру k е {1,2,...,20}. Результаты оптимизации для различных значений метрики представлены на рис. 1. Отметим, что в семействе метрик lp результаты оптимизации в рассматриваемом методе отp не зависели. Наименьшего значения функционал качества достигал при значениях к е {5,...,8} для каждой метрики l , при этом LOO = 1,61%. При выборе функции расстояния 1ш результаты классификации значительно проигрывали. Так, при оптимальных значениях k в предыдущем семействе метрик алгоритм ошибался в среднем уже от 24% до 29% раз.

Рис. 1. Результаты скользящего контроля для метода «ближайших соседей»

00 ■н о см

о с

О) £

В методе парзеновского окна оптимизируемым параметром выступает h — ширина окна. Для определения оптимальных значений указанного параметра скользящий контроль осуществлялся по всем h е{0,1;...;5} с шагом 0,1 для четырех различных метрик l1,l2,l5,lx в пространстве объектов. Из результатов моделирования (рис. 2) видно, что наилучший результат алгоритм демонстрирует при выборе евклидовой метрики, при этом ошибка достигает минимального уровня (LOO = 2%) для всех h е{1,5;...;1,9}.

Рис. 2. Результаты скользящего контроля для метода парзеновского окна

§ т

X

пз со

О <

Ф

15 о О

С

О

m

о §

з О ш си о

о о ш

Ll_

о <

JOURNAL OF ECONOMIC REGULATION (Вопросы регулирования экономики) ф Том 9, № 1. 2018

О

Метод потенциальных функций: гауссово ядро

50

40

о" 30

о 20

10

0

у

/

1 2 3 4 5

Величина распространения потенциала, h

■II

12

15

■linf

Метод потенциальных функций: треугольное

ядро

50 40 30

О

о 20 10 0

жюооооо 0000000000

t

1 2 3 4 5

Величина распространения потенциала, h

-II

12

15

-linf

Метод потенциальных функций: квадратичное ядро

50

40

30

о

о _1 20

10

0

ЛЛЛЛЛЛЛЛЛЛ

■ ■ - т-

/

/

/ J ■

—»♦♦♦♦<

1 2 3 4 5

Величина распространения потенциала, h

-II

12

15

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-linf

Метод потенциальных функций: прямоугольное ядро

50

40

о" 30

о 20

10

0

1 2 3 4 5

Величина распространения потенциала, h

-II

12

15

-linf

Рис. 3. Результаты скользящего контроля для метода потенциальных функций

Обучение алгоритма в методе потенциальных функций осуществлялось, с одной стороны, в зависимости от вида метрики р , с другой - от вида ядра K. При этом оптимизация проводилась по величине распространения потенциала h (рис. 3). Как показывает анализ, результаты предсказания фактически не зависят от вида ядра и демонстрируют как «хорошие», так и «плохие» ответы, в зависимости от вида метрики и величины распространения потенциала. Так, наименьшее значение ошибки удалось получить в метриках l2, l1 (порядка 2%). При этом для некоторых ядер наблюдались сразу два минимума, первый в районе h = 2, второй при h = 3. Как и в случае метода парзеновского окна, с ростом параметра результаты прогнозирования для l2 ухудшаются, а для l1 демонстрируют устойчивый невысокий результат LOO.

Выводы

Анализ данных широко применяется при прогнозировании риска банкротства организаций основываясь на информации из финансовых баз данных. Тем не менее в немногих работах сообщается о потенциале интеллектуального анализа данных, который позволяет исследовать качественные оценки экспертов по решению указанной проблемы. В данной работе был продемонстрирован подход к анализу на основе метрических методов машинного обучения, для которых обучающая выборка играет роль параметра алгоритма, а настройка сводится к запоминанию выборки и оптимизации ^ некоторых параметров весовой функции. В статье для разных видов таких функций о продемонстрирована прогнозная сила каждого алгоритма. Основной вывод, вытекающий ^ в случае их применения, — это способность обученных алгоритмов анализировать ¿ значительные объемы данных, предлагая высокую степень детализации и глубину -

интеллектуального анализа, что позволяет значительно улучшить аналитические возможности в областях управления рисками и риска банкротства. >

Mining business databases // Communication of the ACM, 39(11), 42-48.

Bredart, X. (2014). Bankruptcy Prediction Model Using Neural Networks // Accounting

о

СПИСОК ЛИТЕРАТУРЫ

Aivazyan, S. A., Bukhshtaber, V. M., Enyukov, I. S. and Meshalkin, L. D. (1989). Prikladnaya

statistika. Klassifikatsiya i snizhenie razmernosti. M.: Finansy i statistika, 607 p.

Altman, E. (1968). Financial ratios, discriminant analysis and the prediction of corporate m

bankruptcy // Journal of Finance, 23(3), 589-609. s

Altman, E. I., Marc, G. and Varet, F. (1994). Corporate distress diagnosis: comparisons ^

using linear discriminant analysis and neural networks // Journal of Banking and Finance, &

18, 505-529. I

с

Brachman, R. J., Khabaza, T., Kloesgen, W., Piatesky-Shpiro, G. and Simoudis, E. (1996). ^

15 о О Œ

and Finance Research, 3(2), 124-128. о

' 4 " m

Caouette, J. B. Altman, E. I. and Narayanan, P. (1998). Managing credit risk: The next "

great financial challenge. New York: Wiley & Sons Inc. о

Chesser, D. (1974). Predicting loan noncompliance // The Journal of Commercial Bank ^

Lending, 28-38. g

Fletcher, D. and Goss, E. (1993). Forecasting with neural networks: an application using ш

bankruptcy data // Information and Management, 24(3), 159-167. о

Jarrow, R. A. and Turnbull, S. (1995). Pricing derivatives on financial securities subject ^

to credit risk // Journal of Finance, 50, 53-85. ^

Martin, A., Miranda Lakshmi, T. and Prasanna Venkatesan, P. (2014). An Analysis on ш

Qualitative Bankruptcy Prediction Rules using Ant-Miner // I.J. Intelligent Systems and

Applications, 1, 36-44.

Messier, W. F. and Hansen, J. (1988). Inducing rules for expert system development: an

example using default and bankruptcy data // Management Science, 34(12), 1403-1415.

72

ApuHMMeB M. B., MaTBeeBa A. r., ApuHMMeBa M. B.

00 ■H

o

CM

<J>

Merton, R. C. (1974). On the pricing of corporate debt: the risk structure of interest rates // Journal of Finance, 29(2), 449-470.

Myoung-Jong Kim and Ingoo Han (2003). The discovery of experts' decision rules from qualitative bankruptcy data using genetic algorithms // Expert Systems with Applications, 25, 637-646.

Ohlson, J. (1980). Financial ratios and the probabilistic prediction of bankruptcy // Journal of Accounting Research, 18(1), 109-131.

Odom, M. and Sharda, R. (1990). A neural networks model for bankruptcy prediction // Proceedings of the IEEE International Conference on Neural Network, 163-168.

Tam, K. and Kiang, M. (1992). Managerial applications of neural networks: The case of bank failure prediction // Management Science, 38(7), 926-947.

Shaw, M. and Gentry, J. (1990). Inductive learning for risk classification // IEEE Expert, 47-53.

Shin, K. S. and Lee, Y. J. (2002). A genetic algorithm application in bankruptcy prediction modeling // Expert Systems with Applications, 23(3), 321-328.

Vorontsov, K. V. Matematicheskie metody obucheniya mashin po pretsendentam (teoriya obucheniya mashin) (http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf)

Zmijewski, M. E. (1984). Methodological issues related to the estimation of financial distress prediction models // Journal of Accounting Research, 22(1), 59-82.

REFERENCES

Aivazyan, S. A., Bukhshtaber, V. M., Enyukov, I. S. and Meshalkin, L. D. (1989). Prikladnaya statistika. Klassifikatsiya i snizhenie razmernosti. M.: Finansy i statistika, 607 p. ^ Altman, E. (1968). Financial ratios, discriminant analysis and the prediction of corporate

^ bankruptcy. Journal ofFinance, 23(3), 589-609.

Altman, E. I., Marco, G. and Varet, F. (1994). Corporate distress diagnosis: comparisons i using linear discriminant analysis and neural networks. Journal of Banking and Finance, 1 18, 505-529.

g Brachman, R. J., Khabaza, T., Kloesgen, W., Piatesky-Shpiro, G. and Simoudis, E. (1996).

m Miningbusiness databases. CommunicationoftheACM, 39(11), 42-48. S Bredart, X. (2014). Bankruptcy Prediction Model Using Neural Networks. Accounting

^ and Finance Research, 3(2), 124-128.

a. Caouette, J. B. Altman, E. I., and Narayanan, P. (1998). Managing credit risk: The next

< great financial challenge. New York: Wiley & Sons Inc.

Chesser, D. (1974). Predicting loan noncompliance. The Journal of Commercial Bank Lending, 28-38.

Fletcher, D. and Goss, E. (1993). Forecasting with neural networks: an application using

-Q

O O Œ

o bankruptcy data. Information and Management, 24(3), 159-167.

OQ

" Jarrow, R. A. and Turnbull, S. (1995). Pricing derivatives on financial securities subject

o to credit risk. Journal of Finance, 50, 53-85.

Martin, A., Miranda Lakshmi, T. and Prasanna Venkatesan, P. (2014). An Analysis g on Qualitative Bankruptcy Prediction Rules using Ant-Miner. I.J. Intelligent Systems and w Applications, 1, 36-44.

o Messier, W. F. and Hansen, J. (1988). Inducing rules for expert system development: an

^ example using default and bankruptcy data. Management Science, 34(12), 1403-1415. ^ Merton, R. C. (1974). On the pricing of corporate debt: the risk structure of interest rates.

^ Journal ofFinance, 29(2), 449-470.

Myoung-Jong Kim and Ingoo Han (2003). The discovery of experts' decision rules from qualitative bankruptcy data using genetic algorithms. Expert Systems with Applications, 25, 637-646.

Ohlson, J. (1980). Financial ratios and the probabilistic prediction of bankruptcy. Journal of Accounting Research, 18(1), 109-131.

Odom, M. and Sharda, R. (1990). A neural networks model for bankruptcy prediction. Proceedings of the IEEE International Conference on Neural Network, 163-168.

Tam, K. and Kiang, M. (1992). Managerial applications of neural networks: The case of bank failure prediction. Management Science, 38(7), 926-947.

Shaw, M. and Gentry, J. (1990). Inductive learning for risk classification. IEEE Expert, 47-53.

Shin, K. S. and Lee, Y. J. (2002). A genetic algorithm application in bankruptcy prediction modeling. Expert Systems with Applications, 23(3), 321-328.

Vorontsov, K. V. Matematicheskie metody obucheniya mashin po pretsendentam (teoriya obucheniya mashin) (http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf)

Zmijewski, M. E. (1984). Methodological issues related to the estimation of financial distress prediction models. Journal of Accounting Research, 22(1), 59-82.

oo

■H

о см

0 с

О)

1

§

X

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

tc rn

О <

CD

15 о О

С

О

m

о ш си о

о о ш

о <

i Надоели баннеры? Вы всегда можете отключить рекламу.