www.telecom.lth.se/panda/personnel/personal_pages/mikael.andersson/cv_english.pdf
7. Пуцко Н.Н. Разработка методов и средств оценки эффективности функционирования web-серверов. - Дис. ... канд. техн. наук. - М.: 2005, 121 с.
Ивлева Н.А., Иголкин С.Л.
К ЗАДАЧЕ ВЫБОРА ИНСТРУМЕНТОВ ДЛЯ РЕАЛИЗАЦИИ ПРОЦЕДУРЫ КЛАСТЕРИЗАЦИИ ФИЛИАЛОВ БАНКОВСКОЙ СЕТИ
Центрально-Черноземный банк Сбербанка РФ, г.Воронеж Воронежский государственный технический университет
Функционирование коммерческого банка связано с определенной номенклатурой банковских продуктов, которые банк предоставляет своим клиентам. Если банк обладает территориально распределенной сетью филиалов, то неизбежно возникает ситуация, когда спрос на какой-либо продукт от филиала к филиалу различается, что приводит к задаче распределения. Кроме того, сам филиал обладает рядом особенностей (например квалификацией персонала филиала и т.п.), которые положительно или отрицательно сказываются на реализации того или иного банковского продукта в данном филиале. И первая, и вторая группа параметров содержат как четкие, так и нечеткие параметры, что затрудняет ее решение с помощью традиционных методов.
Кроме того, ресурсы банка не безграничны, и на один какой-либо вид банковского продукта банк может выделить лишь ограниченную часть ресурсов, что дает дополнительное ограничение в данной задаче.
Наконец, стратегия банка в отношении данного конкретного продукта может быть различной (выход на новый рынок, удержание рынка и т.п.), что выразиться в различных целевых функциях задачи.
Как уже отмечалось выше, работа филиала описывается множеством параметров, далеко не все из которых имеют числовую природу. Впрочем такая ситуация является характерной не только для экономических систем, многие задачи из области медицины, социальной сферы и т.п. также описываются множеством разнородных параметров. Такая разнородность представления значительно затрудняет разработку алгоритмов принятия решения в автоматизированных системах. Особые трудности возникают при одновременном использовании количественной и качественной информации [1].
Все управленческие решения, принимаемые в ходе процесса распределения банковского ресурса, основываются на анализе данных, получаемых при исследовании банка и филиалов, а также внешних условий их функционирования. Всю полученную информацию, можно разделить на три группы:
- статистическая и справочная информация, получаемая из официальных источников, а также из внутренних документов банка.
- информация, полученная при тестировании знаний и квалификации персонала.
- информация, полученная с помощью статистических методов изучения рынка (изучение спроса, емкости, насыщенности рынка и т.п. с помо-
щью социологических опросов и других статистических методов).
Количественные, или числовые, показатели замеряются в определенной шкале или в шкале интервалов. Числовые параметры отражают самые различные характеристики филиала и имеют как различные единицы измерения так и различные диапазоны изменения значений, поэтому в ряде случаев может быть использовано приведение всех количественных данных к единой шкале. Как вариант может быть использована шкала [0,1], при этом новое значение вычисляется в соответствии с принципом принципу «предпочтительно иметь большее значение величины» по формуле [2]:
x — x
f(x) = f(xmin,x,xmax) =----^, (1)
x — x
max min
где f(x) - значение признака в новой шкале, x - исходное значение признака,
xmin - минимальное из возможных значений (нижняя граница), xmax - максимальное значение признака (верхняя граница).
Следует отметить, что подобные преобразования не влияют на результат идентификации, так как не меняют ни взаимного расположения классов, ни их форму. Однако результаты вычислений будут представляться в единой унифицированной шкале.
Качественные признаки могут быть представлены в виде ранговых (балльных) или классификационных показателей. Ранговые используются для выражения терминов и понятий предметной области, не имеющих цифровых значений (например: квалификация персонала, оснащенность техническими средствами и т.д.), и замеряются в шкале порядка. Классификационные (или номинальные) показатели замеряются в шкале наименований (например, тип связи филиала с корпоративной сетью банка).
Для того чтобы при распределении стало возможным использование математического аппарата, необходимо провести формализацию полученных данных, которая заключается в кодировании информации, когда каждому значению отдельного показателя ставится в соответствие определенное кодовое число. При кодировании семантическая сила и смысл данных должны обязательно сохраняется.
При кодировании количественной информации область изменения каждого показателя разбивается на несколько интервалов с учетом требуемой степени детализации описания. Ранговые показатели разделяются на градации в соответствии с изменением их выраженности, а классификационные кодируются произвольно. Таким путем осуществляется построение классификационно-квантифицированных шкал, то есть процедура идентификации и установления физических границ изучаемых показателей.
Задачу формализации идентификационной информации, получаемой на различных этапах, можно считать решенной, когда для описания каждого рассматриваемого показателя предусмотрена возможная область его значений, а само описание таково, что обусловливает его однозначную интерпретацию.
Как уже отмечалось выше, очень важную роль играет правильный выбор параметров, причем как их количество так и влияние на систему. Совокупность признаков должна в наибольшей степени отражать те свойства объектов, которые важны для их распознавания. Если выбранных параметров мало, то не удастся точно выявить закономерности и число ошибочно классифицированных объектов возрастет. Если же выбрать много параметров, то это значительно затруднит процесс обучения сети, т.к. известно [3] что с ростом числа параметров вычислительная сложность задачи обучения нейросети возрастает нелинейно. Включение же в список малосущественных параметров приведет к тому, что либо из него придется изъять более существенные (что приведет к уменьшению достоверности распознавания) либо к увеличению общего числа выбранных параметров (что увеличит вычислительную сложность задачи). Из этого следует, что, с практической точки зрения, требования минимума общей размерности задачи распознавания и максимума достоверности оказываются противоречивыми.
Любая предметная область, содержит достаточно большое количество параметров, однако далеко не все их них реально используются в вычислениях. Первоначальный набор признаков формируется до начала распознавания из числа доступных измерению характеристик объекта, отражающих его наиболее существенные для распознавания свойства. Далее из первоначального набора пытаются сформировать новый набор характеристик, состоящий из меньшего числа переменных. Традиционный способ формирования новых признаков в условиях априорного знания основан на максимизации критерия, характеризующего некоторое расстояние между классами в признаковом пространстве. Данный критерий исходит из того, что значение указанного расстояния пропорционально достоверности распознавания. Чем больше расстояние между классами в признаковом пространстве, тем больше различие между классами, тем легче его обнаружить и тем выше будет достоверность различения классов. Максимизация расстояния между классами повышает разделяющую силу признаков.
На точность диагностики также влияет внутригрупповой разброс признаков - внутригрупповая дисперсия, которая характеризует «растекание» плотности объектов на единицу интервала. Признаки с большими дисперсиями увеличивают неоднозначность диагностики.
Выбор классификационных признаков может осуществляться путем анализа их уровня информативности, то есть качества разделения классов по данному признаку. Ввиду вышеописанных ограничений рекомендуется использовать не более 20-30 признаков, т.о. из первоначального набора выбираются наиболее значимые. Принимая во внимание особенности предметной области этот выбор доверяется экспертам, которые на основании личного опыта и знаний определяют какие из признаков являются наиболее значимыми в каждом конкретном случае.
Все классификационные признаки, используемые при автоматизированном решении задачи распределения ограниченного банковского продукта
по филиальной сети банка, должны измеряться либо по интервальной шкале, либо по шкале отношений, то есть иметь количественное выражение. Для этого качественные признаки с помощью методов аппарата нечеткой логики преобразуются в функции принадлежности данных количественных признаков.
Перспективность филиала с точки зрения предоставления того или иного банковского продукта зависит от множества разнообразных параметров, представленных как в четком, так и в нечетком виде. Все множество филиалов необходимо разбить на заранее определенное количество классов, в пределах которых филиалы будут схожи с точки зрения перспективности предоставления банковского продукта. Это позволяет рассматривать данную часть задачи распределения банковского продукта как задачу многомерной классификации. Ввиду нечеткого характера параметров, а также того что функциональные зависимости между параметрами и перспективностью неизвестны и неизвестны их статистические характеристики ни дискриминантный ни кластерный анализ для решения данной задачи применены быть не могут.
Для решения этой задачи применялся нейросетевой подход, однако использование традиционных моделей нейронных сетей и способов кодирования нечетких входных данных не дали желаемого результата и было принято решение разработать модель нейросетевой многомерной классификации, более адекватную характеру нечетких входных данных, и реализовать полученную модель в виде специального программного обеспечения.
При решении задачи распределения ограниченного банковского продукта по филиальной сети банка исходя из условий функционирования банка, доступности данных и т.п. могут быть выбраны самые различные параметры. Универсального подхода применимого для всех банков быть не может (хотя, какие-то параметры будут присутствовать для всех банков), поэтому приведенный в [4] перечень выбранных параметров следует рассматривать лишь как пример, в иной ситуации по решению экспертов может быть выбран другой список параметров, характеризующих эффективность работы филиала с данным видом банковского продукта.
Исходя из этого списка параметров (плюс общий объем выделяемых для распределения ресурсов и ограничения, если они имеются, на выделение ресурсов для каждого филиала в отдельности), используя предложенный механизм необходимо решить задачу распределения ограниченного банковского продукта по филиальной сети. Вариантов нахождения решения может быть несколько.
Во-первых можно, пользуясь предложенным механизмом, разбить все множество филиалов на ограниченное число классов (например «хорошие» «средние» и «плохие») и решать задачу на распределение ресурсов между классами т.е. в пределах класса объем выделяемых ресурсов будет одинаков.
Во-вторых можно использовать нейронную сеть для получения некоего интегрального показателя, осуществляющего свертку множества параметров
в один, выраженный в числовой форме, а затем осуществлять распределение ресурсов исходя из этого показателя. Таким образом количество выделенных ресурсов для каждого филиала будет индивидуальным.
В данном случае был использован первый подход - было выбрано пять классов:
1. Высокоперспективные - те филиалы, для которых необходимо обязательно выделить ресурсы под предоставление данного вида банковского продукта в полном объеме.
2. Перспективные 1-й степени - филиалы для которых в первую очередь (после высокоперспективных конечно) необходимо выделить ресурсы (при их наличии), желательно в полном объеме.
3. Перспективные 2-й степени - филиалы для которых желательно выделить ресурсы.
4. Низкоперспективные - филиалы, для которых можно выделить ресурсы при полном удовлетворении потребностей предыдущих трех групп, или при каких-либо особых обстоятельствах (например необходимости максимального охвата регионального рынка).
5. Бесперспективные - филиалы, которым не следует выделять ресурсы на предоставление данного вида банковского продукта даже при их наличии.
Определение значений функции принадлежности для каждого нечеткого терма производилось экспертом банка, ответственным за распределение банковского продукта по филиальной сети, используя описанный во второй главе модифицированный метод парных сравнений Саати. Затем эти значения были скорректированы используя алгоритм подстройки функций принадлежности описанный во второй главе, при этом были выбраны следующие величины констант: а = 0.0005, о = 0.03, п = 0.01. Результаты представлены в таблице 1.
Обучающая и контрольная выборка были сформированы используя имевшуюся информацию о филиалах банка. Мощность полученной обучающей выборки составила 30, мощность контрольной выборки - 30.
Используя приведенные выше данные была проведена процедура обучения нейросети со смешанным типом входных переменных и нейростеи МСП-типа. При обучении первой сети согласно приведенному во второй главе алгоритму было определено что обучение с применением алгоритма подстройки функций принадлежности дало большую меньшую ошибку сети и значения функций принадлежности были изменены согласно этому алгоритму. Измененные значения функций принадлежности приведены в последнем столбце таблицы 1.
Для нейросети со смешанным типом входных переменных и нейростеи МСП-типа были получены следующие значения ошибок классификации (см. таблицу 2).
Как видно из таблицы нейросеть со смешанным типом входных переменных допускала меньше ошибок при классификации, что говорит о досто-
верности полученных результатов и перспективности применения предложенной модели нейронной сети для решения задач классификации многомерных объектов. Внедрение специального программного обеспечения в практическую деятельность филиала позволило решить задачу автоматизации процесса распределения банковского продукта по филиальной сети, снизив на 5-10% потери, связанные с неэффективным распределением ресурсов.
Таблица 1
Значения функции принадлежности входных термов_____________
Параметр Значения Значение функции принадлежности, определенное экспертами Значение функции принадлежности, подстроенное БПС
Общая квалификация персонала Очень высокая 1 1
Высокая 0.875 0.8915
Средняя 0.5 0.5225
Базовая 0.125 0.1605
Специальная квалификация персонала Очень высокая 1 1
Высокая 0.888 0.9015
Базовая 0.78 0.7585
Низкая 0.555 0.5225
Отсутствует 0.11 0.1005
Обеспеченность СВТ Полная 1 1
Высокая 0.625 0.6615
Базовая 0.125 0.1685
Связь с корпоративной сетью банка Высокоскоростное 1 1
Dial-Up 0.665 0.6495
Offline-связь через курьера 0.125 0.0985
Связь с сетью Мегий Высокоскоростное 1 1
Dial-Up 0.75 0.7135
Отсутствует 0.1 0.1075
Телефония Полная 1 1
Высокая 0.875 0.8425
Базовая 0.5 0.5265
Низкая 0.125 0.1095
Обеспеченность СПО Полная 1 1
Высокая 0.821 0.7965
Базовая 0.678 0.6995
Низкая 0.356 0.3385
Отсутствует 0.11 0.1025
Доверие банкам Очень высокое 1 1
Высокое 0.8 0.8175
Среднее 0.625 0.5935
Низкое 0.425 0.4115
Очень низкое 0.178 0.1455
Таблица 2
Доля неверно классифицированных объектов при использовании различных методов в задаче распределения ограниченного банковского продукта
Метод Неверно классифицированные Ошибка классификации
Класс Общее Класс Общее
1 2 3 4 5 1 2 3 4 5
МСП-сеть 0 1 2 3 1 7 0 0,003 0,006 0,009 0,003 0,0042
Сеть с БПС 0 1 0 2 0 3 0 0,003 0 0,006 0 0,0018
Скорости обучения сетей представлены на рис. 1. Исследования проводились на платформе 1и1е1, процессор Се1егои 2,6 Ггц, 256 Мб оперативной памяти. Хотя скорости обучения обоих сетей приблизительно равны, следует учесть что на обучение сети со смешанным типом входных переменных в целом тратится больше времени т.к. перед непосредственно обучением сети необходимо с помощью экспертов определить значения функций принадлежности для каждого терма, каждой нечеткой переменной.
Врем я, с
Рисунок 1. Скорость обучения нейросети со смешанным типом входных переменных и МСП-сети
Горизонтальный участок и ступенька на графике обучения сети со смешанными входами отражает процесс подстройки функций принадлежности. Сначала идет горизонтальный участок - это время, ушедшее на подстройку функций принадлежности (в это время веса нейронов сети не менялись и ошибка оставалась на прежнем уровне), а ступенька - выигрыш в адаптированности сети полученный за счет уточнения функций принадлежности. Также на графике видно, что из-за недостатков структуры (нечеткие входы не могли быть учтены) МСП сеть не смогла в достаточной степени подстроиться и ошибка сети осталась на достаточно высоком уровне.
Список использованных источников
1. Икрамова Х.З. Алгоритмы распознавания и диагностика. - Ташкент: "Фан", 1982, 220 с.
2. Леденева Т. М. Моделирование процесса агрегирования информации в целенаправленных системах. Воронеж: Изд-во ВГТУ, 1999. 155 с. (Моделирование, оптимизация и компьютеризация в сложных системах; Кн. 8)
3. Осовский С. Нейронные сети для обработки информации (Пер. с пол. И. Д. Ру-динского). — М.: Финансы и статистика, 2002. — 343 с.
4. Ивлева Н.А., Иголкин С.Л. Проблемы и особенности разработки экспертной технологии анализа и прогнозирования регионального рынка банковских продуктов// Управление в социальных и экономических системах: Межвуз. сб. науч. тр. - Воронеж: ВГТУ, 2006. - С. 131-137.
Кравец О.Я., Ивлева Н.А.
ПРОГРАММНЫЕ КОМПОНЕНТЫ ПОДСИСТЕМЫ
АВТОМАТИЗАЦИИ РАСПРЕДЕЛЕНИЯ ОГРАНИЧЕННОГО БАНКОВСКОГО ПРОДУКТА
Воронежский государственный технический университет Центрально-Черноземный банк Сбербанка РФ, г.Воронеж
Разработанная программа предназначена для автоматизации процесса распределения ограниченного банковского продукта по филиальной сети банка. Работа системы предполагается в форме периодического вычисления распределения банковского продукта по филиальной сети, с тем чтобы основываясь на этом распределении ответственные специалисты принимали окончательное решение о выделении того или иного объема ресурсов под данный вид банковского продукта для каждого филиала. К программе предъявляются следующие основные требования:
- система должна обеспечивать решение задачи распределения ограниченного банковского продукта по филиальной сети банка, то есть результатом работы системы становится количество ресурсов, которые необходимо выделить для каждого филиала банка под определенный вид продукта;
- создание удобного интерфейса пользователя, обеспечивающего пользователя с системой и предусматривающего систему меню и подсказок на каждом этапе распределения;
- накопление информации, полученной от пользователя
- ведение баз данных и знаний в предметной области и работа с ними
- конечные результаты должны быть представлены в виде, допускающем их однозначную интерпретацию;
В соответствии с предъявляемыми требованиями в ходе разработки программы преследовалась цель: обеспечение удобства работы с программой пользователя, обладающего малым объемом знаний и навыков в использовании компьютерной техники, а также достижение высокого быстродействия и эффективности программы.
Минимальная конфигурация ЭВМ, необходимая для программы: