Труды Карельского научного центра РАН № 5. 2012. С. 38-43
УДК 519.8
МНОГОКРИТЕРИАЛЬНАЯ КЛАССИФИКАЦИЯ В УСЛОВИЯХ ДЕФИЦИТА ЧИСЛОВОЙ ИНФОРМАЦИИ
В. В. Корников, Н. В. Хованов, М. С. Юдаева
Санкт-Петербургский государственный университет
Для многокритериальной классификации объектов по нечисловой информации, получаемой из источников, обладающих различной надежностью, разработана специальная модификация известного метода рандомизации сводных показателей (МРСП). Возможности разработанной модификации МРСП продемонстрированы на примере классификации договоров страхования жизни по степени их рискованности.
Ключевые слова: метод рандомизации сводных показателей (МРСП), нечисловая информация, байесовская рандомизация неопределенности.
V. V. Kornikov, N. V. Hovanov, M. S. Yudaeva. MULTIPLE CRITERIA CLASSIFICATION UNDER DEFICIENCY OF NUMERIC INFORMATION
A special case modification of well known Aggregate Indices Randomization Method (AIRM) was developed for multi-criteria classification of objects according to non-numeric information obtained from sources of varying reliability. The capabilities of the resultant AIRM modification are demonstrated through the example of life insurance contracts classification by their riskiness.
Key words: Aggregate Indices Randomization Method (AIRM), nonnumeric information, Bayesian randomization of uncertainty.
Введение
В настоящее время существует хорошо развитая система методов распознавания (классификации, диагностики), позволяющих сравнительно успешно классифицировать объекты, описываемые наборами точно определяемых числовых характеристик [1]. Однако в ряде случаев (например, при отнесении экономической ситуации в стране к классу кризисных состояний, при классификации ситуаций в регионах по шкале террористических угроз и т. д.) имеет место дефицит статистической числовой информации. Поэтому исследовате-
лю приходится привлекать экспертов к оценке вероятностей принадлежности исследуемого объекта к альтернативным классам.
Эксперты же обычно не могут дать точных числовых оценок этих вероятностей и ограничиваются только совокупностью сравнительных суждений о превосходстве (равенстве) вероятностей принадлежности объекта к разным классам. Более того, обычно исследователю приходится учитывать информацию, приходящую из многих источников (от многих экспертов), имеющих разную значимость (надежность, информативность, достоверность и т. п.). При этом оценка
0
относительной значимости источников при помощи числовых весовых коэффициентов (“весов”) также затруднена, и приходится довольствоваться лишь сравнительными суждениями о величине весовых коэффициентов, аналогичных сравнительным суждениям о вероятностях.
Многочисленные психологические эксперименты и практические наблюдения последних десятилетий показали, что такая нечисловая (точнее порядковая, ординальная) форма представления знаний о вероятностях и/или весовых коэффициентах вполне естественна для экспертов. Более того, оказалось, что попытки принудить экспертов к представлению своих знаний о вероятностях в точной числовой форме ведет к смещенным оценкам и к неверным суждениям [12].
Другая форма представления экспертных оценок вероятностей предполагает наличие информации лишь об интервалах их возможных значений [8]. Такая интервальная неточная информация может быть объединена с упомянутой ординальной (нечисловой) информацией. Но даже эта объединенная информация может оказаться недостаточно полной для однозначного определения числовых значений всех вероятностей. Поэтому далее предполагается, что каждый эксперт обладает нечисловой (ординальной), неточной (интервальной) и неполной экспертной информацией (ННН-информацией) об оцениваемых вероятностях, а исследователь, выступающий в роли супер-эксперта, имеет ННН-инфомацию о весовых коэффициентах, определяющих значимость соответствующих экспертных мнений.
В первом разделе статьи кратко излагается метод построения оценок вероятностей альтернатив по ННН-информации, основанный на байесовской модели рандомизации неопределенности выбора вектора вероятностей из множества всех допустимых вероятностных векторов. Во втором разделе описывается синтез сводных оценок вероятностей альтернатив; при этом используются рандомизированные весовые коэффициенты, моделирующие неопределенность выбора вектора весовых коэффициентов по ННН-информации исследователя о сравнительной значимости для него мнений экспертов. Третий раздел содержит иллюстративный пример оценки специалистом страховой компании степени рискованности заключения с клиентом договора страхования жизни по нескольким источникам нечисловой информации.
Оценка вероятностей альтернатив при дефиците числовой информации
Пусть необходимо оценить вероятность Рг принадлежности изучаемого объекта к классу Аг из фиксированной совокупности г альтернативных классов по информации I. Относительно информации I, получаемой из некоторого источника (от некоторого эксперта), предполагается, что она может быть двух типов — ординальная (нечисловая) информация 01, выражаемая сравнительными суждениями типа “вероятность альтернативы Аг больше, чем вероятность альтернативы Аз” и “вероятности альтернатив Аг, Аз равны”, и интервальная (неточная) информация II, состоящая в указании диапазонов [аг, Ьг], 0 ^ аг ^ Ьг, г = 1,..., г, возможного варьирования вероятностей Р1,...,РГ. Иными словами, нечисловая и неточная объединенная информация I = 01[]11 задается системой I = {Рг > Р1 ,Ри = Р'О; а& ^ Рз ^ Ьз; г,1,п,у, е {1,..., г}} равенств и неравенств для вероятностей р\,... ,рг альтернатив А',..., Аг. Поскольку возможно, что даже объединенная информация I = О! и II не позволяет однозначно определить числовые значения вероятностей Р1, ... ,рг, постольку можно говорить, что информация I неполна. Таким образом, можно считать, что у эксперта имеется нечисловая, неточная и неполная информация (ННН-информация) I о вероятностях р1,... ,рг альтернатив А\,..., Аг.
Учет ННН-информации I позволяет сформировать множество Р(г; I) всех допустимых (с точки зрения информации I) векторов вероятностей, представляющее собой (г — 1)-мерный полиэдр Р(г; I). Таким образом, ННН-информация I определяет вектор вероятностей Р = (р\,...,рг) “с точностью до множества Р(г; I)”. Иными словами, имеет место так называемая теоретикомножественная неопределенность задания вероятностей альтернатив [5]. При построении стохастической модели такой неопределенности мы будем следовать идее Т. Бей-еса, изложенной в его известной работе [7] и состоящей в предложении моделировать неопределенный выбор математического объекта х из множества таких объектов X случайным (рандомизированным) выбором этого объекта. В нашем случае, моделируя неопределенность выбора вектора вероятностей р = (р1,... ,рг) из множества Р(г; I) при помощи рандомизации этого выбора, получаем случайный вектор р(I) = (р'^),... ,рг(I)),
■©
pi(I) ^ 0, pi(1) + ... + pr(I) = 1, распределенный на полиэдре P(r; I).
Компонента pi (I) случайного вектора p (I) есть рандомизированная (стохастическая, случайная ) оценка вероятности альтернативы A, учитывающая ННН-информацию I. Математические ожидания pi(Ij) = Epi(1j) служат искомыми усредненными оценками вероятностей pi, i = 1,..., r. Стандартные же отклонения £i(I) = л/Dpi(I) определяют разброс стохастических оценок pi(I) вокруг соответствующих усредненных значений pi(I). Можно сказать, что вектор p(I) = (pT1(I),... ,pn(I)) усредненных оценок вероятностей есть числовой образ нечисловой, неточной и неполной информации I.
Для построения простого алгоритма вычисления статистических характеристик случайного вектора p(I) = (p1(I),...,pr(I)) на ЭВМ положим, что вероятности pi,...,pr отсчитываются с конечным шагом h = 1/n, т. е. принимают дискретные значения из множества {0,1/n,..., (n — 1)/n, 1}. Тогда множество P(r, n; I) = {p(t) : t = 1,..., N(r, n;I)} всех допустимых (с точки зрения ННН -информации I) векторов вероятностей конечно и простейшее равномерное распределение вектора вероятностей p (I) на этом множестве может быть задано случайным номером t , рав-
номерно распределенным на множестве значений {1, ...,Ж (г, п; I) : Р ({р (I) = р(4)}) = Р({' = £ = 1/Ж(г,п; I)})}.
Решение же проблемы генерации всех возможных векторов р(4) = (р^,..., рГ*) из множества Р (г, п) можно свести к задаче генерации всех возможных композиций й(4) =
(й( , . . . , й£4)), й1^ € {0,1,.. . ,п — 1,п}, й^ +
... + й£4) = п, £ = 1,..., N(з, к), N(т, п) = (п + т — 1)!/п!(т — 1)! Действительно,
вектору вероятностей р(4) = (р ^,..., рГ^) можно взаимно однозначно сопоставить композицию й(4) = (й(4),..., й£4)) с компонентами й14) = пр(4), г = 1,..., г. Композиции й(4) = (й^,...^), £ = 1,...,Ж (г,п),
удобно генерировать в лексикографическом порядке — от первой композиции й(1) = (0,..., 0, к) до последней й(м= (к, 0,..., 0). Для перехода от предшествующей (в лексикографическом порядке) композиции й(4) = (й(4),..., й£4)) к последующей
композиции й(*+1) = (й(*+1),..., йГ*+1)) можно предложить следующий простой алгоритм [4].
Для г = 1,..., т — 1 компонента й(*+1) композиции й(*+1) вычисляется по формуле
if
1 + t) if
0, if
s(t)
Ji+1
Ji+1
г№
< n — А
(t)
i
,(t)
n — A(t) and £„(t) < n — А
-4+1
где А(*) = й(4) +... + й1^. Последняя компонента йтт+1) композиции й(*+1) определяется формулой йш =1—й1*+1)+...+йтт+1).
Искомые математические ожидания, стандартные отклонения и другие статистические характеристики рандомизированных вероятностей могут быть вычислены на ЭВМ путем суммирования соответствующих функций
от векторов вероятностей р(4) = (р1*), . . . ,рГ4)), компоненты которых удовлетворяют системе равенств и неравенств, определяющих ННН -информацию I.
Построение сводных оценок вероятностей альтернатив
Пусть ННН-ниформация, доступная исследователю, задана кортежем I = (11 ,...,/т), компонента I/ которого есть определенная система равенств и неравенств для вероят-
if &,(7i = n — A(t) and £„(t) = n — A
(t)
.(*) i—1,
,(t)
i1,
(1)
ностей р1,...,рг , определяющая множество р(г; I) всех допустимых (с точки зрения ННН -информации I/) векторов р = (р1,...,рг) вероятностей альтернатив А1,...,АГ. Рандомизируя, как это было описано в предыдущем разделе, неопределенный выбор вектора р = (р1,... ,рг) из множества Р(г; I/), мы получаем случайный вектор вероятностей
р(^) = (р'!^/^ . . . ,рг^ ) ^ 0, рЮО) +
... + рг (I/) = 1. Каждая компонента р (I/) вектора р (I/) может рассматриваться как стохастическая оценка неизвестной вероятности рг, построенная по ННН-информации I/, полученной от соответствующего эксперта.
Дополнительно предполагается, что исследователь обладает ННН-информацией 3 = {ш > ш*, -Ши = ш ...; Л ^ од ^ В...} о сравнительной значимости отдельных источников, измеряемой весовыми коэффициентами ш1,..., шт, ш/ ^ 0, ш1 + ... + шт = 1. Таким образом, вся ННН-информация, доступная исследователю, может быть представлена
в виде кортежа (1,3) = (!1,...,!т,3), последняя компонента которого есть система равенств и неравенств для весовых коэффициентов ш1,..., шш.
Введенная информация 3 определяет множество ^ (т; 3) всех допустимых (с точки зрения ННН-информации 3) векторов ш = (ш1,...,шт) весовых коэффициентов. Рандомизируя неопределенный выбор вектора ш = (ш1,...,шт) из множества ^ (т; 3), мы получаем случайный вектор весовых коэффициентов ш(3) = (ш1(3),..., шШ(3), Ш/(3) ^ 0, ш 1(^) + ... + шШ(3) = 1. Каждая компонента Ш/(3) вектора ш (3) может рассматриваться как стохастическая оценка неизвестного весового коэффициента ш/, построенная по ННН-информации 3. Математические ожидания ш/(3) = Еш/(3) служат искомыми усредненными оценками “весов” ш/, j = 1,..., т. Стандартные же отклонения е/(3) = л/(3) определяют разброс стохастических оценок ш/(3) вокруг соответствующих усредненных значений ш/ (3). Можно сказать, что вектор усредненных оценок весовых коэффициентов есть числовой образ нечисловой, неточной и неполной информации 3.
Рассмотрим матрицу (рг(Д)), г = 1,..., г, j = 1,..., т рандомизированных оценок вероятностей альтернатив. Строки этой матрицы являются, как уже было сказано, случайными векторами р (I/), компоненты которых суть рандомизированные оценки вероятностей альтернатив, отвечающие ННН-информации I/, полученной из соответствующего источника. Транспонированный столбец матрицы (рг (I/)) представляет собой случайный вектор р (г) = (р1(Д,... ,рг(!т), компоненты которого суть различные рандомизированные оценки рг(Д), j = 1,..., т, вероятности р* альтернативы Л*. Иными словами, вектор р(г) есть рандомизированная многокритериальная оценка вероятности р* альтернативы Лг.
Теперь можно ввести дважды рандомизированную сводную оценку
ш
р*^; 3) = ^ ргШш/ (3) (2)
/=1
вероятности альтернативы Л*, построенную путем линейного взвешенного рандомизированного агрегирования рандомизированных оценок р*(Д) со случайными весовыми коэффициентами ш/(3), j = 1,...,т. Отметим, что построенная дважды рандомизированная оценка р* (I; 3) вероятности р* альтернативы Л* учитывает всю ННН-информацию (I; 3) = (Д,..., Iш; 3), доступную исследователю.
Математическое ожидание и дисперсию дважды рандомизированной вероятности р*^; 3) можно подсчитать по формулам:
ш
р*^; 3) = Ер*^; 3) = ^p>г(Ij)ш/(3), (3)
/=1
ш
£г2(Д3) = ^^(Д 3)= £ р*(Д)/(3)
/,1=1,/=1
(4)
ш
+ ^ [Йг2(Ij)е2(3) + )г"2(3) + )&2(3)] ,
/=1
где / = со^(ш.,-(3),Wi(J)) есть ковариация / = ео^(ш/(3),ш*(3)) рандомизированных весовых коэффициентов ш/(3), ш*(3), j = I.
Итак, полученные усредненные оценки р*^, 3) вероятностей альтернатив и соответствующие стандартные отклонения ^(Д 3) =
л/^2^; 3) = ^/^р*^; 3), г = 1,..., г, решают задачу оценки вероятностей р1,... ,рг принадлежности исследуемого объекта альтернативным классам Л.1,..., Лг с учетом всей ННН -информации (I, 3) = (Д,..., ^, 3), имеющейся у исследователя относительно вероятностей и весовых коэффициентов.
Классификация страховых договоров по степени риска
Рассмотрим следующий иллюстративный пример классификации специалистом страховой компании договора страхования жизни, когда следует определить вероятности р1,...,р5 принадлежности потенциального клиента к пяти альтернативным градациям степени риска: Л — “существенно пониженный уровень риска”, Л — “несколько пониженный уровень риска”, А3 — “обычный уровень риска”, А4 - “несколько повышенный уровень риска”, А5 — “существенно повышенный уровень риска”. Предположим, что ННН-информацию о вероятностях р1 , . . . , р5 альтернатив степени риска А1,..., А5 специалист черпает из трех источников: 1) сведения о наличии у потенциального клиента заболеваний, сокращающих продолжительность жизни; 2) сведения о наличии у потенциального клиента вредных привычек; 3) сведения о рискованности профессии потенциального клиента [6]. Пусть ННН-информация, полученная из этих трех источников, описывается, соответственно,
тремя системами равенств и неравенств для вероятностей: Д = р1 > р5 = р4 > р2 = р3, Д = р1 >р3 = р4; рз >р2, Iз =
р1 > р5 > р2 = рз = р4; р1 ^ 0, 50.
Оценки рг(Д), г = 1,..., 5, ' = 1, 2, 3, приведенные в трех первых столбцах табл.1, вычислены по ННН-информации I = (Д,І2,Iз) с использованием программы ЛШМ, расположенной на сайте polydecision.com и представляющей собой модификацию зарегистрированной программы ASPID-3W [2].
Таблица 1. Оценки р*(Д), р*(Д 3) вероятностей р*, г = 1,..., 5, ' = 1, 2, 3
г' 1 2 3 (Л3)
1 0,52 0,40 0,67 0,50
2 0,06 0,05 0,04 0,06
3 0,06 0,15 0,04 0,08
4 0,18 0,15 0,04 0,16
5 0,18 0,25 0,21 0,20
Пусть мнение специалиста страховой компании о сравнительной значимости указанных трех источников ННН-информации о вероятностях альтернатив Л.1,..., Л описывается ННН-информацией, представленной в виде системы равенств и неравенств 3 = {ш1 > ш2 > ш3; ш1 ^ 0,50} для весовых коэффициентов ш/, ' = 1,2,3 (ш/ ^ 0, ш1 + ш2 + ш3 = 1). С помощью программы ЛШМ получаем числовые оценки гу1(3) = 0, 67, ш2(3) = 0,25, ш3(3) = 0,08 весовых коэффициен-
тов, соответствующие ННН-информации 3. Подставляя полученные оценки рг(Д), ш/(3) в формулу (3), получаем искомую оценку р^Д 3) вероятности р* того, что потенциальный клиент относится к степени риска, соответствующей альтернативе Л*, г = 1,..., 5 (см. последний столбец табл.1). Полученные усредненные оценки р*(Д 3) учитывают, как ИНН-информацию I = (Д^^Д) о вероятностях, так и ННН-информацию 3 о сравнительной значимости используемых источников информации. Используя формулу (4), можно найти стандартные отклонения ^(Д 3) =
^^р^Д 3)), характеризующие точность оценок рг(Д 3).
В разобранном примере речь шла об оцениваемых экспертами “вероятностях” попадания классифицируемого объекта в соответствующую категорию. Разумеется, возможны и совершенно другие интерпретации получаемых оценок, которые можно, например, трактовать как оценки функций принадлежности нечетких множеств [9], как результат взвешенно-
го голосования экспертов и/или синтеза сводной оценки принадлежности к фиксированному классу [3, 13] и т. д.
Выводы
Описанный метод оценки вероятностей попадания классифицируемого объекта в альтернативные категории на основе нечисловой экспертной информации, получаемой из источников различной значимости, позволяет выявить представления экспертов о значениях вероятностей соответствующих альтернативных событий и об оценках весовых коэффициентов. Получающиеся оценки вероятностей и весовых коэффициентов представляют собой, так сказать, “числовой образ нечисловой информации ”, который заведомо соответствует эмпирически выявляемой нечисловой, неточной и неполной экспертной информации (ННН-информации). Другое дело, что сама эта ННН-информация может быть “ложной” (искажать “истинные” равенства и неравенства, имеющие место между вероятностями и/или весовыми коэффициентами). Но это не есть какой-то специфический недостаток рассматриваемого метода - результаты практического применения любого математического метода обработки эмпирических данных зависят, увы, от качества обрабатываемой исходной информации. Гибкость рассматриваемого метода, позволяющего зачастую получать достаточно точные числовые оценки даже по очень “бедной” нечисловой информации, делают его применимым при решении задач теории распознавания образов в разных прикладных областях [3, 5], [9-11].
Литература
1. Журавлев Ю. И., Рязанов В. В., Сень-ко О. В. Распознавание. М.: ФАЗИС, 2005. 176 с.
2. Хованов К. Н., Хованов Н. В. Система поддержки принятия решений АСПИД-3’^ Свидетельство об официальной регистрации программы для ЭВМ № 960087 от 22.o3.1996. Российское агентство по правовой охране программ для ЭВМ, баз данных и топологии интегральных микросхем. М.: РосАПО, 1996.
3. Хованов Н. В. Синтез сводной оценки при решении задачи распознавания в условиях дефицита информации // Тез. докл. 4-й Всесоюз. конф. «Математические методы распознавания образов». Ч. 2. Секция 1. Рига: РИО МИПКРР, 1989. С. 162-164.
4. Хованов Н. В. Анализ и синтез показателей при информационном дефиците. СПб.: СПбГУ,
1996. 196 с.
5. Хованов Н. В. Математические модели риска и неопределенности. СПб.: СПбГУ, 1998. 204 с.
6. Чернова Г. В., Кудрявцев А. А., Хованов Н. В. Андеррайтинг личного страхования. СПб.: Институт страхования, 1997. 168 с.
7. Bayes T. An essay towards solving a problem in the doctrine of chances // Biometrika. 1958. Vol. 45. P. 296-315.
8. Engemann K. J, Yager R. R. A general approach to decision making with interval probabilities // International Journal of General Systems. 2001. Vol. 30. P. 623-647.
9. Hovanov N., Kornikov V., Seregin I. Randomized synthesis of fuzzy sets as a technique for multicriteria decision making under uncertainty // Proc. Int. Conf. “Fuzzy Logic and
Applications”. Zichron Yaakov (Israel): IEEE,
1997. P. 281-288.
10. Hovanov N., Yudaeva M., Hovanov K. Multicriteria estimation of probabilities on basis of expert non-numeric, non-exact and non-complete knowledge // European Journal of Operational Research. 2009. Vol. 195, Issue 3. P. 857-863.
11. Hovanov N. V., Yudaeva M. S., Kotov N. V. Event-Tree with randomized transition probabilities as a new tool for alternatives probabilities estimation under uncertainty // Proc. 6-th Int. Sci. School “Modeling and Analysis of Safety and Risk in Complex Systems”. SPb.: RAS, 2006. P. 118-125.
12. Moshkovich H., Mechitov A., Olson D. Ordinal judgments for comparison of multiattribute alternatives // European Journal of Operational Research. 2002. Vol. 137. P. 625-641.
13. Ryazanov V. V., Senko O. V., Zhuravlev Yu. I. Methods of recognition and prediction based on voting procedures // Pattern Recognition and Image Analysis. 1999. Vol. 9, N 4. P. 713-718.
СВЕДЕНИЯ ОБ АВТОРАХ:
Корников Владимир Васильевич к. ф.-м. н., доцент
Санкт-Петербургский государственный университет Университетская наб., 7/9, Санкт-Петербург, Россия, 199034
эл. почта: [email protected] тел.: (8142) 763370
Хованов Николай Васильевич д. ф.-м. н., профессор
Санкт-Петербургский государственный университет Университетская наб., 7/9, Санкт-Петербург, Россия, 199034
эл. почта: [email protected] тел.: (812)3227630
Юдаева Мария Сергеевна
ассистент
Санкт-Петербургский государственный университет Университетская наб., 7/9, Санкт-Петербург, Россия, 199034
эл. почта: [email protected] тел.: (812) 2727534
Kornikov, Vladimir
St. Petersburg State University
Universitetskaja nab., 7/9, St. Petersburg, Russia, 199034 e-mail: [email protected] tel.: (812) 4271207
Hovanov, Nikolai
St. Petersburg State University
Universitetskaja nab., 7/9, St. Petersburg, Russia,199034 e-mail: [email protected] tel.: (812)3227630
Yudaeva, Mariya
St. Petersburg State University
Universitetskaja nab., 7/9, St. Petersburg, Russia, 199034 e-mail: [email protected] tel.: (812) 2727534