УДК 519.24
СВОЙСТВА КОМБИНИРОВАННОЙ ОЦЕНКИ В ЗАДАЧЕ КЛАССИФИКАЦИИ НАБЛЮДЕНИЙ
С.В. Скрипин
Томский государственный университет Томский научный центр СО РАН E-mail: [email protected]
Представлены свойства комбинированной непараметрической оценки классификации, использующей оценки параметрической и непараметрической моделей дискриминации. Комбинированная оценка использует дополнительно оценки некоторых функционалов плотности. Статистическим моделированием показано, что комбинированные оценки для выборок конечного объема предпочтительнее, чем каждая из оценок построенных моделей дискриминации.
Ключевые слова:
Непараметрическая классификация, комбинированная оценка, бутстреп-оценка, статистическое моделирование.
Введение
Задачи отнесения объектов наблюдений по их признакам к одному из известных классов при наличии обучающей (эталонной) выборки распространены во многих областях деятельности человека - в науке, технике, промышленности, медицине, геологии и так далее. Они решаются различными методами, в том числе методами математической статистики (задачи дискриминации). В них задача оценки вероятности отнесения к известному классу может решаться с использованием множества различных математических моделей, как из класса параметрических (когда имеется априорная информация или предположения о законах распределения плотности вероятности в классах), так и непараметрических (когда априорной информации о классах нет). Часто встречаются ситуации, когда информация о классах отсутствует, а объем эталонной выборки N конечен (не может быть дополнен) и мал (несколько десятков наблюдений). В этих условиях качество оценок классификации у выбранных моделей может оказаться неприемлемо низким, а их перебор из разных классов и сравнение - трудоемким и малоэффективным.
Другим подходом в построении моделей дискриминации является получение комбинированных оценок, использующих оценки построенных моделей дискриминации и априорную информацию о классах из эталонной выборки. Среди различных разработок указанного подхода интересен метод, использующий априорную информацию о некоторых функционалах плотности [1]. Его преимущества при получении комбинированных оценок регрессии, как в случае конечного объема выборок N так и в асимптотическом случае, показаны в [2]. Варианты применения указанного метода для задачи классификации наблюдений, в частном случае ограничения числа построенных моделей дискриминации до двух, представлены в [3, 4]. В данной работе рассмотрен случай получения комбинированных оценок вероятности классификации, построенных по оценкам двух моделей - параметрической и непараметрической, с использованием подхода, предложенного в [2-4].
Параметрическая и непараметрическая оценки
Пусть имеется эталонная выборка объема ^щ+.^+П!,, содержащая наблюдения из к классов. Пусть (Х'1,...,Х'„() - независимые наблюдения случайного вектора X из класса '=1,...,к, размерности т с неизвестной плотностью вероятности /'(х); хей". Ограничимся рассмотрением двух случаев: когда функция плотности известна с точностью до параметра в (параметрический случай), и когда функция плотности полностью неизвестна. Это приводит к двум моделям дискриминации: параметрической /(х;в и непараметрической /(х).
В условиях малых объемов выборки N и отсутствия информации о классах априорные вероятности классификации в каждый класс примем равными. Тогда параметрическую оценку апостериорной вероятности классификации наблюдения в точке х в класс ' (классифицирующей функции в класс ') представим в виде
3 (х;в') = £('|х) = /' (х;в' ^ £ р (х;в'), ' = Ц. (1)
Здесь /'(х;0') - параметрическая оценка плотности вероятности классификации в класс '. Если каждый класс описывается т-мерной нормальной генеральной совокупностью, то функция плотности вероятности классификации наблюдения в точке х в класс ' может быть представлена параметрической оценкой вида [5]
/'(х;в') = (2п)-т/2 |У |-/2ехр(-0,5х;0 )),
' = й, (2)
где |У'| - детерминант матрицы ковариаций из класса ', элементы которой получены по эталонной выборке с помощью метода максимального правдоподобия; й 2(х;0') - обобщенный квадрат расстояния от точки х до центра группы наблюдений эталонной выборки из класса '. Если используется объединенная матрица ковариаций, его можно записать
ё2(х;0') = (х - а )Т (V')-1(х - а ), ' = 1Д, (3)
где я'=(я 1,...,я ") - оценка вектора математических ожиданий компонент случайного вектора Х из
класса '; V' - объединенная матрица ковариаций из класса ', полученная по эталонной выборке с помощью метода максимального правдоподобия.
Пренебрегая в (3) элементами перекрестных связей и квадратичными, выражение показателя функции экспоненты в (2) можно приближенно представить в виде линейной функции дискриминации
-0,5d2(x; в ) «-0,5(a )г (V')-1a + x(V')-1a =
Л ' Л ' Л ' -
= в 0 + в 1Х1 + ... + в mXm, ' = 1, к,
(4)
где в о =-0,5(а )т (V1 )-1а , (в 1,..., в т) =(У )-1а.
После получения оценок вида (4) в каждом классе наблюдение в точке х отнесем к тому классу, в котором оценка вида (1) получит максимальное значение.
Непараметрическую оценку апостериорной вероятности классификации наблюдения в точке х в класс ' представим в виде [4]:
(х) = £(' | х) = Д (х^£ (х), 1 = 1Д (5)
Здесь /п'(х) - непараметрическая оценка плотности вероятности классификации в класс ' вида: 1
f (x®,..., x(m)) =
¿П K[( X'' - Хи)! >1
n,H, i=1 '=1
Для учета указанных недостатков используется практика присвоения некоторой доли вероятности а<1 на значения случайной величины X из других классов. Можно выбрать разные способы такого присвоения [6]. Представим значения переменной - отклика (в номинальной шкале измерений) о принадлежности каждого наблюдения эталонной выборки Х; из класса ' оценками отнесения к своему классу равной (1-а), а к другим классам - а/(к-1). Тогда вместо (6) представим это определение в виде
V ('IX) =
1 -а > 0, X,. е',
а
к -1
> 0, X,. г',
i = 1, N, j = 1, к, ' = 1, к.
(7)
где „ - число наблюдений из класса '; К(и) - заданное ядро (некоторая функция плотности вероятности); Н1!) - параметры масштаба в классе ', удовлетворяющие следующим требованиям: при объеме выборки Ы=п1 +...+пк и числа наблюдений класса „,, стремящихся к бесконечности
т
И =П^ ^ ^ 0; п,И, И?И(\п,,N).
1=1
При рассмотрении выражений для средних удельных потерь и оптимальных процедур (Байеса) классификации очевидно, что для сравнения оценок вида (4) и (5) с данными эталонной выборки выполняется замена данных о принадлежности к классу (номинальная шкала) оценками вероятности отнесения к каждому из классов эталонной выборки (числовая шкала). Если данные о принадлежности наблюдений эталонной выборки к классам «абсолютно» достоверны, оценки отнесения наблюдений в свой класс приравниваются к единице, а к остальным классам - к нулю. Т. е., для наблюдения эталонной выборки Х; из класса ' оценки будут
Г1, X,. е 1, — -
а (' | X,.) = \ ' 1 = 1, к, ' = 1, N. (6) [о, X,. г 1,
Выражение (6) нельзя считать наилучшим во всех случаях. Для эталонных выборок с малым числом наблюдений в классах многие значения случайной величины X из разных классов не реализуются. Вероятности их реализации приравниваются к нулю, что ухудшает качество классификации.
Для каждого наблюдения X получим к значений оценок отнесения к классам - Y=(Y^,...,Yk). В результате замены данных переменной - отклика о принадлежности к классу оценками вида (7) для всех наблюдений эталонной выборки получим матрицу Y, содержащую к столбцов и i строк оценок отнесения каждого наблюдения Xi к каждому из к классов. Оценки представлены в числовой шкале и допускают любые математические операции. Следовательно, становится возможным применение методов улучшения оценок классификации, представленных в [1-4].
Выбор оптимального значения параметра а для получения наилучших оценок классификации является отдельной задачей и в данной работе не рассматривается. Зафиксируем его значение, соблюдая условие - (1-а)>а.
Комбинированная оценка
Комбинированную оценку вероятности классификации наблюдения в точке x в класс t представим в виде
JN (x; X) = JN (x) -X(JN (x) - J(x; в')), ' = ij, (8)
где X - коэффициент в классе t, выбираемый согласно требованиям, предъявляемым к качеству оценки.
Выберем параметр X в выражении (8) для случая конечного объема эталонной выборки N из следующего критерия
Q(X) =¿[7/ - JN (Х(1),..., X(mU' )]2 ^ min. (9)
Из выражения (9) получим оптимальный коэффициент X=X0:
К =
'(jn (х(1),x/m)) - y)( jn ( x(1), х,(т)) -
-J(X?\-,x(m);в ))
Х(JN(Х,(1),...,X<m)) - J(X/1',...,X(m); в'))2
(10)
Выражение (10) не зависит от выбора точки x.
,=1
i=1
Рассмотрим другую комбинированную оценку (8) с выбором коэффициента X (в асимптотическом случае) на основе критерия
О(X'(х)) = Е[3'„(х; 1' (х)) - / (х)]2 ^ пип, (11)
X' (х)
где E - оператор математического ожидания. Из выражения (11) получим оптимальный коэффициент Х(х)=Х0(х):
Х (х) = Е(ГК (х) - 3' (х))(3'к (х) - 3 (х;в')) (12)
° Е 3 (х) - 3 (х;в' ))2 '
Поскольку плотность вероятности Jt(x) неизвестна, то неизвестна и Х0(х). Выделив в (12) главную часть относительно N и оценив ее по исходной выборке, получим оценку Х0(х) в точке х [2, 3]:
МИ,(Л((х))2/К'(х) Л
5 * ( ) С' (х)
Хо (х) = —-
К' (х)
1--
1 + МИ,(Л1(х))2/К (х)у Здесь С(х^(х)^(хЫх), К'(х) = я2(х) -3М(х)&'(х) + (3'„(х))2 -(х)&'(х),
/ , Л
1—
1
Л1(х) = Л0(х) _ ' 2
1 + (МИ )*(Л'0(х))
Л0( х) = g'l(x) - 3 (х;в') я0(х),
1 N т
g0(x) = М- ЕП К[( X> - X? >)/а(1>],
МИ' ,=1 I=1 1 N т
^1(х) = -1ИЕVПК[(х(1) -X«)/А«],
МИ' 1
' ,=1 М
g2(х) = -тИ-Е(У/)2ПК[(х(1) -XVА®].
МИ' ы
Оценку коэффициента Х„(х) в выражении (12) можно выполнить и бутстреп-методом [7]. Причем, как и в [2], оценку можно представить в двух вариантах.
Первый вариант предусматривает получение для каждой бутстреп-выборки оценок классификации двух моделей - параметрической и непараметрической. Обозначим оценки, получаемые по бут-стреп-методу символом звездочка, а по исходной выборке - без звездочки. В соответствии с (12), оценка оптимального коэффициента Х„(х) по бут-стреп-выборкам примет вид
.'*( ) ^(3».(х)-(х))((х)-Лх;в'))
хо (х) = е- '
(13)
Е(3М*.(х) -3*(х;<9 ' ))2
]=1
где B - размер серии сформированных бутстреп-выборок, соответствующих одной исходной выборке, для оценки коэффициента Х^(х) в точке хе Л".
Второй вариант предусматривает получение для каждой бутстреп-выборки оценок классификации только одной модели - непараметрической. Тогда оценка оптимального коэффициента Х+(х) по бутстреп-выборкам будет иметь вид
3'+ ( ) = ^ (3М*. (х) - 3 (х))(3'/. (х) - 3(х; в')) (14)
Хо (х) = Е в — Л '
.= Е ((х) - 3(х;0' ))2
.=1
Оценка (14), в отличие от оценки (13), позволяет экономить вычислительные ресурсы и избегать проблем с получением оценок параметрической модели дискриминации в случае вырожденной матрицы ковариаций у сформированных бутстреп-выборок.
Условия эксперимента
С целью сравнения качества оценок вида (8) проведен имитационный эксперимент, а также проверка качества оценок на нескольких выборках реальных статистических данных. Для исключения тривиальных результатов классификации из эксперимента исключены оценки в фиксированных точках х; с одинаковым объемом выборок п. Имитационный эксперимент проведен с получением оценок классификации для различных объемов эталонных выборок N. Для упрощения интерпретации результатов эксперимент проведен с одномерной случайной величиной Хе Л1. Сравнение свойств оценок выполнено со случайным выбором точек X из двух одномерных случайных величин Х1 и Х2, представляющих два класса; к=2. В имитационном эксперименте выбраны следующие условия моделирования:
• для имитационного моделирования данных выборки генерировались с наблюдениями из двух одномерных случайных величин Х1 и Х2 с нормальным законом распределения;
• случайные величины X1 и X2 имели одинаковые значения дисперсии и математические ожидания, равные ст1=ст2=20,0, ЕХ1=60,0, ЕХ=100,0;
• для формирования области перемешивания наблюдений из разных классов расстояние между математическими ожиданиями случайных величин выбрано равным двум среднеквадратиче-ским отклонениям, ЕХ2-ЕХ1=40,0;
• отбор в исходные выборки наблюдений из разных классов выполнялся с вероятностью 0,5;
• оценки классификации получены для выборок с объемом наблюдений в диапазоне N=6-95 с интервалом 5=5, отсчитываемым от конца диапазона;
• для каждой исходной и бутстреп-выборки соблюдалось условие - в выборке должно присутствовать не менее двух наблюдений из каждого класса;
• числовые результаты эксперимента были получены по серии исходных выборок количеством К=10000 (с одинаковым объемом наблюдений N в каждой). Для каждого наблюдения каждой исходной выборки из серии К формировалась серия бутстреп-выборок размером В=1000. При выбранном законе распределения случайных величин X и X2 в имитационном эксперименте
I=1
1=1
обеспечивается преимущество (в смысле качества) оценке параметрической модели дискриминации.
Сравнение качества оценок классификации у шести моделей 1{=1(х;()) /2=У^(х), /3=У^(х;^0), 1А=Ых;Х*0(х)), /5=Л(х;ВД), /б=Л(х;ВД) проводилось по следующим критериям.
Критерии, вычисленные для каждой исходной выборки.
1. Оценка вероятности безошибочной классификации наблюдений эталонной выборки по всем классам
S1r = — У и1, г = 16, (15)
г N£1 1
где щ — количество правильно классифицированных наблюдений эталонной выборки из класса у; г — номер модели классификации в соответствии с нумерацией, указанной выше.
2. Оценка вероятности классификации наблюдений эталонной выборки в точке X в свой класс I в связи с дискретными свойствами выражения (15) для случая равных значений величин
^ = N У Я СIX е Г), г = 1Д Г = и. (16)
N ¿=1
Критерии, вычисленные по серии К исходных выборок.
3. Среднее оценок вероятностей безошибочной классификации наблюдений эталонной выборки по всем классам
й1 = к У ^, г = 1,6. (17)
К I =1
4. Среднее оценок вероятностей классификации наблюдений эталонной выборки в свой класс
& = К, г = 16. (18)
К I=1
Выражения (15)—(18) нормированы в диапазоне [0,1].
Результаты эксперимента
Результаты имитационного эксперимента по критериям (17) и (18) представлены на графиках, рис. 1, 2. Номера кривых совпадают с номерами моделей дискриминации в соответствии с нумерацией, указанной выше.
На рис. 1 представлены результаты сравнения качества оценок классификации по критерию (Уг. По горизонтальной оси указан объем выборки #, по вертикальной оси - величина среднего оценок вероятностей безошибочной классификации (величины 0^).
На рис. 2 представлены результаты сравнения качества оценок классификации по критерию 02г. По горизонтальной оси указан объем выборки #, по вертикальной оси - величина среднего оценок вероятностей классификации в свой класс (величины 02г).
Кривые на графиках рис. 1, 2 статистически значимо различаются на уровне значимости мень-
0,00 ^-'-'-'-'-'-'-'-■-■-■-■-■-■-■-■-■-■-■-дг
6 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
Рис. 2. Среднее оценок вероятностей классификации в свой класс 02г
ше 0,05, за исключением областей пересечения кривых.
По результатам моделирования при указанных условиях имитационного эксперимента можно сделать следующие выводы. 1. Оценки модели дискриминации:
• параметрической /1 при #<80 дают меньшие, чем у непараметрической /2 и комбинированных моделей /5 и /6, ошибки классификации (рис. 1, кривая 1). Значения среднего оценок вероятностей классификации в свой класс (рис. 2, кривая 1) самые низкие среди рассматриваемых моделей. Следовательно, качество оценок параметрической модели дискриминации /1 в имитационном эксперименте высокое;
• непараметрической /2 дают наибольшие ошибки классификации среди рассматриваемых моделей (рис. 1, кривая 2). Значения среднего оценок вероятностей классификации в свой класс одни из самых высоких и занимают второе место среди рассматриваемых моделей (рис. 2, кривая 2). Это свидетельствует о невысоком качестве оценок непараметрической модели /2 в имитационном эксперименте;
• комбинированной /3 дают малые ошибки классификации (рис. 1, кривая 3) и проигрывают только оценкам комбинированной модели /4 (рис. 1, кривая 4). При этом значения среднего оценок вероятностей классификации в свой класс (рис. 2, кривая 3) выигрывают только у моделей параметрической 1Х и комбинированной /5 (рис. 2, кривые 1 и 5).
Оценки комбинированной модели /3 в эксперименте по качеству занимают второе место после оценок комбинированной модели /4;
• комбинированной /4 дают наименьшие ошибки классификации (рис. 1, кривая 4) среди рассматриваемых моделей. Значения среднего оценок вероятности классификации в свой класс (рис. 2, кривая 4) наибольшие среди рассматриваемых моделей и близки к значениям непараметрической модели /2. Следовательно, оценки модели /4 являются наилучшими в имитационном эксперименте;
• комбинированной /5 дают меньшие, чем у непараметрической и комбинированной /6, ошибки классификации (рис. 1, кривая 5), но проигрывают оценкам комбинированных моделей /3 и /4 и параметрической модели при #<80 (рис. 1, кривые 1, 3 и 4). Значения среднего оценок вероятностей классификации в свой класс (рис. 2, кривая 5) выше оценок только параметрической модели. Следовательно, что применение бутстреп-метода дает невысокое качество оценок классификации при #<80;
• комбинированной /6 выигрывают только у оценок непараметрической модели /2 (рис. 1, кривая 6) и немного проигрывают модели /5. При этом значения среднего оценок вероятностей классификации в свой класс (рис. 2, кривая 6) проигрывают только оценкам моделей непараметрической /2 и комбинированной /4. Вывод аналогичен выводу для модели /5.
2. Качество оценок параметрической Jl, непараметрической J2, комбинированных моделей Ji, J5 и J6 при N>70 сближается. При этом реализация бутстреп-метода в представленном эксперименте требует больших затрат вычислительных ресурсов и времени, растущих с увеличением N.
3. Уменьшение ошибок классификации у комбинированных моделей J3 и J5 выполняется за счет перераспределения оценок вероятностей классификации в свой класс в сторону более «сдержанных» по сравнению с излишне «оптимистичными» у непараметрической модели J2, что демонстрирует рис. 2.
4. Невысокое качество оценок у непараметрической модели J2 не ухудшает свойств комбинированной оценки (8) достигать наилучших результатов.
На реальных данных оценки комбинированных моделей дискриминации J3 и J4 получали результат по критерию (15) лучше оценок классификации параметрической и непараметрической моделей.
Заключение
В работе показана принципиальная возможность применения комбинированной оценки, используемой при получении оценок регрессии [2], для решения задачи классификации наблюдений при наличии эталонной выборки.
В имитационном эксперименте подтверждены свойства комбинированной оценки, представленные в [2], позволяющие получать оценки класси-
фикации лучше, чем оценки построенных моделей дискриминации (параметрической и непараметрической) в условиях малых объемов эталонных выборок.
Результаты имитационного эксперимента демонстрируют преимущества оценок комбинированных моделей J3 и J4 по сравнению с оценками построенных моделей при N<80. При N>100 оценки всех представленных комбинированных моделей демонстрируют преимущества по сравнению с оценками построенных моделей.
В имитационном эксперименте оценки комбинированных моделей J5 и J6, полученные с применением бутстреп-метода, проигрывают оценкам комбинированных моделей J3 и J4 во всем диапазоне изменения величины N. Затраты времени для реализации бутстреп-метода на несколько порядков превышают таковые для других моделей. Следовательно, применение оценок комбинированных моделей J3 и J4 позволяет отказаться от использования бутстреп-метода получения комбинированных оценок в указанной задаче классификации.
Результаты эксперимента показывают, что представленные комбинированные оценки классификации предпочтительнее, чем каждая из оценок параметрической и непараметрической моделей. Их преимущества проявляются как при малых объемах эталонных выборок, так и при их интерполяции за пределы эксперимента (N>100).
Результаты моделирования, представленные на рисунках, получены с помощью кластера Межрегионального вычислительного центра ТГУ СКИФ Cyberia (skif.tsu.ru). Автор выражает благодарность сотрудникам Центра за оказанную помощь.
СПИСОК ЛИТЕРАТУРЫ
1. Дмитриев Ю.Г. Непараметрическое условное оценивание функционалов плотности распределения // Математическое моделирование и теория вероятностей / Под ред. И.А. Александрова, А.М. Бубенчикова, В.Н. Берцуна, Ю.К. Устинова. -Томск: Изд-во «Пеленг», 1998. - С. 169-177.
2. Скрипин С.В. Свойства комбинированной оценки регрессии при конечных объемах выборок // Известия Томского политехнического университета. - 2008. - Т. 313. - № 5. - С. 10-14.
3. Скрипин С.В. Комбинированные непараметрические оценки в задаче многомерной дискриминации // Вестник Томского государственного университета. - 2006. - Прилож. № 17. -С. 303-306.
4. Скрипин С.В. Комбинированные оценки в задаче дискриминации // Информационные технологии и математическое моделирование (ИТММ-2007): Матер. VI Всеросс. научно-практ. конф. - Анжеро-Судженск. - Томск: Изд-во Том. ун-та, 2007. - Ч. 2. - С. 53-56.
5. Андерсон Т.В. Введение в многомерный статистический анализ. - М.: Физматгиз, 1963. - 500 с.
6. Орлов А.И. Задачи оптимизации и нечеткие переменные. -М.: Наука, 1980. - 302 с.
7. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. - М: Финансы и статистика, 1988. - 263 с.
Поступила 10.03.2009 г.