Научная статья на тему 'Сложность многоклассового классификатора один-против-всех'

Сложность многоклассового классификатора один-против-всех Текст научной статьи по специальности «Математика»

CC BY
474
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОКЛАССОВАЯ КЛАССИФИКАЦИЯ / СТАТИСТИЧЕСКИЕ ОЦЕНКИ / РАДЕМАХЕРОВСКАЯ СЛОЖНОСТЬ / БИНАРНАЯ КЛАССИФИКАЦИЯ / ОДИН-ПРОТИВ-ВСЕХ

Аннотация научной статьи по математике, автор научной работы — Решетова Д. Г., Максимов Ю. В.

Рассматривается задача многоклассовой классификации и алгоритм ее решения с помощью сведения ко множеству задач бинарной классификации по методу одинпротив-всех. Бинарные классификаторы минимизируют отступ согласно функции потерь hinge-loss, оцениваемая мультиклассовая ошибка мультиклассовый отступ. Для данного метода изучается оценка матожидания функции потерь и сложности множества полученных многоклассовых классификаторов. При получении оценки никаких предположений на распределение данных и множество классификаторов не делается.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сложность многоклассового классификатора один-против-всех»

УДК 519.21

Д. Г. Решетова1'2, Ю. В. Максимов1'2

1 Московский физико-технический институт (государственный университет) 2Институт проблем передачи информации РАН

Сложность многоклассового классификатора один-против-всех

Рассматривается задача многоклассовой классификации и алгоритм ее решения с помощью сведения ко множеству задач бинарной классификации по методу один-против-всех. Бинарные классификаторы минимизируют отступ согласно функции потерь hinge-loss, оцениваемая мультиклассовая ошибка - мультиклассовый отступ. Для данного метода изучается оценка матожидания функции потерь и сложности множества полученных многоклассовых классификаторов. При получении оценки никаких предположений на распределение данных и множество классификаторов не делается.

Ключевые слова: многоклассовая классификация, статистические оценки, раде-махеровская сложность, бинарная классификация, один-против-всех.

D. G. Reshetova1'2, Yu. V. Maximov1'2

1Moscow Institute of Physics and Technology (National Research University) 2Institute for Information Transmission Problems of RAS

Multiclass one-vs-all classifier complexity

The problem of multiclass classification is studied. We estimate the performance of a set of classifiers. The algorithm used reduces the problem of multiple classes to a set of separately trained binary classifiers constructed according to one-vs-all strategy. The binary classifiers minimize marging acccording to a hinge-loss function, while the multiclass loss function is chosen to be hinge-loss on the multiclass margin. The risk bound for the expectation of the loss function and the complexity measure of the classifier set are studied for the method. The bounds derived require no additional assumptions on the probability space or the set of classifiers.

Key words: multiclass classification, statistical bounds, rademacher complexity, binary classification, one-vs-all.

1. Введение

В задачах распознавания изображений [1], жестов [2], тематической классификации текстов [3] возникает задача многоклассовой классификации, которая может решаться на основе бинарных классификаторов.

На текущий момент известны оценки обобщающей способности, основанные на размерности Натараян [4], Вапника-Червоненкиса и радемахеровской сложности множества классификаторов [5, 6].

Целью данной работы является уточнение оценок без наложения ограничений на множество классификаторов и выборку. Похожие, но менее точные результаты для данной задачи приведены в [5, 6].

2. Постановка задачи

Пусть X С М^ - пространство признаков, У = {1 ...к} - множество классов, Р = {/ : X х У ^ М} - параметрическое семейство функций. Задана простая выборка

Ь = {{х1,у{х1))}1=1 С X х У. Задача классификации состоит в выборе функции из Р, доставляющей минимум функционала качества классификации:

f * = arg min J 1 V £(f (Xi), yi) I

feF r ti J

где I : Y x Y ^ R+ - функции потерь. Классификатором тогда будет

h е Н = < hf : X ^ Y, hf (х) = arg max f (x,y) | f e F > . { y& )

При |У| = 2 классификация называется бинарной, при |У| > 2 - многоклассовой.

3. Статистическая оценка классификатора

Пусть на пространстве признаков определена вероятностная мера P, L ~ Pm и задано

множество классификаторов: Н = < h f : Rd ^{1.. .k} h f = arg max/(x, у), где f e F > .

{ y& )

Для оценки полноты множества функций используется его радемахеровская сложность, которую можно интерпретировать как максимальную ковариацию функций множества со случайным шумом. Чем больше различных функций во множестве, тем выше вероятность найти в нем функцию, похожую на случайный шум.

Определение 1. Радемахеровской сложностью множества разделяющих функций F называется

Rm(H) = Е

a,X~Dm

supV °il(f (Xi),y%) feF ti

где 01 € {+1, -1} с равной вероятностью.

Сложность класса функций дает верхнюю оценку матожидания значения функции.

Теорема 1. ([6], теорема 3.1). Пусть {xi}'lj=1 - простая выборка, Xi ~ P, G = {g : R ^ [0; 1]}, тогда У5 > 0, Уд £ G с вероятностью не менее 1 — 5 выполнено неравенство

1

т

Е [g(z)] < 1 ^Г g(zi) + 2Rm(G) + J1^. m ^ V 2m

г=1

Для оценки качества классификации будет использоваться его обобщающая ошибка. Определение 2. Обобщающей ошибкой классификатора h : X ^ {1 ...к} называется вероятность ошибки классификации на х ~ P:

R(h) = P{[h(x) = у(х)]} = E{[h(x) = у(х)]},

где

г , (1, если a верно;

[а] = \п

10, если a неверно.

Для оценки качества классификации на фиксированном объекте х используется понятие отступа.

Определение 3. Отступом объекта на функции f £ F называется разность между значением функции на классе объекта у(х) и на классе, который был бы выбран при классификации на Y \ {у(х)}:

mf (xi ,y(xi)) = f (xi,y(xi)) — max f (xi,y).

yeY\y(xi)

Отступ характеризует то, насколько объект ближе к своему классу, чем к остальным. Объект х £ X верно классифицирован тогда и только тогда, когда mf (х, у(х)) > 0. Далее рассматривается функция потерь Фр(х, /) = С(т/(х, у(х))), р> 0, где

0,

если р < х;

G(x) = ^ 1 — х/р, если 0 < х < р; , если х < р.

Эта функция ограничена сверху hinge-loss [7] при р £ (0; 1)

Определение 4. Эмпирическим риском классификатора hf на выборке L = {(Xi,y(Xi))}™=1, соответствующим отступу р, называется среднее значение функции потерь на выборке:

1 п

Rhf ,P(L) = Фр(х, f). п L—'

г=1

Эмпирический риск зависит от обучающей выборки и будет фигурировать в оценке обобщающей ошибки классификатора, приведенной ниже.

Лемма 2. Пусть X = {х^=1. Тогда

ie{i...k}

1 к f 2к

3 = 1 \

max Xi = -1 У I Xj + max Xi +

ie{i...k}\{j}

ie{i...k}\{j}

Доказательство. По формуле max{ a, b} = 1 ( a + b + |a — b\) для У j £ {1... к}

ie{i...k}

f 1 1 (

< max Xi, хЛ = -

[i€{1...k}\{j} ) 2 \

maxxi = ma^ maxXj, Xj > = - Xj + maxXj +

ie{i...k}\{j}

Xj — max Xi ie{i...k}\{j}

)

Просуммировав полученное равенство по всем j £ {1... к}, получим требуемое утвержде-

ние.

Теорема 3. Для У р > 0, У 5 > 0 и yhf £ Н с вероятностью не менее 1 — 5 выполнено

R(h) < Rhf 'p(L) + 7kЭТт(И) + yjl0g1/5

2m

где П = {fy :X ^ R | fy(х) = h(X, y)}

Доказательство. Для случая С = Фр о Н, где Н = {к : (х, у) ^ рн(х, у) | к £ Н} в силу теоремы 1 для Ур > 0, У5 > 0 и Ук £ С с вероятностью не менее 1 — 5 имеет место

/

R(h) < Rp(h) + 2Жт(Фр оН) +

Так как Фр - 1/ р - липшицева, то, по лемме Талагарда [6]:

Жш(ФР о Н) < чят(Н)/р.

log 1/6

2 m

Оценим Rm(Н) через Rm(n), П не зависит от числа классов.

Rm(H) = Е

m heH

т / i=1 4

— sup > h(Xi, yi) — max h(Xi, y)

<

< —Е m

sup y)[y = yi]

heH Л

yEY i=1

+ —Е

m

sup V^ — Oi max h(Xi, y) heH "="-•

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

г=1

Так как У{е-}™1 £ {+1, — 1}m, {&i} и {ai ■ ei} распределены одинаково, то в силу субаддитивности sup :

т

sup£ aih(xi, У)[У = Vi]

heH

yeY i=i

= 1E

m

sup£ аМ^г,У)(2[У = 1) +1 he H 1=1

2

2

< -E

2m

SUp ^ °ih(Xi,y)£i

heH

=1

+ -±- E 2m

sup£ J2aih(xi,y)

he H

=1 ye Y

<

<

<Y - E

ye Y

supV °ih(xi,y) he H

=1

< kRm(U).

Так как |ж| - липшицева с константой Липшица L = 1, то по лемме Талаграна и лемме 2:

E

sup V^ <jf max xi heHj=T ie{i...m}

< 2mE

+2m e

mm/ \

sup£ aj \Xj + max xi heH j=i j=i\ ie{i...m}\{j} J

m m

sup£ xj — max xi

heH j=i j=i \ ie{i...m}\{j}

+

Введем обозначение hij = h(xi,yij), щ = {i\, новки упорядоченного множества индексов {1, У1 £ {1 ...k — 1}

.] ч k — 1

..,lk-1}i=i - все циклические переста-.,k} \ {г}. Докажем по индукции, что

E

m

sup Y^ a'j maxh(xi, y))

heH j=i '

<

1

k- 1

-E

m

se'Hf^ £

j=i {ij }Jfc=i1eTTi

^>ax h j + E 2j h j

+

+

1

k-1

E E =1

sup E ъ E 1 lhi,—

f=1

{i j }j=i1e^i

1

l-g

2l — j>i

max h. — V^ — h > ij L^t 2p

v=i

Для I = 1:

E

sup V^ af maxh(xi, y)) heH "="■

<

+

k- 1

E

hupE * E 12 max hij+E 2 hi 1

heHj=i {ij}?"1 ещ \ 3 j=i

1

k- 1

E

sup heH

Eaf E 2 (hi— m>Thj)

j=i fiA^-1^.

(г >*=1Х е^

Предположим, что соотношение выполнено для г < I — 1, тогда для I :

+

E

sup V^ af max h (xi, y) heH r—f y=yi

j=i

<

1

k- 1

E

1

i

1

hepE E 1 mi-i hj + ^27h

j=i {ij }Jfc-1e^i

i

+

fc- 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

E

=i - -i

+

sup E E 2 (h«— 2r-T jma-i — E 2^ hi?

heH j=T {ijV j

p

1

j

1

Раскроем значения тах :

Е

1-1

виР £ а1 £ I 2-1 /та_х1 к(х, Уг3 ) + £ 21 Ы, * 1=1 {Ь У'ц-^Л з=1

Е

,виК £ а1 £ | 2 ^к(хг,Шз) + £27к

ьеы ... , : 1=1 Ьз }?=11е1г<

+ Е

3 = 1

<

+

ьеы

т / -вир ^ СТ1 ^ ( 2 кг; — ^ тах к

1 — 1 г . 1 - ^ 2

1=1 {г,

1 к--1

г_1 £ Е

=1

ьеы '

1=1 {г, }к={

1

_ _1

вирУ^а1 У^ - [кг Я--;-т тах кг . — У^ — кг,

^ ^ 2 1 Я 21 _(1_1 з>г_1 3 ^ 2Р г

_1 < £ Е =1

Р=1 _

1

2р к р

вир £ а1 £ 2 ( кя — ^ кЬ — £ к

Ьеы1=7 г,лк-1

^ 3 }к-1ещ

1

+ £ Е =1

вир ьеы

Ё" - £ (

1=1 {гз }к-1ещ

Р=1 1

<

+

-кг,--;- тах кг

21 _ч 1 21 _ч з>1 3

Получим, что

Е

вир У^ а1 тах к(хг, у) ьеы^ У=У

<

1

к- 1

+А" £ Е к — 1 ^ =1

Е

вир £а1 £

ьеы г

1=1 {г, }к-1:ещ

2тах к(хг, Уг, ) + £ 27кз

.7=1

<

+

вир ^ а1

г

ьеы

У^ 1 I кг„ — тах — £ к»

1=1 {г, }к-1еъ

^ 2 \ 4 21_ч з>1

р=1

Утверждение доказано. Для I = к перегруппировав слагаемые, получаем:

Е

вир а1 тах к(хг, у) ьеы 1=1 "="-•

<

1

к- 1

Е

к_1

вир ^ а^ ^ 2"к(хг, у) [у =

+

к- 1

£ Е

д=1

ьеы1=1 уеУ^=1

к_д

вир£а £ 2 [ 1 — £ 2* | к(х^у)[у = у^

Ьеы 1=1 Уеу \ Р=1

+

<

<

к 'к + £\(1/2к_) ) ) ^ш(П) < 5Шт(П).

^ 1

9=2

Отсюда получаем, что Шт(Н^) < ^т(П)

и

1

В случае конечной размерности Вапника-Червоненкиса d: Rm(n) < С, поэтому с вероятностью не менее 1 — ô

ад= о ( + ЖV

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

\ yjm V m I

Можно показать, что оценка К(Ь) = О ^достигается. 4. Заключение

В статье были представлены улучшенные оценки обобщающей способности многоклассового классификатора. Данные оценки могут быть улучшены по порядку числа классов к при наложении дополнительных ограничений на множество классификаторов, например, на размерность Вапника-Червоненкиса, или вероятностное пространство.

Исследование выполнено при поддержке гранта РФФИ 15-07-09121_а.

Литература

1. Foody G.M., Mathur A. A relative evaluation of multiclass image classification by support vector machines // Geoscience and Remote Sensing, IEEE Transactions on. 2004. V. 42. N 6. P. 1335-1343.

2. McNeill D. Hand and mind: What gestures reveal about thought. University of Chicago Press, 1992.

3. Rennie J.D.M., Rifkin R. Improving multiclass text classification with the support vector machine. 2001.

4. Guermeur Y., Elisseeff A., Zelus D. A comparative study of multi-class support vector machines in the unifying framework of large margin classifiers // Applied stochastic models in business and industry. 2005. V. 21. N 2. P. 199-214.

5. Koltchinskii V., Panchenko D. Empirical margin distributions and bounding the generalization error of combined classifiers // Annals of Statistics. 2002. P. 1-50.

6. Mohri M., Rostamizadeh A., Talwalkar A. Foundations of machine learning. MIT press, 2012.

7. Moore R., DeNero J. L\ and L2 Regularization for Multiclass Hinge Loss Models // Symposium on Machine Learning in Speech and Language Processing. 2011.

References

1. Foody G.M., Mathur A. A relative evaluation of multiclass image classification by support vector machines. Geoscience and Remote Sensing, IEEE Transactions on. 2004. V. 42. N 6. P. 1335-1343.

2. McNeill D. Hand and mind: What gestures reveal about thought. University of Chicago Press, 1992.

3. Rennie J.D.M., Rifkin R. Improving multiclass text classification with the support vector machine. 2001.

4. Guermeur Y., Elisseeff A., Zelus D. A comparative study of multi-class support vector machines in the unifying framework of large margin classifiers. Applied stochastic models in business and industry. 2005. V. 21. N 2. P. 199-214.

5. Koltchinskii V., Panchenko D. Empirical margin distributions and bounding the generalization error of combined classifiers. Annals of Statistics. 2002. P. 1-50.

6. Mohri M., Rostamizadeh A., Talwalkar A. Foundations of machine learning. MIT press, 2012.

7. Moore R., DeNero J. P\ and P2 Regularization for Multiclass Hinge Loss Models. Symposium on Machine Learning in Speech and Language Processing. 2011.

Поступила в редакцию 11.11.2015.

i Надоели баннеры? Вы всегда можете отключить рекламу.