УДК 519.24
Н. К. Животовский
Московский физико-технический институт (государственный университет) Институт проблем передачи информации им. А. А. Харкевича
Комбинаторные оценки переобучения с сублогарифмическим темпом роста
В рамках комбинаторной теории переобучения получены верхние оценки математического ожидания переобученности, имеющие в худшем случае порядок роста 0(\/log |А|), где |А| — число алгоритмов в семействе. Также получены оценки, зависящие от характеристик расслоения и связности семейства алгоритмов, которые являются ещё более точными.
Ключевые слова: теория статистического обучения, комбинаторная теория переобучения, обобщающая способность, переобучение, расслоение, связность.
N. K. Zhivotovskiy
1 Moscow Institute of Physics and Technology (State University) 2 Institute for Information Transmission Problems (Kharkevich Institute)
Combinatorial bounds of overfitting with sublogarithmic
order of growth
In terms of combinatorial theory of overfitting, new upper bounds of expected overfitting are obtained. They have the worst order of growth 0(\/log |A|), where |A| is a number of algorithms. Also, some new bounds, depending on splitting and connectivity properties of algorithms, are obtained and are even tighter.
Key words: statistical learning theory, combinatorial theory of overfitting, generalization ability, overfitting, splitting, connectivity.
1. Введение
Получение верхних оценок вероятности ошибки на основе доступной информации о семействе алгоритмов, обучающей выборке и методе обучения — одна из центральных проблем теории статистического обучения [6,9]. Минимизация таких оценок позволяет управлять обобщающей способностью алгоритма классификации на этапе его обучения по выборке. Проблема в том, что большинство оценок сильно завышены, что может приводить к неоптимальным решениям.
Комбинаторная теория переобучения [12-15] отличается от теории Вапника-Червоненкиса и других более современных подходов тем, что в ней оцениваются функционалы вероятности переобучения, полного скользящего контроля, ожидаемой переобученно-сти, которые наиболее точно формализуют понятие переобучения и позволяют учитывать особенности конкретной выборки данных и метода обучения. Комбинаторные оценки показывают, что величина переобучения определяется не только сложностью семейства алгоритмов, но и более тонкими эффектами расслоения и связности, которые существенно снижают переобучение в реальных задачах классификации. Комбинаторный подход позволяет учитывать оба эти эффекта одновременно и получать оценки вероятности переобучения, которые в некоторых случаях оказываются точными равенствами [3]. Отметим, что частично учитывают структуру семейства алгоритмов и некоторые другие подходы, например, верхние оценки, основанные на локальных Радемахеровских сложностях в условиях малого шума [5].
Известные оценки вероятности переобучения, ожидаемой переобученности и полного скользящего контроля представляются в виде суммы по всем алгоритмам семейства [2,14].
В данной работе развивается техника, основанная на построении верхних оценок производящих функций моментов оцениваемых величин. В результате получены существенно улучшенные оценки ожидаемой переобученности и полного скользящего контроля.
1.1. Основные определения
Введём основные понятия, придерживаясь обозначений, принятых в комбинаторной теории переобучения [12-15].
Задана конечная генеральная совокупность объектов X = {х\,... ,хь], конечное множество алгоритмов А = {а\,..., ас} и бинарная функция потерь I: А х X ^ {0,1}, где 1((а, х) = 1 тогда и только тогда, когда алгоритм а ошибается на объекте х. Вектором ошибок алгоритма а называется бинарный вектор (1(а,х\),..., 1(а,хь)) размерности L. Предполагается, что векторы ошибок всех алгоритмов из А попарно различны.
Определяются число ошибок и частота ошибок алгоритма а £ А на выборке X С X:
п{а,Х)= ^ 1(а,х), v (а,Х) = ).
х£Х 1 1
Методом обучения называется отображение ß: 2X^ А, которое произвольной выборке X С X ставит в соответствие некоторый алгоритм ßX £ А.
Метод обучения ß называется методом минимизации эмпирического риска (МЭР), если ßX £ А(Х) для всех выборок X С X, где
А(Х) = Arg ттп(а, X), X С X.
а£А
Если множество А(X) содержит более одного элемента, то выбор алгоритма методом МЭР не однозначен. Будем рассматривать худший случай. Метод МЭР называется пессимистичным (ПМЭР), если
ßX £ Arg max nU,X), X С X.
аеА(Х)
Обычно в теории статистического обучения предполагается, что элементы выборки порождаются случайно и независимо из фиксированного неизвестного распределения. Комбинаторная теория переобучения основана на более слабой гипотезе перестановочности. Предполагается, что все L! перестановок объектов конечной генеральной совокупности X равновероятны. Сами объекты предполагаются произвольными и неслучайными, никакой меры на множестве объектов не вводится, и даже не предполагается существование каких-то других объектов кроме X. Случайным считается только порядок появления объектов. В момент, когда метод ß выбирает алгоритм а = ßX, обучающая выборка X предполагается известной, выборка X из оставшихся k = L — I объектов — скрытой. Нас интересует оценка частоты ошибок выбранного алгоритма v((, X) на будущих данных. Эта оценка характеризует обобщающую способность метода ß и на практике может использоваться в качестве критерия выбора модели алгоритмов А или метода обучения ß.
В комбинаторной теории понятие «вероятности ошибки» не определяется, оцениваются только частоты ошибок на конечных выборках. Все используемые функции выборок X и X инвариантны относительно перестановок объектов внутри этих выборок. Поэтому основное вероятностное предположение можно ещё немного ослабить, считая равновероятными все С£ разбиений генеральной совокупности X = X U X на две выборки — наблюдаемую обучающую X длины I и скрытую контрольную X длины k.
Вероятность переобучения метода ß на выборке X определяется как доля разбиений, при которых частота ошибок на контроле превосходит частоту ошибок на обучении на или более:
Qs(ß, X) = P [v(ßX, X) — v(ßX, X) > e].
Введём для I = k = функционал равномерной ожидаемой переобученности, (expectation of overfitting), равный средней по всем разбиениям разности между частотами ошибок на обучении и контроле (при этом в равномерном случае на каждом разбиении выбирается худший алгоритм):
£OFmax(X) = E max (v(a, X) - v(a, X)) ,
aeA y '
и функционал ожидаемой переобученности, учитывающий метод обучения ^ (которым в данной работе будет являться ПМЭР):
SOF^(X) = E (и(рХ, X) - v(рХ, X)) . Введём также функционал полного скользящего контроля (complete cross-validation):
CCV „(X) = Ev (рХ,Х).
1.2. Оценки расслоения—связности
В отличие от статистической теории обучения, в комбинаторном подходе рассматриваются исключительно бинарные функции потерь. Это ограничение делает очень удобным рассмотрение метрических свойств множества А. Введём на множестве алгоритмов А, как на бинарных векторах ошибок, естественное отношение порядка и метрику Хэмминга: для любых a,b £ А
(а < Ь) о (I(а,х) < I(Ь,х) Ух £ X); (а <Ь) о (а < b и а = b);
L
р(а, b) = J2 i1 (а, xi) = 1 (b, xi)].
г=1
Если а ^ b и р(а, b) = 1, то будем говорить, что а предшествует b и записывать а Ь.
Графом расслоения-связности множества алгоритмов А будем называть направленный граф {А, Е) с множеством рёбер Е = {(a, b): а — b}.
Граф расслоения-связности является многодольным, доли соответствуют слоям алгоритмов Ат = {а £ А: п(а, X) = т}, рёбрами могут соединяться только алгоритмы соседних слоёв. Каждому ребру (а, Ь) соответствует единственный объект хаь £ X, такой, что I(а,Хаь) =0 и I(b,Xab) = 1.
Заметим, что если для любых a,b £ А, а < b существует путь о, — й1 — ns — b, то граф расслоения-связности совпадает с диаграммой Хассе [7] отношения порядка, введённого на множестве алгоритмов А. В общем случае он является лишь её подграфом. Заметим также, что граф расслоения-связности не обязательно является связным графом.
Порождающим множеством Ха алгоритма а называется множество объектов, соответствующих исходящим из вершины а рёбрам:
Ха = {х £ X I ЗЬ £ А: а — b, I(а,х) < I(Ь,х)}.
Запрещающим множеством Х'а алгоритма а называется множество объектов х, на которых алгоритм а ошибается, при том, что существует алгоритм b £ A, b < а, не ошибающийся на х:
Х'а = [х £ X | ЗЬ £ А: b < a, I(b, х) < I(а, х)}.
Верхней связностью алгоритма а называется число рёбер, исходящих из вершины а. Оно равно числу объектов х, на которых а не ошибается, при том, что существует алгоритм b £ А, а — Ь, ошибающийся на х:
q(a) = |Ха|.
Неполноценностью алгоритма а называется число объектов х, на которых а ошибается, при том, что существует алгоритм Ь € А, Ь < а, не ошибающийся на х:
г(а) = \Х'а \.
Введем также удобное обозначение
т(а) = п(а, X).
Определим функцию гипергеометрического распределения:
ев с1—в
неГ (*) = Е ^^.
в=0 СЬ
Следующая лемма, доказанная в [14], описывает важное свойство порождающего и запрещающего множеств.
Лемма 1.1. Пусть ц — пессимистичная минимизация эмпирического риска, тогда У а € А выполнено следующее равенство:
[цХ = а] < [Ха СХ][ха сХ].
Таким образом, для того, чтобы пессимистичная минимизация эмпирического риска выбрала некоторый алгоритм, необходимо, чтобы его порождающее и запрещающее множества были соответственно подмножествами обучающей и контрольной подвыборок.
Эта оценка существенно зависит от характеристик д(а), г (а) каждого алгоритма а € А. Она монотонно убывает по д(а), г (а). Если положить д(а) = г( а) = 0 и затем применить экспоненциальную верхнюю оценку функции гипергеометрического распределения, то получится классическая оценка Вапника-Червоненкиса.
Теорема 1.1 (оценка расслоения-связности [14]). Для произвольной выборки X, метода минимизации эмпирического 'риска ц и любого е € (0,1)
С £-<1
X) < £ -^С— (Ь(т - ек)) ,
авА СЬ
где д — верхняя связность, г — неполноценность алгоритма а, т = т(а).
Для функционала полного скользящего контроля аналогичная оценка получена в [2]. Теорема 1.2. Для произвольной выборки X и метода минимизации эмпирического риска ц
ССУ, (X) < V (т - — \.
1 ( ) <вА С[ \к к Ь-д-г)
Там же для функционала ожидаемой переобученности получена аналогичная оценка. Теорема 1.3. Для произвольной выборки X и метода минимизации эмпирического риска ц
гог^Ж) <
уг-л С<ь-Я-Г / т т -г I - д Ь
' < ^ С1 V к к Ь -д-г I -еА ь ^ 1
) •
Все три оценки расслоения-связности имеют схожую структуру. Каждая из них представляет собой сумму по алгоритмам семейства, и в худшем случае ( = = 0) все три оценки имеют порядок 0(\А\). Целью данной работы является получение оценок гОГ,, имеющих меньший порядок роста и также учитывающих расслоение и связность.
2. Оценки ожидаемой переобученности
2.1. Равномерная оценка ожидаемой переобученности
В теории статистического обучения используются различные неравенства концентрации меры, основанные на гипотезе независимости элементов выборки [9]. В комбинаторной теории переобучения необходимо использовать аналогичные неравенства, справедливые при предположении о перестановочности.
Функция 2—1, определённая в круге |,г| < 1 и заданная выражением
2-1 (а, Ъ,с, г) = 1 + ^
( а + 1 )(Ъ + 1) ¿0 (1 + 1)(с + 1)
гк,
к=1
где а,Ь,с — действительные параметры, называется гипергеометрической. Лемма 2.1. Для целых чисел т,1, таких что 0 ^ т ^ I, и действительного г € [0,1]
^/1 — т т 1 „ \
2 (-—г-•— т• 1—)<1.
Доказательство данной леммы чисто техническое и вынесено в конец статьи. Следующая лемма является одной из основных в используемом подходе. Она для фиксированного алгоритма даёт верхнюю оценку на производящую функцию моментов разности числа его ошибок на обучении и контроле. В несколько более общей постановке производящая функция моментов оценивалась для выборок без возвращений в работе [10].
Лемма 2.2. Пусть а € А, I = к = ^ и т(а) = т ^ I, тогда для всех А> 0
Еехр (А(п(а,Х) — п(а,Х))) < (еовЦА))^ (, — —, 1 — I, (1апЪ(А))2^ .
Доказательство. Произвольному разбиению генеральной выборки сопоставим вектор а = ((71,..., аь), где на половине позиций стоят —1, которые соответствуют элементам обучающей выборки в X, а на остальных позициях - 1. Без ограничения общности перенумеруем генеральную выборку так, чтобы алгоритм ошибался на первых т объектах, а на оставшихся не допускал ошибок. Запишем производящую функцию моментов в виде
Еа ехр ^А ^аг 1(а,х^ .
Обозначим Хг = аг 1(а,хг), тогда с учётом т(а) ^ I
ь ь I
Еа ехр(А а г 1(а, х{)) = Еа ехр(АХг) = Еа ехр(АХг).
Очевидно, что для всех г: АХг € [—А, А]. Используя выпуклость экспоненты, получаем:
ехр( АХг) ^ АХ:г + А ехр(А) +--АХг + А ехр(—А) = Хг втЬ(А) + ео8И(А).
А + А А + А
Подставляем полученное неравенство в предыдущее выражение:
Еа ехр(АХг)\ < Еа (Хг втЦ А) + еовИ( А)). =1 =1
Раскроем скобки в полученном выражении и учтём, что последние I — т значений Хг тождественно равны нулю, так как алгоритм не ошибается на этих объектах. Учтём, что
т
1 — т
Еа Л (хг 8тЬ( Л) + ео8И( Л)) = (ео8И( Л)) тЕа ^(хг 8тЬ( Л) + ео8И( Л)).
г=1 г=1
Очевидно, что для всех г ^ т математическое ожидание произведения одинакового числа объектов Хг, соответствующих различным индексам, одинаково. Таким образом,
т
(ео8И( Л))е-тЕа ПХ 8шИ( Л) + ео8И( Л))
=1
= (ео8И( Л))е-тЕа(ео8Ът(Л) + 0^1 8\пЪ1(Л) ео8Ът-1(Л) + + С:тх1сс2 8тИ2(Л) ео8Ит-2(Л) + ... + х1 ...Хт 81пИт(Л)) = = (ео8И( Л))еЕа (1 + СтХ1(Л) + ... + ац . ..Хт 1апИт(Л)).
Рассмотрим для неотрицательного целого г выражение Е(х1... Х2г+1). Так как по условию т ^ I, то 2г + 1 ^ I. Тогда для каждого разбиения генеральной выборки на обучение и контроль знак Х1 ... Х2Г+1 зависит лишь от четности числа объектов Х1,... ,Х2г+1, попавших в контроль. Число разбиений, на которых всё нечётное число этих объектов попадает в обучение, равно числу разбиений, когда все эти объекты попадают в контроль. Вклад таких разбиений в математическое ожидание просто противоположен по знаку. Также одинаков по модулю и противоположен по знаку вклад разбиений, где лишь один из перечисленных объектов в обучении и где все, кроме одного, в обучении. И так далее компенсируем вклады всех
22г+1
вариантов помещения части объектов Х1 ... Х2г+1 в
обучение.
Пусть ] = 2г. Выведем точную формулу для Е(Х1... Х)). Как и ранее, сосчитаем вклады разбиений в математическое ожидание. Введём суммирование по — числу объектов Х1,... ,Х), попавших в обучение. Очевидно, что вклад разбиения равен (—1)г. Число разбиений сосчитать не сложно: сначала выберем г позиций среди ] для помещения в обучение, оставшиеся объекты помещаем в контроль. При этом мы еще не учли все возможные разбиения, а именно: нужно среди оставшихся 21 — ] объектов выбрать I — ] + % и поместить
их в контроль. Объединяя результат, получаем формулу
1
ЕХ1 .. .Х) = ^(—1)гС-+С.
21 г=о
Это же выражение верно и для нечётных ], при этом оно тождественно равно нулю. В итоге получаем
1 т
Е(1 + -тХ11апЪ1(Л) + ... + Х1 ...Хт 1апИт(Л)) =—Г £Ст (1апЪ(Л))3 ^(—1)гС2--ТС}.
С2£ )=о г=о
Далее остается доказать, что выполнено равенство
1 т 3 /1 _ 1 \
^Ст(ЬпЬ(Л)У ^(—1)гС$--?С) = 2*1 1-—т, — т, 1 — I, (1апЪ(Л))2) . 213=0 г=о \ 2 2 2 у
Это утверждение чисто техническое и доказывается индукцией по параметрам.
В условиях предыдущей леммы можно получить более точную верхнюю оценку:
Еехр (Л(п(а,Х) — п(а,Х))) < (ео8Ъ(Л))т(а)2*1 (, — т, \ — I, ^апЪ(Л))2^
Тем не менее во избежание чрезмерной громоздкости мы будем использовать более грубый результат леммы 2.2.
После этого можно сформулировать основную теорему данного раздела. Это некоторое обобщение леммы об ожидаемом максимуме субгауссовских случайных величин [8,9].
Теорема 2.1. Пусть I = к = ^ и max m(a) ^ ^, тогда
S-O^Fmax ^
<
< Ы \ (b(cosh(A)) + 1ln ^^ А, , -f,1 - I, (tanh(A))2) jj <
I '
где — число алгоритмов в в-м слое семейства алгоритмов.
Доказательство. Математическое ожидание по совокупности аг будем обозначать символом Е. В обозначениях предыдущей леммы оценивается величина
АЕ тах У^ аг 1(а, Хг ) = 1п ехр АЕ тах У^ аг 1(а, Хг) . аеА ) \ \ т
По неравенству Йенсена:
1п ехр АЕ тах аг 1(а,Хг) ^ 1п Е ехр А тах аг 1(а,Хг)\ .
V V аеА \г=1 ))) V V аеА \=1 )))
Максимум может быть вынесен
1п ( Е ехр А тах > аг 1(а,Хг)\\ = 1п Е тах ехр А > аг 1(а,Хг)\\ .
V V аеА \г=1 ))) \ а^А \ )))
Заменяем максимум неотрицательных величин на их сумму:
1п Е тах ехр А У^ аг 1(а,Хг)\\ ^ 1п Е У^ ехр Ау^аг 1(а,Хг)\ .
V аеА V \Т=1 ))) \ \ 7=1 ))
По лемме 2.2
1п ( Е\ ] ехр ( А \ " 7г 1(а, Хг)\ ) ^
(e £ exp i^A £
\ аеА \ i=l
< 1n focoehW)'^ (i-f« ■ -■ 2 - I- (tanh(A))2)) •
Из цепочки неравенств на предыдущем шаге имеем
E max ^1(а,х^ < A 1^(cosh(A))1 J 2F1 A-m, -m, 1 - £, (tanh(A))^ .
Для доказательства первого из неравенств теперь достаточно прологарифмировать данное выражение и минимизировать его по A. Затем необходимо ввести суммирование по слоям, так как в каждом слагаемом суммы алгоритм характеризуется лишь числом ошибок.
Чтобы доказать верхнее неравенство, воспользуемся элементарными неравенствами
cosh( X) ^ exp ^^^ и (cosh(A))1 ^ exp ^ С учётом этих неравенств и леммы 2.1
E max( V а, 1(а, х^ < inf 1 (in IAI + ^ = лДЩЩ. aeA \i=1 ) х>0 A\ 2 J
Поделив обе части неравенства на I, получаем правое неравенство из утверждения теоремы.
2.2. Учёт структуры семейства алгоритмов
Оценки, полученные в предыдущем разделе, мало использовали структуру семейства алгоритмов. В комбинаторном подходе лучшие результаты получались благодаря явному учёту метрической структуры семейства алгоритмов, выраженной свойствами расслоения и связности. В данном разделе для предложенных оценок с помощью техник комбинаторного подхода удастся учесть метод обучения.
Следующая теорема даёт оценку ожидаемой переобученности, учитывающую структуру графа расслоения-связности.
Теорема 2.2. Пусть метод обучения ß - ПМЭР, I = к = ^ и maxm(a) ^ k>, тогда
< inf 1 (^ln(cosh( X)) - + 1^<p(£,m(a), q(a), u(a), X) ) ) <
у2ln IAI
<
1
m-q ]
где<р(е,т,д,и,А) = £ Е—УС'С^+ХУС^_ч(1 + 1апЪ(А)У (1апЪ(А)У.
]=0 г=0
Доказательство. Доказательство до определённого шага полностью повторяет шаги теоремы 2.1. Отличие возникает на шаге, где максимум заменяется на сумму. При учёте метода обучения этот шаг несколько уточняется. Для вектора а подвыборка X получается выбором из X всех объектов, позициям которых в а соответствуют —1.
АЕ О а 1(цХ,Хг)\ <
(/ т(а)
Е I = а](со8Ъ(Х)У П & 1&пЪ(А) + 1)
^абА г=1
Рассмотрим отдельно выражение
(т(а)
^[мХ = а] П (х 1апИ(А) + 1) аеА 1=1
Благодаря лемме 1.1 оно мажорируется выражением
т(а)
E [Xa с X][X'a с Х]Ц (Xi tanh(A) + 1)
vaeA i=l
Последний переход очень важен. Как и в случае равномерных оценок, на этом шаге может накапливаться большая завышенность.
Каждый алгоритм а ошибается на всех объектах Х'а. Без ограничения общности можно считать, что Х'а соответствуют последние q(a) объектов. Для них в условиях Х'а С Х соответствующие Xi тождественно равны единице. Учитывая это и раскрывая скобки, имеем
(т(а)-д(а)
^ [Ха С Х][ха С X](tanh(A) + 1)('(а) П (Xi tanh(A) + 1)
аеА i=l
— Е ( ^[Ха С Х][Ха С *](tanh(A) + 1)^ (l + С1т(а)-д(а)Xi tanh(A) + ... +
\аеА
+ Xi ...Хт(а)-д (а) (tanh(A))m(<l)-.
Теперь нужно проанализировать для каждого алгоритма а и j, такого что j ^ т(а) — q(a) выражение
Е ([Ха С Х ][Ха С Х] -XI ...х3 ) .
Простые комбинаторные рассуждения, аналогичные приводимым ранее, приводят к выражению
1 j
е ([Ха с х ][Ха С Х. X!. ..xj) = -~г Е(—i)icjc2l-!;---g.
21 i=0
Таким образом,
(т(а)
^[Ха С Х][Ха С Х] П (Xi tanh(A) + 1)
аеА i=l
1 т-
= E(1 +tanh(A))" Е 1)icjc2-!j-i;-gcm-gtanhj(A).
С21 аеА j=0 i=0
Подставляя в ранее выписанные выражения полученную формулу, получаем первое неравенство теоремы. Теперь на основании того, что
(т(а) \ / т(а)
^[Ха С Х][Ха С Х] П (Xi tanh(A) + 1) j < Е I ^ П & tanh(A) + 1)
ае А =1 ае А =1
получаем и второе неравенство.
Нетрудно показать, что если обнулить в оценке все и и q, то получится та же оценка, что и в теореме 2.1.
3. Приложение
3.1. Оценка complete cross-validation
Примененная техника очень общая. Продемонстрируем её на примере функционала полного скользящего контроля:
CCV max — Е max v(а, Х).
ае А
Теорема 3.1. Пусть I — к — ^ и maxm(a) ^ k>, тогда CCVmax ^
< inf 1 fln(cosh(A)) + s 2F1 (—I, — s, —21, — tanh(A))
Л>0 4 1 x=o
где As — число алгоритмов в s-м слое семейства алгоритмов.
Доказательство. Все шаги доказательства полностью аналогичны теореме 2.1. Легко показать, что в данной теореме в выражении
1 >
ЩХ-1 ...X; ) = ^Е (-1УС2ё-+С!
С1 >
нужно учитывать лишь слагаемое, соответствующее г = 0, что и заменит разность частот на одну частоту. После этого вместо ограниченной функции
^ (1 — т т 1 л , ,
, — __, _ — ^ (1апЪ(\))2)
получится уже неограниченная:
2Рг (—1, —т, —21, — 1апЪ(А)). Далее шаги доказательства опять повторяются.
3.2. Получение оценок вероятности переобучения
В теореме 2.1 доказано даже большее, а именно: оценена производящая функция моментов для тах( и(а, Л) — и(а,Х)). Грубая из оценок этой теоремы даёт для А > 0 а£А
Е ехр ^А тах(и(а, Х) — и (а, Х ^ |А| ехр ^ ^^^ .
Отсюда с помощью неравенства Маркова можно получить хорошо известное неравенство. Для > 0
Р ( тах( и (а, Х) — и (а, Х)) >г ) =
\ а£А у
= Р ^ехр ^А тах(и(а,Х) — и(а,Х> ехр(Аг^ |А| ехр ^— А^ .
а€А / V 11 г\ 2
Оптимизируя по А, получаем
р(тах(и(а, Х) — и(а, Х)) >г) < | А\ ехр ( \а£А у V 2
Аналогичные оценки получались напрямую и в [11], и в комбинаторном подходе. Нетрудно показать, что аналогичное неравенство верно и для величины тах( и(а, Х) — и(а, Х)).
а€А
Можно обобщать и результат теоремы 2.2. Как и в случае теоремы 2.1, здесь мы оцениваем производящую функцию моментов величины и(¡лХ,Х) — и(¡лХ,Х). Поэтому, используя неравенство Маркова и оптимизируя по параметру А, можно получить практически точный аналог оценки расслоения-связности 1.1. Получаемая оценка будет также линейна по вкладам алгоритмов.
3.3. Доказательство технической леммы
Докажем лемму 2.1.
Для действительного параметра а многочлены {С^\х)}%=0, определенные на отрезке [—1,1], производящая функция которых равна
1 те
называются ультрасферическими. Нам понадобится следующая рекуррентная формула [4]: С^(х) = 1,
СГ'(х) = 2 ах,
С{ш)(х) = — (2х(ш + а - 1)С^1(х) - (т + 2а - 2)С<п—2(х))
<а) I™ I о™ п\П<а)
т
Доказательство. Легко видеть, что в данном случае гипергеометрическая функция является многочленом от х, причем для г € [0,1] согласно [4] имеет место равенство
(1 -т т1 \ ( ,)т т! /г\Ч С<| +1-ш) / 1 ч
где в правой части значение в нуле определено по непрерывности, а (х)т — нижний факториал числа х. Далее нас будут интересовать лишь точки экстремумов данной функции,
поэтому мы будем работать только с (г)т Ст + ^ , так как остальная часть выражения при данных соотношениях на параметры неотрицательна и не зависит от г. Обозначим х2 = г, х € [-1,1].
Обозначим также Ст(х) = хтСПп\^). Тогда для данного многочлена легко получить рекуррентные соотношения, аналогичные тем, что имеются для ультрасферического:
С^х) = 1,
С1°\х) = 2а,
Ст°(х) = —(2(т + а - 1)С{<^)_1(х) - х2(т + 2а - 2)Ст22(х))
<а) , 0лг <а)
т
Докажем по индукции, что если а ^ 2, то на всем отрезке [-1,1] имеет место неравенство Сгп^(х) ^ С^х). База индукции очевидна. Для т ^ 3 рассмотрим разность
СтЧх) - СПЛ(х) =
= 1(2(т + а - 1)^П11(х) - х2(т + 2а - 2)С£12(х) - тС^х)) = = 1((т + 2а - 2)(С{т)_1 -х2^)).
Но (т + 2а - 2) ^ 0, а по предположению индукции (7^-1 - С7Пп-2 ^ 0, но так как по индукции С{т12 ^ 0 их2 < 1, то С{т)_1 - х2С7(т)_2 ^ 0.
Рассмотрим теперь производные С( (х). Имеет место рекуррентное соотношение
С'0а)(х) = 0, С>{*\х) = 0,
С'то^х) = — ^2(т + а - ^С'П—^х) - х2(т + 2а - 2)С/П—2(х)-- 2х(т + 2а - 2)С£-2(х)).
Из формы рекуррентных соотношений легко видеть, что СП^(х) — чётная функция. Поэтому удобно производить анализ производных только на [0,1].
Докажем по индукции, что если а ^ 2, то на всем отрезке [0,1] имеет место неравенство
С'т (х) ^ С*т— 1(х).
База индукции опять же очевидна. Аналогично предыдущему случаю
С'т (х) — С'т-1(х) =
= ~((т + 2а - 2)(С>т)-1 - Х2С'т-2 - 2хст-2(х))).
Действительно, (т + 2а — 2) ^ 0, С'т_I — х С'т_2 ^ 0, так как С'т_I — Ст-2 < 0, С' :_2 ^ 0 их2 ^ 1. Также по ранее доказанному 2хСп12(х) ^ 0 на [0,1].
Таким образом, с учётом чётности, Спп^ (х) на [—1,1] не превосходит своего значения в нуле. Это соответствует тому, что для г € [0,1]
/1 -т т 1 \ 2fI\ —о—, - —, « - l,z\
2 1 2
ограничена своим значением в z = 0, то есть единицей.
Работа выполнена при поддержке РФФИ (проект 11-07-00480) и программы ОМН РАН
«Алгебраические и комбинаторные методы математической кибернетики и информационные системы нового поколения».
Литература
1. Вапник В.Н., Червоненкис А.Я. О равномерной сходимости частот появления событий к их вероятностям. ДАН СССР. 1968. Т. 181, 4. C. 781-784.
2. Воронцов К.В., Решетняк И.М. Точные комбинаторные оценки обобщающей способности онлайнового обучения. Интеллектуализация обработки информации (И0И-2010): Докл. М.: МАКС Пресс, 2010. С. 24-27.
3. Животовский Н.К., Воронцов К.В. Критерий точности комбинаторных оценок вероятности переобучения // Сборник докладов 9-й международной конференции «Интеллектуализация обработки информации». М.: Торус Пресс, 2012. С. 25-28.
4. Прудников А.П., Брычков Ю.А., Маричев О.И Интегралы и ряды. Том 3. Специальные функции. Дополнительные главы. M.: Физматлит, 2003.
5. Bartlett P.L., Bousquet O., Mendelson S. Local Rademacher complexities. Annals of Statistics // 33(4):1497-1537, 2005.
6. Boucheron S., Bousquet O., Lugosi G. Theory of classification: A survey of some recent advances // ESAIM: Probability and Statistics. 2005. N9. P. 323-375.
7. Gratzer G. General Lattice Theory. Basel, Switzerland: Birkhauser, 1978. ISBN 978-0-12-295750-5.
8. Devroye L., Lugosi G. Combinatorial Methods in Density Estimation. Springer Series in Statistics. Springer-Verlag, 2001.
9. Koltchinskii V. Oracle Inequalities in Empirical Risk Minimization and Sparse Recovery Problems. Ecole d'Ete de Probabilites de Saint-Flour XXXVIII-2008. Lecture Notes in Mathematics. Springer-Verlag, 2011.
10. Serfling R.J. Probability inequalities for the sum in sampling without replacement // Ann. Statist. V. 2, N 1 (1974), 39-48.
11. Vapnik V. Statistical Learning Theory. New York: John Wiley and Sons, 1998.
12. Vorontsov K.V. Combinatorial probability and the tightness of generalization bounds // Pattern Recognition and Image Analysis. 2008. V. 18, N 2. P. 243-259.
13. Vorontsov K.V. Splitting and similarity phenomena in the sets of classifiers and their effect on the probability of overfitting // Pattern Recognition and Image Analysis. 2009. V. 19, N 3. P. 412-420.
14. Vorontsov K. V. Exact combinatorial bounds on the probability of overfitting for empirical risk minimization // Pattern Recognition and Image Analysis. 2010. V. 20, N 3. P. 269-285.
15. Vorontsov K.V., Ivahnenko A.A. Tight combinatorial generalization bounds for threshold conjunction rules // 4th International Conference on Pattern Recognition and Machine Intelligence (PReMI'11). June 27 - July 1, 2011. Lecture Notes in Computer Science. Springer-Verlag. 2011. P. 66-73.
References
1. Vapnik V.N., Chervonenkis A.Y. On the uniform convergence of relative frequencies of events to their probabilities. Proceedings of the USSR Academy of Sciences. 1968. T. 181, 4. P. 781-783.
2. Vorontsov K., Reshetnyak I. Exact combinatorial bounds of generalization ability of online learning. Intellectualization of information processing (IIP-2010). M.: MAKS Press, 2010. P. 24-27.
3. Zhivotovskiy N., Vorontsov K. The criterion of the exactness of combinatorial bounds of overfitting. Intellectualization of information processing (IIP-2012). M.: Torus Press, 2012. P. 25-28.
4. Prydnikov A, Brychkov Y., Marichev O. Integrals and Series: Special functions. Additional chapters. M.: Fizmatlit, 2003.
5. Bartlett P.L., Bousquet O, Mendelson S. Local Rademacher complexities. Annals of Statistics, 33(4):1497-1537, 2005.
6. Boucheron S., Bousquet O., Lugosi G. Theory of classification: A survey of some recent advances. ESAIM: Probability and Statistics. 2005. N 9. P. 323-375.
7. Gratzer G. General Lattice Theory. Basel, Switzerland: Birkhauser, 1978. ISBN 978-0-12-295750-5.
8. Devroye L., Lugosi G. Combinatorial Methods in Density Estimation. Springer Series in Statistics. Springer-Verlag, 2001.
9. Koltchinskii V. Oracle Inequalities in Empirical Risk Minimization and Sparse Recovery Problems. Ecole d'Ete de Probabilites de Saint-Flour XXXVIII-2008. Lecture Notes in Mathematics. Springer-Verlag, 2011.
10. Serfling R.J. Probability inequalities for the sum in sampling without replacement. Ann. Statist. 1974. V. 2, N 1. 39-48.
11. Vapnik V. Statistical Learning Theory. New York: John Wiley and Sons, 1998.
12. Vorontsov K.V. Combinatorial probability and the tightness of generalization bounds. Pattern Recognition and Image Analysis. 2008. V. 18, N 2. P. 243-259.
13. Vorontsov K.V. Splitting and similarity phenomena in the sets of classifiers and their effect on the probability of overfitting. Pattern Recognition and Image Analysis. 2009. V. 19, N 3. P. 412-420.
14. Vorontsov K.V. Exact combinatorial bounds on the probability of overfitting for empirical risk minimization. Pattern Recognition and Image Analysis. 2010. V. 20, N 3. P. 269-285.
15. Vorontsov K.V., Ivahnenko A.A. Tight combinatorial generalization bounds for threshold conjunction rules. 4th International Conference on Pattern Recognition and Machine Intelligence (PReMI'11). June 27 - July 1, 2011. Lecture Notes in Computer Science. Springer-Verlag. 2011. P. 66-73.
Поступила в редакцию 24.02.2014.