УДК 004.93
К.В. Воронцов1,2, К.В. Рудаков1,2, Ю.В. Чехович3,2
1 Вычислительный центр им. А.А. Дородницына РАН
2 Московский физико-технический институт (государственный университет)
3 ЗАО «Форексис»
О теоретико-множественных ограничениях и комбинаторной теории переобучения для алгоритмов классификации
В статье рассматриваются два важных направления развития математической теории распознавания образов в рамках научной школы академика РАН Ю.И. Журавлёва. Первое направление — исследование проблемы полноты моделей алгоритмов для задач классификации с теоретико-множественными ограничениями является дальнейшим развитием алгебраического подхода к синтезу корректных алгоритмов. Второе направление — комбинаторная теория переобучения является развитием статистической теории восстановления зависимостей по эмпирическим данным, но при существенно более слабых вероятностных предположениях и более детальном дискретном анализе внутренней структуры семейства алгоритмов.
Ключевые слова: алгебраический подход к проблеме синтеза корректных алгоритмов, модель алгоритмов, композиция алгоритмов, алгоритмический оператор, корректирующая операция, критерий полноты, переобучение, обобщающая способность, теория Вапника-Червоненкиса, расслоение и связность.
I. Введение
История ФУПМ МФТИ неразрывно связана с именем академика Юрия Ивановича Журавлёва, к научной школе которого принадлежат и авторы настоящей статьи.
Область прикладной математики, или теоретической информатики, в рамках коей получены описываемые ниже результаты, имеет много названий: распознавание образов, математическая теория классификации, теория обучения машин, интеллектуальный анализ данных и т. д. Основное отличие данной области от классического математического моделирования состоит в том, что решение модельных и реальных задач проводится без создания претендующих на адекватность моделей предметных областей. При этом развиваются математические методы, прямо ориентированные на анализ массивов прецедентов. Под прецедентами понимаются пары вида «описание объекта, или ситуации» — «правильный ответ для этого объекта». Основная задача состоит в построении алгоритма, который по описаниям объектов находит ответы на исследуемый вопрос (о при-
надлежности к классам, о прогнозе развития ситуации, о наличии скрытых закономерностей в данных и т. д.).
Критерием качества искомого алгоритма на первый взгляд является точность его ответов на прецедентах. При таком подходе естественно ставить задачу построения абсолютно точного на всех прецедентах алгоритма, называемого корректным на прецедентах, или, часто, просто корректного. Проблема, однако, состоит в том, что такая задача обычно имеет тривиальное и очевидно бессмысленное решение: для объектов, входящих в конечный массив прецедентов, алгоритм даёт известный ему правильный ответ, для остальных объектов — произвольный наперед заданный. Итак, без дополнительных к точности на прецедентах требований к искомому алгоритму задача оказывается практически бессмысленной.
Академиком Журавлёвым и его научной школой уже более 30 лет разрабатывается алгебраический подход к проблеме синтеза корректных алгоритмов [1-4]. Подход основан на том, что процедуры из исходных параметрических семейств (называемых также моделями) алгоритмов рассматриваются как элементы некоторой
алгебраической системы, то есть как элементы множества, на котором введены соответствующие операции (корректирующие операции). Это позволяет исследовать и решать задачи в рамках алгебраических расширений исходных семейств, так что алгоритмы строятся в виде результатов применения корректирующих операций к исходным (базовым) процедурам, как теперь говорят, в виде мультиалгорит-мических композиций. В некотором смысле методы алгебраического подхода позволяют при решении каждой отдельной задачи одновременно применять несколько исходных базовых процедур, оптимальным образом взаимно компенсируя их ошибки.
Описанная выше проблема необходимости использования дополнительных к точности на прецедентах требований к алгоритмам-решениям оказалась для алгебраического подхода одной из центральных, так как без них дело легко сводилось к построению заведомо неприемлемых муль-тиалгоритмических композиций. Некоторая сложность вопроса задания и использования дополнительных к прецедентным требований к алгоритмам возникает из-за того, что такие требования должны применяться не только к исходным базовым алгоритмам, но и к корректирующим операциям, причём их выполнение должно гарантироваться и для синтезируемых композиций. В данном направлении были, в частности, разработаны категорный подход (теория универсальных ограничений) [5-8] и реляционный подход [9, 10], при котором исследуется проблема синтеза специальных гоморфизмов реляционных систем. В части 2 настоящей работы приводится обзор результатов, полученных для практически важного случая, когда дополнительные к прецедентным требования выражены в явной теоретико-множественной форме [11].
Принципиально иной тип дополнительных требований к алгоритмам — требование обобщающей способности. Когда алгоритм демонстрирует избыточно высокую точность на заданных прецедентах, но существенно менее точен на новых, ранее неизвестных, объектах, говорят о проблеме переобучения. Уже более 40 лет для её анализа используется основанный на принятии ряда вероятностных предположений подход В.Н. Вапника и А.Я. Черво-
ненкиса [12-14]. На уровне простого примера этот подход можно проиллюстрировать следующим образом. Пусть у нас есть семейство из 10 000 алгоритмов и 10 прецедентов. Выбирая наилучший по точности на прецедентах алгоритм, мы, скорее всего, получим на 10 прецедентах высокую точность, но у нас не будет никакой уверенности в том, что найденный алгоритм — действительно лучший среди 10 000 конкурентов и что он будет давать высокую точность на непрецедентных объектах. В обратной ситуации (10 алгоритмов и 10 000 прецедентов), скорее всего, реализуется прямо противоположный случай. Статистическая теория Вапника-Червоненкиса позволила получить количественные оценки для описанного феномена. При этом чрезвычайно красиво была решена проблема анализа исходно бесконечных семейств алгоритмов. К сожалению, данная теория даёт сильно завышенные оценки количества прецедентов, необходимых для получения разумных результатов. Это подтверждается практикой успешного решения многочисленных прикладных задач с числом прецедентов, на несколько порядков меньшим теоретических порогов.
В части 3 настоящей работы описываются некоторые результаты, полученные в ходе создания комбинаторной теории обобщающей способности, которая существенно уточняет статистическую теорию [15-18]. Она основана прежде всего на том соображении, что даже если мы имеем дело с потенциально бесконечным семейством алгоритмов, но фиксированы конечное множество прецедентов (обучающая выборка) и метод обучения параметров алгоритма по выборке, то реально для решения задачи будет использоваться лишь конечное локализованное подсемейство, состоящее только из тех алгоритмов, которые «подходят» для данной задачи. Аккуратный учёт локализации позволяет существенно улучшить оценки, а дополнительный учёт взаимного сходства алгоритмов практически устраняет завышен-ность. Развитие этих идей позволило к настоящему времени получить ряд новых существенно улучшенных оценок обобщающей способности и даже предложить конструктивные методы обучения с контролируемой обобщающей способностью [19].
II. Критерии полноты моделей алгоритмов для задач классификации с теоретико-множественными ограничениями
В контексте алгебраического подхода к синтезу корректных алгоритмов распознавания образов, классификации и прогнозирования [1-4] рассматривается класс задач, характеризующийся наличием явным образом заданных теоретико-множественных ограничений на множество допустимых ответов алгоритма.
В соответствии с [5-8] опишем задачу классификации в виде задачи синтеза соответствующего алгоритма преобразования информации. Будем рассматривать некоторое множество 6 = }, элемен-
ты которого называются объектами. Описания объектов В (5) образуют пространство начальных информаций I = {В(5) | 5 Е 6}, элементы которого обозначаются через I, так что I = {1-,}.
Рассматривается задача синтеза алгоритмов А, реализующих отображения из пространства начальных информаций I в пространство финальных информаций 1f = {^}. Далее не будем различать алгоритмы и реализуемые ими отображения. Решение синтезируется в рамках модели алгоритмов М, где М С {А | А: I ^ 3_/}. Задачи определяются структурными информациями 18, выделяющими из М подмножества допустимых отображений, обозначаемые через Ш[18]. Любой алгоритм А, реализующий произвольное допустимое отображение, называется корректным для задачи, определяемой структурной информацией 18, и является её решением.
Конструкции алгебраического подхода к проблеме синтеза корректных алгоритмов основаны на использовании «промежуточного» по отношению к 3] и 3f пространства оценок 3е = {1е}. При этом корректные алгоритмы синтезируются на базе эвристических информационных моделей, то есть параметрических семейств отображений из 3] в 3f, представляющих собой специальные суперпозиции алгоритмических операторов (отображений
из 3] в 3е) и решающих правил (отображений из 3ре в 3f, где р — арность решающего правила).
Напомним (см. [6]), что при произвольных множествах Я, V, Я' и V' и произвольных отображениях и из Я в V и и' из Я в V произведением и х и' называется отображение V из Я х Я' в V х V' такое, что для любой пары (и,и') из Я х Я' выполнено равенство V(и,и') = (и(и),и'(и')). Для произвольного отображения и из Яе в V при р ^ 1 диагонализацией будем называть отображение и а из Я в V такое, что для любого и из Я выполнено равенство
ид (и) = и(и, ..., и).
Модели М определяются моделями алгоритмических операторов М0, где
М0 С М, = {Б | Б: 3,: ^ 3е},
и решающих правил М1, где
М1 С у {а 1 С: 3е ^ 3^,
е=0
следующим образом:
М = М1 О М0 = {С о (В1 х ... х Бр)д |
\С Е М ,В1, ..., Бр Е М0}.
Для синтеза корректных алгоритмов используются также множества ^ корректирующих операций, определённых над множеством отображений М, Корректирующие операции Е, рассматриваемые в настоящей работе, индуцируются операциями Е над пространством оценок 3е:
ЕВ, ..., Бе)(и) = Е(Б:(I]), ..., Бр(I)),
где I пробегает пространство начальных информаций 3 , алгоритмические операторы Б1, ..., Бе — произвольные отображения из 3] в 3е и Е — операция над 3е.
Схема построения модели алгоритмов М представлена на следующей коммутативной диаграмме (см. [5-8]) (рис. 1).
Рис. 1
Для рассматриваемых в настоящей статье задач с теоретико-множественными ограничениями модели алгоритмов М
строятся на базе параметрических семейств моделей алгоритмических операторов и корректирующих операций. При этом предполагается, что М0 = {ЩЛ^ | Л Е Ь,ш Е Ш(Л)} и £ = {£Л | л Е Ь}, где Ш(Л) и Ь — множества структурных индексов. Модель М строится в виде
М =и и М1 О ?Л(МЛД
ЛеЬшеШ (Л)
где при всех Л Е Ь и ш Е Ш выполнено равенство
Для произвольного множества 3 и д Е N будем обозначать символом (3я )* множество {(11, ..., Iя) |
(11, ..., Iя) Е 3я,1к = I3 при к = з }. Отметим, что
?гес= и и {(I] -..! )П(П)х
яеы (11, ..., 1Я)е(0|)*
х... х П(^)}.
Определение 2. Модель М называется П-полной, если выполнены следующие условия:
Ш1 ◦ $Л(МЛ,Ш) = {С О (Е1(Б!, ..., б1(1) )х VI]: Ш(Ь) = {А(Ь) 1 А Е М} С П(Ii),
С М1
0
1л,^(1),...,
(Е1,...,Ее) Е (£Л)е,В1,..., Б^) ЕМ'
Бр , ... , Бр М0 .
Бг(е), ..., Бг(р) Е МЛ,ш(е) ) .
Для формализации понятия теоретикомножественных ограничений введём набор П = {^1, ..., Пк} предикатов
П: 3г х 3f ^ {0,1}.
Пусть ^ — произвольный элемент пространства 3г. Положим, что
П(и) = {^^^- | Е з/, V з : П3 (Iг,If) = 1}
1, ..., к
есть множество всех допустимых значений корректных алгоритмов для начальной информации Iг.
Набор П будем называть покрывающим, если для любого р из 3г выполнено условие П(Iг) = 0, то есть когда для любого элемента существует хотя бы одно допустимое значение.
В дальнейшем будем рассматривать произвольный фиксированный покрывающий набор П.
Множество натуральных чисел будем обозначать N и положим N = N и{0}.
Определение 1. Множество
Ргес
I}
IIи/;,..., I?))
д Е N.
($,.., %) Е 3я I = ^ при з = к,
..., Ц) Е 3)^ Е ) при 3 = 1, ..., д
называется множеством наборов допустимых прецедентов.
V ((I^,...,I•я),(/}, ...^я)) Э А:
4 3 3/ ОТ?
Ргес
М
V 3 : АЦ1)
{1, ..., я}
13
(1)
(2)
Отметим, что условия (1) и (2) независимы. Кроме того, при выполнении условия (2) условие (1) эквивалентно следующему условию:
V I: М(!г) = {A(Iг) | А Е М} = П(Iг).
Цель настоящей работы — описание условий, которым должны удовлетворять семейства М1, £ и М0, чтобы в совокупности обеспечивать полноту модели
М
У у М1 о $Л(М
0
Л,ш
(3)
ЛеЬшеШ (Л)
Нетрудно видеть, что изучение проблемы полноты модели М можно проводить в предположении, что д = 1. Действительно, для этого достаточно перейти от исходного пространства начальных информаций 3г к Ц=13<я, от исходного пространства финальных информаций 3 ц
гчя
я=1 3/, от исходного пространства оценок 3е к У^=1 3е и от исходных отображений, скажем, А Е М, А: 3г ^ 3/ к
где
я=1 я=1
А*(!;,..., I!) = (А(/‘),..., А(Д)).
Определение 3. Семейство решающих правил М1 называется П-полным, если существуют модель алгоритмических операторов М0 и семейство корректирующих операций £ такие, что модель Ш является П-полной.
Определение 4. При фиксированном П-полном семействе решающих правил
М1
семейство корректирующих операций £ называется Ш1 -П-полным, если существует модель алгоритмических операторов М0 такая, что модель М является П-полной.
Определение 5. При фиксированных П-полном семействе решающих правил Ш1 и Ш1 -П -полном семействе корректирующих операций £ модель алгоритмических операторов М0 называется
З-Ш1 -П -полной, если модель М является П-полной.
Рассмотрим непустое семейство решающих правил Ш1 = и^=о Ш, , где при любом р из N выполнено соотношение Мр С |С | С: 3р? ^ 3ц}. При этом для любого X С 3е оказывается, естественно, выполненным условие
Ш1(х ) = у Мр(х >') = и и и С (г)
Множество всех допустимых р-проекций для семейства Ш1 и элемента ^ обозначим через ^(Ш1,^).
Для произвольного ^ из 3г введём множество Ф^1,^) функций выбора допустимых проекций:
Ф(Ш1,Iг) = {р р: N0 ^ Б(3е), Vр:
^ Нп
р=0
р=0 сем1 хехр
Определение 6. Пусть р Е ^.
Для произвольного ^ из 3г множеством ар (Ш1,Iг) называется пересечение в р-й декартовой степени пространства оценок 3е всех полных прообразов множества П(!г) относительно решающих правил арности р:
ар(Ш1,Iг)= р| С-1(П(!г)) =
с емр
= {/ г Е зр, V С: С (Те) Е П(!г)|.
^ мр >
Определение 7. Пусть р Е ^. Для
семейства Ш1 и элемента ^ пространства 3г подмножество X (!г) простран-
ГЧ и
ства оценок 3е называется допустимой р-проекцией, если выполнены следующие условия:
(х(Щ С Ор(9ЭТ 1!г),
^ С 3е: (хI) С X) Л (^ С ар(Ш1,Iг)). G(Iг) = {X(Iг,7) | X(^,7) С 3е,7 Е ВД},
Нп
((М = 0) ^ (р(р) = 3е)) л ((<м = 0) ^ ^ (р(р) е ^ (Ш1.Ii
где В(3е) — множество всех подмножеств
ГЧ
множества 3е.
Для каждой функции выбора допустимых проекций р из Ф^1,^) положим
ж
х^г^ = П р(р). р=0
Отметим, что
ж // ж
Ш‘(X(7г,р)) = и и ЖГ|р(р)
Г=0 сеМЦ ^ 4=0 Пусть
Ф(Ш1,Iг) = {р|р Е ФШ1!),
X (Iг,р) = 0}.
Теорема 1. При всех ^ из 3г выполнено следующее соотношение:
и Ш1 (X(3г,р)) С П(Iг). (4)
^еФ(М1,1г)
Теорема 2 (критерий П-полноты для семейств решающих правил).
Для П-полноты семейства решающих правил М1 необходимо и достаточно, чтобы при любом ^ из 3г было выполнено условие
и Ш1 (X (3г,р)) =П(Iг). (5)
^еФ(М1,1г)
Далее считается, что зафиксировано произвольное П-полное семейство решающих правил М1 .
Определение 8. Пусть ^ Е 3г. Система подмножеств
где Г(^) — множество индексов, называется Ш1-полной для Iг, если выполнены следующие условия:
V 7 Э р: X(^,7) С XЦгр),
Г(/г) ^(М1,1г)
и
ОТ1 (X (і„7))=П(іі). (6)
7ЄГ№)
Перейдём теперь к рассмотрению семейств корректирующих операций
чА '
З = {ЗЛ | Л Е Ь}, считая Л из Ь выполнено ЗЛ = иЖ=0 ЗЛЛ, где для всех р из N множество ЗЛ определяется
что при всех
Го ъА р=0 ^ р :
А
р
равенством ЗЛ = ЗЛ П {З | 3: 3р ^ 3е}.
Определение 9. Пусть р Е ^. Для произвольных Л из Ь, ^ из 3г и произвольной функции выбора допустимых проекций р из Ф(Ш1,Iг) множеством вЛЦт.р) называется пересечение в р-й декартовой сте-
гч
пени пространства оценок 3е всех полных прообразов множества XЦгр) относительно корректирующих операций из ЗЛ:
вЛ(Ш = П Е"‘X(Iг.P)) =
= { / | / Е 3р, V Е: Е(Те) Е X(4р)}.
(7)
Определение 10. Пусть р Е N0. Для
произвольных Л из Ь и ^ из 3г и произвольной р из Ф(Ш1,Iг) подмножество У(и,р,Л) пространства оценок 3е называется ЗЛ-Ш1-допустимой р-проекцией, если выполнены следующие условия:
(У(/грЛ)) с вЛМ-.
-эх с 3е: (уаг^Л) с г)л(гр с вЛ(Ш)
Множество всех ЗЛ-Ш;-допустимых р-проекций для Л Е Ь и Е Е 3г и функции выбора допустимых проекций р из Ф(Ш1,Iг) обозначим через ^(^рЛ).
Для произвольных Л Е Ь и Е Е 3г и функции р из Ф(Ш1,Iг) введём множество Ф^рЛ) функций выбора
З -М1 -допустимых проекций:
Ф^грЛ) = \ф ф: N0 ^ Б(3е), V р:
^ Нп
((ЗЛ = 0) ^ (ф(р) = 3е)) Л ((ЗЛ = 0) ^
Для каждой функции выбора ЗЛ-Ш1-допустимых проекций ф из Ф^грЛ) положим У (^р^ф) = П^=0 ф(р). Отметим, что
?А (У (іі,Р,Х.
и и ЖПфм
г=0 Е>=0
Пусть
Ф(Iг,P,Л) = {ф | ф Е ф(Iг,P,Л), У ^г ,р,Л,ф) = 0}.
Теорема 3 (критерий М1—П-пол-ноты для семейств корректирующих операций). Для Ш1 -П-полноты семейства корректирующих операций З = {З | Л Е Ь} необходимо и достаточно, чтобы для любого Е из 3г существовала Ш1-полная для 1г система подмножеств ОД) = {X(^,7) | X(^,7) С 3е,7 Е Г(Iг)} такая, что для любого 7 из Г(^) существует Л в Ь такое, что
и ?А (у (іі,Р,\
фЄ'Ф(Іі,^, А )
X (ііп)- (8)
Замечание. Отметим, что из (6) и (7) вытекает, что при всех іі из Зі, всех Л из Ь, р из Ф(М1,іі) и ф из Ф(Іі,р,Л) выполнено соотношение
У ?А(У(Іі,Р,Л,ф)) с X(іі,7).
фЄФ(Іі,^,А)
Далее считается, что зафиксировано произвольное М1 -П-полное семейство корректирующих операций ^ = {5а | Л Є Ь}.
Определение 11. Пусть іі Є Зі и зафиксирована М1-полная для іі система подмножеств О(іі) = {X(Іі,7)
X (іі,7) С Зе,7 Є ВД)}. Система подмножеств Н(іі,С) = {У(іі,7,Л,(5)
У(іі,7,Л() С Зе,7 Є Г(іі),5 Є А(іі,С)} называется ^-М1-полной для іі, если выполнены следующие условия:
V 5 V Л з р 3 ф:
Д(Іі.С) Ь Ф(Ш1,Іі) Ф(Іі,^,А)
У (іі,7,Л,5) С У (іі Р,Л,ф) ;
V 73Л У %А(У(іі,7,Л,5)) = X(ііГ(). г(Іі) Ь 6еД(Іі ,о)
г
Теорема 4 (критерий F—M1 —П-пол-ноты для моделей алгоритмических операторов). Для F-M1 - П-полноты модели алгоритмических операторов M0 = {М°| A Е L,u Е W(А)} необходимо и достаточно, чтобы при всех Ii из I было выполнено следующее условие:
V А V и 3 у 3 ф:
L W (А) ф(м1 Ii) Ф(1^,А)
M(Ii) с у(Ь,уАФ) (9)
и чтобы существовали М1-полная система подмножеств
G(Ii) = {X(Ii,Y) | X(Ii,Y) С 1e,Y Е r(Ii)} и ^-М1-полная система подмножеств H(Ii,G) = {У(Ii,Y,A,6) | У(Ii,Y,A,6) С Зе,
Y Е Г(Ш Е A(Ii,G)}
такие, что
V Y 3 А V 5 3 и:
r(/i) L A(Ii,G) W (А)
У(Ii,Y,A,5) С Ml^(Ii).
III. Комбинаторная теория переобучения
Переобучение, или переподгонка (overtraining, overfitting) — нежелательное явление, возникающее при решении задач обучения по прецедентам, когда средняя ошибка алгоритма, построенного по обучающей выборке, достаточно мала на этой выборке, но оказывается существенно более высокой на новых тестовых данных.
Переобучение возникает из-за того, что поиск наилучшего алгоритма производится по неполной информации, а именно по обучающей выборке данных ограниченного объёма. Суть переобучения проще всего пояснить с помощью следующего мысленного эксперимента. Пусть задано конечное множество из D алгоритмов, которые допускают ошибки независимо и с одинаковой вероятностью p. Число ошибок любого из этих алгоритмов на обучающей выборке подчиняется одному и тому же биномиальному распределению. Выбирая алгоритм с минимальным числом ошибок на обучающей выборке, мы фактически находим минимум
из D независимых одинаково распределённых биномиальных случайных величин. Известно, что математическое ожидание минимума уменьшается с ростом числа «наблюдений» D. Следовательно, переобу-ченность — разность вероятности ошибки p и числа ошибок на обучении — увеличивается с ростом D. Рассуждения остаются в силе и в общем случае, когда алгоритмы имеют различную вероятность ошибок, только вместо биномиального распределения надо рассматривать смесь биномиальных распределений. Простые модельные эксперименты [21] показывают, что переобучение наблюдается даже если выбор делается всего лишь из двух алгоритмов.
Вывод количественных оценок переобу-ченности является сложной задачей, которой занимается теория статистического обучения (statistical learning theory). Первые оценки, полученные в теории Вапника-Червоненкиса (VC-теории) были сильно завышены [13] и в дальнейшем неоднократно уточнялись [22-24]. Однако получение точных оценок обобщающей способности до сих пор является открытой проблемой. Наиболее интересные для практики случаи малых выборок и сложных семейств алгоритмов пока остаются за границами применимости теории. Завышенные оценки лишь на качественном уровне описывают связь переобучения со сложностью семейства алгоритмов, но не всегда подходят для точных количественных предсказаний и управления процессом обучения. Остаётся открытым вопрос: не связано ли переобучение с какими-то более тонкими и пока не изученными явлениями?
Для вывода большинства известных сложностных оценок используется неравенство Буля — оценка вероятности объединения событий суммой их вероятностей (в зарубежной литературе чаще называемая union bound). Она чрезвычайно завышена в случае существенно совместных событий. Когда число различных алгоритмов D велико, именно данный случай имеет место.
Далее обсуждается комбинаторный подход, в котором неравенство Буля вообще не используется. Основная идея заключается в получении точных формул для эффективного вычисления функционалов полного скользящего контроля. Рас-
сматривается общая техника получения таких формул. Предполагается, что применение этих формул в конкретных ситуациях позволит управлять обобщающей способностью алгоритма на этапе его обучения по выборке. Воплощение указанной идеи является предметом дальнейших исследований.
ІІІ.1. Понятие вероятности переобучения
Пусть Xі = {Х]_, ..., хЬ} — конечное множество объектов, называемое генеральной выборкой; А — множество алгоритмов; І: А х XЬ ^ {0,1} — бинарная функция ошибки. Если І(а,х) = 1, то говорят, что алгоритм а допускает ошибку на объекте х. Вектором ошибок алгоритма а называется Ь-мерный бинарный вектор (І (а,хі)) Ь=1.
Обозначим через п^а^) число ошибок алгоритма а на выборке X С XЬ. Частота ошибок или эмпирический риск алгоритма а на выборке X есть и(а,Х) = Если п(а,Х) = 0,
то алгоритм а Є А называется корректным на X.
Методом обучения называется отображение ц: X ^ а, которое произвольной обучающей выборке X С XЬ ставит в соответствие некоторый алгоритм а Є А. Метод обучения і называется методом минимизации эмпирического риска, если
IX = а^шіп п^а^). (10)
аеА
Отклонением частот ошибок алгоритма а на двух выборках X и X = XЬ \ X называется разность частот б(аX) = и(а,Л) — V(а^). Переобу-ченностью метода ц на выборке X будем называть отклонение частот ошибок алгоритма а = IX:
) = V (XX) — V (XX).
Будем говорить, что метод і переобучен при разбиении X и X = XЬ, если 5^^) ^ є, где є — положительный вещественный параметр.
Пусть все СеЬ разбиений множества XЬ на наблюдаемую обучающую выборку X длины £ и скрытую контрольную выборку X длины к = Ь — £ равновероятны. Это
эквивалентно стандартному предположению о независимости наблюдений в генеральной выборке Xь. Обозначим через [X]£ множество всех /-элементных подмножеств выборки Xь.
Задача заключается в получении точных верхних оценок вероятности переобучения для метода минимизации эмпирического риска ц\
я, = Р[5„{Х) » £] = V [<5„(Л0 > £].
ь хе[х]е
(11)
111.2. Точная оценка для одного алгоритма
Пусть алгоритм а допускает т ошибок на генеральной выборке, n(a,XL) = т. Тогда вероятность допустить в ошибок на выборке X описывается гипергеометри-ческой функцией вероятности:
Р[п(аД) = в] = Л.?‘(8) = СП О-п/О.,
где т Е {0, ..., Ь}, аргумент в принимает целые значения от в0 = тах{0,т — к} до в, = тт-{т/}. При других целых т, в положим СП = к£.т(в) = 0.
Вероятность большого отклонения частот ошибок описывается гипергео-метрической функцией распределения
я.,т(;) = Е Ы„0 ь'Г (в):
Р[«(а,А') > е] = Н$ГЦ(т-ек)), (12)
где значение ^(т — ек)\ есть наибольшее число ошибок n(a,X), при котором имеет место большое отклонение частот, 8(a,X) ^ е.
В пределе при Ь,1,т оо и ^ ^ р ги-пергеометрическое распределение переходит в биномиальное к.т(в) ^ С\р8 (1 — р)'в, где р — вероятность ошибки. В теории статистического обучения при получении оценок обобщающей способности широко используется именно биномиальное распределение [22], а также завышенные верхние оценки «хвостов» биномиального распределения — неравенства Хёффдинга, Бенет-та, Черноффа и др. [25].
Гипергеометрическая оценка (12) является точной (не асимптотической, не завышенной) и не опирается на понятие «вероятности ошибки», не вполне корректное в задачах эмпирического предсказания с малым объёмом скрытой выборки.
III.3. Оценка VC-теории
В общем случае, когда имеется семейство алгоритмов A и метод обучения Ц, справедлива оценка Вапника-Червоненки-са [13, 16]:
L
Qe ^ ^2 АтНе£т(^(т - ек)) ^
т= \ек]
^ A max Не£т (j(т — ек)), (13)
m v L J
где A — коэффициент разнообразия (shattering coefficient), равный числу различных векторов ошибок, порождаемых алгоритмами вида a = fiX по всевозможным обучающим выборкам X длины £: Am — коэффициент разнообразия m-го слоя — множества алгоритмов a = fiX, допускающих ровно m ошибок на генеральной выборке, n(a,XL) = m.
III.4. Свойства расслоения и связности
Оценка (13) сильно завышена. Эксперименты на реальных задачах классификации выявили два основных фактора завы-шенности — это пренебрежение расслоением и связностью семейств алгоритмов [16].
В практических ситуациях множество алгоритмов расслаивается по уровням частоты ошибок v(a,XL). Основная масса алгоритмов концентрируется в области наихудшей частоты — 50%, и лишь малая доля алгоритмов имеет низкий уровень ошибок. Это связано с универсальностью применяемых семейств алгоритмов. Для решения конкретной задачи с фиксированной функцией ошибки I и выборкой XL подходит лишь малая доля алгоритмов из A. Подавляющее большинство алгоритмов «предназначены» для других задач и в конкретной задаче практически не задействуются методом обучения ц. В то же время понятие VC-размерности и другие распространённые меры сложности основаны на подсчёте числа всех алгоритмов в семействе (точнее, числа попарно различных векторов ошибок) без учёта вероятностей их получения. Эксперименты [16] показали, что пренебрежение эффектом расслоения может ухудшать оценку Qs в 102-105 раз.
На практике часто применяются связные семейства алгоритмов, в которых для каждого алгоритма а Е А найдутся другие алгоритмы а' Е А такие, что векторы ошибок алгоритмов а и а' отличаются только на одном объекте [26]. Связные семейства порождаются методами классификации с непрерывной по параметрам разделяющей поверхностью. Это, в частности, линейные классификаторы, машины опорных векторов с непрерывными ядрами, нейронные сети с непрерывными функциями активации, решающие деревья с пороговыми условиями ветвления и многие другие. Чем больше в семействе схожих алгоритмов, тем сильнее завышено неравенство Буля, используемое при выводе VC-оценки (13). Эксперименты [16] показали, что пренебрежение эффектом сходства или связности может ухудшать оценку Q£ в 103-104 раз.
111.5. Эксперименты с цепочками алгоритмов
В следующей серии экспериментов [18, 21] влияние расслоения и сходства на вероятность переобучения удалось оценить как совместно, так и по отдельности. Для этого рассматривалась цепочка алгоритмов — последовательность векторов ошибок, в которой каждый последующий вектор отличается от предыдущего только на одном объекте. Цепочка является простейшим частным случаем связного семейства алгоритмов. Цепочки могут порождаться, в частности, при непрерывном изменении одного из параметров или всего вектора параметров вдоль некоторой непрерывной траектории. Эксперименты проводились на модельных цепочках двух типов. Генерация цепочки с расслоением начинается с вектора ошибок а0 с заданным числом ошибок т = п(а0 X.). Каждый следующий вектор ошибок аа, й = 1, ..., В, генерируется из аа-1 путём инверсии одной случайно выбранной координаты. В цепочке без расслоения число ошибок n(ad,X.), чередуясь, принимает значения т и т +1. Для каждой цепочки строилась соответствующая ей нецепочка из векторов а'а с таким же числом ошибок, n(a'd,X.) = n(ad,X.), но случайным образом перепутанными координатами; тем самым разрушалась связность цепочки.
Итого, строилось четыре последовательности векторов ошибок с одинаковыми параметрами В и т. Их сопоставление позволило раздельно оценить влияние связности и расслоения на вероятность переобучения. Оценки Q£ вычислялись методом Монте-Карло по 1000 случайных разбиений при / = к = 100, т Е {10,50}, е = 0,05. Зависимости Q£ от длины це-
Вероятность переобучения
почки В показаны на рис. 2. Видно, что связность понижает темп роста этой зависимости, а расслоение опускает уровень горизонтальной асимптоты, особенно сильно для «лёгкой задачи» (левый график). Верхняя оценка VC-теории Q£(В) линейно возрастает, всегда проходит выше кривой «-Ц-Р», и вообще не имеет горизонтальной асимптоты.
Вероятность переобучения
0.2
О 50 100 150 200 250 300 350 400 450 500
число алгоритмов, О число алгоритмов,!)
Рис. 2. Зависимость вероятности переобучения Q£ от числа алгоритмов В при т = 10 («лёгкая задача», левый график) и т = 50 («трудная задача», правый график). Условные обозначения: +Ц — наличие цепочки, —Ц — отсутствие цепочки, +Р — наличие расслоения, —Р — отсутствие расслоения
Таким образом, эксперименты ясно показывают: вероятность переобучения зависит не только от сложности семейства (числа различных алгоритмов в нём), но и от степени их различности. Для получения точных оценок необходимо одновременно учитывать и расслоение, и связность (сходство) алгоритмов в семействе. Пренебрежение одним из этих свойств сводит на нет все усилия, направленные на учёт второго. Методы обучения, «хорошо работающие» на практике, с необходимостью порождают расслоенные и связные семейства, иначе вероятность переобучения была бы близка к 1 уже при нескольких десятках алгоритмов в семействе.
До недавнего времени в теории статистического обучения не существовало подходов, способных дать точные оценки для цепочек с расслоением. Ниже рассматривается комбинаторный подход, с помо-
щью которого точные оценки удаётся получить не только для цепочек с расслоением, но и для более широкого класса ситуаций.
111.6. Порождающие и запрещающие подмножества объектов
Будем полагать, что все алгоритмы имеют попарно различные векторы ошибок. Тогда, очевидно, А — конечное множество.
Гипотеза 1. Для каждого алгоритма а Е А можно указать индексное множество Уа, подмножества объектов
Xav ,Xlav С X. и коэффициенты саь Е К для каждого V Е Уа, такие, что при всех X Е [X]*
[X = а] = Са'и [Xаv С X ^V С XX ] .
УеУа
Множества Xav будем называть порождающими, множества X'av — запрещающими, множества X1 \ Xav \ Xlav — нейтральными для алгоритма а.
Теорема 5. Для любых X1, А и ц существуют множества Уа, Xav, X'av, а Е А,
V Е к, удовлетворяющие (14), причём можно полагать са€ = 1.
Итак, гипотеза 1 верна всегда. Однако представление (14) в общем случае не единственно. Эффективно вычислимые оценки дают только такие представления, в которых множества \Уа\, \Xav\, \X'av\ имеют небольшую мощность.
Введём для каждого алгоритма а Е А и каждого индекса V Е Уа обозначения:
Ьav Ь \ Xav \ \ XaV \;
С» = / — \Xavv\;
<тагю n(a,X \ Xav \ XaV);
= |(?г(аДь) - ек) - п(а,хаг,)-
Теорема 6. Если гипотеза 1 справедлива, то для всех а Е А вероятность получить в результате обучения алгоритм а равна
Р(а) = Р [IX = а] = ^2 СаРа; (15)
vеVa
Ра, = P[Xаv С X][А^, С X'] = С1аа1 /С.;
(16)
вероятность переобучения равна Q£ = ЕЕ С«* Ра. Н^т~ (ваv (е)). (17)
аеА vеУa
Теорема 7. Пусть гипотеза 1 справедлива, ц — метод минимизации эмпирического риска, для любой выборки X Е [X] множество А содержит корректный алгоритм а: n(a,X) = 0. Тогда вероятность переобучения принимает более простой вид:
Q£ = ^2 [n(a,X.) ^ ек] Р(а). (18)
аеА
Итак, для получения точных оценок Q£ достаточно выписать систему порождающих и запрещающих множеств для каждого алгоритма а Е А.
111.7. Семейства простой структуры
Простейшей моделью однопараметрического связного семейства алгоритмов является монотонная цепочка алгоритмов.
Определение 12. Множество алгоритмов А = {а0,а1, ..., ав} называет-
ся монотонной цепочкой алгоритмов, если І(аа,хі) ^ І(аа+1,хі) для всех хі Є XЬ и n(ad,XЬ) = т + й при некотором т ^ 0. Алгоритм а0 называется лучшим в цепочке.
Пример. Пусть Xі — множество точек в К"; А — семейство линейных алгоритмов классификации а(х,т) = sign(x • т), х Є К", с вектором весов т Є К"; функция потерь имеет вид І(а,х) = \а(х,т) = у(х)], где у(х) — истинная классификация объекта х, и выборка линейно разделима, то есть существует т* Є К", при котором алгоритм а(х,т*) не допускает ошибок на XЬ. Тогда множество алгоритмов {а(х,т* + Ь5): Ь ^ 0} образует монотонную цепочку для любого направляющего вектора 5 Є К", за исключением некоторого конечного множества векторов. При этом т = 0.
Метод минимизации эмпирического риска і называется пессимистичным, если в случаях, когда минимум п(а^) достигается на многих алгоритмах, ц выбирает алгоритм с большим п(аXЬ). Если же и таких алгоритмов несколько, то ц выбирает алгоритм с большим порядковым номером. Пессимистичный метод на практике нереализуем, но он даёт верхние оценки Qє, завышенность которых невелика и связана только с неоднозначным выбором минимума эмпирического риска (10).
Теорема 8. Пусть А = {а0, ..., ав} — монотонная цепочка, ц — пессимистичный метод минимизации эмпирического риска, к ^ В ^ Ь — т. Тогда
к
<?. = £ РіНІ-_1ГШ<п + <і - єк)), (19) а=0
где Ра = Се£-_\_ 1/Сеь — вероятность получить алгоритм аа методом ц.
Вывод этой оценки основан на явном построении порождающих и запрещающих множеств. Перенумеруем объекты так, чтобы каждый из алгоритмов аа, й = 1, ..., В, допускал ошибку на объектах х1, ..., ха. Тогда справедлива гипотеза 1:
[IX = аа] = [ха+1 Є X][х1, ..., ха Є X].
Оценка (19) получается непосредственным применением теоремы 6, причём формулы (15) и (17) сильно упрощаются, так как \Уа\ = 1 для всех а Е А.
Аналогичные точные оценки получены и для других связных семейств алгоритмов простой структуры: унимодальных цепочек и окрестностей оптимального алгоритма [17], монотонных и унимодальных ^-мерных сеток [27], семейств с определёнными видами симметрии [28].
111.8. Рекуррентные оценки
Перенумеруем алгоритмы а0, ..., а и в порядке неубывания числа ошибок n(ad,X.). Обозначим через пессимистичный метод, выбирающий алгоритмы только из подмножества Аа = {а0, ..., аа}. Рассмотрим переход от метода Ца-1 к методу Ца при последовательном добавлении алгоритмов. Допустим, что для всех алгоритмов а*, Ь < й, информация 3* = (Xtv ,X'V ,с^)>и£Уг относительно метода Ца-1 уже известна. Найдём информацию 3а и скорректируем информацию 3*. Ь < й, относительно метода Ца. Необходимость коррекции связана с тем, что алгоритм аа может «отбирать» разбиения у каждого из предыдущих алгоритмов.
Рассмотрим случай, когда в семействе А существует алгоритм а0, корректный на генеральной выборке: п(а0 X1) = 0.
Лемма 9. Алгоритм аа не имеет порождающих множеств и имеет [только одно ] запрещ[ающее множ] ество = аа] = С X], где
X'd = {хг Е X1: I(аа,хг) = 1}:
Таким образом, 3а = (0X0,,1).
Лемма 10. Коррекция информации 3*, Ь < й, сводится к проверке трёх условий для каждого V Е V* такого, что Xtv П X'd = 0:
а) если X'd \ X'tv = {хг} — одноэлементное множество, то хг присоединяется к Xtv;
б) если \Xld \ Xltv \ > 1, то множество индексов У* пополняется ещё одним элементом ,ш и полагается с^ш = —с, Xtw = Xtv,
^ = X'tv и X'а;
в) если \Xld \ Xltv\ = 0, то из множе-
ства индексов У* удаляется индекс V; соответственно из 3* удаляется вся тройка (Xtv Хьи ).
Леммы 9, 10 и теорема 7 позволяют рекуррентно вычислять вероятность переобучения Qє. На й-м шаге добавляется алгоритм аа, вычисляется информация За; затем для всех Ь < й корректируется информация З4, вероятности Рр0 и обновляется текущая оценка Qє. После В-го шага она даёт точное значение вероятности переобучения.
Рекуррентная процедура может оказаться вычислительно неэффективной, если условие б) будет выполняться слишком часто. Каждый раз это приводит к добавлению ещё одного слагаемого в сумму (17). Оказывается, время вычисления можно сокращать, жертвуя точностью оценки.
Теорема 11. Если при Сі/и = 1 не выполнить условие б), то вычисленная оценка Qє не уменьшится.
Рассмотрим упрощённую рекуррентную процедуру, в которой проверка б) не выполняется никогда. Тогда условие в) также никогда не будет выполняться. В результате каждому алгоритму аа будет соответствовать только одна тройка
,Xld,1), \Уа\ = 1, что позволяет выразить верхнюю оценку вероятности переобучения через профиль расслоения и связности множества алгоритмов А.
ІІІ.9. Профиль расслоения и связности
Множество алгоритмов А разбивается на слои Ат = {а Є А: n(a,XЬ) = т}. Связностью д(а) алгоритма а Є А будем называть число алгоритмов в следующем слое, допускающих ошибки на тех же объектах, что и а:
Я(а) = #{^ Є Ап(а,Хь)+1 :
І(а,х) ^ І(а',х),х Є XЬ}.
Образно говоря, связность д(а) — число способов, которыми вектор ошибок алгоритма а может быть «испорчен» ещё на одном каком-то объекте, если рассматривать всевозможные векторы ошибок алгоритмов множества А.
Графом связности, или, просто, графом множества алгоритмов А, будем называть направленный граф, вершины которого соответствуют алгоритмам, а рёбрами (а,а) соединяются пары алгоритмов, для которых п(а'XЬ) = n(a,XЬ) + 1 и
I(а,х) ^ I(а',х) для всех х Е X1. Тогда связность д(а) алгоритма а — число рёбер графа, исходящих из вершины а.
Пример. На рис. 3 слева показана двумерная линейно разделимая выборка длины Ь = 10, состоящая из объектов двух классов, по 5 объектов в каждом классе. Справа построен граф связности множества линейных алгоритмов классифика-
ции для данной выборки. По вертикальной оси отложены номера слоёв т. Единственная точка на графе при т = 0 соответствует алгоритму, разделяющему объекты на два класса без ошибок; следующий слой т =1 содержит всевозможные алгоритмы, разделяющие выборку на два класса с одной ошибкой (для данной выборки их оказалось ровно 5); слой т =2 содержит уже 8 алгоритмов и т. д.
10 12
Рис. 3. Исходная выборка и граф связности множества линейных алгоритмов классификации
Теорема 12. Если векторы ошибок всех алгоритмов из А попарно различны, и(а0X) = 0, и Дтд — число алгоритмов в т-м слое со связностью д, то
к 1 с^—У
Е <2°)
т=\£к~\ д=0 1
Согласно оценке (20) наибольший вклад в вероятность переобучения вносят алгоритмы с малым числом ошибок начиная от т = \ек]. По мере увеличения т комбинаторный множитель С<1——1т—(1 /С. убывает экспоненциально.
Второй вывод состоит в том, что увеличение связности д улучшает оценку. В экспериментах с линейными алгоритмами классификации среднее значение связности д с высокой точностью совпадало с размерностью пространства параметров. При увеличении размерности пространства возникают два противонаправленных эффекта: с одной стороны, увеличивается число алгоритмов в каждом слое, что приводит к росту Q£; с другой стороны, увеличивается связность д, что приводит к уменьшению Q£.
Предварительные эксперименты показали также, что профиль расслоения и связности Дтд для некоторых семейств алгоритмов с высокой точностью является сепарабельным: Дтд ^ ДтХд, где Дт — коэффициент разнообразия т-го слоя, Хд — доля алгоритмов т-го слоя, имеющих связность д. Вектор (Дп)П=0 логично называть профилем расслоения, а вектор (Хд).=0 — профилем связности множества алгоритмов А. Профиль связности удовлетворяет условию нормировки
£1=0Х» = 1.
На рис. 4 показаны графики зависимости Дтд от т и д для множества линейных алгоритмов классификации и линейно разделимых двумерных выборок длины Ь = 20, 50, 100, 200. Хорошо видно, что профиль связности концентрируется в точке д = 2, что совпадает
с размерностью пространства. С увеличением длины выборки доминирование данной компоненты профиля усиливается (вычислительные эксперименты, представленные на рис. 3 и 4, выполнены студентом
4-го курса ВМиК МГУ Ильёй Решетня-ком).
О о
Рис. 4. Профили расслоения и связности для двумерных выборок длины Ь = 20, 50, 100, 200. Профиль Атд — количество алгоритмов с числом ошибок т на генеральной выборке и связностью q
В терминах профилей расслоения и связности слегка ухудшенная оценка (20) принимает следующий вид:
т=\єк]
4--------
сі
4=0
£
Ьт
V С-оценка
поправка на связность
Первая часть этой оценки представляет собой в точности VC-оценку (13), выраженную через профиль расслоения для частного случая, когда множество А содержит алгоритм а0, корректный на генеральной выборке, n(a0,X1) = 0.
Вторая часть представляет собой «поправку на связность». Она быстро убывает с ростом д, что делает оценку существенно более точной, чем классическая VC-оценка (13) и чем оценка, учитывающая только профиль расслоения.
При известной Ь х В-матрице ошибок вычисление по формуле (20) занима-
ет О (В) операций, тогда как упрощённая рекуррентная процедура является более ресурсоёмкой и требует О (В2) операций. Если профиль расслоения и связности Дтд каким-то образом удалось оценить заранее, то вычисления займут О(Ь2) операций, что в реальных ситуациях существенно меньше, чем О (В). Если же профиль Дтд представлен в виде разложения ДтХд, то вычисления займут О(Ь) операций, что уже совершенно приемлемо для практических приложений.
Работа поддержана РФФИ (проекты №№08-07-00422, 08-07-00401, 08-07-00304) и программой ОМН РАН «Алгебраические и комбинаторные методы математической кибернетики и информационные системы нового поколения».
Литература
1. Журавлёв Ю.И. Корректные алгебры над множествами некорректных (эври-
к
і
ч
стических) алгоритмов. Часть I // Кибернетика. — 1977. — № 4. — С. 5-17.
2. Журавлёв Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. Часть II // Кибернетика. — 1977. — № 6. — С. 21-27.
3. Журавлёв Ю.И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. Часть III // Кибернетика. — 1978. — № 2. — С. 35-43.
4. Журавлёв Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. — 1978. — Т. 33. — С. 5-68.
5. Рудаков К.В. Универсальные и локальные ограничения в проблеме коррекции эвристических алгоритмов // Кибернетика. — 1987. — № 2. — С. 30-35.
6. Рудаков К.В. Полнота и универсальные ограничения в проблеме коррекции эвристических алгоритмов классификации // Кибернетика. — 1987. — № 3. — С. 106-109.
7. Рудаков К.В. Симметрические и функциональные ограничения в проблеме коррекции эвристических алгоритмов классификации // Кибернетика. — 1987. — № 4. — С. 73-77.
8. Рудаков К.В. О применении универсальных ограничений при исследовании алгоритмов классификации // Кибернетика. — 1988. — № 1. — С. 1-5.
9. Таханов Р.С. Предикатное задание универсальных ограничений в алгебраическом подходе к задачам распознавания // ЖВМ и МФ. — 2007. — Т. 47, № 3. — С. 527-532.
10. Таханов Р.С. Максимальные предикатные задания множеств отображений // ЖВМ и МФ. — 2007. — Т. 47, № 9. — С. 1636-1648.
11. Рудаков К.В., Чехович Ю.В. Критерии полноты моделей алгоритмов и семейств решающих правил для задач классификации с теоретико-множественными ограничениями // Доклады РАН. — 2004. — Т. 394, № 4.
12. Вапник В.Н., Червоненкис А.Я. О равномерной сходимости частот появления событий к их вероятностям // ДАН СССР. — 1968. — Т. 181, № 4. — С. 781-784.
13. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. — М.: Наука, 1974.
14. Vapnik V. Statistical Learning Theory. — Wiley, New York, 1998.
15. Воронцов К.В. Комбинаторный подход к оценке качества обучаемых алгоритмов / / Математические вопросы кибернетики / под ред. О. Б. Лупанова. — М.: Физматлит, 2004. — Т. 13. — С. 5-36.
16. Vorontsov K. V. Combinatorial probability and the tightness of generalization bounds // Pattern Recognition and Image Analysis. — 2008. -V. 18, N. 2. — P. 243-259.
17. Воронцов К.В. Точные оценки вероятности переобучения // Доклады РАН. — 2009 (в печати).
18. Vorontsov K. V. Splitting and similarity phenomena in the sets of classifiers and their effect on the probability of overfitting // Pattern Recognition and Image Analysis. — 2009. — V. 19, N. 3. — P. 412-420.
19. Иванов М.Н., Воронцов К.В. Отбор эталонов, основанный на минимизации функционала полного скользящего контроля // Всеросс. конф. Математические методы распознавания образов-14. — М.: МАКС-Пресс, 2009. — С. 119-122.
20. Бурбаки Н. Теория множеств. — М.: Мир, 1965.
21. Vorontsov K.V. On the influence of
similarity of classifiers on the probability of overfitting // Pattern Recognition and Image Analysis: new information
technologies (PRIA-9). — V. 2. — Nizhni Novgorod, Russian Federation, 2008.
P. 303-306.
22. Langford J. Quantitatively Tight Sample Complexity Bounds: Ph.D. thesis / Carnegie Mellon Thesis. — 2002.
23. Herbrich R., Williamson R. Algorithmic luckiness // Journal of Machine Learning Research. — 2002. — N. 3. — P. 175-212.
24. Philips P. Data-Dependent Analysis of Learning Algorithms: Ph.D. thesis / The Australian National University, Canberra. — 2005.
25. Lugosi G. On concentration-of-measure inequalities. — Machine Learning Summer School, Australian National University, Canberra. — 2003.
26. Sill J. Monotonicity and connectedness in learning systems: Ph.D. thesis / California Institute of Technology. — 1998.
27. Ботов П.В. Точные оценки вероятности переобучения для монотонных и унимодальных семейств алгоритмов // Всеросс. конф. Математические методы распознавания образов-14. — М.: МАКС-Пресс, 2009. — С. 7-10.
28. Фрей А.И. Точные оценки вероятности переобучения для симметричных семейств алгоритмов // Всеросс. конф. Математические методы распознавания образов-14. — М.: МАКС-Пресс, 2009. -С. 66-69.
Поступила в редакцию 15.09.2009.