Некоторые вопросы оценивания качества методов построения решающих функций

Неделько Виктор Михайлович

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2013 Управление, вычислительная техника и информатика № 3(24)

УДК 519.246

В.М. Неделько

НЕКОТОРЫЕ ВОПРОСЫ ОЦЕНИВАНИЯ КАЧЕСТВА МЕТОДОВ ПОСТРОЕНИЯ РЕШАЮЩИХ ФУНКЦИЙ

Работа посвящена проблеме оценивания качества методов построения решающих функций в задачах классификации. Исследуется возможность использования подхода, основанного на задании эталонного набора тестовых задач, а также связь данной проблемы с проблемой оценивания риска в задаче классификации, в частности нахождения распределений, при которых погрешность оценки риска максимальна. Предлагается метод использования полученных ранее результатов о максимальном смещении эмпирического риска для гистограммного классификатора для получения эмпирических оценок риска.

Ключевые слова: распознавание образов, машинное обучение, решающая функция, вероятность ошибочной классификации, эмпирический риск.

Решение задач построения решающих функций (интеллектуальный анализ данных, машинное обучение, статистические решения, распознавание образов, классификация с учителем) остаётся в настоящее время слабоформализованной областью, в которой качество получаемых решений существенно зависит от опыта и интуиции исследователя. Такое положение вызвано тем, что существует большое число различных методов решения, подходящих для одних и тех же задач, и в то же время практически отсутствуют формализованные рекомендации по выбору метода для заданной задачи.

Рассмотрим следующую общую схему решения прикладной задачи анализа данных:

1. Определение класса задач, к которому принадлежит задача, требующая решения.

2. Установление методов, подходящих для решения данного класса задач. Методы следует упорядочить по перспективности.

3. Применение метода, выглядящего наиболее перспективным.

4. Оценивание качества полученного решения.

5. Если полученное качество неудовлетворительно, выбираем следующий метод и возвращаемся к 3.

Как можно заметить, ни один из приведённых шагов до настоящего времени не систематизирован в достаточной степени. Более того, существуют противоположные точки зрения на то, как их следует проводить.

Проанализируем каждый из этапов.

Задачи анализа данных можно классифицировать по разным признакам.

Наиболее очевидная классификация по «техническим» характеристикам: число переменных, типы переменных, объём данных и т.п. Понятно, что подобные особенности задачи в некоторой мере определяю выбор метода, но получаемые классы задач и соответственно классы подходящих методов остаются слишком широкими.

Более плодотворной выглядит классификация по наличию и виду априорной информации о модели данных. Если есть основания считать данные выборкой из распределения заданного параметрического семейства, то естественно выбирать метод, специализированный для данного случая. Вместе с тем, в большинстве прикладных задач нет оснований предполагать определённый класс распределений и параметрические методы неприменимы.

В настоящей работе будем основываться на подходе, предложенном в системе «Полигон» в 80-х годах [1]. Идея подхода заключается в следующем принципе формирования набора тестовых задач: для каждого алгоритма подбираются задачи, которые этим алгоритмом эффективно решаются (на которые этот метод ориентирован), и все методы тестируются на объединённом наборе таких задач.

Подход основан на естественном постулате, что существование метода оправдано тогда и только тогда, когда существуют задачи, на которых данный метод работает лучше других, либо если метод является универсальным, т.е. на широком классе задач работает достаточно хорошо, хотя, возможно, хуже специализированных методов. Чтобы обосновать метод при таком подходе как раз нужно подобрать задачи, на которые он ориентирован, и исследовать, не окажется ли на этих задачах лучшим некоторый другой метод.

Для следующего шага требуется упорядочить методы по ожидаемому качеству их работы на заданном классе задач. Данный пункт требует объёмных исследований: оценить эффективность каждого метода на каждом классе задач. Кроме того, выбор критерия качества метода в данном случае не очевиден, поскольку на разных задачах одного класса эффективность одного и того же метода разная.

В качестве показательного примера можно привести задачу распознавания двух образов в предположении нормальности распределений характеристик. Эта классическая задача рассматривается в числе первых в любом учебнике по дискриминантному анализу. Однако даже для этого класса задач неизвестен лучший метод решения (понятие лучшего метода тоже строго не введено, но здесь достаточно неформального представления). Действительно, если объём выборки относительно велик, мы можем с достаточной точностью оценить все параметры распределений и построить квадратичную разделяющую поверхность, которая будет вполне приемлемым решением. Однако известно, что если объём выборки мал, то лучше строить линейную разделяющую функцию, даже если нет оснований предполагать матрицы ковариаций в действительности равными. При этом нет убедительной аргументации, какой метод лучше использовать: дискриминант Фишера, метод опорных векторов или другие. Кроме того, при переходе от квадратичной к линейной функции происходит резкий скачок сложности решения, хотя интуитивно понятно, что «хороший» метод должен позволять плавно регулировать сложность решения в зависимости от объёма выборки.

Применение выбранного метода представляется наиболее понятным шагом, хотя и здесь могут быть затруднения, связанные с наличием у алгоритмов настраиваемых параметров.

Оценивание качества полученного решения - проблема, активно исследуемая в течение более полувека [2-6]. При всём разнообразии и богатстве полученных результатов для практического применения чаще всего выбирается метод скользящего контроля. Однако ряд исследований свидетельствует, что качество решения по обучающей выборке можно оценивать точнее, чем методом скользящего контроля.

Наконец, последний шаг - критерий останова - также неочевиден. До каких пор стоит пробовать новые методы в расчёте получить решение лучшего качества и когда следует остановиться - однозначных ответов не существует.

В данной работе обсуждается ряд идей и результатов, касающихся рассмотренных проблем и их взаимосвязи.

1. Постановка задачи

Для введения основных понятий рассмотрим общую постановку задачи построения решающих функций.

Пусть X - пространство значений переменных, используемых для прогноза, а Y - пространство значений прогнозируемых переменных, и пусть C - множество всех вероятностных мер на заданной с-алгебре подмножеств множества D = X х Y . При каждом c е C имеем вероятностное пространство (D, B, Pc), где

B - с-алгебра, Pc - вероятностная мера. Параметр с будем называть стратегией природы.

Решающей функцией назовем соответствие X : X — Y .

Качество принятого решения оценивается заданной функцией потерь: L : Y2 — [0, ж).

Под риском будем понимать средние потери

R (с, X) = | L (y, X (x)) Pc (dx).

D

В данной работе будем рассматривать задачу классификации, когда Y = {1,2}, и функцию потерь в виде индикатора ошибочной классификации. В этом случае риск есть вероятность ошибочной классификации.

Пусть VN = {(xi, yi) е D | i = 1, N} - случайная независимая выборка из распределения Pc, V е Dn . В большинстве случаев объём выборки N будет фиксированным, поэтому этот параметр в обозначении выборки обычно будем опускать.

Эмпирический риск определим как средние потери на выборке:

N

R V X)=N X L (У, X()).

i=1

Пусть Q : Dn —— Л - алгоритм построения решающих функций, а XqV е Л -

функция, построенная по выборке V алгоритмом Q, Л - заданный класс решающих функций.

Для фиксированного метода Q определён средний риск F (c) = E R (c, XqV ).

Метод Q , минимизирующий эмпирический риск, есть Xq)V = arg minR (V, X).

Q ХеЛ

2. Полигон тестовых задач

В 80-х годах была разработана, насколько известно автору, первая в СССР программная система для сравнения алгоритмов распознавания [1]. Данная система называлась «Полигон» и позволяла сравнивать качество решений, получаемых разными алгоритмами, на наборе тестовых задач.

Важной идеей, заложенной в системе, было то, что тестовый набор формировался из задач, на решение которых были ориентированы исследуемые алгоритмы. Таким образом, можно было оценивать, как алгоритм работает на «своих» и на «чужих» задачах.

В настоящее время существует и активно развивается новый проект [7] по разработке системы сравнения методов классификации на репозитории задач. Особенностью данного проекта можно назвать ориентацию на использование в качестве тестовых широкого набора реальных задач распознавания образов, собранных из открытых источников (в частности, известного репозитория иС1), а также задач, присланных непосредственно их постановщиками. Другая особенность -вычисление большого числа разнообразных (как известных ранее, так и оригинальных) характеристик для оценивания качества решений. В этом проекте под задачей понимается таблица данных с указанием целевой переменной (и, опционально, других параметров задачи).

Использование реальных задач в качестве тестовых является, безусловно, достоинством этого подхода, но в то же время обуславливает ряд ограничений, в частности затрудняет статистический анализ результатов и ограничивает в наборе исследуемых характеристик. Ограничения связаны с тем, что в статистической постановке таблица данных является лишь частным набором прецедентов, в то время как для детального анализа нужна полная (вероятностная) модель. Кроме того, используемая в этом подходе оценка скользящего экзамена имеет относительно большую дисперсию, поэтому любой метод может на некоторых задачах случайно получить хорошие оценки, которые не означают, что построенное решение действительно хорошее.

Таким образом, не уменьшая важности тестирования методов на реальных задачах, следует отметить актуальность разработки методов исследования алгоритмов на синтетических данных.

Первым нетривиальным моментом в этом направлении является выбор тестовой единицы (т.е. объекта, на котором тестируется метод).

Основным требованием к такому выбору выдвинем возможность введения понятия оптимального на данной тестовой единице метода классификации, так чтобы это понятие было содержательным.

Понятно, что для одной выборки даже понятие оптимального решающего правила не является содержательным.

На первый взгляд, напрашивается в качестве тестовой единицы использовать распределение. Однако при заданном распределении определено понятие оптимального (байесовского) решающего правила, но понятие оптимального метода обучения будет вырожденным: оптимальным будет, очевидно, метод, который независимо от обучающей выборки будет давать в качестве результата байесовское решающее правило.

Понятие оптимального метода обучения становится содержательным, только если рассматривать в качестве тестовой единицы целый класс распределений.

Заметим, что при проведении, например, конкурсов по анализу данных, наилучший метод определяется не по классу распределений и даже не по распределению, а по частной выборке. Но это возможно только потому, что есть скрытая информация (тестовая часть выборки), которую разработчики методов не знают. Однако в нашем случае метод обучения - это всего лишь некоторое отображение множества выборок во множество решений, и непонятно как требование «метод

не должен знать ответов для тестовой выборки» задать в виде формальных ограничений на класс отображений из DN в Л .

Итак, под тестовой единицей будем понимать класс распределений.

Естественным критерием качества метода на заданном распределении является средний риск. Чтобы определить качество метода на классе распределений, нужно решить проблему многокритериальности: на разных распределениях метод имеет разное качество. Поскольку вводить какую-либо меру на распределениях нет оснований, усреднять качество нет возможности, то напрашивается использовать минимаксный подход. Применить последний непосредственно также не получится, так как полученная величина будет отражать только качество методов на «худшем» распределении, что неинформативно.

Один из вариантов решения данной проблемы - это приписать каждому распределению некоторую величину b (с) - назовём её базовым уровнем риска.

Тогда в качестве содержательной меры качества метода на классе распределений С с С можно использовать, например, величину sup (F (с)- b (с)).

сеС

Таким образом, в роли тестовой единицы выступает пара (С, b (•)) .

Класс распределений может конструироваться на основе класса решающих правил, которыми оперирует рассматриваемый метод. Например, для методов, основанных на решающих деревьях, будет естественным рассмотреть классы кусочно-постоянных распределений, с областями постоянства из разбиений, задаваемых случайными деревьями.

3. Оценивание риска

Одним из важнейших направлений в области машинного обучения являются исследования по проблеме переобучения, которая заключается в том, что при ограниченном объёме выборки относительно сложные методы построения решающих функций проигрывают по качеству более простым [3]. Для выбора адекватной сложности метода требуется оценивать качество решения (вероятность ошибочной классификации, или риск), не используя при этом контрольную выборку.

Существуют точечные и интервальные оценки риска. К первым относятся эмпирический риск, оценка скользящего экзамена, bootstrap и др. Качество точечных оценок естественно характеризовать средним квадратом отклонения от оцениваемой величины. Однако такая характеристика позволяет сравнивать оценки друг с другом, выбирая лучшую, но не даёт достаточной информации, к какой мере можно полагаться на полученное численное значение оценки риска в конкретной задаче. Последнее требует построения интервальных оценок. Наиболее известной интервальной оценкой риска является оценка Вапника - Червоненкиса [2].

В настоящей работе развивается подход, основанный на явном нахождении распределений, при которых погрешность оценок максимальна. Это, однако, не означает, что мы будем ориентироваться на «худший случай» с точки зрения ожидаемого качества классификации, поскольку большая погрешность оценки риска не означает большое значение риска, и распределения, при которых погрешность оценки максимальна, ни в коей мере не являются «плохими» Скорее наоборот, на действительно «плохих» распределениях можно очень точно оценить вероятность ошибочной классификации.

Заметим, что оценки Вапника - Червоненкиса являются чрезмерно пессимистичными именно из-за того, что они «ориентированы на худший случай». Но здесь играет роль не то, что предполагается «худшее» распределение [8], а, в частности, то, что допускаются любые методы классификации, в том числе методы, у которых классификаторы максимально различны (не учитывается эффект «сходства классификаторов» [9]).

Как будет показано далее, распределение, доставляющее максимальное смещение эмпирического риска для гистограммного классификатора (а смещение этой оценки даёт основной вклад в её погрешность) является вполне типичным.

Смещением эмпирического риска является величина S(с) = F (с)- F (с), где F (с) = E R (с, XQV), F (с) = E R (с, XQV).

Задача нахождения максимального смещения эмпирического риска состоит в вычислении

S(Fn )= max S (с). (1)

V 7 с:і?(с )=Fn

Здесь нас интересует не безусловно максимальное значение смещения, а максимальное смещение при условии заданного значения ожидаемого эмпирического риска. Такая постановка объясняется тем, что на практике нас интересует значение риска при известном (полученном на исследуемой таблице данных) значении эмпирического риска.

Очевидно, что

S (Fn ) = F (Fn)-Fn, где F (Fn )= инк - F (с),

c.F1 (с)=Fn

и F-1 (Fn) = F (Fn), где F (Fn) = imp F F (с).

c:F (с )=Fn

Последнее соотношение полезно тем, что для функции F (Fn) для рассмотренной ниже задачи получено простое приближённое выражение.

Рассмотрим метод, называемый «гистограммный классификатор», который удобен для исследования тем, что позволяет делать аналитические выкладки [5], а также простотой метода классификации и отсутствием в методе каких-либо характеристик, учёт которых мог бы уточнить оценки [9, 10].

Пусть X дискретно, то есть X = {1, ..., к}. Тогда вероятностная мера с є C задается набором вероятностей

с = {^ = P(х = j,-У = ю) I j = 1,к, го = 1,2}.

Обозначим

a j = Р (х = і) = qj +q2 , p} = Р (у = Vх = і) , = 1 - Pj , с} = (а j, Pj ) .

Будем рассматривать алгоритм Q , который минимизирует эмпирический риск независимо в каждой точке х пространства X, т.е. приписывает образ с наибольшей выборочной частотой в этой точке и принимает равновероятно значения 1 и 2 при равенстве частот. Метод Q называется гистограммным классификатором.

Пусть N > к . Оказывается [9], что распределение, на котором достигается значение смещения, не более чем на 1/к отличающееся от максимального, имеет следующий вид:

а 1 =а', Р] = Р' , 1 = 1,..., к - ^ ак = 1 - 1-1, = °.

Иными словами, «наихудшее» распределение является равномерным, за исключением одной «ячейки», куда помещается «излишек» вероятности.

Значения а' и р' определяются следующим образом. При Р0 < р имеем а' = N , а р' вычисляется на основе Р0. При Р0 > Рт имеем р' = 0,5, а а' вычисляется на основе Р°. Здесь Рт - математическое ожидание эмпирического риска при а' = -1, р' = 0,5 .

На рис. 1 левая диаграмма показывает максимальное смещение эмпирического риска в зависимости от относительного объёма выборки М = N ■

Представляет интерес сравнение полученных для гистограммного классификатора точных оценок смещения эмпирического риска со сложностными оценками Вапника-Червоненкиса. Такое сравнение показывает, что для гистограммного классификатора оценки Вапника-Червоненкиса завышают смещение эмпирического риска в 2 - 3 раза [8].

Оказывается, что для функции максимального смещения выполняется приближённое соотношение

( \

1 --

^1 + 4Р0 М

где 0 = (1 -2©)->/з , а ©И0,163 .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Хотя последнее выражение получено для гистограммного классификатора, практика показывает, что оно может использоваться как оценка смещения эмпирического риска и в других задачах. Для этого нужно в качестве М использовать

М * = і ії-^12 -

ч-‘ - 2 Р

~ *

где Р - среднее значение эмпирического риска, полученное при статистическом моделировании на распределениях с пересекающимися классами (при «нулевой» гипотезе).

4. Численные эксперименты

В случае непрерывного пространства переменных можно задать распределения, «похожие» на распределение, доставляющее максимальное смещение эмпирического риска для гистограммного классификатора.

Проанализируем распределения, доставляющие максимальное смещение эмпирического риска. Эти распределения можно получить, максимизируя ожидаемый риск при фиксированном Р0 либо минимизируя ожидание эмпирического риска при фиксированном среднем риске г0 .

Рассмотрим, как меняется экстремальное распределение при изменении Г° .

При Г° = 0,5 минимум Р достигается на равномерном распределении в Б, т.е. когда все а ] = к, р] = 0,5.

При уменьшении Г0 все Pj остаются равными 0,5, за исключением одного,

например последнего, которое становится равным 0 или, что эквивалентно, 1. При этом вероятность перераспределяется в эту «ячейку», т.е. аj увеличивается соответственно уменьшению Г0.

При дальнейшем уменьшении Г0 перераспределение вероятности продолжается до тех пор, пока а' не уменьшится до N. После этого а' не меняется, а начинает меняться р'.

Рис. 1. Максимальное смещение эмпирического риска.

Оценка смещения эмпирического риска методом статистического моделирования

Легко заметить, что полученные распределения характеризуются тем, что пространство X оказывается разбитым на две подобласти: в одной из которых байесовский уровень ошибки нулевой, а в другой - значительный. Подобную особенность распределения легко обеспечить в непрерывном случае.

Пусть X = [0,1]” - ”-мерный гиперкуб, на котором задано равномерное распределение.

условную вероятность первого класса при попадании в точку х. Будем задавать g(х) в виде

Иными словами, g (х) является кусочно-постоянной, первая область постоянства есть гиперкуб объёма 9, вторая - дополнение внутреннего гиперкуба до единичного.

Первое семейство распределений (назовём его моделью А) зададим следующим образом: параметр 9 положим равным некоторой константе 90, g2 = 1, а

параметр g1 изменяется от 0 до 0,5; далее полагаем g1 = 0,5, а 9 изменяем от 90 до 0. Заметим, что данное семейство задано в некотором смысле «по подобию» распределений, доставляющих максимум смещения эмпирического риска для гистограммного классификатора.

Для сравнения будем рассматривать также другое семейство распределений (назовём его моделью В), которое задаётся следующим образом: 9 = 0,5, g1 = g', g1 = 1 -g', где g' задаёт байесовский уровень ошибки и изменяется от 0 до 0,5.

На правой диаграмме рис. 1 приведены результаты статистического моделирования для метода направленного построения деревьев решений. Обозначения: 1 -оценка £(•) при М = 4, 2 - моделирование на стратегии А с параметром 90 = 0,83 , 3 - моделирование на стратегии В.

Значение параметра сложности М можно подобрать с помощью моделирования на равномерном распределении.

Таким образом, рассмотрена проблема создания полигона тестовых задач для исследования качества методов построения решающих функций.

Предложено в качестве тестовых единиц в таком полигоне использовать специальным образом подобранные классы распределений. Классы распределений подбираются так, чтобы статистическое моделирование на них по возможности полно отражало особенности тестируемого метода обучения. Это, в частности, означает, что класс распределений должен являться параметрическим семейством, один из параметров которого есть наименьшее достигаемое значение риска в заданном классе решающих правил.

Другим важным параметром является величина смещения эмпирического риска.

Установлено, что для гистограммного классификатора «наихудшее» распределение (для которого смещение эмпирического риска максимально) является смесью равномерного (по X) распределения и распределения, сосредоточенного в одной точке.

Подобного вида распределения легко могут быть заданы и в непрерывном пространстве переменных. Результаты статистического моделирования для задачи

Чтобы полностью определить меру Р , осталось задать g (х) = Р (у = 1/х)

Заключение

классификации с помощью деревьев решений позволяют предположить, что на таких распределениях будет достигаться максимальное смещение эмпирического риска и для других (помимо гистограммного) методов классификации.

ЛИТЕРАТУРА

1. Лбов Г.С., Старцева Н.Г. Сравнение алгоритмов распознавания с помощью программной системы «Полигон» // Анализ данных и знаний в экспертных системах. Новосибирск. Вычислительные системы. 1990. Вып.134. С. 56-66.

2. ВапникВ.Н., ЧервоненкисА.Я. Теория распознавания образов. М.: Наука, 1974. 415 с.

3. ЛбовГ.С. Выбор эффективной системы зависимых признаков // Вычислительные системы. Новосибирск., 1965. Вып. 19. C. 21-34.

4. Лбов Г.С., Старцева Н.Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Институт математики СО РАН, 1999. 211 с.

5. Braga-Neto U. and Dougherty E.R. Exact performance of error estimators for discrete classifiers // Pattern Recognition, Elsevier Ltd. 2005. V. 38. Na 11. P. 1799-1814.

6. Langford J. Quantitatively tight sample complexity bounds. Carnegie Mellon Thesis. 2002. http://citeseer.ist.psu.edu/langford02quantitatively.html. 130 p.

7. Воронцов К.В., Ивахненко А.А., Инякин А. С. и др. «Полигон» - распределённая система для эмпирического анализа задач и алгоритмов классификации // Всерос. конференция «Математические методы распознавания образов-14». М.: МАКС Пресс, 2009. С. 503506.

8. Неделько В.М. О точности интервальных оценок вероятности ошибочной классификации, основанных на эмпирическом риске // Всерос. конференция «Математические методы распознавания образов-14». М.: МАКС Пресс, 2009. С. 56-59.

9. Неделько В.М. Точные и эмпирические оценки вероятности ошибочной классификации. // Научный вестник НГТУ. Новосибирск: Изд-во НГТУ, 2011. № 1(42). С. 3-16.

10. Nedelko V.M. Estimating a quality of decision function by empirical risk // LNAI 2734. Machine Learning and Data Mining in Pattern Recognition. Third International Conference, MLDM 2003, Leipzig. Proceedings. Springer-Verlag. P. 182-187.

11. Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н. Сравнительный анализ мощности критериев согласия при близких альтернативах. II. Проверка сложных гипотез // Сибирский журнал индустриальной математики. 2008. Т.11. № 4(36). С. 78-93.

12. Неделько В.М. Оптимизация оценки вероятности ошибочной классификации в дискретном случае // Classification, Forecasting, Data Mining. Int. Book Series «Information Science and Computing», №з. 8. Supplement to the Int. J. «Information Technologies and Knowledge», V. 3. ITA, FOI ITHEA, Sofia, 2009. P. 47-54.

Неделько Виктор Михайлович

Институт математики СО РАН (г. Новосибирск)

E-mail: [email protected] Поступила в редакцию 15 мая 2012 г.

Nedelko VictorM. (Institute of Mathematics SB RAS. Novosibirsk). Some aspects of estimating a quality of decision functions construction methods.

Keywords: pattern recognition, machine learning, decision function, misclassification probability, empirical risk.

The paper is devoted to a problem of estimating a quality of decision functions construction methods in classification (pattern recognition) task. An approach based on constructing some special set of testing tasks is investigated. As the testing tasks the distributions delivering the maximal bias of empirical risk are, in particular, used. The statistical modeling performed allows to evaluate an applicability of the results obtained.

Некоторые вопросы оценивания качества методов построения решающих функций Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Неделько Виктор Михайлович

Похожие темы научных работ по математике , автор научной работы — Неделько Виктор Михайлович

Some aspects of estimating a quality of decision functions construction methods

Текст научной работы на тему «Некоторые вопросы оценивания качества методов построения решающих функций»