УДК 519.688 Дата подачи статьи: 09.09.15
DOI: 10.15827/0236-235X.114.041-046
ПРЕПРОЦЕССОРНАЯ ОБРАБОТКА МНОЖЕСТВ ПРЕЦЕДЕНТОВ ДЛЯ ПОСТРОЕНИЯ РЕШАЮЩИХ ФУНКЦИЙ В ЗАДАЧАХ КЛАССИФИКАЦИИ
Н.И. Гданский, д.т.н.., профессор, [email protected]; Н.Л. Куликова, к.т.н.., доцент, kulikovanlQmpei-ru; А.М. Крашенинников, старший преподаватель, lifehouse@list-ru (Российский государственный социальный университет, ул. Вильгельма Пика, 4, г. Москва, 129226, Россия)
Рассмотрена актуальная проблема наличия ошибок в обучающих выборках, предназначенных для последующего построения по методу прецедентов решающих функций, используемых в задачах классификации новых объектов.
Исследованы основные причины возникновения данных ошибок и их влияние на построение классификаторов.
На основе геометрической интерпретации задачи классификации предложены методы, позволяющие не только анализировать качество обучающей выборки, но и выявлять возможные причины ошибок, содержащихся в ней, а также выполнять их коррекцию, необходимую для последующего построения эффективного классификатора.
Для численного учета общих долей удаляемых и корректируемых выбросов в обучающей выборке предложено использовать соответствующие предельно допустимые пороговые величины. По ним даны рекомендации для основных предметных областей.
В алгоритме анализа прецедентов использована специальная мера близости одиночного объекта к произвольному классу, аналогичная методу ближайшего соседа, но с той разницей, что соседство определяется не по одной ближайшей точке, а по нескольким.
Сложность предложенных алгоритмов анализа и коррекции обучающих выборок является полиномиальной по числу точек в обучающей выборке: в первом случае квадратичная, во втором линейная.
Получаемая в результате коррекции новая обучающая выборка задает более плавные границы классов в пространстве значений признаков. Вследствие этого данные множества точек в большей степени удовлетворяют гипотезе компактности и в результате дают решающие функции с более простой структурой, требующие затем меньше вычислительных операций на решение задачи классификации.
Ключевые слова: задача классификации, классификатор, решающая функция, обучающая выборка, прецедент, ошибочные данные, анализ, коррекция.
В последнее время интенсивно развивается группа методов под общим названием Data Mining, ориентированных прежде всего на обработку массивов данных значительного размера, содержащих информацию об интересующих объектах, с целью извлечения из них сведений требуемого вида [1, 2]. Как правило, на первом этапе исследования выделяемых объектов решается задача классификации, в которой каждый такой экземпляр должен быть отнесен к какому-либо из уже известных непересекающихся классов объектов Ai из общей совокупности {A} = {Ai, A2, ..., Ak}. Обычно индивидуальные свойства исследуемых объектов выражают через значения их существенных характерных числовых признаков: {х} = {xi, х2, ..., хи}. При этом каждому исследуемому объекту с номером s взаимно-однозначно соответствует своя точка a =
= {ais, a2s, ..., a„s} в и-мерном пространстве значений признаков U, на котором введена некоторая мера р. Такой подход позволяет геометрически иллюстрировать методы классификации в и-мерных метрических пространствах. В частности, в работах [3, 4] для построения классификатора предложено использовать специальное бинарное дерево решений, у которого в качестве узловых правил используются гиперплоскости в U, нормальные к межцентровым векторам разделяемых множеств.
Наряду с задачей формирования адекватного набора признаков {х}, передающего все существенные характеристики исследуемых объектов, значительную проблему при получении исходных данных о реальных системах создают погрешности в получаемых элементах информационного массива, вызванные ошибками измерения, помехами и шумами. Поэтому для результативного обследования реальной системы с целью извлечения информации о некоторых объектах, содержащихся в ней, необходимо выполнение следующих двух основных условий: правильное выделение набора числовых признаков {х}, адекватно характеризующих все существенные свойства исследуемых объектов, и учет влияния погрешностей на получаемые исходные данные задачи классификации.
Обработка зашумленных данных является многогранной проблемой, решаемой как в статистических методах, так и в задачах искусственного интеллекта. Предварительный анализ экспериментальных данных, имеющих вид случайной величины, сделан в [5, 6]. В работе [7] рассматриваются вопросы моделирования рассуждений на основе прецедентов и классификации в условиях таких данных в интеллектуальных системах поддержки принятия решений. В работах [8, 9] представлено несколько расчетных схем, позволяющих выделять
детерминированные компоненты из временных рядов с аддитивной хаотической погрешностью.
В данной статье предлагаются методы, позволяющие на основе геометрической интерпретации задачи классификации не только проанализировать качество обучающей выборки, но и выявить возможные причины ошибок, содержащихся в ней, выполнить их коррекцию, необходимую для построения эффективного классификатора.
В задаче классификации объект должен быть отнесен к какому-либо из уже известных непересекающихся классов объектов, входящих в их совокупность {A} = {Ai, A2, ..., Ak}. Смысловой вариант определения задачи классификации нового, ранее неизвестного объекта at eU относительно выделенной на U совокупности классов { A } заключается в выяснении включения at в один из классов данной совокупности:
at eAi, где Ai c{A}. (1)
Ответом в задаче является номер i класса A¿, в который включается объект at. Математическую модель ц (формульную, алгоритмическую и др.), решающую задачу (1) для любой заданной точки at e U, называют классификатором либо решающей функцией. Он задает отображение вида ц : (a) ^ {A}. (2)
В реальных задачах для заданной совокупности классов {A} решающая функция ц формируется на основе обучения - обработки набора прецедентов (обучающей выборки) [7, 10] - совокупности пар вида Р = {р*} = {(a, cls)}, где as = (ais, fl2s, ..., a„). В них не только заданы координаты некоторой задающей объект точки as eU, но и явно при помощи
методов из предметной области указано, в какой из классов {A} входит данная точка (и соответствующий ей объект): as eAc¡s. Обозначим общий объем обучающей выборки через NN, а число объектов в классах из {A} - через Ni, Nk, (Ni +.+Nk = NN).
Одним из необходимых условий успешного применения геометрического подхода к построению классификатора, основанного на соответствующей интерпретации пространства признаков U, является выполнение гипотезы компактности, по которой отдельным классам {А}, содержащим близкие по свойствам объекты, в геометрическом пространстве значений признаков U соответствуют обособленные непересекающиеся сгустки (классы), которые могут быть разделены в пространстве U достаточно простыми гиперповерхностями.
Допустим, требуется разработать автоматический классификатор ц, решающий задачу (2) на основании обучающей выборки Р, представляющей собой набор проб, образцов с определенной какими-либо методами из предметной области их принадлежностью к классам {А}. Ошибки в выделении набора числовых признаков {х}, шумы в ис-
ходных данных приводят к тому, что в прецедентах нарушается правильность отображения ц в задаче (2), то есть точке а может быть сопоставлен неверный класс с4. Назовем такую ситуацию выбросом. Наличие выбросов в обучающей выборке Р дает существенное нарушение гипотезы компактности и значительно затрудняет как построение решающей функции ц, так и последующее решение задачи классификации.
Вспомогательные обозначения.
Постановка задачи
Для численного учета общей доли выбросов в выборке Р предложено использовать две пороговые величины:
5о - предельно допустимая доля удаляемых выбросов, при которой можно без ущерба для общей информативности выборки Р удалить из нее все выбросы;
5: - предельно допустимая доля корректируемых выбросов, при превышении которой выборку Р уже нельзя считать достаточно информативной для решения задачи (1)-(2).
Поскольку объемы NN обучающих выборок и цели классификации существенно различаются для задач из разных предметных областей, к заданию пороговых величин 50 и 51 следует применять дифференцированный подход.
Например, при NN и п-102г п-103 (1 < п < 9) в задачах дефектоскопии, обработки кадастровых и геологических данных предельно допустимое число отбрасываемых прецедентов можно принять равным п г 10п, 50 = 0,01, а предельно допустимую долю ошибок 51 = (20г30)50 = 0,2г0,3.
При NN и п-105гп-106 в задачах классификации компонентов тканей организмов (биотехнология, медицина) 50 = 0,001, 5: = (30г50)50 = 0,03г0,05.
При наличии выбросов в Р, помимо неадекватного отображения реальной картины, построение классификатора приводит к следующим негативным последствиям:
- практическая невозможность полного разделения набора прецедентов по заданной совокупности классов {А}, что характерно для нейросетевых методов классификации;
- слишком сложная структура классификатора, получаемого в более универсальных методах, полностью решающих задачу разделения классов.
Для предотвращения данных ситуаций наиболее приемлемы либо повторное аппаратно-программное исследование реальной системы (что зачастую сложно либо вообще невозможно выполнить), либо препроцессорный анализ обучающей выборки Р с целью обнаружения выбросов с последующей коррекцией Р с учетом обеих основных причин возникновения выбросов - выделения набора адекватных числовых признаков {х} и учета влияния погрешностей при формировании Р.
Рассмотрим один из возможных путей практической реализации автоматической препроцессор-ной обработки обучающей выборки.
Анализ прецедентов
Допустим, некий объект из обучающей выборки Р задан точкой а. , которая изначально включена в класс А/с {А}. Требуется проверить правомерность включения точки а. в класс Л/ (с использованием пространства и и его меры р), а не в какой-либо другой класс из совокупности {Л}, то есть проверить, не будет ли точка а. выбросом.
Для этого предложено использовать специальную меру Я( а , Ад) близости объекта а, к произвольному классу Ад. Ее наиболее удобной функциональной реализацией представляется мера близости точки а. и множества точек Ад, аналогичная методу ближайшего соседа с той разницей, что соседство определяется не по одной ближайшей точке, а по нескольким (5) ближайшим:
Я( а , Ад) = тп{р( а , ал) + р( а , я2) +...
+ р( а,., а )},
(3)
где 1<]\<}2< ... << Ыд; а]г ф а1; (г = 1, ..., 5).
С целью сокращения общего числа операций при расчете минимума в расстоянии Я( а., Ад) для сортировки расстояний предложено использовать дискретизацию значений расстояний р( а., аг ) с
точностью до 0,05 % с кодированием их целыми числами от 0 до 1 000, которые используются в качестве индексов вспомогательного линейного массива У(1001). Для быстрого выполнения такого упорядочения надо использовать блочную (карманную, корзинную) сортировку.
В том случае, когда точка а. пространства и геометрически наиболее близка к точкам из множества {А/ \ а }, теоретически должно выполняться следующее идеальное соотношение:
Я( а., А/) = шш{Я( а., А1), Я( а., А2), .,
Я( а, А,)}. (4)
При этом для всех Ад ф А/ Я( а , Ад) > Я( а, А/). (5)
В практических расчетах минимум (или очень близкая к нему величина) в формуле (4) может достигаться не на одном классе: наряду с классом А/ такая же степень близости Я может достигаться и на другом классе из совокупности {А}. При этом в зависимости от последовательности анализа, а также погрешности вычислений возможно принятие другого класса, отличного от А/, в качестве ближайшего к а.. Для устранения влияния неединственности решения (4) и погрешности расчетов в качестве проверочного условия включения а. в А/ предложена следующая формула, использующая
явно выделенный минимум степеней близости Мк:
Ык = тп{Я( а,, А1), Я( а,, А2), ., Я( а,, А,)};
Я( а,, А/) < (1+е)Ык, (6)
где е - достаточно малое вещественное число. При таком определении все классы равноправны при определении их близости к точке а1.
Поскольку включение объекта а. в А/, как правило, неслучайно и в большинстве случаев является обоснованным, для подтверждения предпочтительности включения а. в А/ по сравнению с другими классами необходимо брать повышенные значения е. Практически выбор е зависит от решаемой задачи классификации, размерности п и выбранной меры р пространства значений признаков. По результатам расчета примеров в качестве средних значений е для основных вариантов меры р предложено принять следующие величины, обеспечивающие примерно равные допустимые отклонения для фиксированной обучающей выборки:
- квадрат евклидова расстояния е=(0,05^0,1)п;
- евклидово расстояние е=(0,2^0,3)п;
- манхэттенское расстояние е=(0,3^0,5)п. (7)
При выполнении условий (6)-(7) начальный вариант включения а. е{а}/ принимается, иначе -нет. При невыполнении условий в качестве корректирующего класса принимается тот класс Аг, на котором достигается явно выделенный минимум Мк.
Соотношения (6)-(7) позволяют разработать на их основе алгоритм анализа обучающей выборки для последующего построения классификатора для совокупности классов {А}={А:, А2, ..., А,}. Он заключается в последовательном переборе всех прецедентов = (, с/*), для каждого из которых вначале рассчитываются все расстояния {Я( а1, А1), Я( ~а!,, А2), ., Я( as, А,)}, затем определяется их минимум Мк и проверяется условие (6). Если оно выполнено, то начальное приписывание точке а1
класса с15 подтверждается. В противном случае прецедент р5 считается выбросом из обучающей выборки, в качестве корректирующего класса принимается тот класс, на котором достигается явно выделенный минимум Мк.
В двух выходных целочисленных массивах алгоритма анализа ЫУ и ЫСОЯ соответственно запоминаются номера 5 выбросов в обучающей выборке Р и номера корректирующих классов для них. Параллельно с формированием массивов ЫУ и ЫСОЯ рассчитывается доля ошибочных начальных присвоений объектов классам (выбросов), которую обозначим через 5.
Выяснение принципиальной возможности коррекции выборки Р производится путем проверки условия
5 < 51, (8)
где 5: - введенная выше предельно допустимая доля корректируемых выбросов.
Приведем алгоритм анализа обучающей выборки, в котором применяется матрица расстояний между точками M(NN х NN). Исходные данные алгоритма:
- число к выделенных классов в пространстве значений признаков;
- массив N(k) чисел объектов в классах {М, N2, ..., Nk};
- количество s ближайших точек в классе Ак к точке a, по которым вычисляется R( as, Ак);
- NN - общий объем обучающей выборки P;
- n - число характерных признаков объектов;
- массив Pr(NNxn) координат точек a. = (a1i,
a2i, ..., a„i) (1<i<NN), объектов из P, упорядоченных по принадлежности к классам Ai, А2, ..., Ак;
- массив Ncl(NN) классов объектов из P;
- е - коэффициент запаса при проверке расстояний;
- Si (deltai) - предельно допустимая доля корректируемых выбросов.
Решаемая задача: анализ выбросов в обучающей выборке.
Выходные данные:
- COR - логическая переменная, равная true, если коррекция P возможна, и false - иначе;
- общее число NB выбросов в обучающей выборке;
- доля 5 (delta) выбросов в обучающей выборке;
- массив NV (N^ номеров выбросов в обучающей выборке;
- массив NCOR(N) номеров корректирующих классов для выбросов в обучающей выборке.
В описании алгоритма номера прецедентов обозначены через No, классов - через Nc.
Описание алгоритма анализа обучающей выборки
Начальные присваивания.
N := 0; //Начальное значение числа выбросов Для No от 1 до NN { // Расчет элементов матрицы расстояний М
M[No][No]:=0;
для i от 1 до n { PR_No[i]:= Pr[No][i];}; для j от No+1 до NN{ для i от 1 до n { PR_j[i]:= Prj][i];}; M[No][ j]: = RO(n, PR No, PRJ)M[i][No];}};
Mj][No] :=M[No][ j];
};
};
first[1]:=1; last[1]:=N[1];// Формирование массивов границ классов
для Nc от 2 до к {first[Nc]:=last[Nc -1]+1; last[Nc]:= = last[Nc -1]+N[Nc];}
Шаг 1. Проход по прецедентам, определение выбросов.
Для No от 1 до NN { для Nc от 1 до к {//1.1.Проход по классам, расчет расстояний R( aNo, Anc)
{min:= M[No\[first[Nc\\;max:=min;//1.1.1.Расчет min и max расстояний
для i от (first[Nc\ +1) до last[Nc\
{е/:=М[№о\[7\;если (el<min){min:= el;}; если
(el>max){max:= el;}}; };
L:=(max - min); del:=0,001*L;//1.1.2.Инициализация и расчет элементов V
для i от 1 до 1000 { V[i\ :=0;}; для i от first[Nc\ до last[Nc\ {num:=1000*( M[No\[i\ -min)/L;
если (M[No\[i\ - min -
del*num>0.5){num:=num+1;};V[num\: =V[num\+1; };
RO[Nc\ :=0; def_s:=s; //1.1.3.Инициализация и расчет расстояния RO[Nc\ для ind от 1 до 1000 { если (V[ind\>0) {val: = min + del-ind;
если (defs > V[ind|){num:= V[ind\; def_s:= defs -V[ind\;} иначе {num:= def s; def_s:=0;} ;
RO[Nc\ := RO[Nc\ + num*val; если (def s =0){ break;}; };
};
};//Завершение прохода по классам, расчет всех расстояний до них RO[Nc\
Mk:=RO[1\;Nmin:=1;//1.2.Проход по классам, расчет минимума Mk и Nmin для Nc от 2 до k { если (Mk < RO[Nc\) { Mk:= RO[Nc\; Nmin:= Nc;}; }; Est:=(1+s)* Mk;//1.3.Проверка выброса, заполнение массивов NV, NCOR если (RO[Ncl[No\\ < Est) {continue;} иначе { №:= Nв +1; N¥[^1= No; NCOR[Nв\:= Nmin;}; }; //Завершение Шага 1
Шаг 2. Расчет коэффициента delta: delta:= N / NN.
Шаг 3. Определение возможности коррекции выборки:
COR:=true; если (delta > delta1){COR:=false;}. Завершение работы алгоритма. Если в результате анализа выборки получено значение COR = false, необходима коррекция набора признаков {х}, а возможно, и аппаратных средств исследования.
Если же выполнено условие COR=true, можно считать, что в этом случае числовые признаки {х}
адекватно отражают свойства разделяемых классов объектов и Р задает удовлетворительный по качеству массив данных. Затем выполняется переход ко второму этапу, на котором учитывается влияние погрешностей при формировании Р.
Оценим сложность алгоритма анализа обучающей выборки. Сложность расчета расстояний р( aNo, a) определяется метрикой на пространстве значений признаков U. Общее количество данных расчетов в алгоритме равно 0,5*NN*(NN-1). В алгоритме используются следующие элементарные операции: присваивание, проверка простых условий, сложение и вычитание (в процессорах с плавающей запятой выполняются сходно), умножение, деление. Поскольку алгоритм адаптивный, действительное число операций определяется соста-
вом конкретной анализируемой выборки. Результаты моделирования показывают, что при k<<NN сложность алгоритма оценивается величиной
O(NN2).
Коррекция обучающей выборки
Предложен алгоритм коррекции обучающей выборки, учитывающий результаты анализа -долю выбросов 5 в Р, массивы NV и NCOR. Предварительно производится проверка условия
5 < 5о. (9)
Если оно выполнено, можно считать, что выбросы оставляют малую долю от общего числа прецедентов. В простейшем случае выбросы просто удаляются из обучающей выборки Р. Учитывая их малое число, возможен также их индивидуальный человеко-машинный анализ. Если условие (9) не выполнено, доля выбросов достаточно велика. При их отбрасывании будет потеряна значительная часть исходной информации. Вручную проанализировать их также затруднительно из-за большого объема. Поэтому в качестве реального выхода предлагается автоматизированная коррекция выбросов, отмеченных в массиве NV. Для каждого выброса ошибочный прецедент (a., cls) заменяется прецедентом (a., clr), в котором номер r принимается из массива NCOR. При этом условие (6) корректности прецедента будет выполнено и выброс устранен.
Приведем алгоритм коррекции обучающей выборки.
Исходные данные алгоритма:
- n - число характерных признаков объектов;
- число классов k;
- NN - общий объем обучающей выборки P;
- массив Pr(NNxn) координат точек a. = (a1i,
a2i, ..., a„i) (1<i<NN), объектов из P, упорядоченных по принадлежности к классамA1,A2, ...,Ak;
- массив Ncl(NN) классов объектов из P;
- 5о (deltaO) - предельно допустимая доля удаляемых выбросов;
- общее число NB выбросов в обучающей выборке;
- доля 5 (delta) выбросов в обучающей выборке;
- массив NV размерности N номеров выбросов в обучающей выборке;
- массив NCOR размерности N номеров корректирующих классов для выбросов в обучающей выборке.
Решаемая задача: коррекция выбросов в обучающей выборке.
Выходные данные:
- NNN - общий объем новой скорректированной обучающей выборки;
- новый массив PrN (NNNxn) координат точек a = (aii, a2i, ..., a„i) (1<i<NNN);
- новый массив NclN(NNN) классов объектов из скорректированной обучающей выборки.
В описании алгоритма номера прецедентов обозначены через No, классов - через Nc.
Начальные присваивания. NNN:=0.
Шаг 1. Удаление выбросов.
Если (delta < deltaO) {NoN:=1; для No от 1 до
NN
{Если (Ncl[No]^NV[NoNj) {NNN:=NNN+1; NclN(NNN):=Ncl[No];
для i от 1 до n {PrN [NNNj[i]:= Pr [Nj[i] ;} } иначе{^^:=^^+1;}
}
}; return;
Шаг 2. Коррекция выбросов.
NoN:=1; для No от 1 до NN {
для i от 1 до n {PrN [No][i]:= Pr [No][i]; } если (Ncl[No]^NV[NoN]) {NclN(No):=Ncl[No];}
иначе{NоN:=NоN +1; NclN(No):=NCOR [No];};
}; NNN:=NN; return;
Завершение работы алгоритма.
Сложность алгоритма коррекции обучающих выборок оценивается величиной O(NN).
Получаемая в результате коррекции обучающая выборка Р задает более плавные границы классов {А} в пространстве значений признаков, в результате чего данные множества точек в большей степени удовлетворяют гипотезе компактности. Помимо устранения противоречивости входной информации, коррекция существенно упрощает отделимость классов, то есть построение решающей функции с более простой структурой обусловливает сокращение количества вычислительных операций на решение задачи классификации (1)-(2).
В заключение отметим, что предлагаемые алгоритмы анализа и коррекции обучающих выборок позволяют выявить причины противоречивости получаемой исходной информации и эффективно с вычислительной точки зрения устранить ее. Сложность алгоритма анализа квадратична по объему выборки, сложность алгоритма коррекции линейна. При необходимости алгоритмы могут быть использованы для ручного контроля уже найденных выбросов, освобождая пользователя от большого объема рутинной работы.
Необходимая дополнительная настройка алгоритмов путем задания в них оптимального числа s ближайших точек при расчете расстояния от объекта до класса, а также величин коэффициентов е, 5о, 51 должна учитывать метрику пространства значений признаков U и специфику класса решаемых задач. Изменение этих величин позволяет с использованием предлагаемых алгоритмов автоматически
получать различные варианты обучающих выборок и соответствующих классификаторов. Из них можно выбирать оптимальные по тем или иным критериям. Выполненные на конкретных выборках расчеты позволили эффективно устранить в них выбросы и значительно упростить построение классификаторов в виде бинарных деревьев с разделяющими гиперплоскостями.
Массовое практическое применение предлагаемого подхода в конкретных предметных областях (психология и социология, медицина и биотехнология, экология, материаловедение и др.) поможет не только выработать соответствующие рекомендации по выбору величин {5, е, 50, 5:}, обеспечивающих построение оптимальных классификаторов, но и, возможно, создать его специализированные модификации.
Литература
1. Барсегян А., Куприянов М., Холод И., Тесс М., Елизаров С. Анализ данных и процессов. СПб: БХВ-Петербург, 2009. 512 с.
2. Witten I.H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publ., 2005, 524 p.
3. Гданский Н.И., Крашенинников А.М., Рысин М.Л. Построение сложных классификаторов для объектов в многомерных пространствах // Инженерный вестник Дона, 2013. № 2; URL: http://ivdon.ru/ru/magazine/archive/n2y2013/1611 (дата обращения: 08.09.2015).
4. Гданский Н.И., Крашенинников А.М. Общий метод построения кусочно-линейной разделяющей поверхности для множеств объектов, заданных точками в пространстве // Изв. МГТУ МАМИ. 2013. Т. 4. № 1 (15). С. 165-171.
5. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.
6. Hastie T., Tibshirani R., Friedman J.H. The elements of statistical learning: Data mining, inference, and prediction. NY: Springer Verlag, 2001, 738 p.
7. Варшавский П.Р., Еремеев А.П. Моделирование рассуждений на основе прецедентов в интеллектуальных системах поддержки принятия решений // Искусственный интеллект и принятие решений. 2009. № 2. С. 45-57.
8. Крянев А.В., Лукин Г.В. Математические методы обработки неопределенных данных. М.: Наука, 2006. 308 с.
9. Выделение детерминированных компонент из зашум-ленных данных. URL: http://do.gendocs.ru/docs/index-241588.html (дата обращения: 08.09.2015).
10. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979. 448 с.
DOI: 10.15827/0236-235X. 114.041-046 Received 09.09.15
PREPROCESSING SETS OF PRECEDENTS TO CONSTRUCT DECISION FUNCTIONS IN CLASSIFICATION PROBLEMS Gdansky N.I., Dr.Sc. (Engineering), Professor, [email protected];
Kulikova N.L., Ph.D. (Engineering), Associate Professor, [email protected];
Krasheninnikov A.M., Senior Lecturer, [email protected] (Russian State Social University, Vilgelm Pik St. 4, Moscow, 129256, Russian Federation)
Аbstract. The article considers an important problem of errors in learning samples for subsequent construction using the method of solving functions precedents in problems of new objects classification.
The paper researches the main causes of these errors and their impact on the construction of classifiers.
Based on the geometric interpretation of a classification problem the authors propose methods to not only analyze the quality of a training sample, but also identify possible causes of the errors contained in it, as well as perform their correction required for the subsequent construction of an effective classifier.
For numerical accounting of common emission lobes, which must be removed and corrected in a learning sample, the authors propose using the corresponding maximum allowable threshold values. There are some recommendations for the main subject areas.
The algorithm of precedent analysis uses a special measure of single object proximity to an arbitrary class. It is similar to the method of the nearest neighbor with the difference that neighborhood is determined by not a nearest point but several points.
The complexity of the proposed algorithms for analysis and correction of training sets is polynomial according to the number of points in the the learning sample. In the first case it is quadratic, in the second case it is linear.
A new corrected training set sets smoother class boundaries in the space of characteristic values. Consequently, the data set of points to a greater extent satisfy the compactness hypothesis and give decision functions with a simpler structure, which requires less computing operations to solve the problem of classification.
Keywords: classification problem, classifier, decision function, training set, precedent, erroneous data, analysis, correction.
References
1. Barsegyan A., Kupriyanov M., Kholod I., Tess M., Elizarov S. Analiz dannykh i protsessov [Data and process analysis]. BHV-Petersburg Publ., 2009, 512 p.
2. Witten I.H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publ., 2005, 524 p.
3. Gdansky N.I., Krasheninnikov A.M., Rysin M.L. Classifiers for the construction of complex objects in multidimensional spaces. Inzhenerny vestnikDona [Engineering Journ. of Don]. 2013, no. 2. Available at: http://ivdon.ru/ru/magazine/archive/n2y2013/1611 (accessed September 8, 2015).
4. Gdansky N.I., Krasheninnikov A.M. A general method of creating a piecewise linear separation surface for object sets which are defined by points in a space. Izvestiya MGTU "MAMI" [News of the Moscow State Univ. of Mechanical Engineering (MAMI)]. 2013, vol. 4, no. 1 (15), pp. 165-171.
5. Mandel I.D. Klasterny analiz [Cluster Analysis]. Moscow, Finansy i statistika Publ., 1988, 176 p.
6. Hastie T., Tibshirani R., Friedman J.H. The elements of statistical learning: Data mining, inference, and prediction. NY, Springer Verlag Publ., 2001.
7. Varshavsky P.R., Eremeev A.P. Modeling reasoning based on test cases in intelligent decision-making support systems. Iskusstvenny intellekt iprinyatie resheny [Artificial Intelligence and Decision-Making]. 2009, no. 2, pp. 45-57.
8. Kryanev A.V., Lukin G.V. Matematicheskie metody obrabotki neopredelennykh dannykh [Mathematical methods for processing ambiguous data]. Moscow, Nauka Publ., 2006.
9. Vydelenie determinirovannykh komponent iz zashumlennykh dannykh [Selecting determined components from noisy data]. NIYaU MIFI, Laboratoriya IT Publ., Dubna. Available at: http://do.gendocs.ru/docs/index-241588.html (accessed September 8, 2015).
10. Vapnik V.N. Vosstanovlenie zavisimosteypo empiricheskim dannym [Dependence Recovery According to Empirical Data]. Moscow, Nauka Publ., 1979, 448 p.