А.М. Крашенинников, Н.И. Гданский, М.Л. Рысин
Линейная классификация объектов с использованием нормальных гиперплоскостей
В системах искусственного интеллекта одной из основных функций является распознавание, позволяющее соотнести исследуемый объект а к одному из ранее выделенных классов А1,А2,... Ак.
Применение многослойных нейронных сетей для построения нелинейных классификаторов требует выполнения большого объема вычислений либо не дают приемлемого решения. В частности, метод обратного распространения ошибки не всегда дает успешные результаты при обучении многослойных сетей из-за паралича сети или попадания в локальный минимум.
Г еометрический подход к распознаванию основан на пространственном представлении совокупности признаков |хг}, характеризующих объекты в многомерном евклидовом пространстве и. Каждому объекту а соответствует своя точка х(а)еи. При данном способе интерпретации объектов в роли классификатора выступает одна или несколько гиперповерхностей в пространстве и, разделяющих множества точек в и, соответствующие заданным классам А1,А2,... Ак.
Рассмотрим использование нормальных разделяющих гиперплоскостей на примере пары классов.
Обозначим координаты центров тяжести классов А1, А2, через С1 и С2, радиусы их (расстояния от центра до максимально удаленной точки) - через Я1, Я2, Межцентровым назовем векторС12, соединяющий центрыС1. иС2. По определению С12 = С2 — С1. Длину вектораС12 обозначим р 12 и назовем межцентровым расстоянием множеств А1, А2,.
Для упрощения построения разделяющих гиперповерхностей в пространстве и предложено использовать гиперплоскости, нормальные к вектору Сх С2. Для краткости они названы нормальными. Уравнение нормальной плоскости имеет простой вид:
^12(Х, Со) = (С12, %1 ) + ^0 = 0 (1)
Основной геометрический смысл нормальных гиперплоскостей в том, что при наличии линейной разделимости классов А1 , А2 ориентация соответствующей гиперплоскости-классификатора Г12 относительно осей пространства и близка к ориентации осей у нормальных гиперплоскостей Ы12 (С0).
Нормально разделимыми назовем такую пару классов А1 , А2 , для которых существует нормальная разделяющая их гиперплоскость. Данный вид является частным случаем линейной разделимости.
Фактически, единственным управляемым параметром плоскости является ее свободный коэффициент С0 . Обозначим через Р0 точку пересечения нормальной плоскости с межцентровым вектором С12, приложенным в точке С1. Связь С0 и Р0 и следующая:Со = —(С12, Ро ).
Для определенности будем считать, что условием разделения для точек классов А1 и А2 является следующая пара неравенств:
Ы12 (х, С0) > 0, если хеА1,
Ы12 (х, С0) < 0, если хеА2. (2)
Соответственно, два класса А1, А2, будем называть нормально разделимыми, если
для них существует разделяющая их нормальная гиперплоскость. Доказаны две теоремы,
описывающие условия существования нормальной разделимости классов в многомерном пространстве признаков.
Теорема 1. Если для классов А1, А2, имеющих радиусы И1, И2, а также межцентровое расстояние р-12 , выполняется условие
Ри >*! + *2 (3)
то данные классы нормально разделимы и, в частности, классификатором будет являться нормальная гиперплоскость Ы12 (х, С0), у которой свободный коэффициент С0 принимает следующее значение:
_ ~т .и
Р0 = С1 +
(Я1+Я2)’
С-1 2 "И*
Со = (С 12, Ро) = (С 12, с- +(^)-
Р0 на межцентровом
(4)
векторе
Формула (4) задает положение точки пропорционально радиусам разделяемых множеств.
Теорема 1 задает простейшее по форме достаточное, но не являющееся необходимым условие нормальной разделимости классов. Его преимуществом является то, что в нем не требуется дополнительно рассматривать отдельные точки классов А1 и А 2. Для краткости вариант разделимости, при котором удовлетворяется условие (3), назовем шаровым.
Пример 1. Рассмотрим в двухмерном пространстве признаков (х^ х2} множества точек А, = {(2,2); (3,1); (4,0); (5,1)} и А2 = {(3,6); (4,5); (5,6); (6,7)} (рис.1).
*2
(
V V
к
^1 < ж 7
Мп(х,С0)
0
X]
Рис. 1. - Множества точек в двухмерном пространстве признаков. Координаты центров тяжести, радиусы множеств, межцентровый вектор и межцентровое расстояние следующие: С1 = (3,5; 1); С2 = (4,5; 6); Я1 = 1,80; И12 = 1,80; С12 = (1,5) ; р12 = 5,09.. Условие (3) выполняется: 1,80 + 1,80 < 5,09 . Следовательно, шаровая разделимость существует. Координаты точки Р0 и свободный коэффициент С0. разделяющей нормальной прямой:
С12^1
Рп = С-1 +
(Rl+R2)
= (4; 3,5), Со = -(Си, Ро) = -21,5.
Уравнение разделяющей нормальной прямой М12(х, С0):
М12(х, С0) = х1 + 5х2 — 21,5 = 0.
Если форма множеств точек А1 = (х^а1)] и А1 = {х(^а1)| значительно отличается от шаровой (они являются существенно вытянутыми вдоль одной или нескольких пространственных осей), то нормальная разделимость у классов А 1,А2 может присутствовать и при значительном нарушении условия Теоремы 1. Изучение этого случая нормальной разделимости требует дополнительного исследования отдельных точек классов.
Для быстрой проверки возможного отсутствия нормальной разделимости классов предложено использовать набор простых условий.
Допустим, для классов А1, А2 с межцентровым вектором С12 и межцентровым расстоянием р12 построена нормальная плоскость М12(х, С0) , которая не является разделяющей. При этом нарушается либо только одно из условий разделимости (2) либо одновременно оба.
Обозначим через х(а1(т1)) максимально удаленную от М12(х, С0) , в которой нарушается условие разделения (2) для точек хеА1 , т.е. Ы12(х, С0) < 0, и модуль М12(х, С0) максимален. Если для данных точек нарушения нет (у всех М12(х, С0) > 0), то принимаем в качестве х(а1(т1)) такую точку, в которой модуль М12(х, С0), минимален.
Аналогично через х(а2(т2)) обозначим максимально удаленную от М12(х, С0) точку, в которой нарушается условие разделения (2) для точек хеА2. Для нее №12(х, С0) > 0 и величина М12(х, С0) максимальна. Если для точек хеА2 нарушения условия разделимости нет (у всехЛ^12(х, С0) < 0), то принимаем в качестве х(а2(т2)) такую точку, в которой модуль М12(х, С0) минимален.
Для исследования более сложных случаев нормальной разделимости введем вспомогательные понятия.
Рассмотрим плоскость п(Р0, V]), проходящую через точку Р0 перпендикулярно вектору V]. Уравнение для координат любой точки Р плоскости п, можно задать в виде неявной зависимости вида:
р(р, п(Р~0, Ц)) = (Р — Р-, Ц) = 0
Данную функцию можно также использовать для определения расстояния от произвольной точки х(а11) до плоскости п(Р0, V)
(-( Л пгтл \(х(аи) —T0,у\ р(х(ац), п(р0, у) ) = ----
где Щ - длина вектора V}.
Позицией точки х(а1і) из класса А 1 с центром С1 относительно плоскости п(Т22, Ц) назовем величину
р(х{агі), С° п(Т\), Ц) ) =
р'(х(ац), п(Р,о, Ц)) • 8Іеп(Р(х(а!і),п(Р^, Ц))) • sign(F(Cl, п(Ро, Ю)).
(5) _
Смысл введенного понятия в том, что если точках(аХ() и центр С° множества А1 лежат по одну сторону от плоскости п, то позиция р(х(а1і), С°, п(Р0,1^) ) положительна. Если они лежат по разные стороны, то величина позиции отрицательна. Так как нормальным вектором к нормальной плоскости п для множества А1 принимают для А2 - (+С12), то практические формулы для расчета позиций точек множеств А1 и А2 принимают следующий вид:
а) аєАь , Рі(х(а), С[, п(Р°, Ц) ) = ((Р° - х(а)), С^)/р12,
б) аєА2 , Р2(х(а), С2,, п(р°, Ц) ) = ((х(а) -Р°), Щ/р12.
Позицией множества А1 с центром С1 относительно плоскости п(Р0, V}) назовем величину р (аь п(р° Ц)) = тіп [р (х(ац), п^, ї^))}, где а^еА^
При анализе нормальной разделимости множеств А1 и А2 в качестве нормального вектора плоскости примем межцентровый вектор С12 и на нем же будем рассматривать начальные точки плоскости Р<2.
Критерий нормальной разделимости для классов А1, А2 можно задать в следующей форме.
Теорема 2. Классы А1, А2 с межцентровым вектором С12 нормально разделимы тогда и только тогда, когда относительно какой-либо опорной нормальной плоскости
тс(Р°, С12 ) для их позиций ^ = р(А1, п(Р°, С12 ), 82 = р(А2, п(Р°, С12 ) выполняется
условие:
^2 — 0. (6)
В частности, в качестве нормально разделяющей плоскости п (Р '0,С12) может быть принята плоскость, полученная сдвигом 8 точки Р(т1 по вектору С12 : б = № + «2) • - 0,5(1 + 81дп№))],
новой точкой Р'0. и свободным параметром С'0:
Р’о = Ро + ^ ' ^12/р12, С’0 = С0 — 5 • р12 Доказательство теоремы не составляет большого труда. При доказательстве достаточности, в частности, несложно показать, что в тех случаях, когда опорная нормальная плоскость , тс(Р°, С12 ) не является разделяющей (а) ^ >0, 82 <0; |511 — \821;
б) ^ < 0, 82 > 0; |52| > |51|, то соответствующую разделяющую плоскость можно
получить, задавая ее точке пересечения с межцентровым вектором смещение, равное —(51 + 82) • К2 /(Р1 + К2 ) (в случае а)) и (51 + 82) • И1 /(Р1 + К2 ) (в случае б)). В качестве опорной плоскости в Теореме 2 удобнее всего использовать нормальную плоскость, используемую в Теореме 1.
Пример 2. Рассмотрим в двухмерном пространстве признаков (х 1, х 2} множество точек ={(1,2);(2,1);(4,1);(5,2)} иА2 = {(2,3);(3,3);(4,4)} (рис.2).
*2
№(*А)
0 *1
Рис.2. - Множества точек в двухмерном пространстве признаков. Координаты центров тяжести, радиусы множеств, межцентровой вектор и межцентровое расстояние следующие:
Ci = (3; 1,5); С2 = (3; 3,33); Ri = 2,06; R2 = 1,20; С12 = (0; 1,83) р12 = 1,83.
Условие (3) не выполняется: 2,06 + 1,20 > 1,83. Следовательно, шаровой разделимости не существует. Проверим выполнение условий Теоремы 2. Координаты точки Р0 и свободный коэффициент С0 опорной нормальной прямой:
Ра = Ci + С12 • Ri/(Ri + Й2) = ( 3,00; 2,66), Со = —(С^, Р0) = -4,86.
Примем в качестве опорной прямой N12 (х, С0) линию:
N12 (х, С0) = х2 — 1,80 = 0
Позиции точек множества А1. относительно опорной прямой равны: -0,20; 0,80;
0,80, -0,20. Позиция множества А1 относительно опорной плоскости N12 (х, С0) равна
р{А1, N12(x, С0)) = min{—0,20; 0,80; 0,80; —0,20} = —0,20.
Позиции точек множества А2. относительно опорной прямой равны: 1,20; 1,20; 2,20.Позиция множества А1 относительно опорной плоскости N12(x, С0) равна р(А2, N12(x, С0)) = min{1,20; 1,20; 2,20} = 1,20.
Условия Теоремы 2 выполняются: -0,20+1,20 = 1,00 > 0. Рассчитываем смещение S по межцентровому вектору, новое положение точки Р!0. и новое значение свободного параметра разделяющей прямой С'0:
8 = (—0,20 + 1,20) [2,06/(2,06 + 1,20) — 0,5(1 — 1)] = 0,63;
Р"0 = Pr0 + s_- C12/P12 = (3,00; 1,80) + 0,63 • (0;1,83)/1,83= (3; 2,43);
С'0 = —{C12, P'o) = —(0; 1,83)(3; 2,43) = —4,45.
Уравнение нормальной разделяющей линии имеет вид:
N12(x, C0) = (x, C12) + C'0 = 1,83x2 — 4,45 = 0.
После сокращения на 0,83 данное уравнение принимает вид:
N12(x, С0) = х2 — 2,43 = 0.
Принцип линейной нормальной классификации объектов в многомерных пространствах признаков может быть использован для построения классификаторов для нелинейно разделимых множеств, более эффективных в плане сложности вычислений по сравнению с многослойными нейросетями.
Список литературы:
1. Каллан Р. Основные концепции нейронных сетей = The Essence of Neural Networks First Edition. — 1-е. // «Вильямс», 2001. — С. 288.
2. Комарцова Л. Г., Максимов А. В. Нейрокомпьютеры. — 1-е. // Изд-во МГТУ им. Н.Э. Баумана, 2002. — С. 320.
3. Круглов В. В., Борисов В. В. Искусственные нейронные сети. Теория и практика.// Телеком, 2001. — С. 382.
4. Патрик Э. Основы теории распознавания образов. // Сов. радио, 1980.
5. Ясницкий Л.Н. Введение в искусственный интеллект. — 1-е. // Издательский центр «Академия», 2005. — С. 176.