Известия Тульского государственного университета Естественные науки. 2013. Вып. 2. Ч.1. С. 119-136
= ИНФОРМАТИКА :
УДК 004.93
Обучение распознаванию образов в евклидовых метрических пространствах по методу опорных объектов *
В. И. Абрамов, О. С. Середин, В. В. Моттль
Аннотация. Предложен метод беспризнакового обучения распознаванию образов в множествах объектов, представленных только некоторой числовой функцией парного отношения между ними, обладающей свойствами метрики специального вида — евклидовой метрики. Заявленный метод практически полностью аналогичен хорошо известному методу опорных векторов при измерении парного отношения между объектами посредством потенциальной функции (кернела), погружающей множество объектов в некоторое линейное пространство со скалярным произведением. В качестве скалярного произведения выступает исходная потенциальная функция, порождающая соответствующую евклидову метрику между парами объектов. Показано, что результат обучения по методу опорных векторов инвариантен к ортогональному преобразованию линейного пространства представления объектов и выбору в нем нулевого элемента (сдвигу линейного пространства), т.е. к любому преобразованию, сохраняющему попарные евклидовы расстояния между объектами, порождаемые принятым скалярным произведением (потенциальной функцией). Предложен метод обучения распознаванию образов на множествах объектов, в которых напрямую определена лишь метрика вместо потенциальной функции, существенно более сложной по своей математической структуре.
Ключевые слова: беспризнаковое распознавание образов,
распознавание образов в метрических пространствах, евклидова метрика, метод опорных объектов, соаффинность.
Введение
Статья является четвертой в серии публикаций [1-3], посвященных систематическому исследованию методов обучения распознаванию образов
* Работа выполнена при финансовой поддержке РФФИ (проекты № 12-07-92000-ННС-а и № 11-07-00409-а).
в ситуации так называемого беспризнакового подхода [4,5]. Ранее мы уже обращались к наиболее популярному современному методу обучения распознаванию образов с двумя классами объектов — машине опорных векторов В.Н. Вапника (SVM — Support Vector Machine) [6]. Отмечалось, что критерий не требует представления объектов в виде векторов их действительных признаков, достаточно указать лишь двухместную функцию на множестве объектов, так называемую потенциальную функцию (Kernel Function) [7], которую можно было бы интерпретировать как скалярное произведение.
Введение на множестве объектов потенциальной функции «погружает» это множество в некоторое линейное пространство, где потенциальная функция является скалярным произведением, определяющим евклидову метрику [8].
Целью данного исследования является разработка метода обучения распознаванию образов, максимально близкого к классическому методу опорных векторов (SVM), но использующего только некоторую специальную метрику, заданную на множестве объектов распознавания, которое может быть конечным или бесконечным. Предполагается, что метрика удовлетворяет требованиям, отличающим класс так называемых евклидовых метрик [8]. Всякая такая метрика погружает исходное множество объектов в некоторое, вообще говоря, большее метрическое пространство мощности континуума. Выбор произвольного элемента как нулевого превращает это метрическое пространство в линейное пространство со специфическим скалярным произведением, но с исходной евклидовой метрикой.
Преимущество использования евклидовой метрики в качестве исходной функции попарного представления объектов вместо потенциальной функции заключается в том, что все линейные методы обучения распознаванию образов инвариантны к выбору нулевого элемента линейного пространства, а использование зависящих от нуля потенциальных функций вносит избыточность в описание объектов [9].
Мы будем исходить из предположения, что на множестве объектов реального мира изначально определена евклидова метрика, и сформулируем задачу обучения распознаванию двух классов объектов по заданной обучающей совокупности, полностью аналогичную идее поиска решающего правила в виде оптимальной разделяющей гиперплоскости. Мы покажем, что итоговое решающее правило, применимое к объектам, не входящим в обучающую совокупность, совпадает с результатом обучения по классическому методу опорных векторов в линейном пространстве, и сводится к метрическому сравнению нового объекта с теми же опорными объектами обучающей совокупности.
1. Погружение множества объектов реального мира в непрерывное евклидово метрическое пространство
Пусть — некоторое множество объектов реального мира c заданной на нем метрикой р(и',и''). Метрику будем называть евклидовой, если для любого конечного подмножества объектов [uj,j = 1,...,N} С Q матрица [—p2(uj,ui),j,l = 1,...,N] условно неотрицательно определена, т.е. квадратичная форма, образуемая этой матрицей в RN, неотрицательна на гиперплоскости с нулевой суммой аргументов:
N N N
X^(-P2(ujaja ^ 0 J2aj = 0- (1)
j=i j=i j=i
Будем в дальнейшем полагать, что метрика на Q является евклидовой. Пусть <u,,u,,>Giix Q — некоторая упорядоченная пара разных элементов исходного метрического пространства, c € R — действительное число. Попробуем найти в Q элемент uc, удовлетворяющий равенствам
p(u',uc) = |ф(и',и''), p(u",uc) = |1 - ф(и',и''), (2)
и называемый соосным uc = соах({и',и''); c) по отношению к {и', и") с коэффициентом c.
Теорема 1. В случае евклидовой метрики элемент uc (2) может быть лишь единственным в Q, причем если он существует, то для него определены значения расстояний до всех элементов и € Q:
р2(и, uc) = ср2(и, и') + (1 — с)р2(и, и'') — c(1 — с)р2(и', и''). (3)
Доказательство можно найти в [8]. Заметим, что теорема 1 обобщает метрическую теорему Стюарта - Симсона в евклидовой планиметрии [10].
Если же для какой-либо пары {и', и'') € Q x Q объектов в множестве Q не существует элемента со свойствами (2), то расширим это множество, добавив в него такой элемент Q = Q U {uc}. Так же поступим со всеми парами {и', и'') € Q x Q, всеми числами c € R, а также со всеми парами, образуемыми полученными соосными элементами. В результате мы получим гипотетическое расширенное метрическое пространство Q ^ Q, содержащее множество объектов Q, в котором для всякой пары элементов {и', и'') € Q x Q и всякого числа c € R существует единственный соосный элемент (2)
uc = coax ({и', и''); c) €Q, (4)
удовлетворяющий (3).
Множество всех элементов, соосных паре элементов {и , и ), и = и будем называть осью в Q, определяемой этой парой
Q2(и', и'') = [uc = соах({и', и''); c),c € R} . (5)
Если с < 1, то |1 — с| = 1 — с в (2), и соосный элемент естественно называть расположенным между элементами (ш',ш'').
В отличие от П метрическое пространство 0 является непрерывным, т.е. содержит вместе с любым элементом ш € 0 континуум элементов {ш' € ° : р(и,и') ^ п}, расположенных к нему не далее сколь угодно малого порога П > 0. Но это еще и неограниченное выпуклое метрическое пространство в том смысле, что вместе с любыми двумя элементами (ш', и'') € 0 X 0, и' = и'', оно содержит всю определяемую ими ось (5).
Всякое неограниченное выпуклое метрическое пространство с евклидовой метрикой будем называть евклидовым метрическим пространством. Минимальное евклидово метрическое пространство 0 ^ П, содержащее данное метрическое пространство с евклидовой метрикой, будем называть его неограниченным выпуклым замыканием. Равенство (3) остается справедливым для всех элементов и', и'', и € 0.
Заметим, что от линейного пространства его отличает только отсутствие нулевого элемента. Если дополнительно назначить любой элемент в качестве нулевого Шо € 0, то евклидова метрика р(и',и'') порождает в °, во-первых, линейные операции сложения двух элементов и умножения элемента на действительный коэффициент, и, во-вторых, скалярное произведение (кернел) [3]:
КШо (и', и'') = (1/2) [р2(ш',шо) + р2(ш'',шо) — р2(ш',ш'')] . (6)
Очевидно, что евклидова метрика порождает континуум разных кернелов КШ0(и', и''), образуемых континуумом возможных нулевых элементов в 0, но все они определяют одну и ту же метрику:
р(ш',ш'') = [Кшо(и',и') + Кшо(и'',и'') — 2КШ0(ш',ш'')]1/2 . (7)
2. Аффинные операции в евклидовом метрическом
пространстве
Рассмотрим произвольную конечную неупорядоченную совокупность несовпадающих элементов евклидова метрического пространства {ш1,UN} С 0, и обобщим на нее понятие соосности (2), определенное для пары элементов.
Определение 1. Элемент шс € 0 называется аффинной комбинацией элементов {ш1, ...,UN} С 0, р(и^,Ш[) > 0, с коэффициентами с = (с1... СN) € € Мм, Х]—1 С] = 1, и обозначается шс = А^=1с^ш], если
Теорема 2. Для любой совокупности {ш^ШN} С О и коэффициентов с = (с1... ) € Мм, Х]/=1 сз = 1, существует единственный элемент шс €
€ 0, удовлетворяющий условию (8).
Доказательство. Так как ° — евклидово метрическое пространство, то выберем в нем произвольно нулевой элемент Шо € ° и введем линейные операции так, как это предложено в [8], вместе со скалярным произведением К(ш',ш;'), ш',ш" € ° (6). Тогда
N
шс = а^ шш ^ с, р2 (шj, ш) =
Ш € 00 j — 1
N
= ащшт^ Cj (К(шj, ш,) + К(ш,ш) — 2К(ш,, ш)) =
Ш ^ ° j — 1
N
= а^шт^ с, (К(ш,ш) — 2К(ш,, ш)).
Ш €О j—1
Нулевое значение дифференциала Фреше [11] непрерывной функции (К(ш,ш) — 2К(ш,, ш)) в линейном пространстве ш € ° с нулевым элементом Шо € ° приводит к условию минимума:
Vш Cj (К(ш,ш) — 2К(ш,, ш))^ = шо,
NN N
2 с7 шс — 2 с7ш7 = ш0, шс = с7ш, •
j—1 j—1 .7—1
Таким образом, единственность определяется единственностью элемента, образованного линейной комбинацией других элементов в смысле линейных операций в °, определяемых скалярным произведением (потенциальной функцией). Теорема доказана.
Нетрудно убедиться, в частности, что соосный элемент (2) является аффинной комбинацией двух элементов ш1 и ш2 с коэффициентами с1 и С2 = 1 — С1.
Теорема 3. Пусть {ш^ш^-.^ш^} С ° — конечная совокупность элементов евклидова метрического пространства. Тогда расстояние между ш и заданной аффинной комбинацией шс = ш,, Х,— С, = 1,
полностью определяется выражением:
N 1 NN
р2(шс,ш) = ^ с7Р2(ш7,ш) — 2 2 с7с1 Р2(ш7ш1). (9)
7 — 1 7 — 1 1—1
Доказательство. Аналогично доказательству теоремы 2, будем использовать линейные операции и скалярное произведение КШ0(ш^ш"), ш', ш'' € °, определяемые произвольным выбором нулевого элемента шо € 0:
р (шс,ш) = (Шс,Шс) + (ш,ш) - 2КШ0 (шс,ш) =
/ NN \ / N \
К^о X! X!с?+ *<■» (ш, ш) - 2К^о ^ СіШі, ш =
\і=1 І=1 / \і=1 /
NN N
ЕЕ СіС,-К^о (ші,ш^-) + К^о (ш,ш) - СіК^о (ші,ш).
і=1і=1 і=1
Согласно (7) последнее выражение перепишем в виде:
NN і
р2(Шс ,ш) = ^2^2 СіСі 2 (Р2(^і + Р2 (^І ,Ш°) - Р2(Ші,^І )) +
і=1 І=1
+ 1 (р2(ш,шо) + р2(ш,шо) - р2(ш,ш)) -N 1
Сі - (р2(ш,шо) + р2(ш,шо) - р2(ш,ш)) =
2
і=1
NN і NN і
= ^ ^СіСі - (р2^,^) + ^ ^СіСі - (р2(ші,^о)) і=1 І=1 і=1 І=1
NN N
1 ( „2 , , 'Л , і „2 /, , , , \ „ ( „2 /
^^СіСі - (р2(Ші,^і)) + +р2(ш,шо) - ^ Сі (р2(ші,шо))-
і=1 і=1 і=1
N і N
^ Сі (р2(ш, шо)) = - ^ Сір2(ші, шо)+
і=1 і=1
N NN N
1 ^ „2/, . , . \ 1 „ „2/, . , . \ , „2/, . , „ „21
+ - X! Сір2(ші,шо) - - СіСір2(Ші,Ші) + р2(ш,шо) - ^ Сір2(ші,шо)-
- ^ ^ к Л V, -
і=1 і=1 і=1 і=1
N N 1 NN
-р2(ш,шо) + ^Сір2(ші,ш) = ^Сір2(ші,шо) - - СіСір2(ші,Ші)-
і=1 і=1 і=1 і=1
N N N 1 NN
ЕСір2(Ші,шо) + ^ Сір2(ші,ш) = ^Сір2(ші,ш) - - СіСір2(Ші,Ші).
і=1 і=1 і=1 і=1 і=1
Наличие операции аффинной комбинации любого конечного числа элементов евклидова метрического пространства позволяет называть его аффинным пространством.
В данной работе мы рассматриваем постановку задачи обучения распознаванию объектов двух классов в евклидовом метрическом пространстве, использующую, с одной стороны, известный принцип опорных векторов [1] и, с другой стороны, эквивалентность всех кернелов, определяемых одной и той же евклидовой метрикой [4].
3. Дискриминантный диполь
Введенный формализм позволяет перейти к рассмотрению задачи обучения распознаванию образов на множестве произвольных объектов, представленных только через отношения евклидовой метрики. Пусть по-прежнему П есть множество объектов реального мира с заданной на нем евклидовой метрикой (1), и наблюдателю предоставлена конечная обучающая совокупность объектов вместе с известными индексами их принадлежности к одному из двух классов
{p(Wj ,зд), = 1,...,N, yj = y(wj) = ±1, j = 1,...,N} .
Целью наблюдателя является построение решающего правила распознавания классов новых объектов и € П, не представленных в обучающей совокупности, причем единственным свойством каждого нового объекта, доступным наблюдателю, является совокупность его евклидовых расстояний до объектов обучающей выборки p(uj, и), j = 1, ...,N.
Пусть Q D П — евклидово метрическое пространство, являющееся неограниченным выпуклым замыканием множества объектов реального мира. Будем называть дискриминантным диполем упорядоченную пару элементов (a-i,ai), а ее элементы а—, а € Q — узлами диполя. Будем называть множество Н(а-1,а1) = |и €Q : р(а1,и)= р(а-:1,и)| С Q дискриминантной аффинной гиперплоскостью, определяемой диполем (а_1, а1).
Пусть и € Q — произвольный элемент метрического пространства. Найдем в аффинной гиперплоскости элемент, ближайший к и, и будем называть его проекцией этого элемента на дискриминантную аффинную гиперплоскость. Обозначим через d(u|a_1,a1) расстояние от элемента и до дискриминантной гиперплоскости, т.е. до его проекции на нее, причем будем считать это расстояние положительным, если р(а1,и) < р(а—1,и), и отрицательным, если р(а1,и) > р(а—1,и). Такое расстояние будет играть роль решающей функции (decision function, score function) ^(и|а_1,а1) : Q ^ R в задачах восстановления зависимостей по эмпирическим данным.
Теорема 4. Расстояние от элемента и до дискриминантной гиперплоскости (с учетом знака) определяется выражением
м і л 1 P2(a-i, и) - p2(ai, и)
d(u|a-i,ai) = ------------------^-т----p(a-i,ai), (10)
2 p2(a-i,ai)
причем безразмерный дробный коэффициент перед p(a—i, ai) не зависит от расстояния между узлами диполя.
Доказательство. Пусть и — произвольный элемент метрического пространства Q, a—i, ai — узлы произвольного диполя в Q.
Найдем такой коэффициент c2 Є R, чтобы
c2 = arg min p2 [ coax (< a—i, ai >; c), u].
c
По теореме 1
p2 [ coax (< a—i, ai >; c), u] =
= cp2(u, a—i) + (1 — c)p2(u, ai) — c(1 — c)p2(a—i, ai),
тогда
c2 = argmin (cp2(u, a—i) + (1 — c)p2(u, ai) — c(1 — c)p2(a—i, ai^ .
c
Следовательно, надо обеспечить равенство d
— [cp2(u, a—i) + (1 — c)p2(u, ai) — c(1 — c)p2(a—i, a^] = 0,
т.е.
p2(u, a—i) — p2(u, ai) — p2(a—i, ai) + 2c2p2(a—i, ai) = 0, откуда следует
p2(a-i,ai)+ p2(u,ai) — p2(u,a—i) 1 / p2(u,ai) — p2(u,a—i)
C^ 2p2(a-i,ai) 2 \ p2(a-i,ai) + / "
По теореме 3:
p2 [ coax (< a—i, ai >; c2), coax (< a—i, ai >; 1/2)] =
= c2p2( coax (< a—i, ai >; 1/2), a—i) + (1 — c2)p2( coax (< a—i, ai >; 1/2), ai) — —c^(1 — c^)p2(a-i, ai) = 1/4c^p2(ai, a-i) + 1/4(1 — c^)p2(ai, a-i) —
—c^ (1 — c^ )p2(a-i, ai) = 1/4cw p2(ai, a-i) + 1/4p2(ai, a-i) —
—1/4cw p2(ai, a-i) — c^ p2(a-i, ai) + c2 p2(a-i, ai) =
= p2(ai,a-i) (1/4 — c^ + c£) = (c^ — 1/2)2p2(ai,a-i) =
1 /p2(u,ai) — p2(u,a-i) \ 1\2 2, ,
1 ' v ’ u ' v ’ u + 1 — - p2(ai,a-i) =
1 р2(и,а1) - р2(и, а_1) , 2
р (а1, а_1).
2 р2(а_1,а1)
В результате получаем
р [ coax (< а_1, а1 >; ), coax (< а_1, а1 >; 1/2)] =
р2(и, а1) — р2(и, а_1)
р( а 1 , а _ 1 ) .
р2(а-1, а1)
Тогда расстояние от элемента до дискриминантной гиперплоскости (с учетом знака) имеет вид:
1 р2(а-1 ,ш) — р2(а ,ш)
а(ш|а-1,«1) = --------^--------г-------р(а-1,а1).
2 р2(а_1, а1)
Теорема доказана.
В силу последнего замечания теоремы 4 сокращать р(а_1,а1) в (10) не следует. Именно безразмерный дробный коэффициент определяет величину расстояния между элементом метрического пространства ш € 0 и аффинной гиперплоскостью, а «длина» диполя является лишь масштабным коэффициентом этой зависимости, никак не влияя на разбиение метрического пространства на «положительную» и «отрицательную» области ^(ш|а_1,а1) ^ 0.
Это обстоятельство показывает, что в евклидовом метрическом пространстве существует континуум разных диполей, определяющих одну и ту же аффинную гиперплоскость. В частности, достаточно ограничиться диполями фиксированной длины, например, единичной:
^(ш|а_1, а1) = 1 [р2(а_1,ш) — р2(а1,ш)] , р(а_1,а1) = 1. (11)
Расстояние между узлами является не единственной излишней степенью свободы выбора диполя, выражающего желаемую метрическую гиперплоскость, можно еще и «перемещать» диполь «параллельно» гиперплоскости. Мы не будем тратить усилия на математическое выражение такого перемещения в евклидовом метрическом пространстве. Вместо этого мы покажем, что решающую функцию ^(ш|а_1, 0:1) : 0 ^ М можно однозначно определить и без строгой фиксации узлов диполя.
Представляется естественным искать аффинную гиперплоскость, наилучшим образом разделяющую обучающую совокупность {(ш,, у,),^ = = 1,..., N} в смысле ^(ш,|а_1, 0:1) ^ 0 (10), выражая узлы дискриминантного диполя как неизвестные аффинные комбинации объектов самой обучающей совокупности:
N
а_1 = А7—1с_1,7 ш7, Х^с_1>7 = 1,
7—1
N
а1 = Сищ, ^2 Си = 1.
(12)
7 = 1
Применение теоремы 3 к разности расстояний элемента от узлов диполя в (11) с учетом (12) дает равенство
Здесь только первая сумма в правой части зависит от предъявленного объекта и ^ О С ^, являясь линейной комбинацией квадратов его расстояний от объектов обучающей совокупности, причем в качестве коэффициентов выступают разности с^,- — С1-, сумма которых для любого диполя < < а—1,а:1 >€ П х О должна равняться нулю согласно (12):
Следующая теорема показывает, что длина диполя (12), которая должна быть фиксирована согласно (11), зависит только от коэффициентов (аь..., а^).
Теорема 5. Расстояние между узлами диполя зависит только от коэффициентов (а1,..., а^)•'
¿=1
N
р2(а-1, щ) — р2(а1, щ) =
1 NN
Си )р2К ,щ) — 2 ^^(с-1^' С-1>1 — С^' С1,і)Р2(щі ,щі)- (13) ¿=1г=1
N
(14)
¿=1
р2(0-1,01) = 2 (—Р2(и-,и1 ^ а-а1-
-=11=1
Доказательство. Положим и = а1, тогда, согласно (13) и (14):
1 N N
(15)
= 1^(С-1,І — С1,іК(Щ,а1) — 2 ^2^(С-1>ІС-1,1 — С1,іС1,і)Р2(щі,щ1)
¿=1
¿=11=1
2 ^(Щ ,щ1)а^'а = 2 (—р2(Щ ,щ0) а а •
Напомним, что двойная сумма в правой части всегда неотрицательна в силу предположения об евклидовом свойстве используемой метрики (1) и ограничения (14).
Значения коэффициентов (а1 ,...,а^) (14) определяют ориентацию
диполя в евклидовом метрическом пространстве относительно обучающей совокупности объектов |и>1, }, оставляя свободными как «параллельный
перенос» диполя вдоль определяемой им аффинной гиперплоскости, так и его «сдвиг» вдоль своей оси. Именно этот «сдвиг» и характеризует вторая двойная сумма в правой части (13), которая является константой по отношению к предъявленному объекту и £ О С О. Обозначим ее символом
N N
Ь = ^^(с-1-с-1,1 — с1,-сМ )р2(и-, и1)- (16)
-=11=1
Подставляя обозначения (14) и (16) в (13) и далее в (11), мы получим эквивалентное выражение для решающей функции, которая, как оказалось, полностью определяется N + 1 действительными числами (а1, ...,аN,Ь):
^(и|а-1, а1) = 1 [р2(а-1, и) — р2(а1, и)] =
= ^(щ|аь ,Ь) = 2
2
N
^2 (—р2(щ ,щ)) а+Ь ¿=1
N 1 NN
^2а3 = 0 2 2 ( —Р2(щі,щ1^ аІ1
¿=1 ¿=1 1=1
Как и следовало ожидать из интуитивных соображений, «параллельный перенос» диполя вдоль своей аффинной гиперплоскости не влияет на значение решающей функции.
Таким образом, в результате обучения должны быть найдены только числа (а1,..., aN) и Ь при ограничениях типа равенств, указанных в (17).
4. Метод опорных объектов для обучения распознаванию
образов
Практически буквальным выражением принципа оптимальной дискриминантной гиперплоскости, лежащего в основе метода опорных векторов в М” [6], является критерий обучения в евклидовом метрическом пространстве, требующий максимизации зазора (марджина в терминологии В.Н. Вапника) (у-^(и-) ^ е, е ^ тах) (10) между объектами двух классов в обучающей совокупности {(и-,у- = ±1),^ = 1,...,N} при минимизации, по возможности, суммы его нарушений в терминах заданной метрики = 1 — (1/е)у-^(и-), если у-^(и-) < е. Поскольку достаточно искать дискриминантную функцию, образуемую диполем единичной длины (11), то
такой критерий обучения относительно искомых узлов диполя естественно записать как следующую задачу оптимизации с ограничениями в евклидовом метрическом пространстве:
N _
¿2 + С Е ¿¿- ^ шіп(а-1,а1 Є П,є, ¿ь...^),
¿=1
1У [р2(а-ъщ-) — р2(аьщ)] ^ є(1 — ^),
¿.? ^ 0, і = 1,...,Ж, р(а-1,а1) = 1.
С учетом (17) задача обучения приобретает численный вид: ( N
¿2 + С X] ¿¿- ^ шіп(а1,..., аN, Ь,є, ¿1,..., ¿N),
¿=1
N
(18)
£ (—р2(щ,щ)) аг + Ь
И=1
(19)
N N
¿7 ^ 0,і = 1,...,^, 2 Е Е (—р2(^7,Щ)) а,аг = 1. ¿=1г=1
Здесь не учтены ограничения на коэффициенты при объектах обучающей совокупности ЕN=1 а^' = 0 (17), однако, как мы увидим ниже, решение задачи (19) будет автоматически удовлетворять этим условиям.
Однако задача квадратичного программирования (19) не является выпуклой, поскольку переменные (al,...,aN) подлежат варьированию на поверхности эллипсоида Е:?=1 Ег=1 (—Р2(Щ, шг)) а^'аг = 2. Поэтому мы применим идею, лежащую в основе БУМ, и заключающуюся в замене исходной невыпуклой задачи на эквивалентную выпуклую [1].
Разделим обе части ограничений-неравенств во второй строке (19) на є
У
N
^(-р2(щ ,щг)) 2є+2Є
,г=1
2є 2є
и выполним замену переменных:
- аг - Ь
аг = 2? Ь = 2?
(20)
С учетом этой замены ограничение-неравенство во второй строке (19) и ограничение-равенство в последней строке примут вид:
У
N
^2 (-р2(щ?,^г)) аг + Ь
1=1
N N
2ее (-р2(щ^ ,щг))а аг 1
¿=1г=1
4є2
Заметим, что требование максимизации зазора е в критерии (19) равносильно требованию минимизации этой квадратичной формы.
Таким образом, мы приходим к следующей задаче обучения, эквивалентной задаче (19):
У?
Е (-P2(wj,^г)) a + b Ll=l
N
Е
j=i
^ 1 — ¿?, ¿? ^ 0, j = 1,..., N.
NN _ _ _
E E (—P2(^j,wz)) äjäi + С E ¿j — min(äi, ...,ÄN, b, e, ¿1, ...,5n), С = C/2, j=i1=1
N
Теорема 6. Двойственная форма задачи обучения (21) имеет вид:
( N N N
Е ^ - I Е Е У?Уг (-Р2К, ^)) Л,Лг ^ тах(Аь ..., ЛN),
^=1 ¿=1 г=1
N _
Е У?Л, = 0, 0 < Л, ^ С, ; = 1,..., N.
и=1
(22)
Ее решение (Л1,...,ЛN) полностью определяет параметры решающего правила распознавания (20):
_ 1 а? = -
N
yj Л? , 5-/а? = 0, j=1
(1/2) Е Aj Е Р2К ^ )уг Лг — СЕ У?
b =
j:Q<Aj <C г:Лг>0
j:Aj=C
E _Л?
j:Q<Aj <C
а также значение максимального зазора
(23)
e =
NN
ЕЕ У? Уг (—P2(^j ^ ^ Л? Лг
j=iг=1
-1/2
(24)
Доказательство. Функция Лагранжа задачи (21) имеет вид:
N N
L(ä1, ...,äN, b, A1,..., An, ¿1,..., ¿n, ^1,..., ^n) = ЕЕ (-p2(wj, ^)) а?аг+
j=1г=1
NN
+C E ¿j - E A? ] У? j=1 j=1
N
^ (-p2(wj,шг)) аг + b
Ll=1
N
- 1 + ¿j f - E ¿j. (25) j=1
Решением задачи является седловая точка функции Лагранжа:
L(a1,..., aN, b, Л1,..., An,¿l,...,¿N,^1,...,^n) —— min по a1,...,aN, b, ¿l,...,¿N, L(a1, ...,Sn, b, Л1,..., An, ¿1,..., ¿n,^1, ..., ^n) — max по Л1, ...An, ^1,..., ^n,
при ограничениях Л, ^ 0, ^ 0, ] = 1,..., N.
Первое из этих условий дает
дЬ(й1,..., , Ь, Л1,..., ЛN, ¿1,..., ^,^1,..., ^)
да?
дЬ(а1,..., ад, Ь, Л1,..., ЛN, ¿1,..., ¿N,^1,..., ^)
дЬ
д£(а!, ...,ад, Ь, Л1,..., ЛN, ¿1,..., ¿N, Д1, ..., Дм) дй,-
= 0, ; = 1,..., N.
После дифференцирования получим:
дЬ(а1,..., ад, Ь, Л1,..., ЛN, ¿1,..., ¿N,^1,..., ^) да,
N
N
2 Е (-Р2(ш,, шг^ О - Е Л,У, (-Р2(^', = 0, О = 2У,Л,,
¿=1
,=1
д£(а, Ь, Л1,..., ЛN, ¿1,..., ¿N, Д1, ...,Дм) дЬ
N
Еу, Л, =0, ,=1
д^(а Ь ЛЪ ..., ЛN ,¿1,...,¿N , .^ _ 77 , _п , . _т^
= С - Л, - ^ = 0, Л, + С . Подстановка этих условий в функцию Лагранжа (25) дает равенство (22):
N N
Дад ..^ адЬ Л1,..., ЛN, ¿l,..., ¿N, Дъ - ^ ^) = ЕЕ (-р2(ш,, ш)) а,аг+
,=1г=1
N N Г
+С Е ¿, - Е ЛМ ,=1 ,=1 I
N
Е (-Р2(Ш,шг^ аг + Ь
И=1
N
N N
ЕЕ(-Р2(ш,,шг))
N
N
,=1г=1
N
2 ^ + СЕ^
,= 1
Е М У,
,=1
N N
У, (-р2(ш7, шг)) -2У + Ь
г=1
N
,=1
1 х, х, 1 NN N
4ЕЕ (-Р2(ш7,шг^ ^У,ЛгУг - 2 Е Е (-Р2(Ш,ш)) ЛУ,ЛгУг + Е ЛJ
,=1г=1
,'=1 г=1
,=1
0
0
N N N N
— Ь Е Л7У7 + С Е - Е Л7 - Е ^7 =
7=1 7=1 .7 = 1 7=1
=0 =0
N 1 NN
= Е а< - 4ЕЕ (—Р2(и7Л,У7Агда.
7=1 7=1г=1
Теорема доказана.
Из (23) и ограничения-равенства в двойственной задаче (22) с учетом переобозначения (20) вытекает равенство Е7=1 а7 = 0, как мы и обещали выше.
Как видим, двойственная задача (22) практически совпадает с классической двойственной задачей метода опорных векторов. Существенная особенность метода, давшая ему название, заключается в том, что при решении двойственной задачи (22), как правило, большинство двойственных переменных, каждая из которых соответствует одному объекту обучающей совокупности, приобретают нулевые значения Л7- = 0, и только небольшое число объектов, называемых опорными, получат положительные значения Л7- > 0. В результате, согласно (23) и временно принятому переобозначению (20), решающая функция (17) для вновь поступившего объекта и определяется его сравнением только с опорными объектами обучающей совокупности, поскольку для остальных объектов а7 = еУ7 Л7 = 0:
d(w|Ai,..., An,b) = ^
Е (-P2(w7,w)) У7a7 + b j:Aj >0
где е определяется в результате обучения (24).
Отличие от стандартного метода опорных векторов заключается лишь в том, что матрица квадратичного критерия оптимизации составлена из евклидовых расстояний между элементами обучающей совокупности (—(1/2)р2(и7-, и&)) вместо значений потенциальной функции (и7-, и&) (6)
для некоторого нулевого элемента, который может быть выбран произвольно в множестве объектов реального мира ио € П либо в натянутом на него евклидовом метрическом пространстве ио € П.
5. Практический пример: верификация личности по подписи
Задача верификации личности по подписи заключается в проверке нулевой гипотезы о том, что рассматриваемая подпись действительно принадлежит заявленному автору (genuine signature), против альтернативной гипотезы, что подпись является сознательной подделкой (skilled forgery).
Рассматриваются динамические подписи из базы данных SVC 2004 [12], каждая из которых вводится в компьютер непосредственно в процессе написания (online), и представлена многокомпонентным дискретным сигналом и индивидуальной длины, отражающим ее геометрические и динамические особенности. Степень несходства подписей р(и;,и;;), играющая роль метрики, вычисляется на основе парного выравнивания соответствующих сигналов разной длины [13]. Такая метрика, вообще говоря, не является евклидовой в том смысле, что условие (1) может не выполняться для некоторых совокупностей объектов. Проявление этого факта мы увидим в результатах эксперимента.
Массив содержит динамические подписи 40 лиц z € Z по 20 для каждого из них, причем 10 подписей являются настоящими и еще 10 подделками. Таким образом, обучающая совокупность для каждой персоны Q z = {uj, j = 1,..., N} состоит из N = 20 подписей, представленных матрицей (20 х 20) попарных расстояний р(ш7-, иг) и снабженных индексом класса У7 = 1 (настоящая) либо у7- = —1 (подделка).
Общий эксперимент заключался в обучении верификации истинности подписи каждого лица z € Z = {1,..., 40} согласно (22), (23) и далее (17), с последующей проверкой обобщающей способности по методу скользящего контроля.
В 3 из 40 частных экспериментов матрица попарных расстояний для совокупности подписей соответствующего лица, как истинных, так и поддельных, оказалась не обладающей свойством условной положительной определенности, что привело к невыпуклости критерия обучения (21) и расходимости процесса его оптимизации. В остальных 37 частных экспериментах ошибка скользящего контроля составила в среднем 3,65% и колебалась от 0% (21 случай) до 15% (2 случая).
Эксперимент показал необходимость обобщения метода на случай произвольной метрики.
Заключение
Во многих практических задачах анализа данных объекты распознавания представлены мерой парного отношения друг с другом. Мы доказали, что если эта парная характеристика удовлетворяет свойствам евклидовой метрики, то возможно проводить обучение и распознавание непосредственно используя исходную метрику, а не потенциальную функцию, существенно более сложную по своей математической структуре.
Список литературы
1. Середин О.С. Линейные методы распознавания образов на множествах
объектов произвольной природы, представленных попарными сравнениями.
Общий случай // Изв. ТулГУ. Естественные науки. 2012. Вып. 1. C. 141-152.
2. Середин О.С. Потенциальная функция на множестве объектов распознавания как инструмент их попарного сравнительного представления // Изв. ТулГУ. Естественные науки. 2013. Вып. 1. С. 178-190.
3. Выпуклые селективные критерии метода релевантных векторов в пространстве парных отношений объектов распознавания / О.С. Середин [и др.] // Изв. ТулГУ. Естественные науки. 2013. Вып. 1. С. 166-177.
4. Середин О.С. Методы и алгоритмы беспризнакового распознавания образов: дис. на соиск. ученой степени канд. наук. М., 2001.
5. Duin R.P.W., de Ridder D., Tax D.M.J. Featureless pattern classification // Ky-bernetika. 1998. Т. 34. №4. P. 399-404.
6. Vapnik V.N. Statistical Learning Theory. New York: Wiley, 1998. 736 p.
7. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. М.: Наука, 1970. 384 с.
8. Моттль В.В. Метрические пространства, допускающие введение линейных операций и скалярного произведения // Докл. РАН. 2003. T. 388. № 3. C. 1-4.
9. Эквивалентность потенциальных функций и линейных пространств представления объектов произвольной природы / В.И. Абрамов [и др.] // Интеллектуализация обработки информации: сб. докл. 8-й Междун. конф. Кипр, г. Пафос, 17-24 октября 2010. М.: МАКС Пресс, 2010. C. 9-12.
10. Stewart M. Some General Theorems of Considerable Use in the Higher Parts of Mathematics. «Proposition II», 1746.
11. Колмогоров А.Н., Фомин С.В. Элементы теории функций и функционального анализа. М.: Физматлит, 2004. 572 c.
12. SVC 2004. First International Signature Verification Competition. [Электронный
ресурс] URL: http://www.cs.ust.hk/svc2004/index.html (дата обращения:
15.05.2013).
13. Signature verification based on fusion of on-line and off-line kernels / V. Mottl [et al.] // Proceedings of the 19th International Conference on Pattern Recognition. Tampa, USA, December 8-11, 2008. P. 1-4.
Абрамов Вадим Игоревич ([email protected]), аспирант, кафедра интеллектуальных систем, Московский физико-технический институт.
Середин Олег Сергеевич ([email protected]), к.ф.-м.н., доцент, кафедра автоматики и телемеханики, Тульский государственный университет.
Моттль Вадим Вячеславович ([email protected]), д.т.н., профессор, кафедра автоматики и телемеханики, Тульский государственный университет; кафедра интеллектуальных систем, Московский физикотехнический институт; в.н.с., ВЦ РАН, Москва.
Pattern recognition learning in Euclidean metric spaces by support objects method
V. I. Abramov, O.S. Seredin, V. V. Mottl
Abstract. The method of featureless pattern recognition when pairwise function of objects relation is a Euclidean metric is suggested. Proposed procedure is almost equivalent to support vector method. It is shown that result of training by support vector method is invariant to orthogonal transformation and shift of object representation linear space, i.e. invariant to any transformation that does not modify pairwise Euclidean distances between objects produced by some kernel (potential function). We exploit the fact that one metric produces continuum of linear spaces with inner product. So we propose the training method which based directly on metric among objects.
Keywords: featureless pattern recognition, pattern recognition in metric spaces, Euclidean metric, support object method, coaffinity.
Abramov Vadim ([email protected]), postgraduate student, department of intelligent systems, Moscow Institute of Physics and Technology.
Seredin Oleg ([email protected]), candidate of physical and mathematical sciences, associate professor, department of automation and remote control, Tula State University.
Mottl Vadim ([email protected]), doctor of technical sciences, professor, department of automation and remote control, Tula State University; department of intelligent systems, Moscow Institute of Physics and Technology; leading researcher, Computing Centre of RAS, Moscow.
Поступила 17.04-2013