Научная статья на тему 'Потенциальная функция на множестве объектов распознавания как инструмент их попарного сравнительного представления'

Потенциальная функция на множестве объектов распознавания как инструмент их попарного сравнительного представления Текст научной статьи по специальности «Математика»

CC BY
274
59
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БЕСПРИЗНАКОВОЕ РАСПОЗНАВАНИЕ ОБРАЗОВ / ЛИНЕЙНОЕ РЕШАЮЩЕЕ ПРАВИЛО РАСПОЗНАВАНИЯ / БАЗИСНАЯ СОВОКУПНОСТЬ ОБЪЕКТОВ РАСПОЗНАВАНИЯ / ФУНКЦИЯ ПАРНОГО СРАВНЕНИЯ / ПОТЕНЦИАЛЬНАЯ ФУНКЦИЯ

Аннотация научной статьи по математике, автор научной работы — Середин Олег Сергеевич

Рассмотрены линейные методы обучения распознаванию образов для случая, когда объекты распознавания представлены посредством функций парного сравнения специального вида, а именно удовлетворяющим условиям, налагаемым на потенциальные функции (кернелы). В работе рассмотрены особенности порождения вторичных признаков, вводимых через понятие базисной совокупности объектов распознавания именно для указанного вида функций парного сравнения объектов распознавания.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Середин Олег Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Потенциальная функция на множестве объектов распознавания как инструмент их попарного сравнительного представления»

Известия Тульского государственного университета Естественные науки. 2013. Вып. 1. С. 177-189

= ИНФОРМАТИКА =

УДК 004.93

Потенциальная функция на множестве объектов распознавания как инструмент их попарного сравнительного представления *

О. С. Середин

Аннотация. Рассмотрены линейные методы обучения распознаванию образов для случая, когда объекты распознавания представлены посредством функций парного сравнения специального вида, а именно удовлетворяющим условиям, налагаемым на потенциальные функции (кернелы). В работе рассмотрены особенности порождения вторичных признаков, вводимых через понятие базисной совокупности объектов распознавания именно для указанного вида функций парного сравнения объектов распознавания.

Ключевые слова: беспризнаковое распознавание образов, линейное решающее правило распознавания, базисная совокупность объектов распознавания, функция парного сравнения, потенциальная функция.

Введение

В [5] мы представили общую концепцию линейных методов обучения распознаванию образов в беспризнаковой ситуации, когда объекты распознавания представлены только своими парными отношениями. В этой работе мы рассмотрим частный случай, когда функция парного сравнения представляет собой, так называемую, потенциальную функцию. В англоязычной литературе для обозначения потенциальной функции применяется термин «kernel function». Позволим себе ниже для краткости наряду с термином «потенциальная функция» пользоваться и транслитерацией «кернел», уже закрепившейся в русском языке, поскольку прямой перевод термина на русский язык — «ядро», который иногда применяется в литературе в контексте метода опорных векторов [2], кажется нам крайне неудачным.

Итак, рассмотрим ситуацию, когда функция парного отношения между произвольными объектами распознавания = S(w",w') = K:

Q х Q ^ R является потенциальной функцией на генеральной совокупности

* Работа выполнена при финансовой поддержке РФФИ (проекты №№ 12-07-92000-ННС_а, 13-07-00469).

Q. Фактически предлагается использовать вместо функции скалярного произведения парную функцию, удовлетворяющую условиям Мерсера [6]. Чтобы двухместная функция отношения между парой объектов распознавания обладала свойствами потенциальной функции, на нее налагают следующие ограничения:

— K(ш',ш") = K(ш",ш') для любых ш',ш" € Q;

— K(ш,ш) ^ 0, ш € Q;

— матрица K = (K(шj,ш\), j, l = 1,m) неотрицательно определена для любой совокупности Шj, j = 1, ...,m.

Способы порождения такой парной функции отношения между объектами, представленными векторами числовых признаков x, z € К”, хорошо известны, например:

— K(z, x) = zTx — линейная потенциальная функция,

— K(z, x) = (zTx + l)d — полиномиальная потенциальная функция степени d,

— K(z, x) = exp(—y ||z — x||2) — базовая радиальная функция Гаусса,

— K(z, x) = th(zTx — 0) — сигмоидальная.

Именно возможность использования кернела для перевода объектов в спрямляющее пространство [1] послужила причиной исключительной популярности метода опорных векторов среди специалистов по анализу данных. Пусть выбрана некоторая, быть может, бесконечная, совокупность числовых функций, отображающая конечномерное линейное пространство К” конечномерных векторов x в линейное же пространство числовых последовательностей, в общем случае бесконечных ^(x) = (^i(x), i = 1, 2,...)}: К” ^ Кте. Выбор скалярного произведения в этом линейном пространстве, в простейшем случае (ф'ф") = Y1 i=i ф'гф"г, превращает его в гильбертово пространство (счетно-мерное линейное пространство со скалярным произведением). Если принять скалярное произведение в Кте как двухместную функцию исходных векторов в К”, то это и есть универсальный вид потенциальной функции (кернела) K(y, x) = i=1 Pi(y)Pi(x), но пока только в К”. В частности, все виды кернелов, упомянутых в предыдущем абзаце, могут быть интерпретированы в терминах некоторого отображения такого вида.

Очевидно, что линейная функция в спрямляющем пространстве ф € Кте будет отображать, вообще говоря, нелинейную функцию в исходном пространстве x € К”. Этот прием, известный в литературе как Kernel Trick, позволяет фактически, не меняя задачи оптимизации, получать нелинейные границы, разделяющие выборки объектов в исходном пространстве К” признаков, задавая линейные границы в спрямляющем пространстве Кте.

1. Обучение по методу опорных векторов в исходном признаковом пространстве

Критерий обучения по методу опорных векторов [7] фактически и записывается в терминах потенциальных функций

N

К (а, а) + С Е шт(а, b,51,...,5N),

3=1 (1)

Уз (К(а хз) + ь) > 1 - 5з, 5з > 0 3 = ^ ■■■, Я,

и представляет собой задачу выпуклого программирования. Напомним, что Уз = ±1 — индекс принадлежности к одному из двух классов. Традиционно задача (1) решается в двойственной форме согласно условиям Каруша-Куна-Таккера:

N N N

ЕЛ* - 2 Е Е УзУкК(хз, хк)\з\к ^ шах(Л1,..., ЛN),

N з=1к=1 (2)

ЕЛгУг = 0, 0 < Лз < С/2, 3 = 1,...,Я.

" г=1

Результат обучения — дискриминантная функция, применимая к произвольному объекту ш € П, представленному вектором признаков х(ш):

й(х) = ^2 УзЛзК(хз, х) + ь ^ 0, з Л] >0

хз : Лз > 0 — опорные объекты обучающей совокупности, соответствующие неотрицательным множителям Лагранжа двойственной задачи. Константа Ь определяется выражением:

Е Лз Е У1Л1К(хз, хг) + (С/2) Е Уз

з: 0<Л] <С/2 1:\>0 у.\] = С/2

Ь =----------------------------------------------------' (3)

з: 0<Л] <С/2

Мы концентрируем внимание на задачах, когда затруднительно указать на объектах распознавания конечное количество числовых признаков, а имеется лишь функция парного отношения между объектами, удовлетворяющая условиям, налагаемым на потенциальные функции. Представляется естественным предположить, что задачу (2) можно решать совершенно утилитарно, подставив полученную экспериментально матрицу значений кернела для пар объектов в квадратичную форму двойственной задачи. Если же задача решается в виде прямой постановки (1), то требуется определить абстракцию для понятия направляющего вектора разделяющей гиперплоскости а.

Функции парного сравнения

Q*, Q0 С Q, Q* = Q0 Q * = Q0 cQ

S (ш',ш'') = = S (ш'', ш') Не определено для потенциальных функций

II ( S( ш , ш ш х^ш) = K (ш0,ш), ш0 € Q 0, i = 1,...,№. х^ш) = K (ш0,ш), ш0 € Q0 = Q *, i = 1,..., N.

2. Обучение по методу опорных векторов во вторичном признаковом пространстве базисной совокупности объектов

распознавания

В [3] показано, что кернел K (ш', ш'') : Q х Q ^ R погружает множество объектов Q в некоторое линейное пространство Q 5 Q, в котором он является скалярным произведением. Линейное пространство Q называется линейным замыканием множества Q.

Отметим, что традиционное требование, чтобы матрица K = = (K(ui, шк), i,k = 1,m), составленная из значений потенциальной функции, являлась положительно определенной Е 1=1 mil cickK(xi, xk) ^ 0, ci,...,cm € R, оказывается завышенным. Если выполняются ограничения E1=i ci = 0, то такая матрица K = (K (ui,uk), г,к = 1,...,m) является условно положительно определенной (conditionally positive defined). Действительно, ограничение ЕiL1 ^yi = 0 в задаче (2) позволяет снизить требования к потенциальной функции.

В этом линейном пространстве базисная совокупность [4, 5] задает некоторый базис {ш0, i = 1,...,N°} = Q0 С Q. Тогда всякому объекту ш € Q соответствуют его проекции на элементы базисной совокупности ш^ш) = = [xi(u)] ш0, где xi(ш) € R — некоторый действительный коэффициент. Оче-/ \ K (ш0 ,ш) тт

видно, что Xi (ш) = кшо ш0). Именно эти действительные величины естественно принять в качестве вторичных признаков объектов. Тогда вектор вторичных признаков объекта ш € Q: х(ш) = (х^ш) = Б(ш0,ш), i = 1,..., №) € RN° будет образован коэффициентами х,,(ш) = К^Що Ш) его проекций на элементы базисной совокупности. Такие вторичные признаки уместно называть проекционными. В частности, если базисная совокупность нормирована в том смысле, что K (ш1,ш°) = ... = K (ш0м0 ,шN о) = const, то в качестве вторичных признаков естественно принять величины Xi(ш) a K(ш0,ш).

По определению потенциальная функция является симметричной, поэтому в этой работе мы рассмотрим две частные ситуации из возможных четырех видов функций парного сравнения, приведенных в [5](табл.):

Напомним, что для симметричной функции S(ш',ш'') = Б(ш'',ш') в случае несовпадения обучающей совокупности и множества базисных объектов

О*, О0 С О, О * = О 0 критерий обучения

( N0 N

Е а2 + ^ тіп(аі,аNo,Ь, ёь5N),

і=і з=і

N0 \

Е аІБ(ш0,Шз) + Ь ^ 1 — ё], ё] ^ 0, і = 1,М,

і=1

І=1 Уз (І

(4)

содержит норму направляющего вектора искомой дискриминантной гиперплоскости Еі=і а2 в М0-мерном линейном пространстве числовых вторичных признаков х(ш) = (хІ(ш) = Б(ш0,ш), і = 1,...,М°) Є М^ и, следовательно, может быть записан в виде:

( N0 N

Еа2 + СТ,ё3 ^ min(al,..., aNо,Ь, ё1,..., ёN),

І=1 3 = 1

( N 0

Уз(Е І \І=1

(5)

аІК(ш0, Ш]) + Ь ) ^ 1 — ёз, ёз ^ 0, і = 1,..., М.

Как видим, здесь ограничения записаны в виде, эквивалентном исходной записи уз йгБ(ш°,шз) + Ь^ ^ 1 - ёз в (4).

Специфика использования кернела в качестве функции парного сравнения объектов 5(шг,шз) = К(шг,шз) заключается в том, что всякий кернел погружает множество объектов ш € О в линейное пространство 0 Э О, на которое естественным образом продолжается исходный кернел, играющий в нем роль скалярного произведения К(ш1, ш") : 0 х 0 ^ М. В силу линейности скалярного произведения по каждому из аргументов линейная комбинация значений кернела по объектам базисной совокупности [шг, г = 1,N°} в (5) может быть записана как одно значение для линейной комбинации

этих объектов: Е^=\ агК(ш°,шз) = К ^=1 ЫгШ10, ш^. Здесь линейная ком-

бинация есть некоторый элемент линейного замыкания множества объектов агш° = $(а) € 0, играющий роль направляющего элемента (направляющего вектора) искомой дискриминантной гиперплоскости в линейном пространстве О.

Заметим, что норма вектора коэффициентов ^а2, квадрат которой входит в критерий обучения (5), является некоторой нормой ||$(а)|| =

N 0 °

= 2^г=1 агш° направляющего элемента, определенной в данном случае специальным образом

\

N 0

£

І=1

а2 = V аТ а = V аТ 1а.

(6)

а

Очевидно, что задача обучения (5) полностью сохранит свой смысл, если в качестве ||$(а)|| принять любую другую из всех возможных норм, поэтому вместо задачи обучения (5) будем рассматривать более общую задачу

2 N

(а)|| + С Е ё] ^ тіп(а1,..., aN0, Ь, ёь ..., ёN),

3=1 \ (7)

аі,К(шІ0, Ш]) + Ь I ^ 1 — ёз, ё] ^ 0, і = 1,..., М.

( N 0

Ь (й

В этом случае норма направляющего элемента разделяющей гиперплоскости может трактоваться, по крайней мере, двумя способами.

Во-первых, как норма гипотетического элемента гильбертова пространства, который понимается как линейная комбинация реальных объектов распознавания. Возможность такой трактовки была показана в [3]. Для нормы, которая определяется таким образом, мы выберем обозначение направляющего элемента (в этом случае уже не вектора с действительными компонентами!) как:

N0 ^

її(а) = ^2 аІш0 Є О, а Є МN0, (8)

І=1

/ N0 N0 \ N0 N0

(а)II2 = К($(а),$(а)) = К [^2аІш0,^2азШз) = £^2К(ш°,ш0)аа.

\І=1 І=1 ) І=1 з=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Во-вторых, перевод задачи в пространство проекционных (вторичных) признаков сводит задачу к вполне обычному критерию в векторном представлении, и норма направляющего вектора разделяющей гиперплоскости в этом случае может пониматься вполне традиционно:

||$(а)||2 = ||а||2 = ата, а € Мм°.

Эти различия в трактовках приведут к различным критериям обучения, их мы и рассмотрим по порядку.

Первый способ задания нормы. Пусть ||$(а)||2 = К (&(а),&(а)), в соответствии с (8):

N ° N °

К (§(а),§(а)) = ^2 К(шз°, шк°)азак = атМ°а,

з=1 к=1

где М° — матрица (№ х №), построенная на значениях потенциальных функций соответствующих элементов, а согласно трактовке данной работы

— фактически на скалярных произведениях элементов базисной совокупности ш°, ...,ш%° в линейном пространстве О:

( К(ш°,ш°) ... К(ш°,ш0°^0)

Ми

V К (ш00 ,Ш0) ... К (ш00 ,Ш00 ))

В этом случае мы приходим к следующему критерию обучения:

N

аТМ0а + С Е ёз тіп(а 1,..., aN0, Ь, ё 1,..., ёN),

з=1

аІК(ш°, Шз) + Ь ) ^ 1 — ёз, ёз ^ 0, і = 1,..., М.

(9)

Двойственную задачу оптимизации удобнее записать, используя опреде-

ление вторичных (проекционных) признаков х(шз) = (х 1 (Шз) . . . XN0 (шз))Т =

= (К(ш0,Шз)...К^0,Шз))Т Є ^0:

N

N N

Е Лі — 22 Е Е УзУкхТ (ші) (М0) х(шк)ХзХк ^ шах(\ь ..., ЛN),

І= 1 з=1 к= 1

N

Е ЛіУі = 0, 0 < Лз < С/2, і = 1,...,М.

І=

В этом случае решающее правило опирается на опорные объекты обучающей совокупности и все объекты базисной совокупности:

а(ш) = Е УзЛз (хТ(ш) (м°Г 1 х(шз^ +Ь ^ 0.

з-.Х^ >0

Константа Ь будет определяться через ранее введенные вторичные признаки следующим образом:

N 0

Е Лз Е УїЛіхТ (Шз) (М0Г х(ші) + (С/2) Е Уз

Ь=

з-0<Хі <С/2 1=1

зх = С/2

Е Лз

з-0<Хз <С/2

Частный случай. При совпадении множеств объектов обучающей и базисной выборок П* = П° С П в критерии обучения (9), теперь опирающемся на N° = N проекционных признаков х(шз-) = (х\(шз)...XN(шз))т =

= (К (шз ,ш1). .. К (шз ,Ш0N ))Т Є MN, будет другая матрица:

/ К(ш°,ш°) ... К(ш°,ш°°^) \

М

и критерий обучения запишем как:

N

атМа + С Е з шт(аь..., aN, Ь, $1,..., 5N),

( ^ Ч (10)

Уз { Е аК (шг,шз) + ъ) ^ 1 - §з, §з ^ 0, j = 1,...^.

Двойственная задача в таком случае принимает особенно простую форму:

N N N

- 2 Е Е Уз Ук К (шз ,шк) Хз Хк ^ Ш&х(Х1, ..,XN),

1=1 з=1 к=1

N

ЕХгУг = 0, 0 < Хз < С/2, j = 1,...,^

< {=1

Простым будет также вид решающего правила распознавания, поскольку

шз) = К (ш,шз)

в таком случае справедливо хт(ш)М 1 х(шз) = К (ш, шз) для любого объекта

ш € °, что эквивалентно

т _1

К(ш,ш1) \ / К(ш1,ш1) ... К(ш1,шN) 4

К(ш,шN) / \ К(шN,ш1) ... К(шN,шN)

/ К(шз,ш1) \

х I . I = К (ш,шз) ,

\ К (шз ,ШN) /

и, следовательно, в дискриминантной функции участвуют только опорные объекты обучающей (напомним, в данном частном случае она совпадает с базисной) совокупности:

й(ш) = ^ Уз Хз К (ш, шз) + Ь ^ 0. зХ >°

Константа Ь будет определяться следующим образом:

Т,з:°<\. <С/2 Хз Е ШХ1К (шз ,ш1) + (С/2)Т1 з:\, = С/2 Уз

I : Хп > °

Ь = V Х .

2^з:°<Хп<С/2 Хз

Другой способ, которым может быть задана норма искомого направляющего элемента, — это ||$(а)||2 = ||а||2 = ата, т.е. скалярное произведение вектора коэффициентов его представления в пространстве проекционных признаков RN°. В этом случае задача обучения может быть сформулирована

как:

( N° N

+ С £ 53 ^ шт(аь ..., а1Ч°, Ь, 51, ...,5N), г=1 з=1 \ (11)

( N °

Уз

I \г=1

агК(ш°,шз) + Ь ^ 1 — 5з, 5з ^ 0, j = 1, ...,М,

т.е. в точности совпадает с задачей (5). Двойственная по отношению к ней будет иметь вид:

N N N N °

Е Хг — 2 Е Е УзУк Е (К(ш°°,шз)К(ш°,шк))ХзХк ^ шiax(Xl,...,XN), г=1 з=1 к=1 г=1

N

Е ХгУг = 0, 0 < Хз < С/2, j = 1, ..., N. кг=1

Оптимальное решающее правило будет иметь структуру, из которой видно, что в дискриминантной функции участвуют все объекты базисной совокупности:

й(ш) = Е Уз Хз К (ш°г,шз)К (ш°,ш)] + Ь к 0.

з: Хп>° \г=1 )

Константа сдвига гиперплоскости в пространстве вторичных признаков Ь определяется как:

Ь=

Е Хз Е У1Х1 (ЕГ=°1 к(ш°,ш1)К(ш°,шз))+(С/2) Е Уз

з:°<Хп <С/2 \:Х\>° ; з:Хп = С/2

Хз з:°<Хп <С/2 (12)

и если определить вторичные признаки объекта распознавания относительно базисной совокупности как:

х(шз) = (хгз, г = 1, ...,№) € М^°, хгз = К(ш°,шз), г = 1,...,№,

то выражение (12) можно записать в краткой форме, совпадающей с (3):

Е Хз Е У1Х1хт(шз)х(ш1) + (С/2) Е Уз

з:°< Ь = з:°<

з:°<Хп <С/2 1:Х>° з:Хп = С/2

Хз

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

з:°<Хп <С/2

Частный случай. При совпадении множеств объектов обучающей и базисной выборок П* = П° С П, N° = N и норме направляющего элемента,

понимаемой как ||$(а)||2 = ||а||2 = ата, критерий обучения будет записан в виде:

N N

Еа2 + С Е 63 ^ тт(аьaN, Ь, 61,5N),

г=1 3=1

Уз(Е а г К (шг,ш') + Ь^ ^ 1 - 6', 6' ^ 0, 3 = 1,..., N.

Двойственная задача имеет вид:

N N N N

Е Лг - 2 Е ЕУзУкЕ (К(шг,Ш')К(шг,ши))Л'\и ^ т&х(\1,...,^),

г=1 '=1 к=1 г=1

N

Е^гУг = 0, 0 < Л' < С/2, 3 = 1,...^.

=1

Оптимальное решающее правило будет иметь структуру:

( N

Т, УзЛ' (Ё-

:Ла>0 \г=1

а(ш) = 2_> Узлз 12^ К(шг,шз)К(шг,ш)} + Ь ^ °.

3: Л]'

Видим, что для определения знака дискриминантной функции необходимо хранить информацию о всех объектах обучающей выборки.

Константа сдвига гиперплоскости Ь рассчитывается как:

Ь=

Е Л3 Е У1 л1 (Ег=1 К (шг,Ш1)К (Шг,Ш' ))+(С/2) Е У3

':0<Ла <С/2 1:Л\>0 7 ':Ла = С/2

Лз

3:0<Ла <С/2

(13)

и если определить вторичные признаки объекта распознавания относительно базисной совокупности как:

х(ш') = (х', г = 1,..., N) € MN, X' = К(шг, Ш'), г = 1,..., N,

то выражение (13) можно записать в краткой форме, совпадающей с (3):

Е л3 Е УглгхТ(ш3)х(ш1) + (с/2) Е Уз

' :0<

Ь = — '

3:0<Ла <С/2 1:Л>0 ':Ла = С/2

Е Л3

3:0<Ла <С/2

3. Предпочтительная ориентация направляющего элемента

разделяющей гиперплоскости вдоль оси инерции базисной

совокупности

Более тщательное изучение нами ситуации, когда в качестве функции

сравнения выступает потенциальная функция, а норма направляющего эле-

мента рассматривается как норма направляющего вектора оптимальной разделяющей гиперплоскости во вторичном векторном пространстве, позволило сделать вывод об эффекте дополнительной регуляризации, возникающей в этом случае.

Рассмотрим отличия задач (9) и (11). Нетрудно убедиться из подстановки aTa = aTa — aTMa + aTMa = aTMa + (aTa — aTMa), что эквивалентная запись критерия (11) имеет вид:

f N

aTM a + (aT a — aT Ma) +C E Sj ^ min(ai,..., aN о ,b,S1,...,SN),

'—й—^ 4-------v-----' j=i

исходный штраф дополнительный штраф

( N о \

Vj ( = агК (Wi,Wj)+ b\ ^ 1 — Sj, Sj ^ 0, j = 1,..., N.

Из последнего критерия следует, что задача (9) отличается от (11) только наличием дополнительного штрафа (aTa — aTMa). Попытаемся изучить физический смысл эффекта, который вносит в критерий этот дополнительный штраф. Если часть, отвечающая за исходный штраф, остается постоянной aTMa = const, то дополнительный штраф среди исходно равноценных значений a предпочитает те, для которых (aTa — aTMa) меньше, т.е. aTa меньше. Таким образом, мы можем сформулировать дополнительное условие:

JaTa ^ тт(аь ..., aNo),

\aT Ma = const.

Мы продемонстрируем, что критерий aTa ^ min(a1,..., aNo) среди направляющих элементов с одинаковым квадратом нормы K ($(a), $(a)) = =

= aT Ma = const эквивалентен критерию Yl,j=1 K (wj ,§(a))2 max. Далее

покажем, что обучение предпочитает те разделяющие гиперплоскости, направляющие элементы которых близки к главной оси инерции базисной совокупности Q 0 = {w0, ...,W°N0}.

Во-первых, убедимся, что минимизация критерия aTa ^ min при ограничениях K ($(a), $(a)) = aTMa = const обеспечивается главным собственным вектором матрицы M. Действительно, функция Лагранжа для такой задачи минимизации имеет вид:

L'(a, в1) = ^aTa — 2— (aTMa — const),

и уравнение

VaL(a, —) = a — — Ma = 0

приводит к условию Ma = в a, которое в свою очередь приводит к равенству aTMa = —'aTa = const. Так как мы минимизируем aTa ^ min, то, следовательно, неизбежно максимизируем —' ^ max, а это предполагает, что последнее равенство обеспечивается максимальным собственным числом мат-

рицы M. С другой стороны, собственный вектор, соответствующий главному собственному числу матрицы M, удовлетворяет условию aTMMa ^ max при ограничениях aTMa = const. Чтобы показать это, продифференцируем функцию Лагранжа по a:

L''(a,—'') = ^ aT MMa — ^ —''(aT Ma — const),

что приведет к равенству

VaL(a, —'') = MMa — —''Ma = M(Ma — —''a) = 0,

если Ma = —''a. Таким образом, требование aTMMa ^ max эквивалентно требованию —''aTMa ^ max, которое с учетом ограничения aTMa = const обеспечивается наибольшим собственным числом матрицы M.

Итак, aTa min при ограничениях K (tf(a),tf(a)) = aTMa = const

эквивалентно aTMMa ^ max, что в свою очередь эквивалентно J2f=1 K (wj,tf(a))2 max. Обучение по критерию (11), то есть без всяких

предпочтений в пространстве проекционных признаков, эквивалентно выражению предпочтений в исходном гильбертовом пространстве, связанных со склонностью направляющего элемента быть близким к главной оси инерции базовой совокупности объектов. Как результат, разделяющая гиперплоскость стремится быть ортогональной этой оси.

Заключение

Показано, что переход к пространству проекционных признаков обеспечивает регуляризацию непосредственно в процессе обучения. В условиях недостаточного обучающего материала можно использовать неклассифицированные объекты, образующие базисную совокупность. Такой подход можно использовать как в случае беспризнаковой концепции, так и оставаясь в рамках классического «признакового» распознавания. Если имеется априорное предположение о вытянутости генеральной совокупности вдоль распределения классов, использование проекционных признаков может повысить экстраполирующие свойства решающего правила распознавания.

Список литературы

1. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. М.: Наука, 1970. 384 с.

2. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. /А.А. Барсегян [и др.]. СПб.: БХВ-Петербург, 2007.

3. Моттль В.В. Метрические пространства, допускающие введение линейных операций и скалярного произведения // Доклады РАН. 2003. Т.388. №3. C.1-4.

4. Середин О.С. Методы и алгоритмы беспризнакового распознавания образов // Дис. ... канд. физ.-мат. наук. М., 2001.

5. Середин О.С. Линейные методы распознавания образов на множествах объектов произвольной природы, представленных попарными сравнениями. Общий случай // Изв. ТулГУ. Естественные науки. 2012. Вып. 1. C.141-152.

6. Mercer J. Functions of positive and negative type and their connection with the theory of integral equations // Philos. Trans. Roy. Soc. London, 1909.

7. Vapnik V. Statistical Learning Theory. N.-Y.: J. Wiley, 1998. 768 p.

Середин Олег Сергеевич ([email protected]), к.ф.-м.н., доцент, кафедра автоматики и телемеханики, Тульский государственный университет.

Pairwise comparison of recognition objects by kernel function

O. S. Seredin

Abstract. Linear methods of learning in the pattern recognition are considered when objects are represented via pairwise comparison function of a special kind, namely by kernels. In this paper which is the second in the series discussed the peculiarities of secondary features creation based on the basis set of objects.

Keywords: featureless pattern recognition, linear decision rule of recognition, basis subset of recognized objects, comparison function, kernel function,secondary features.

Seredin Oleg ([email protected]), candidate of physical and mathematical sciences, associated professor, department of automation and remote control, Tula State University.

Поступила 05.11.2012

i Надоели баннеры? Вы всегда можете отключить рекламу.