Научная статья на тему 'Методология сетей с симметричными функциями преобразования нейронов'

Методология сетей с симметричными функциями преобразования нейронов Текст научной статьи по специальности «Математика»

CC BY
54
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Научное приборостроение
ВАК
RSCI
Область наук

Аннотация научной статьи по математике, автор научной работы — Меркушева А. В., Малыхина Г. Ф.

Представлены основы методологии сетей с симметричными функциями преобразования у нейронов (СФПН), которые находят применение в задачах аппроксимации, распознавания образов, идентификации систем (объектов), создания контроллеров, снижения уровня зашумленности сигналов в информационно-измерительных системах. Особенность структуры таких нейронных сетей (НС) состоит в локализации элементов скрытого слоя в многомерном векторном пространстве (размерность которого идентична размерности входной информации) и в наличии СФПН, зависящей от (метрической) нормы разности векторов локализации элементов скрытого слоя и входного вектор-сигнала. Даны элементы прикладной теории распознавания образов на сети с СФПН; критерий обучения НС на основе функционала, регуляризованного по методу А.Н. Тихонова; общий вид функции аппроксимации и интерполирования, полученный на основе этого критерия с использованием схемы Грина для обратной задачи при преобразовании линейным дифференциальным оператором; метод выбора параметра регуляризации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Меркушева А. В., Малыхина Г. Ф.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методология сетей с симметричными функциями преобразования нейронов»

ISSN 0868-5886

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2006, том 16, № 2, c. 34-45

ОБЗОРЫ

УДК 621.391; 519.21; 519.245 © А. В. Меркушева, Г. Ф. Малыхина

МЕТОДОЛОГИЯ СЕТЕЙ С СИММЕТРИЧНЫМИ ФУНКЦИЯМИ

ПРЕОБРАЗОВАНИЯ НЕЙРОНОВ

Представлены основы методологии сетей с симметричными функциями преобразования у нейронов (СФПН), которые находят применение в задачах аппроксимации, распознавания образов, идентификации систем (объектов), создания контроллеров, снижения уровня зашумленности сигналов в информационно-измерительных системах. Особенность структуры таких нейронных сетей (НС) состоит в локализации элементов скрытого слоя в многомерном векторном пространстве (размерность которого идентична размерности входной информации) и в наличии СФПН, зависящей от (метрической) нормы разности векторов локализации элементов скрытого слоя и входного вектор-сигнала. Даны элементы прикладной теории распознавания образов на сети с СФПН; критерий обучения НС на основе функционала, регуляризованного по методу А.Н. Тихонова; общий вид функции аппроксимации и интерполирования, полученный на основе этого критерия с использованием схемы Грина для обратной задачи при преобразовании линейным дифференциальным оператором; метод выбора параметра регуляризации.

ВВЕДЕНИЕ

При аппроксимации функций, определенных на многомерной области, при классификации, решении задач идентификации и создания контроллеров используются нейронные сети с функциями преобразования (ФП) элементов скрытого слоя, которые образуют базис для аппроксимирующей функции и для разделяющей поверхности (например, гиперплоскости) при решении задачи классификации. Это — сети с (сферически) симметричными функциями преобразования нейронов (СФПН). В методологии анализа таких сетей имеются существенные особенности, поэтому целесообразно рассмотреть элементы их теории ).

Структура сети с СФПН включает слой входных узлов (с числом, равным размерности входных векторов), скрытый слой с СФПН и выходной слой с линейными ФП. Нейроны с СФП характеризуются (многомерным) вектором своего положения и зависимостью реакции на входное воздействие в виде функции (ФП), зависящей от расстояния (нормы разности) между входным вектором и вектором положения нейрона. Увеличение числа нейронов в скрытом слое повышает точность аппроксимации и делает линейно разделимыми (гиперплоскостью) классифицируемые объекты (векторы), которые были линейно неразделимыми при меньшем числе базисных функций — узлов сети с СФПН. Так, если при классификации (типа дихотомии) образов т0-мерных векторов х высокой размерности их разделение на два класса

может быть реализовано только с помощью некоторой поверхности, то после нелинейного преобразования х ^ ф(х), ф(х)= {^(х), ф2(х),..., фт(х)}, m>m0 в пространство более высокой размерности эти образы могут стать линейно разделимыми (ги-пер)плоскостью2). По такому принципу осуществляется классификация на нейронной сети (НС) с СФПН, где в качестве ФПН используются ^(х), ф2(х),..., фт(х).

При дихотомии на классы {Х1, Х2} набор (множество) образов X считается ф-разделимым, если для некоторого вектора w выполняются условия:

(1)

wTф(х) > 0 при x е Xj; wTф(х) < 0 при x е X2.

Соотношение wTф(х) = 0 описывает разделяющую гиперплоскость в га-пространстве признаков ^j(x), ф2(х),..., фт(х) входного вектора (образа) при V x.

Принцип построения сети с СФПН связан с методом интерполяции по Пауэллу (Powell) [2], в котором по заданным N точкам (по векторам хг- е Rm0, i = J, 2,., N) находится функция F, удовлетворяющая условиям F(xi) = di, i = J, 2,., N и имеющая вид:

F (x) = X wMW x - xj),

(2)

1) Приложения сетей с СФПН предполагается проана-

лизировать в следующей статье.

2) Возможность линейной разделимости многомерных образов после их нелинейного преобразования в пространство признаков большей размерности установлено Ковером (Cover) [1].

где di — заданные в узлах значения интерполируемой переменной3-1; ф(|| x - xk ||) — набор значений одного из видов нелинейных СФПН4), размещенных в точках {xk}k=i)2,. ,лг-

При векторно-матричном обозначении d = = [di, d2,., dл]T; w = [wi, W2,..., »л]т; Ф = [фгк]г,к=1,2,.,Л ; %k =Ф(|| Xi - Xk ||- Условие интерполирования F(x,) = dt (i = 1,., Л) принимает форму соотношения

Фw = d. (3)

Матрица Ф является несингулярной5) [3, 4], и поэтому веса (компоненты вектора w) в представлении интерполирующей функции могут быть определены по (4):

w = Ф-1d. (4)

В нейронных сетях используются СФПН в виде гауссиана q>(r) = exp(-r2 /2а2), где r е R, и менее часто в виде: (р( r) = 1/(r2 + c2)12 (о и с — константы).

1. СВОЙСТВА СЕТЕЙ С СФПН

Анализ свойств сетей с СФПН без ограничения

общности выводов можно выполнить на задаче

6)

аппроксимации и интерполирования .

Нахождение интерполирующей функции F относится к классу обратных задач. Устойчивость процедуры получения F обеспечивается, если прямая и обратная задачи являются хорошо определенными (обусловленными — по терминологии А.Н. Тихонова). Для этого необходимо, чтобы функция f которую представляет интерполирующая функция F (получаемая в результате обучения НС) обладала свойствами существования

(для Vx By, y = f (x)),

единственности

(x Ф t

f (x) Ф f (t))

и непрерывности (||х-Ь||<5 ^|/(х)-/(Ь)|<е(5) при малых 8 ие).

Нарушение этих условий может быть связано с рядом причин: входной набор (х,; ^¿}г=1д...д может быть недостаточно точным для восстановления единственной интерполирующей поверхности; при высокой зашумленности входного набора обучающих данных возможно получение выхода НС вне диапазона, предусмотренного для у, т. е. нарушение непрерывности.

При этом, хотя явления, порождающие данные (речь, изображение, сигнал радара), дают хорошо определенные задачи, тем не менее обучение НС, связанное с восстановлением функции / (в виде Е, интерпретируемой как поверхность Г в многомерном пространстве значений вектор-сигналов), часто бывает плохо обусловленной задачей.

Определение синаптических весов НС (компонент вектора w) основано на управлении и контроле степени обученности НС по критерию, который является функционалом ошибки [5, 6]. Согласно методу А.Н. Тихонова [7-9], этот критерий в виде функционала ошибки £ош. (отражающего расстояние между желаемыми и действительными значениями на выходе НС)

1 л

Еош.(F) = -£|di -F(xi)|2

2 1=1

(5)

расширяется путем введения дополнительного "регуляризирующего" функционала

3) В (2) и далее ||.|| — эвклидова норма:

||х - х,|| = [Е;,(X - (х, )1 )2]1/2 ^.

ох

4) Имея в виду математическую форму представления интерполирующей функции Е в виде выражения (2), значения СФПН ф(|| х -х, ||) называют также радиальными базисными функциями, поэтому в американских работах используется термин КБР-сети.

5) У рассматриваемой матрицы Ф (по условию несингулярности) det Ф Ф 0, и она имеет обратную Ф-1.

6) Полезно отметить, что процедура обучения сети точной аппроксимации иногда может давать плохие показатели при тестировании (результаты работы НС на

данных, не участвовавших в обучении и имеющих статистические характеристики, одинаковые с обучающей выборкой). Это связано с "переобученностью" сети, возникающей при большом количестве данных, их значительном рассеянии относительно интерполирующей поверхности, использовании числа СФПН, равного числу обучающих векторов, и при слишком длительном обучении.

Ерег.( F) = 2

D F |

(6)

где Б — линейный дифференциальный оператор, который включает априорную информацию о степени гладкости функции Е Функционал, который минимизируется, имеет вид

E (F) = Еош+Х- E

(7)

а положительное число X определяет баланс относительной значимости требований минимизации ошибки обучения НС и гладкости аппроксимирующей функции Е.

В связи с тем что для получения Е осуществляется минимизация по функции векторного аргумента (Е(х)), условие dE(F) = 0, необходимое для минимума, выражается в форме дифференциала Фреше (ДФ) [10-12]:

йЕ (Е, И) =

—Е (Е + вИ) йв

= 0.

(8)

в=о

где И — функция от вектора х (И(х)) так же, как и Е(х), х е Я Вычисление компонент этого дифференциала, основанное на использовании соотношения (7) и общего правила получения ДФ7), приводит к выражениям (9):

йЕ (Е, И) = йЕош.(Е, И) + Я • йЕре,(Е, И) = 0, йЕош. (Е, И) = - (и, XГ=1 4 - Е(х,)) • 5х_ )н,

йЕрег. (Е, И) = / Б Е • Б И • йх = (Б И,Б Е )н

7)

Для получения ДФ компонент общего (регуляризо-ванного) функционала (7) служат преобразования:

йЕ0ш.(Е, И) =

-в Еош.( Е + в •И) йв

в=0

■2 X - Е (х, )-в^И(х,. ))2

в=0

= —-Е (х,)-вИ(х,,)) • И(х, )]в=0 = = -X£(4-Е(х,)) • И(х,) = -(М-Е(х,)) • 5х, )н;

йЕреГ.(Е, И) =

йв Ерег( Е+вИ)

в=0

Щ .|С[Е +вИ]2йх

в=0

йв I °[Е+вИ]БИ•йх

в=0

= / Б Е• Б И• йх = (Б И,Б Е)н .

Отметим, что наряду с термином ДФ встречается эквивалентное по содержанию понятие дифференциала Га-то, например в [12].

йЕрег.(Е,И) = / И(х)ББЕ(х)йх = (И,ББЕ)н .

С учетом этого ДФ от общего (регуляризован-ного) функционала (7) преобразуется к форме

йЕ (Е, И) =

(

Б Б Е-ЯЯ X ^ - Е) А

, (10)

(9)

где ( •, -)н — символ произведения в гильбертовом пространстве (интеграл произведения функций по области их определения) [13, 14]; 5х — дельта-

функция 5х (х) = 5(х -х,) .

Согласно правилу переноса дифференциального оператора Б с одного множителя на другой в форме

сопряженного оператора Б : | Б Е • Б И - йх =

К"0

= | И(х)Б Б Е(х)йх , последнее соотношение в

Я"0

(9) приобретает вид

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и поскольку (10) справедливо для любого вида функции И(х), то условие минимизации представляется в виде соотношения (11):

Б БЕ-Я X - Е) • 5(х - х,) = 0. (11)

Функция Е, удовлетворяющая (11), зависит от X (ниже это отмечено индексом — ЕЯ (х)) и находится с помощью метода Грина8). Для этого необходимо:

• Изменить форму уравнения (11), выделив явным образом линейный дифференциальный оператор (Ь), и представить это уравнение в виде ([15], см. также 8))

Ь Ех (х) = ф( х), где

Ь = Б Б;

(12)

Р(х) =ЯX- Е(х,)](х -х,) = 0.

• Получить функцию ЕЯ (х) как интегральное выражение ЕЯ(х) =| О(х,£)ф(£)й£ , в котором

О(х, £) — функция Грина для оператора Ь = Б Б и в соответствии с выражением (12)

8) Методом Грина решаются уравнения (в частных производных) общего вида ЬЕ(х) =^(х), х е Ят0, где

Ь — линейный дифференциальный оператор; ф(х) — произвольная функция. Решение может быть представлено в виде р(х) = | О(х,£Ж£)й£ , где О(х,£) являет-

к"0

ся решением квазиоднородного уравнения (с х в качестве переменной и £ в качестве параметра) Ь О(х, £) = 5(х - £), где 5(х - £) — ¿-функция. При этом ¿-функцию (Дирака) называют точечным источником возбуждения; по форме — это предельно узкая плотность распределения, сосредоточенная в точке £, так что

/р(х)5(х-£)йх = р(£), /ф(£)5(х-£)й£ =Ф(х). Более

полные сведения о методах, связанных с использованием функций Грина, содержатся в [16-18].

ф(4) = 2Еи[ -Е(х,)]5(| -х,). Полное выражение для Ея (х) имеет вид:

Ех (х) =

= / С(х,4){!ЕN[ -Е(х,)]-5(|-х,)}=

= 2Е - Е(х,)]• ^(х - х,).

(13)

Е2 (х) = Ем (x, х, ), 1

щ =-

я1

-Е(х,)], г = 1,2,...,N.

(14)

Более компактное представление получается после введения векторно-матричных обозначений

Гя=[[(х1),Ея(х2),...,Ея(хN)] ;

й = [, й2,..., dN ]т;

С =

¥х= С • w ; w = (1/Я)(й - ¥я).

(16)

Исключение Ея из соотношений (16) ведет к системе (17) линейных уравнений (в векторно-матричной форме), которая служит для определения коэффициентов разложения — компонент

вектора w = [,щ2,...,wN]т :

(С + Я^I)w = й .

(17)

Решение задачи оценки аппроксимирующей функции Ея (х) (по критерию регуляризованного функционала) в форме разложения по функциям Грина имеет коэффициенты щ , зависящие линейно от величины ошибки на выходе НС. Поэтому Ея (х) может быть представлено соотношением

(14):

При обратимости матрицы С + Я • I, которая, согласно [3], достигается при указанных выше видах ФПН и облегчается выбором величины x, система линейных уравнений (17) имеет решение, определяющее коэффициенты разложения:

w = (С + Я^ I )-1 й.

(18)

а(х1,х1) .... а(х1,хN)] (15)

, х1) .... С(х N, х N _

w = [, ^2,..., WN ]Т,

с помощью которых соотношения (14) переходят в эквивалентную форму (16):

Таким образом, если в регуляризующем функционале (6) критерия обучения выбран дифференциальный оператор Б, то по соотношению (18) может быть определен вектор веса w, соответствующий желаемому отклику НС и подходящей величине параметра регуляризации x.

Вид функций Грина (ФГ) при выбранных ее центрах х1,х2,...,хопределяется типом оператора Б, т. е. фактически априорными предположениями относительно отображения вход—выход НС. При Б, инвариантном к переносу, ФГ зависят только от разности своих аргументов G(х, х,) = G(х - х,); при инвариантности к вращению и переносу — ФГ зависят от нормы разности тех же векторов G(х,х,) = G(|| х -х, ||) и являются "зависящими от радиуса" базисными функциями. Решение задачи с регуляризованным критерием обучения в этом случае имеет вид

Ея (х) = Е N=1 ЩС(||х - х,

(19)

При этом вектор коэффициентов разложения и вектор значений функции Ея (х) относятся к центрам функций Грина (и одновременно к центрам локализации нейронов в сети), а компоненты матрицы С симметричны ^(х,,х^) = G(х^, х,-)), поскольку они относятся к решениям уравнения с самосопряженным оператором Ь (Ь = Ь).

Сама матрица Грина С симметрична, т. е.

Ст = С .

который за счет использования регуляризации по методу А.Н. Тихонова существенно отличается от полученного ранее более простого выражения (2).

2. ОСНОВНАЯ ФОРМА СФПН И НЕЙРОННЫЕ СЕТИ, ОСНОВАННЫЕ НА МЕТОДЕ РЕГУЛЯРИЗАЦИИ

Наиболее практически значимыми и применимыми являются сети с СФПН на основе функций Грина, у которых порождающий их оператор инвариантен к вращению и переносу и которые представляют многомерный гауссиан:

G(x, х,) = ехр

(

1

\

2о2

| х - х,.

(20)

где х,, о, — центр и полуширина гауссиана и соответствующей СФПН в скрытом слое НС. Оператор Ь (Ь = I) Б), который связан с дифференци-

альным оператором Б, используется в регуляри-зующей компоненте общего функционала (критерия обучения НС) и порождает функцию Грина в форме (20), имеет следующий вид [19]:

Ь = Б Б;

Ь = X^Н)"^2", при

(21)

а =-

п!2"

где V2" — «-кратная итерация многомерного аналога оператора Лапласа V2:

^ =_д1+_д1+ , э 2

Эх^ Эх2 Эх" '

V2п/(х) = (V2^2...^2 /))).

(22)

Преобразования, выполненные Поггио (Poggio) [19], дают явную форму для Б (оператора регуляризации) и ему сопряженного Б :

Б = X а1"

/ > п

п

= X

а+Ь+...+к=п

(

д д Э -+-+... + —

д х1 д х2 д х

т

Щ0

,1/2

д"

(д х1)а (д х2)Ь ...(д хщ)

(23)

па":

Б = X (-1)

п

= X (-1)

д д д — +-+... + —

д х1 д х2 д х

щ0

1/2

дп

а+Ь+...+к=

(д х1)а (д х2)Ь ....(д х)к

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(24)

X (-1)"

«!2 = 5(х - х,).

2п

^ V2" ехр

(

1

| х - х,.

(25)

Этому уравнению удовлетворяет ФГ в форме гауссиана; эта же ФГ является СФПН анализируе-

мой структуры сети; и регуляризованное нейросе-тевое решение определяется выражением

ея( х)=X А ехр

(

1

| х - х.

(26)

Таким образом, решение задачи аппроксимации средствами сети с СФПН при применении метода А. Н. Тихонова может быть получено на основе оператора регуляризации, включающего все частные производные (а точнее все необходимые — исходя из априорных представлений о требуемой степени гладкости ЕЯ).

Использование ФГ в форме гауссиана (20), рассматриваемого как решение операторного уравнения ЬО(х,£) = 5(х-£) (см. примечание 8)), в котором оператор Ь определен выражением (21), при замене £ на х, приводит к соотношению (25):

в котором веса w7 выражаются вторым соотношением в (14) 9).

Практическая реализация представления регу-ляризованной функции аппроксимации ЕЯ в форме взвешенной суммы ФГ О(х,х,) = О(х - х,), центрированных в точках х, (, = 1,., А), предполагает определенную структуру НС (рис. 1). Как отмечено в начале статьи (Введение), простой вариант структуры сети с СФПН состоит из трех слоев: слоя входных узлов (общего для большинства структур НС) с числом узлов щ0, равным размерности исследуемой задачи (т. е. размерности входных векторов); скрытого слоя, который при использовании метода регуляризации состоит из нейронов с СФП, эквивалентной функции Грина для выбранного оператора регуляризации Б, и состоит из N нейронов, где N — размер обучающей выборки (х1,х2,...,хА); одного линейного выходного нейрона, полностью связанного со всеми нейронами скрытого слоя весами Wi (, = 1,., К). Веса выходного слоя являются неизвестными коэффициентами разложения (26) и, согласно (18), определяются значениями ФГ О(х,, х ^),

,,j = 1,2,...,N и параметра регуляризации x. При решении задач распознавания образов число нейронов выходного слоя соответствует количеству дифференцируемых классов (групп со специфичным набором признаков).

СФПН (функции возбуждения нейронов скрытого слоя НС) в форме ФГ центрированы в различных точках обучающей выборки, так что выходом 7-го скрытого нейрона (V,, , = 1,2,...,А)

служит О(х, х,).

3. РАСШИРЕННАЯ КОНЦЕПЦИЯ СЕТЕЙ С СПФН

Кроме достоинств сетей с СФПН и регуляризацией функционала (являющегося критерием качества обучения НС), таких как:

• универсальность возможностей, обеспечивающая получение желаемого качества аппроксимации любой непрерывной функции многих переменных и распознавания многопараметрических объектов (образов);

9) Следует отметить, что использование различных значений полуширины гауссианов (параметров а,) в структурах сетей с СФПН с регуляризацией в реальных приложениях пока не находит применения.

п

Рис. 1. Нейронная сеть с СФПН и регуляризацией функционала критерия обучения НС

• линейность схемы аппроксимации и распознавания образов относительно неизвестных коэффициентов, позволяющая выбрать их наилучшие оценки;

• оптимальность решения при применении сети с регуляризацией в смысле минимизации функционала, который служит мерой близости показаний сети от истинной величины, определяемой обучающими данными,

— имеются и некоторые трудности. Так, соответствие числа функций Грина и количества обучающих данных (х ,.,= 1,2,...,N) при больших N делает избыточным объем вычислений; например, для определения коэффициентов разложения Ея (х) по (19) требуется обращение матрицы С порядка N^N. Кроме того, для матриц высокого порядка более вероятна плохая обусловленность (большое относительное различие минимального и максимального собственных значений матрицы).

В связи с этим получила развитие расширенная концепция сетей с СПФН, которая отражает тенденцию контролируемого снижения сложности сети и получения приближенной формы регуляризо-ванного решения. Основу метода упрощения структуры НС составляет поиск субоптимального решения (достаточно близкого к решению в форме (19) ) в пространстве меньшей размерности10).

Приближенное решение Е*(х) представляется

в виде разложения по сокращенному набору базисных функций (БФ): Е *(х) = Е Щ << (х),

{< (х) = 1,2,...^}, причем число БФ меньше, чем количество обучающих данных Ш\ <N. В качестве БФ берутся СФПН {<(|| х -Ь, ||) , = 1,2,...,т1}, т. к. только такой вид БФ при т1 ^ N и Ь i = х,. (,= 1,2,...,N) обеспечивает плавный переход приближенного решения Е*(х) в полное корректное решение, определяемое выражением (19).

Использование БФ типа {< (|| х -Ьi ||) } в виде ФГ дает новую форму аппроксимации

Е*(х) = Ет=1 (х,Ь,) = Ет=1 (|| х -Ь, ||). (27)

Структура последующих преобразований аналогична основной схеме получения решения по методу регуляризации. Сокращенный набор коэффициентов разложения {щ (,' = 1,2,...,т1)} определяется на основе минимизации регуляризо-ванного функционала Е(Е*), который сформирован с усеченным разложением аппроксимирующей функции Е*(х)

Е(Е*) =

=Е^ к-Ет=1 щр(\\х , - Ь ,

+ я ||Б Е* |

(28)

10) В прикладной математике и механике описанные далее процедуры называют методом Галеркина.

Использование векторно-матричных обозначений, сходных с (15), позволяет представить (28) в виде

Е(Е*) =|| й - Сw ||2 +я || БЕ*|

где

1,^Л2,..ЛЛN

'■[_ Щ

; ^^ = 1^ Щ2,...Щщ

С=

Nхщ

G (xl, Ь1) G (xl, Ь 2 ) .. G (х^ Ь щ) G(x2,Ь1) G(x2, Ь 2) . G(X2, Ь щ )

G(XN,Ь1) G(XN,Ь2) .. G(xN,Ьщ)

(29) С+: я^0 ^ w = Сй, где С+= (СтС)-1 Ст . В этом случае вектор синаптических весов НС w является решением (с минимальной нормой) задачи подгонки методом наименьших квадратов при переопределенном т1) количестве данных.

В случае, когда отдельные параметры исследуемого объекта (компоненты входного вектора х) имеют в решаемой задаче различную значимость, используется взвешенная норма || х ||с , которая . определяется специально подобранной матрицей

С с размерностью (т0 X т0), соответствующей размерности т0 входного вектора:

Регуляризирующая компонента функционала (29) преобразуется к выражению (30) 11):

я || БЕ* ||2 =я(БЕ*,БЕ*)н =ЯwтС0w ,

(30)

где

С0 =

G(Xl, Ь1) G(Xl, Ь 2) G(x2, Ь1) G (х 2, Ь 2)

G (х_, Ь1) G (х Ь 2)

G (х1, Ь ч)

G (х2, Ь

(3 (xщ, Ь щ)_

(С т С + яс 0) w = Ст й.

(31)

|| х ||с = ( С х)т(Сх) = хтСтСх .

Щ Хт0

При использовании такой взвешенной нормы аппроксимация регуляризованного решения (27) представляется в виде

Е *(х) = Е т=1 , (||х - Ь ^ ).

Применение взвешивающей нормы в СФПН в виде гауссиана с центром ^ приводит к соотношению

G(|| х -Ь, ||с) = ехр[-(х -Ь,)тСтС(х -Ь,)] =

|| БЕ* ||2 = (БЕ*,БЕ*)н =

е т=1 щ^(х, ь , ),Б Б Е т=1 щ^х, ь ,)

Е:Ь,),Ет=1 ЩО(х - Ь,)]н =Е* Е""=1 щщР(Ь ,,Ь,)=wтС0w.

Напомним, что индексами под символом матрицы обычно указывается ее размерность, как в (29) и (30).

Минимизация функционала (29) (критерия качества обучения сети с СФПН) относительно вектора коэффициентов осуществляется так же, как выше в разделе 2, и приводит к соотношению

= ехр

- 2(х - Ь, )т Е-1(х - Ь,)

(32)

При этом, если параметр регуляризации X приближается к нулю, вектор веса w сходится к решению, определяемому псевдообратной матрицей

11) Преобразования, ведущие к (30) учитывают представление Е*(х) в виде (27), правило введения сопряженного оператора Б в гильбертовом произведении функций (Б Е*,Б Е*)н = (Е*,Б Б Е*)н , и то, что ФГ G(x, Ь) является решением уравнения Б БО(х,Ь ) = = 0(х - Ь,).

где обратная матрица Е 1 определена выражением

1 Е-1 = СтС.

2

Правая часть в (32) представляет многомерное распределение Гаусса с вектором среднего ^ и с ковариационной матрицей Е . Поэтому соотношение (32) является обобщением выражения (20), которое относится к основной форме сети с СФПН, построенной по методу регуляризации функционала ошибки обучения.

Решение задачи аппроксимации, представленное в форме Е *(х) = Е(х) (с укороченным

разложением и процедурой определения синапти-ческих весов щ, на основе функционала (28)), дает основу для построения структуры сети с СФПН, показанной на рис. 2.

Структура сети по расширенной концепции (СРК) сходна с общим типом сети с регуляризацией функционала (ОТСР), но имеет существенные различия с ней.

• Число нейронов в скрытом слое СРК равно т! и обычно значительно меньше числа N образцов, доступных для обучения НС, тогда как число нейронов в скрытом слое ОТСР равно в точности N.

Входной Скрытый слой

слой (m1 элементов)

Рис. 2. Сеть с укороченным разложением Е*(х) по СФПН (на основе расширенной концепции сетей с регуляризацией). Дополнительный элемент скрытого слоя, не зависящий от данных, обеспечивает смещение w0 для нейрона выходного слоя

• У СРК (рис. 2) веса выходного слоя 0уь..., положение центров СПФН и взвешивающая матрица являются неизвестными и входят в состав параметров, значения которых определяются в процессе обучения сети. Напротив, у ОТСР функции СФПН известны и определяются функциями Грина. Центры этих ФГ находятся в точках обучающей выборки и единственно неизвестными параметрами у ОТСР (которые определяются при обучении) являются линейные веса выходного слоя.

4. ТОЧНОСТЬ ФУНКЦИОНИРОВАНИЯ СЕТИ ПРИ МЕТОДЕ РЕГУЛЯРИЗАЦИИ И ОЦЕНКА ПАРАМЕТРА Л

В процедурах, связанных с методом регуляризации сети с СФПН, с анализом среднеквадратичной ошибки НС и ее контролем, существенную роль играет параметр л. Подход к оценке Л удобно показать, используя в качестве модели задачу нелинейной регрессии, в которой выход НС у на входной вектор-сигнал хг- определяется соотношением

y = f (x,) + £,., i = 1,2,..., N, (33)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где f (x ) — гладкая зависимость; s, — отсчеты белого шума с нулевым средним и дисперсией а2, т. е. E[e;] = 0 Vi; Щ_££к] = ^28k (здесь Е — символ оператора матожидания, 5ik — символ Кроне-кера), а задача состоит в восстановлении функции f (x) из заданного класса на основе использования обучающих данных {(x,,)},=12 N .

Если Fx(xi) — это оценка f (x ) по методу регуляризации для некоторой величины параметра X, то F1(x,) минимизирует функционал, составленный для задачи нелинейной регрессии в виде: E(F) = (1/2)XN=1[y, -F(x,)]2 +(Я/2) || DF(x,) ||2. При

этом выбор подходящего значения X должен уравновешивать относительную значимость двух требований к функционированию обученной НС:

• Обеспечение гладкости F(x), предусмотренной заданием вида дифференциального оператора D.

• Обеспечение желательно меньшей суммарной квадратичной ошибки Е^=1[Уг - Е(х,)]2, источником которой служит неполнота соответствия данных и модели регрессионной зависимости с предусмотренной гладкостью.

Представление Ея(хк) на обучающем векторе хк (через набор наблюдаемых значений {y}i=l,2,...,м ) в виде Ея(хк) = Е ^ а к (я)у,- при использовании

векторно-матричных обозначений принимает форму соотношения (34):

^я = А(я)у , (34)

где

F = F^XF(x2),...,F(xл)]T; y = ILyj,У2,...,Ул]T

Л(Я) =

Аналогичным образом при использовании (в качестве обозначения) вектора отсчетов функции { = [/(х1),/(х2),...,/(хN)]т модели регрессии в точках обучающей выборки может быть представлена среднеквадратичная ошибка Я(х), определенная как ВД = (1/N)Е(х,) - Ея(х, )]2 , в виде

Я (я) = ^^ - ¥яЦ2 = - А(я)у||2. (35)

Таким же способом получается эквивалентное векторное представление выражения (33):

у = Г + г , где вектор г = [е,е,...,е]т .

Проделанные преобразования позволяют придать среднеквадратичной ошибке Я(х) форму, удобную для получения для нее определенных характеристик:

Я(я) = (1/N)||(1 - А(я)) - А(я)г ||2 = = (1/N )||(1 - А (я))Г||2 --(2/N )гт А (я)(1 - А (я)) +

+ (1/M)||A (я)г||2, (36)

I — матрица тождественного преобразования.

При этом путем применения к (36) оператора математического ожидания (Е) получается оценка

средней величины R(X)12): Е [ R (Я)] =

= (1/Л) || I - Л (A)f ||2 + (а2 /Л)tr{Л2 (Я)}. (37)

В связи с тем, что для оценки Е [ R(Я)] по (37)

требуется знание регрессионной функции fx) (которую требуется восстановить средствами НС), Кравеном и Вахбой (Craven, Wahba) [20] введено определение следующей аппроксимации Я(Я):

R (Я) = (1/Л )||I - Л (Я)у||2 +

+(а2/ Л )tr [ Л2 (Я)]- (а2/ Л)tr (I - Л (Я))2 ]. (38)

^(Я) является несмещенной оценкой; Е{(Я)} =

= Е{R(Я)}; минимизация R^) дает хорошую

оценку параметра регуляризации X.

Для практики применения сетей с СПФН по методу регуляризации важным является предложенный в [20] метод перекрестной проверки-подтверждения (ППП). На основе этого метода осуществляется п2роцедура оценки неизвестной дисперсии шума а , которая необходима для определения Я(Я) с помощью выражения (38). Метод ППП имеет две разновидности — простую и расширенную.

• В простой форме метода при минимизации функционала E(F) ^[y. -F(xt)]2 +(Я/2) || DF(x) ||2

т—г| к I т-,[к]

определяется Е я , соответствующая штЕ , где

Е

Е[к] = Е!=1,,Фк[у, -Е(х,)]2 +(я/2) || БЕ(х,) ||2, т. е.

для функционала Е[к], в котором исключена обучающая пара (хк,ук). Способность Е[к] предсказывать все точки данных оценивается как средняя ошибка их предсказания

У0(я) = (1/N^N=1^ -Е[к](хк)]2 . (39)

Это выражение зависит только от данных. Процедуры получения функции У0 и способ оцен-

12) Необходимые для этого преобразования основаны на том, что квадрат нормы вектора равен скалярному произведению ||Г||2 = ( Г, Г ); норма || (I-А(я) )Г ||2 не является случайной и оператор Е на нее не влияет. Е{гтА(А)(-А(я))} = 0, т. к. Е{гт } = 0. По правилам

матричной алгебры Е{||А(я)гт||2} = Е{[Ат(я)А(я)ггт]} = = и1 й"[Ат (я )А(я )] = стЧг[А2 (я )]; поскольку ^[ВС] = = tг[CB], tг[Aт ( я ) А ( я )] = &[А2 ( я )].

ки л, основанный на минимизации У0, составляют обычную форму метода ППП.

• Расширенная форма метода для получения У0(л) использует три положения.

1) Если точку данных ук заменить ее предсказателем ] (хк), то минимизация регуля-ризованного функционала Е( Е) = (1/2) х

ХЕГ=1[У. -Е(х,)]2 +(Я/2)||БЕ(х,)||2 с использованием данных {уь у2,..., ук-1, ук, ук+ь..., уы} в качестве решения дает

Е? ](х,).

2) Для каждого входного вектора хк функция Е[к] (х), минимизирующая функционал Е[к] (х ), линейно зависит от ук.

3) Из положений 1) и 2) следует справедливость соотношения Е[к](хк) = Е (хк) +

+(Е!к](х,) - у,)(х)

а учитывая, что

дЕ (х, )

эу,

= а,„

дук

(поскольку ЕЯ (хк) =

ад = (1/ы )£ N=1 I \(хк) - ук

- ак (Я)

(41)

у (Я)_(1/ы )х

Г 1 -(Я) I2

(42)

(1/ N )*[ I - А (Я)]

ЕЯ(хк) Ы=1 ак(Я)yi расширенный метод ППП

предлагает функцию У(л) (минимизация которой определяет величину параметра регуляризации Л) в виде

V (Я) =

(1/N )||[1 - А(Я)]у||2 {{1/N )1г[ I - А(Я)]}2

(43)

,_1 а к (Я)у,-), это соотношение можно

решить относительно ЕЯк](хк) и представить эту функцию в виде (40):

ЕЯк](х,) _

_ ея (хк) - акк(Я)у, _ еЯ (хк) - у, + у _ 1 - а„ (Я) Ук(40)

Подстановка (40) в (39) дает новую форму

У>(л):

Чтобы уменьшить влияние различия множителей (1 - акк (Я))-1 на взвешивание ошибок аппроксимации (ЕЯ (хк) - ук) в выражении (41) для У0(л), расширенный метод ППП использует процедуру вращения координат. При этом модифицированная функция У(Л) отличается от обычной формы (41) введением весовых коэффициентов шк:

Таким образом, после преобразования числителя в (42) с использованием соотношения

Согласно [20], при больших N среднеквадратичная ошибка Я(Л) при значении л, полученном по расширенному методу ППП, приближается к минимально возможному значению.

ЗАКЛЮЧЕНИЕ

Представлены элементы теории и аналитические процедуры, составляющие методологию сетей с (сферически) симметричной функцией преобразования нейронов (СФПН). Особенность структуры таких нейронных сетей (НС) состоит в использовании двух принципов:

• локализации элементов скрытого слоя (нейронов) в многомерном пространстве, размерность которого соответствует размерности входной информации (размерности аргумента аппроксимируемой функции, распознаваемых образов, объектов с отслеживаемой или управляемой по модели траекторией);

• зависимости СФПН от (нормы) разности входного вектор-сигнала и вектора локализации, фиксирующего каждый нейрон скрытого слоя НС в пространстве параметров анализируемой информации.

Специфика методологии сетей с СФПН определяется некоторой сложностью аналитических преобразований, составляющих ее основу и относящихся к (нетрадиционным для прикладных методов обработки сигналов в ИИС) разделам функционального анализа, математической физики и теории решения некорректно поставленных (как правило, обратных) задач.

Краткая сводка процедур и преобразований, связанных с основами методологии включает:

• Введение нелинейных преобразований пространства параметров входного вектора НС, улучшающих разделимость объектов при распознавании образов — получение линейной разделимости на классы с помощью (гипер-)плоскостей вместо сложных гиперповерхностей. Этот принцип имеет приложение также при преобразовании нелинейной фильтрации в более простую задачу линейной фильтрации.

• Анализ задачи интерполирования с использованием сети со сферически СФПН и особенности алгоритма обучения, связанные с переобучен-ностью НС.

• Элементы процедуры регуляризации по методу А.Н. Тихонова для плохо обусловленной задачи.

• Схему применения метода регуляризации при получении корректного решения задач для сетей с СФПН. Анализируемый подход состоит в расширении критерия (функционала) качества обучения НС путем введения аддитивной компоненты в виде регуляризирующего функционала (РФ). РФ представляет квадрат нормы преобразованной дифференциальным оператором (ДО) аппроксимируемой функции. При этом ДО и сам РФ отражает априорные представления о гладкости восстанавливаемой функциональной зависимости, а специально вводимый множитель при РФ (называемый параметром регуляризации) определяет относительную значимость показателя ошибок НС и требования к гладкости решения — функции, определяемой сетью после обучения.

• Аналитические преобразования, связанные с получением решения для НС с изотропной формой СФПН в виде гауссиана, включающие минимизацию критерия общего вида (с РФ) и использующие процедуры для дифференциала Фреше, определение функций Грина (ФГ) и представление аппроксимируемой функции в виде разложения по ФГ.

• Метод получения решений для сетей с изотропными СФПН в виде многомерных гауссианов, показанный как в основной, так и в расширенной формах, последняя из которых использует НС с существенно меньшим числом нейронов.

• Рассмотрение подхода к определению величины параметра регуляризации, использующего критерий среднеквадратичной ошибки НС, и метода перекрестной проверки-подтверждения (ППП). Метод ППП описан в простом и расширенном вариантах.

Основные идеи, методы и аналитические процедуры, описанные выше, разработаны Ковером, Микчели, Квоком и Йонгом, А.Н. Тихоновым, Че-ном и Чангом, Хэйкиным, Поггио, Кравеном и Вахбой [1, 3, 5, 7, 11, 15, 19, 20].

СПИСОК ЛИТЕРАТУРЫ

1. Cover T.M. Geometrical and statistical properties of systems of linear inequalities to pattern recognitions // IEEE Transactions on Electronic Computers. 1965. V. E14. P. 326-334.

2. Химмельблау Д. Прикладное нелинейное программирование. М.: Мир, 1975. 534 с.

3. Micchelli C.A. Interpolation of scattered data: distance matrices and conditionally positive-definite functions // Constructive Approximation. 1986. V. 2. P. 11-22.

4. Воеводин В.В., Кузнецов Ю.А. Матрицы и вычисления. М.: Наука, 1984. 318 с.

5. Kwok T.K., Young D.-Y. Objective functions for training new hidden units in constructive neural networks // IEEE Transactions on Neural Networks. 1997. V. 8, N 8. P. 1131-1148.

6. Малыхина Г.Ф., Меркушева А.В. Элементы статистической концепции обучения нейронной сети и прогнозирование точности ее функционирования // Научное приборостроение. 2005. Т. 15, № 1. С. 29-45.

7. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. М.: Наука, 1979. 280 с.

8. Kirsch A. Introduction to the mathematical theory of inverse problems. N. Y.: Springer-Verlag, 1996. 420 p.

9. Lagaris I.E., Likas A. Artificial neural networks for solving ordinary and partial differential equations // IEEE Transactions on Neural Networks. 1998. V. 9, N 5. P. 897-1000.

10. De Figueirede R.J.P. Nonlinear feedback control systems. N. Y.: Academic Press, 1993. 480 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11. Chen S., Chang E.S. Regularized orthogonal least square algorithm for constructing RBF neural networks // International Journal of Control. 1996. V. 64, N 5. P. 829-937.

12. Бронштейн И.Н., Семендяев К.А. Справочник по математике. М.: Наука, 1986. 544 с.

13. Колмогоров А.Н., Фомин С.В. Элементы теории функций и функционального анализа. М.: Наука, 1966. 120 с.

14. Треногин В.А. Функциональный анализ. М.: Наука, 1980. 350 с.

15. Haykin S. Neural networks. Upper Saddle River, New Jersey: Prentice Hall, 1994. 680 p.

16. Джеффрис Т., Свирлс Б. Методы математической физики. М.: Мир, 1970. Вып. 1-3. 860 с.

17. Курант Р. Уравнения с частными производными. М.: Мир, 1964. 396 с.

18. Камке Э. Справочник по теории уравнений в частных производных. М.: Наука, 1976. 484 с.

19. Poggio T., Girosi F. Networks for approximation and learning // Proceedings of IEEE. 1990. V. 78. P.1481-1497.

20. Craven P., Wahba G. Smoothing noisy data with spline functions: Estimating the correct degree of smoothing by the method of cross-validation // Numerische Mathematik. 1979. V. 31. P. 377403.

Санкт-Петербург

Материал поступил в редакцию 7.12.2005.

METHODOLOGY OF NETWORKS WITH SYMMETRICAL TRANSFORMATION FUNCTIONS FOR NEURONS

A. V. Merkusheva, G. F. Malychina

Saint-Petersburg

The basic methodology of networks with symmetrical transformation functions for neurons (STFN) is presented. Such neural networks (NN) find application in the problems of approximation, pattern recognition, systems (objects) identification, controller designing, noise level lowering for signals in information-measurement systems. The characteristic property of NN structure is the localization of hidden-layer elements in the multidimensional vector space (whose dimension is identical to the input information dimension) and the presence of STFN depending on the (metric) norm of the difference between the hidden-layer element localization vectors and the input signal-vector. The paper presents the applied theory elements for pattern recognition using a network with STFN; NN learning criteria on the basis of a functional regularized with the aid of A.N. Tikhonov's method; a general form of approximation and interpolation functions (obtained on the basis of those criteria) using Green's scheme for the inverse problem generated by transformation with a differential operator; a method for regularization parameter selection.

i Надоели баннеры? Вы всегда можете отключить рекламу.