ИЗВЕСТИЯ
ПЕНЗЕНСКОГО ГОСУДАРСТВЕННОГО ПЕДАГОГИЧЕСКОГО УНИВЕРСИТЕТА имени В. Г. БЕЛИНСКОГО ФИЗИКО-МАТЕМАТИЧЕСКИЕ И ТЕХНИЧЕСКИЕ НАУКИ № 13 (17) 2009
IZVESTIA
PENZENSKOGO GOSUDARSTVENNOGO PEDAGOGICHESKOGO UNIVERSITETA imeni V. G. BELINSKOGO PHYSICAL, MATHEMATICAL AND TECHNICAL SCIENCES № 13 (17) 2009
УДК 004.032.26
ИССЛЕДОВАНИЕ ГРАДИЕНТНЫХ АЛГОРИТМОВ ОБУЧЕНИЯ ВЕСОВ РАДИАЛЬНО-БАЗИСНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РЕШЕНИЯ КРАЕВЫХ ЗАДАЧ МАТЕМАТИЧЕСКОЙ ФИЗИКИ
© В. и. ГОРБАЧЕНКО, Е. В. АРТЮХИНА Пензенский государственный педагогический университет им. В. Г. Белинского, кафедра Вычислительных систем и моделирования e-mail: [email protected]
Горбаченко В. И., Артюхина Е. В. - Исследование градиентных алгоритмов обучения весов радиально-базисных нейронных сетей для решения краевых задач математической физики // Известия ПГПУ им. В.Г. Белинского. 2009. № 13 (17). С. 134-143. - Разработаны градиентные алгоритмы обучения весов радиально-базисной нейронной сети для решения краевых задач математической физики. Проведено экспериментальное исследование разработанных алгоритмов. Показано, что алгоритм сопряженных градиентов для минимизации квадратичного функционала позволяет достичь большей точности за меньшее время.
Ключевые слова: радиально-базисная нейронная сеть, краевая задача математической физики, градиентные методы обучения, квадратичный функционал.
Gorbachenko V.I., Artyukhina E.V. - The research of gradient algorithms of teaching the scales of radial-basis neural networks for solving the boundary problems of mathematical physics // Izv. Penz. gos. pedagog. univ. im.i V.G. Belinskogo. 2009. № 13 (17). P. 134-143. - The gradient algorithms of teaching the scales of radial-basis neural network for solving the boundary problems of mathematical physics are worked out. The experimental research of these algorithms is carried out. It is shown that the algorithm of conjugate gradients for the minimization of quadratic functional allows to amount the greater precision for lesser time.
Keywords: radial-basis neural network, boundary problems of mathematical physics, gradient methods of teaching, quadratic functional
Введение
Для численного решения краевых задач математической физики, описываемых дифференциальными уравнениями в частных производных, наибольшее распространение получили методы конечных разностей и конечных элементов. Эти методы требуют построения расчетных сеток. Построение сеток для двух и трехмерных областей сложной конфигурации является сложной задачей, трудоемкость которой для реальных задач превосходит трудоемкость решения систем алгебраических уравнений, получаемых в результате применения методов конечных разностей и конечных элементов. Сеточные методы позволяют получить решение только в узлах сетки. Большие вычислительные затраты приводят к использованию аппроксимаций низкого порядка, которые обеспечивают непрерывную аппроксимацию решения на сетке, но не его частных производных.
Альтернативным подходом является использование различных вариантов метода взвешенных невязок, когда в качестве базисных функций применяются радиально-базисные функции (RBF - radial basis function) [1 - 4]. Использование RBF-функций рассматривается как бессеточный метод (meshless, meshfree). Применение радиально-базисных функций позволяет исключить трудоемкий процесс построения сетки и позволяет получить приближенное дифференцируемое решение в произвольных точках области. Недостатком метода является сложность определения параметров радиально-базисных функций.
Бессеточные методы эффективно реализуются на радиально-базисных нейронных сетях (КВР№№) [5 - 7]. ИВЕМЫ отличаются простотой, так как содержат только один скрытый слой, поэтому исключается неформали-зуемый подбор структуры сети, необходимый для большинства типов нейронных сетей. ИВЕМЫ могут быть реализованы на универсальных вычислительных системах, а не только на специализированных нейрокомпьютерах. Главное достоинство ИВЕМЫ состоит в использовании принципов обучения для формирования оптимальных параметров радиально-базисных функций. Однако технология применения ИВРЫП отработана, в основном, для решения линейных стационарных задач. Отсутствуют эффективные алгоритмы обучения КВР№№
Целью данной работы является исследование различных алгоритмов обучения весов КВР№М
1. Структура радиально-базисной нейронной сети
Радиально-базисная нейронная сеть (рис. 1) представляет собой сеть с двумя слоями [5, 6].
Рис. 1. Радиально-базисная нейронная сеть
Первый слой осуществляет преобразование входного вектора x с использованием радиально-базисных функций. Практически используются различные радиально-базисные функции. В дальнейшем будем использовать наиболее часто употребляемую функцию - Гауссиан, имеющий вид для к -го нейрона
Фк(x)= exP(-rk2/ak ) (1)
где x - входной вектор, rk =||x - ck|| - радиус RBF к -го нейрона, ak - ширина RBF к -го нейрона, ck - центр RBF к -го нейрона.
Выход сети описывается выражением
m
и =Z wk Фк (x ) (2)
к=1
где wk - вес, связывающий выходной нейрон с к -ым нейроном первого слоя; m - число нейронов первого слоя.
2. градиентный алгоритм обучения сети. Алгоритм спуска
Рассмотрим градиентный алгоритм обучения радиально-базисной нейронной сети на примере решения двумерного уравнения Пуассона
ди +^J± = f (x, y), (x, y , (3)
dx dy
и = p (x, y), (x, y )єдп, (4)
где дО - граница области; f и p - известные функции (x, y).
Выбирая в качестве радиально-базисной функции Гауссиан (1), рассмотрим ИВЕМЫ как аппроксиматор функции решения:
т
и (х )=£ ^ Фк (гк), (5)
где т - число радиально-базисных функций (скрытых нейронов), гк = ^(х - схк ) + (у - с ук ) , (схк сук)- координаты центра нейрона к, ак - ширина ИВБ нейрона к.
Обучение сети сводится к настройке весов, расположения центров и ширины нейронов, минимизирующих функционал качества (функционал ошибки), представляющий собой сумму квадратов ни(хзок в коитрольных
точках
1 N
I (у, с, а ) = - >
2 »=1
д2и (х, у,) + д2и (Хі, уі ) ( у)
+^ 1 (Х, у)
х К
+ —>1 и (Х,.
2
>[и (хі, УJ)-
і+1
(6)
где X - штрафной множитель, рь - значение граничных условий первого рода в точке ] границы, Т и К - количество внутренних и граничных контрольных точек.
Функционал (6) необходим для обучения сети. При обучении используется пакетный режим обучения. Для оценки невязки как меры близости к решению целесообразно использовать одну из норм вектора невязки (вектор невязки вычисляется во внутренних и граничных контрольных точках).
очень важно соблюдать при обучении соотношение между оптимальным количеством нейронов т и количеством контрольных точек [5]
т х 3Т + К , (7)
где х - знак пропорциональности.
Представление решения в форме (5) и вид базисных функций (1) позволяют вычислить частные производные от решения. Исходя из (5) вторые производные рассчитываются по формулам
д2и ^ = 4>
ду и
(х
у,е
/ \2
(х - схк) - °-5а
(у - сук )2 - °-5а
Тогда
Функционал ошибки равен
д2и д2и „т
Аи =—^ + —г = 4> дх2 дУ к=-
„2 „2
(8)
1 (у,с,а )=2 >14>
ак . Гк - ак
- г (Х, У,)[ +Х .>
ї=і
(9)
Градиентный алгоритм спуска, одновременно оптимизирующий веса, центры и ширину может быть п остро-ен в виде последовательностидвухшагов [7].
Шаг 1. Зафиксировав центры и ширину, находим веса, минимизирующие функционал ошибки (6)
(п) («-1) (я-1)
у = у - п
д1 (с(п-1), а(п-1), у(п-1))
(10)
где П - номер цикла обучения, П(п Р) - коэффициент скорости обучения.
Шаг 2. Зафиксировав , находим центры и ширину, минимизирующие функционал ошибки
к=1
2
2
4
а
к
г,
уке
4
а
к
4
2
2
г
г
4
а
1 к=1
к=1
к
дI (с
с(-) _ с(и-1) в--1) Vк
ск _ ск -р -----------------
(и-1) (п-1) (п)
> ак > чк
эСр 1
а(п) _ а(п-1) - а(п-1)
д1 (скп), акп-1), чкп))
Эакп-1)
Направления изменения параметров сети выбираются противоположными градиентам функционала I. Компоненты градиента функционала по параметрам сети несложно вычислить:
д1
дЧ=£(д“'- /)
к 1=1
_к 2 2 е4. _к - а +
ак4
((,- р, )-
_ Г/к. а2
(11)
,_1
Л
- _к а2
д^ _ 2Х(Аи, - /)
дак _1
д1 Л - _2
_т _ 2Х (А(,- X Ке ак • (х - с*)
г4 - 3ак2Гк2+ак4
/_1
,_1
д1
дс„
Л —а.
_2Х (А(,--х Ке ак • (у,- сук )•
Г,, - 2а.
^ХХи/)
-_к г 2
}чке а1 3 •
ак
2
-_к 1 с
е а •■ \ J -
/_1
(У - сук )
^ук ,_1 ик ,_1 “к
Число циклов обучения для весов должно быть большим, чем для нелинейных параметров сети - центров и ширины. Это необходимо для обеспечения достаточно малой погрешности, обусловленной неоптимальностью линейных параметров w, при измененных нелинейных параметрах а и с. Другими словами, необходимо обучать веса до достаточно малой погрешности при каждом наборе центров и ширины.
3. Алгоритм скорейшего спуска обучения весов сети
Поскольку выходной слой сети является линейным, можно вычислять коэффициент скорости обучения весов в каждом цикле обучения. Задачу определения коэффициента п(и-1) представим как задачу одномерной оптимизации. Записав (10) в виде
лт (п 1)
(и) (и-1) (и-1) д1
Ч’ _ Ч ’-п ' —^п-1), дчк
при зафиксированных центрах и ширине, подставим (12) в (6). Обозначим
1, _ 4Х
_1
т
Ь _ 4Х
— 1*2 „2 ч(и-1)е “1 __^-а-
- /, ,
^ д1(и-1) -_2 _2 - а2 ^
___________е а2 Г,к ак
дч(и 1)
(12)
(13)
(14)
р, ,
й, _Х
д1
(и-1) -Гк
дч(и 1)
Тогда, подставляя (12) в (9) с учетом (13) - (16), получим
4 2
л 1, .9 л К К
I « = I +1 („м) -^Тг,4, +Х (Г^Х
,_1 2 ,_1 ,_1 2 ,_1
41 (-)
Выберем скорость обучения п(--1) из условия минимума функционала I(и): —(—у _ 0, тогда
(15)
(16)
)
е
7
а
к
а
к
_
а
6
2
а
к
4
а
к_1
к
к_1
к_1
N K
Ё & І +ХЁ Г2 jdj
П(п-1) = ^^ . (17)
5Х+ад
<■=1 ;=1
Несмотря на несколько громоздкий вид, коэффициент скорости обучения П(п 1) несложно вычисляется по выражениям (13), (14), (15) и (16).
Запишем выражение (17) в матричном виде. Представим (13) как элемент вектора
ги =Ё т*^-0- , (18)
к=1
где
- % г2 - а1
т.к = 4гак^-рк . (19)
ак
Тогда
г1 = Mw - і , (20)
где М - матрица N х т с элементами (19), г1 - вектор с элементами (18), w - вектор с элементами мІ' 1).
Сравнивая (18) - (20) с (8) и (9), видим, что г1 - это вектор невязки решения во внутренних контрольных точках.
Ы (и-1)
Аналогично получаем Ь = М], где ] - вектор градиента функционала ошибки по весам с элементами 4к = —ц.
дмГ1
Из (15) получаем вектор г2 - вектор невязки решения в граничных контрольных точках
г2 = ^ - р , (21)
- г2 2
где N - матрица К х т с элементами пк = е ак , р - вектор с элементами рі.
Из (16) получаем
а = N. (22)
Из (11) следует, что вектор градиента функционала ошибки по весам вычисляется по формуле
Из (12) получаем
1 X
j=; Mrl + 2Nr;.
(n) (n- ) (n- ) (n- )
w - w -n j . (23)
В (23) введен номер шага обучения.
С учетом введенных обозначений и использованием скалярных произведений выражение (17) принимает вид
n<„-,)Jr„ b )+ЧМ ) (24)
iibi +^i dll
где |Ь|| и d - евклидовы нормы соответствующих векторов.
Использование вычисляемого коэффициента скорости обучения весов обеспечит примерно такую же скорость обучения, что и при подбираемом коэффициенте, но избавит от эмпирического подбора коэффициента.
4. Алгоритм сопряженных градиентов обучения весов сети
Существенно большую скорость сходимости, чем метод скорейшего спуска, обеспечивают метод сопряженных градиентов и, особенно, метод Ньютона [5]. Но метод Ньютона отличается большой трудоемкостью и требует порядка O(т2) арифметических операций (т - порядок вектора весов). Метод сопряженных градиентов требует порядка O (т ) арифметических операций. Остановимся на методе сопряженных градиентов.
Метод сопряженных градиентов используется для минимизации квадратичного функционала [8]
f (х) = ,xTAx - bTx, (25)
где A - симметричная положительно определенная матрица, х - искомый вектор, b - вектор.
Так как функционал ошибки относительно весов представляет собой квадратичную функцию, то может быть достигнут глобальный минимум функционала ошибки по весам.
4.1. Алгоритм обучения на основе классического метода сопряженных градиентов обучения нейронной сети
Рассмотрим классический метод сопряженных градиентов обучения нейронных сетей. В алгоритм введем некоторые модификации, учитывающие особенности обучения весов выходного слоя радиально-базисной нейронной сети.
Использование метода сопряженных градиентов при обучении нейронных сетей основано на известном в оптимизации [9] разложении функционала качества (6) в ряд Тейлора в окрестности точки минимума (ограничиваются тремя членами в разложении)
1
I ^ + Дw )=I ^ )+ gT Дw +—ДwTHДw,
где g =
ді ді
дм1 дм2
ді
дм
вектор градиента, д21
Н
д21
(26)
дм1дм1
д21 дмтдм1
дМ1дМт
д I
дм дм_
(27)
- Гессиан.
Разложение (26) является квадратичным приближением функционала качества.
Шаг п алгоритма метода сопряженных градиентов обучения весов радиально-базисной сети имеет вид:
1. Вычисляется вектор весов
(п) (п-1) _-('-1)
^ ^ + "Лп-1Р ,
(28)
где р(п 1) - направление поиска, р(0) = ^(0), g(0) - вектор градиента; пп-1 - вычисляемый коэффициент.
В общем виде коэффициент пп-1 получается в результате решения задачи одномерной оптимизации функционала (6) по выбранному направлению р(п 1). В нашем случае коэффициент пп-1 может быть вычислен по выведенной формуле (17) алгоритма скорейшего спуска
(п-1) 1=1
П =—
Ё ГкА +ХЁ Г2 і*і
і=1
N К
Ё ь + ХЁ * І=1 і=1
где ги = 4Ё
-— Г2 - а2
,(п-1)е ак Гк___________ак_
к * ..4
а
V
к
- Ї, , Ь = 4Ё
/
- 2 2 (п-1)е ак Гк - ак
Рк Є
'2 і
=Ё
(п-1 )
М ’е
- р і , *і = Ё
(п-1) ак2
Рк п-1 е ак
(п)
2. Вычисляется градиент g Компоненты градиента вычисляются по формуле (11).
3. Определяется новое направление поиска
(п) (п) п (п-1)
р ’ = ^ ' + впР .
классическая оптимизация по методу сопряженных градиентов требует знания матрицы (в нашем случае - гессиана). В теории нейронных сетей [5, 6] применяются известные в оптимизации [10 - 13] формулы: формула Полака-Райбера (Ро!ак-ШЫеге)
в = ((ёп - ёп-1 )• ё п )
П (ёп-Р ё п-1) ,
(29)
Т
4
а
к=1
к=1
к=1
к
к=1
ИЗВЕСТИЯ ПГПУ • Физико-математические и технические науки • № 13 (17) 2009 г.
формула Флетчера-Ривса (Fletcher-Reeves)
Ри = ((gn ,gn)). (30)
(gn—Р gn—1 )
У словием окончания процесса обучения являются малые нормы невязок во внутренних (20) и граничных (21) контрольных точках
max (| r,||,| |r2|| )<s.
Необходимо также задавать предельное число циклов обучения и контролировать норму вектора градиента (при малой норме градиента нет смысла продолжать обучение). Если условия окончания процесса обучения не выполнены, то переход на пункт 1. иначе - выход из цикла обучения.
Для задач неквадратичной оптимизации лучшей считается формула Полака-Райбера [5], так как из-за приближенной аппроксимации (26) и погрешностей округления сопряженность направлений поиска постепенно теряется. В этом случае gn и gn-, и процесс с формулой Флетчера-Ривса очень плохо сходится. При использовании формулы Полака-Райбера выполняется приближенное равенство Pn и 0 и происходит рестарт процесса обучения -в качестве направления поиска выбирается —g. При использовании формулы Полака-Райбера возможно ситуация, когда Pn < 0 и процесс бесконечно зацикливается. Для предотвращения такой ситуации рекомендуется выбирать Pn из условия [5, 13]: Pn = max{Sprn,0}, где Pprn - значение, полученное из выражения (29).
В случае обучения радиально-базисных нейронных сетей решается задача квадратичной оптимизации и формулы Полака-Райбера (29) и Флетчера-Ривса (30) эквивалентны.
4.2. Алгоритм сопряженных градиентов минимизации квадратичного функционала для обучения сети
Оптимизируемый функционал ошибки (6) с учетом (20) и (21) принимает простой вид
, Л
1 = 2(r,,r, )+2 (Г2’ Г2 ). (31)
С учетом (20) имеем
(r,, r, )=(Mw — f, Mw — f )=(Mw, Mw )— 2 (Mw, f )+(f, f )= (MTMw, w )— 2 (MTf, w )+(f, f ),
где MTM - симметричная положительно определенная матрица.
Аналогично получаем
(r2, r2 )= (NTNw, w )— 2 (NTp, w )+ (p, p ). (32)
Из (31) - (32) получаем
v w -<
22
Введем обозначения A = — (M tM + XNTN), s = — (MTf + XNTp), где A - симметричная положительно определенная матрица. Тогда (33) примет вид
1 Л
I =(Aw, w )— 2 (s, w )+“(f, f )+~(p, p ). (34)
Сравнивая (34) с (25), видим, что наша задача является задачей минимизации квадратического функционала с симметричной положительно определенной матрицей.
Применяя метод сопряженных градиентов для минимизации (34), используем алгоритм минимизации квадратичного функционала [14].
На “нулевой” итерации выполняются подготовительные действия:
1. Полагается k = 0.
2. По заданному начальному приближению весов w(0) вычисляется невязка r(0) = s — Aw(0).
3. В качестве направления движения выбирается p(0) = r(0).
I = - ((MTM + XNt N )w, w )— ((MTf + XNTp ), w )+ - (f, f )+-(p, p ). (33)
На первой и следующих итерациях выполняются следующие действия:
4. Вычисляется номер текущей итерации к = к +1.
5. Находится новое приближение решения
w(k+1) = w(k ) + ак p(k ), (35)
где
ак =(r(i), r(k)y(Ap(k), p(k)). (36)
6. Вычисляется новая невязка r(k+1) = r(k) - акAp(k)
7. Проверяется условие окончания итерационного процесса, например, Цг^+^Ц/||s|| - 8
Если условие выполняется, то - конец итерационного процесса, иначе - переход на следующий шаг алгоритма.
8. Определяется новое направление движения
p(k+° = r(k+° + pkp(k}, (37)
где Pk = (r(k+1), r(k+1))(r(k\ r(k.
9. Переход на шаг 4.
10. Конец алгоритма.
Из (34) видно, что рассмотренный алгоритм эквивалентен решению системы линейных алгебраических уравнений Aw = s.
Метод сопряженных градиентов в случае положительно определенной матрицы A размером n х n при отсутствии ошибок округления позволяет получить решение не более чем за n итераций.
5. Экспериментальное исследование алгоритмов обучения
Экспериментальное исследование проводилось на примере модельной задачи (3) - (4), для
f (x,y) = sin(nx)-sin(ny), p(x,y)= 0. Данная задача имеет аналитическое решение, для оценки погрешности
In+K ~ / In+k
решения рассчитывалась относительная среднеквадратическая погрешность решения (ui - uai) ,2
1=1 / V 1=1 ”
u
где па1 - аналитическое решение в точке.
Приведенные алгоритмы подразумевают обучение весов при зафиксированных центрах и ширине. Для обучения центров и ширины можно использовать различные алгоритмы обучения [15], в данной работе применялся простейший алгоритм градиентного спуска с подбираемым коэффициентом скорости обучения. Для обеспечения обобщающей способности ИВЕММ необходимо соблюдать при обучении соотношение между оптимальным количеством нейронов и количеством контрольных точек (7). Большое количество контрольных точек ведет к увеличению времени решения задачи. Эксперименты показали, что многократная случайная генерация относительно небольшого числа контрольных точек внутри и на границе области решения компенсирует нарушение пропорции.
Эксперименты проводились при следующих условиях. Число нейронов равно 64. Число внутренних контрольных точек равно 100, число граничных контрольных точек равно 124. Нейроны первоначально располагались на квадратной сетке, включающей область решения и один слой законтурных точек. Контрольные точки располагались случайным образом равномерно внутри области решения, на каждой стороне границы и в углах области. Для каждого набора случайных контрольных точек проводился один цикл обучения центров и ширины нейронов и несколько циклов обучения весов. Число циклов обучения для весов подбиралось экспериментально, лучшие результаты получены при следующих значениях: 70 циклов для метода скорейшего спуска и градиентного метода с подбираемым коэффициентом обучения для весов, 5 циклов для классического метода сопряженных градиентов, 50 циклов для метода сопряженных градиентов для минимизации квадратичного функционала.
В процессе исследования приведенных алгоритмов получены следующие результаты: достигнуто значение относительной среднеквадратической погрешности решения 0,0005, что лучше, чем 0,005 в [7], абсолютная погрешность по сравнению с аналитическим решением не превышает 0,00003 (рис.2).
Погрешность по сравнению с аналитическим решением
о о
Рис. 2. Погрешность по сравнению с аналитическим решением
Относительное время решения задачи различными методами представлено на рис. 3. За единицу принято время решения алгоритмом сопряженных градиентов для минимизации квадратичного функционала.
Относительное время Рис. 3. Сравнение эффективности алгоритмов обучения
Алгоритм сопряженных градиентов для минимизации квадратичного функционала позволяет сократить время решения задачи в 6 раз по сравнению с классическим методом сопряженных градиентов, сокращение времени более значимое по сравнению с методом скорейшего спуска и градиентным методом с подбираемым коэффициентом обучения для весов.
Работа выполнена по тематическому плану научно-исследовательских работ Пензенского государственного педагогического университета, проводимых по заданию Федерального агентства по образованию.
список ЛИТЕРАТУРЫ
1. Buhmann M. D. Radial Basis Functions: Theory and Implementations. Cambridge University Press, 2004. 259 p.
2. Liu G. R., Gu Y. T. An Introduction to Meshfree Methods and Their Programming. Springer, 2005. 479 p.
3. Meshfree Methods for Partial Differential Equations / Editors M. Griebel, Marc. A. Schweitzer. Springer, 2008. 412 p.
4. Толстых А. И., Широбоков Д. А. Бессеточный метод на основе радиальных базисных функций // Журнал вычислительной математики и математической физики. 2005. Том 45. № 8. С. 1498 - 1505.
5. Хайкин С. Нейронные сети: полный курс. М.: Вильямс, 2006. 1104 с.
6. Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. 344 с.
7. Jianyu L., Siwei L., Yingjiana Q., Yapinga H. Numerical solution of elliptic partial differential equation using radial basis function neural networks. // Neural Networks. 2003. 16(5/6). P. 729 - 734.
8. Васильев Ф. П. Численные методы решения экстремальных задач. М.: Наука, 1988. 552 с.
9. Гилл Ф., Райт М. Практическая оптимизация. М.: Мир, 1985. 509 с.
10. Реклейтис Г., Рейвиндран А., Рэгсдел К. Оптимизация в технике. В 2-х к. Кн. 1. М.: Мир, 1986. 349 с.
11. Fletcher R. Practical Methods of Optimization. Volume 1. Unconstrained Optimization. John Weley & Sons, 1980. 126 p.
12. Nocedal J., Stephen J. W. Numerical Optimization. Springer, 2006. 685 p.
13. Некипелов Н. Метод сопряженных градиентов - математический аппарат // http://www.base-group.ru/library/ analysis/neural/conjugate/
14. Амосов А. А., Дубинский Ю. А., Копченова Н. В. Вычислительные методы. М.: Издательский дом МЭИ, 2008. 672 с.
15. Тархов Д. А. Нейронные сети. Модели и алгоритмы. М.: Радиотехника, 2005. 256 с.