УДК 681.324
АДАПТИВНЫЕ ПОИСКОВЫЕ АЛГОРИТМЫ ОБУЧЕНИЯ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ
С.Ю. Белецкая, Д.Н. Лицман, А.Д. Поваляев, А.В. Гаганов
Рассматриваются задачи обучения искусственных нейронных сетей. Для их решения предлагаются адаптивные алгоритмы поисковой оптимизации, построенные на основе рандомизированного подхода
Ключевые слова: обучение нейронной сети, весовые коэффициенты, рандомизация, случайный вектор, адаптивные поисковые алгоритмы
В настоящее время при решении задач проектирования и управления в различных предметных областях широкое применение находят нейросете-вые технологии. При этом эффективность нейросе-тевого моделирования и адекватность построенных моделей во многом зависят от используемых алгоритмов обучения сетей. В этой связи в современных исследованиях большое внимание уделяется разработке и совершенствованию алгоритмов обучения искусственных нейронных сетей [1].
Задача обучения нейронной сети состоит в определении таких значений весовых коэффициентов, которые обеспечивали бы минимальное отклонение выходных сигналов сети от ожидаемых эталонных значений. Обучение с учителем осуществляется на основе обучающей выборки:
< Xk,Dk >, k = 1p,
где p - количество обучающих пар, Xk - вектор
значений входных сигналов сети; Dk - вектор требуемых значений выходных сигналов [1,2].
Пусть Yk - вектор выходных сигналов нейронной сети, полученный для входного вектора X k . Тогда задача обучения сводится к задаче минимизации целевой функции, зависящей в конечном итоге от вектора весовых коэффициентов W:
1 p м
F(W) = - ZTfy, -dj) ^ min, (1)
2 k=1 i=1
где M - количество выходных сигналов.
Если рассматривается единичная обучающая выборка < X,D >, критерий (1) принимает вид:
1 м
F(W) = - Z(Уг - dj) ^ min.
2 i=1
Белецкая Светлана Юрьевна - ВГТУ, д-р техн. наук, профессор, тел. (473) 243-77-04
Лицман Дмитрий Николаевич - ВГТУ, аспирант, тел. (473) 243-77-04
Поваляев Анатолий Дмитриевич - ВГТУ, канд. физ.-мат. наук, профессор, тел. (473) 246-12-07 Гаганов Александр Владимирович - ВГТУ, директор НОЦ, e-mail: [email protected]
Формирование целевой функции для задачи обучения проиллюстрируем на примере многослойного персептрона. На рисунке представлена структурная схема двухслойного персептрона. Здесь х-1 ,...,хм - входные сигналы нейронной сети, g1^2,^ - выходные сигналы первого слоя,
(т)
У\,...,Ум - выходные сигналы сети, 7 - значения весов. При этом верхние индексы в скобках (т) означают номер слоя нейрона.
Двухслойный персептрон
Выходные сигналы нейронных слоев определяются следующим образом:
N
Г
j-0
L
'Г
,=0 j=0
gl = f( Г wj) • Xj), l = 1,L .
У, = f(Г>Ц2) • gl) = f(Ewf • f(IwV • Xj)), i = 1,M. (2)
,-0 ■ -
Здесь / - функция активации, одинаковая для всех нейронов сети.
С учётом (2) критерий оптимальности (3) примет вид
N
1 РM L (2) N т ?
F(W) = ^ ГГ (f( Г w(f} • f( Г wil Xj)) - d,)2 ^ min .
2
k=1i=1 i=0 j=0
Аналогично можно определить критерии оптимальности в задаче обучения при произвольном числе слоёв. При этом формируемые критерии ха-
растеризуются сложной структурой, значительной нелинейностью, высокой размерностью, что обусловливает повышенные требования к используемым алгоритмам обучения.
В статье рассматриваются адаптивные поисковые алгоритмы обучения нейронных сетей. Они строятся на основе вероятностной переформулировки (рандомизации) решаемой задачи (1) и перехода к осредненному критерию оптимальности [3]:
G(W) = M[F(W)] ^ min, (3)
{W}
где М - математическое ожидание. При этом множество возможных решений (значений весовых коэффициентов) W расширяется до множества случайных векторов { W}.
Рандомизированные итерационные процедуры перестройки весовых коэффициентов нейронной сети имеют следующий вид:
WN+1 = WN +а nHn
N
(4)
N
где N - номер итерации; Н - направление движе ния; а N - значение шага. При этом вектор Н также является случайным.
При дальнейшей алгоритмизации поисковая процедура (4) переформулируется с использованием различных вероятностных характеристик случайных векторов. Так, переходя в формуле (4) к математическим ожиданиям, получим
М[Ж1^+1 ] = М[Ж^4 ] + а^[Н1^] . (5)
В работах [2,3] рассмотрены математические основы построения адаптивных поисковых алгоритмов. При этом на каждой N -й итерации осуществляется замена исходной целевой функции некоторой потенциальной функцией у(Ж) с последующим использованием для её оптимизации процедур градиентного типа. Градиент потенциальной функции у(Ж) статистически оценивается в процессе поиска по реализациям случайных векторов и адаптивно перестраивается на основе текущей информации. В конечном итоге формируется обобщенная рандомизированная процедура поиска оптимальных вариантов, которая затем может быть переформулирована в различных вероятностных характеристиках. Так, в работе [3] сформирована итерационная поисковая схема с использованием математического ожидания:
mN+1 = mN + dN ■ MvnMun
V(f(UN) _ Cn)(WN _ vN}
WN - UN
(6)
где mN = M[WN]; <an - площадь поверхности
единичной сферы в пространстве Rn ; UN - вспомогательный случайный вектор; Cn = const -средний уровень целевой функции, который используется для анализа текущей информации;
^(•) - монотонная неубывающая функция, удовлетворяющая условиям: х¥(I)• I >0 Vt Ф 0;
0) = 0.
Процедура (6) носит обобщенный характер и служит основой для построения комплекса адаптивных алгоритмов поискового типа, использующих только значения критерия оптимальности. При этом вариант алгоритмический схемы зависит от способов получения реализаций случайных векторов Ж и и, выбора функции ¥(^) , вариантов определения
уровня , а также от выбранных стратегий статистической оценки математического ожидания. Так,
лN
если использовать одну реализацию вектора и , а в качестве реализации вектора Ж1 выбрать его математическое ожидание т1 = М[Ж1 ], можно перейти к следующей схеме [4,5]:
mN+l = mN +а
N
4(f(uN) _ On),n N , -(m -u )
N
N
(7)
где через uN обозначена реализация случайного
вектора . Процедура (7) является адаптивным расширением метода переменного многогранника. При этом в качестве вершин многогранника рассматриваются реализации случайных векторов, а в качестве центра тяжести многогранника - перестра-
N
иваемое математическое ожидание т .
Таким образом, для алгоритмизации рассматриваемых задач настройки весовых коэффициентов нейронной сети может быть использована следующая обобщенная вычислительная схема:
1. Инициализация начальных значений весовых коэффициентов Ж0 = (м>1,...,м>°), где п - общее количество весовых коэффициентов по всем слоям нейронной сети. При этом N=0, где N - номер итерации.
2. Получение ^-реализаций случайного вектора
им : иМ'г, г = 1,к . Каждая реализация и^'1 представляет собой п-мерный вектор
N,г / N ,г N ,г >Т п и = (Щ ,..., ип ) . При этом в качестве первой реализации выбирается начальный вектор весовых коэффициентов сети, задаваемый в начале работы алгоритма: uN'1 = Ж0. Если количество реа-
- 7 ,7 N'1
лизаций к равно п+1, то реализации и могут рассматриваться как вершины переменного многогранника в пространстве Яп.
3. Вычисление значений целевой функции ¥(и^'1), 1 = 1,к. После получения всех значений
F(u ) реализации u упорядочиваются по
N,i
Ю
n
возрастанию значений целевой функции:
F(uN1) <...< F(uNk) .
4. Определение среднего уровня целевой
1 k N ■ функции cN = — £ F(u ) .
k i=1
5. Разделение реализаций на группы перспективности в зависимости от значения уровня cN :
Qp : f(uN'') < cN - перспективная группареализаций; Qv : f (uN'') > cN - неперспективная группа.
6. Вычисление математического ожидания по r перспективным реализациям:
N
m
N
m
N N,j
= Г Pj u ,J j=1
Г pj — 1.
При этом вероятности дующим образом:
j =1
N
pj определяются сле-
PN =
F(uN,'J - Cn
'ГF(uN,j) - c j=1
N
i — 1, r .
7. Движение в случайных векторах и определение значения тМ+1. При этом используются обобщенная рандомизированная процедура (6) или ее различные варианты (например, схема (7)). Если движение осуществляется на основе схемы (7), то данная итерационная процедура применяется к реа-
лизации и' функции.
Nk
с наибольшим значением целевой
8. Адаптивное уточнение шага a N по схеме:
Г ш
Ja j У1, если
[ a j У 2, если
a N
F(mN+1) < Cj F(mN+1) > Cj
где у1 > 1/ 0 <у2 < 1. Параметры у1 и у2 задаются пользователем в начале работы алгоритма.
9. Корректировка списка реализаций следующим образом:
Г(ым+1к
„N+1, k N+1 и — m
:) — F(mN+1).
10. Проверка условием
сходимости в соответствии с
с
.2
1
k
N — tT(F(u k i—1
N,i
) - Cj)2 <S ,
После окончания работы алгоритма результирующие значения весовых коэффициентов
W
opt
определяются следующим
Wopt— u
N,1
нейронной сети образом:
N,1
где и - реализация с наименьшим значением целевой функции.
В работе [3] показано, что рассматриваемые адаптивные алгоритмы поисковой оптимизации имеют нелокальный характер. Доказываются теоремы о выходе итерационного процесса из зон локальных экстремумов и о сходимости в заданную область.
Необходимо заметить, что на основе различных интерпретаций обобщенной рандомизированной процедуры (6) могут быть построены и другие варианты адаптивных поисковых алгоритмов. Используемые при построении данных алгоритмов принципы рандомизации позволяют вынести поиск оптимальных решений на уровень множества случайных векторов, что обеспечивает возможность выявления статистических закономерностей в свойствах оптимизируемой функции и позволяет повысить эффективность оптимизационного процесса при обучении нейронных сетей.
Литература
1. Норенков И.П. Основы автоматизированного проектирования [Текст] / И.П. Норенков. - М.: МГТУ им. Баумана, 2002. 448 с.
2. Рутковская, Д. Нейронные сети, генетические алгоритмы и нечеткие системы [Текст]/ Д. Рутковская, М. Пилиньский, Л. Рутковский. - М.: Горячая линия Телеком, 2013. - 384 с.
3. Каплинский, А.И. Моделирование и алгоритмизация слабоформализованных задач выбора наилучших вариантов систем [Текст] / А.И. Каплинский, И.Б. Руссман, В.М.Умывакин. - Воронеж: Изд-во ВГУ, 1990. - 234 с.
4. Львович, Я.Е. Адаптивные методы оптимального проектирования [Текст]/ Я.Е. Львович, С.Ю. Белецкая // Информационные технологии. - 2010. - № 7. - С. 1-32.
5. Батищев, Д.И. Оптимизация в САПР [Текст] / Д.И. Батищев, Я.Е. Львович, В.Н. Фролов. - Воронеж: Изд-во ВГУ, 1997. - 416 с.
6. Проблемы разработки интеллектуальных систем многоальтернативного моделирования [Текст] / С.Л. Подвальный, Т.М. Леденева, А.Д. Поваляев, Е.С. Подвальный // Вестник Воронежского государственного технического университета. - 2013. - Т. 9. - № 3-1. - С. 19-23.
7. Основы автоматизации проектирования, тестирования и управления жизненным циклом изделия [Текст] / В.Ф. Барабанов, А.Д. Поваляев, С.Л. Подвальный, С.В. Тюрин. - Воронеж. 2011.
где в - точность, задаваемая на входе алгоритма.
11. Если сходимость не достигнута, осуществляется переход к шагу 3 (при этом N = N +1). Воронежский государственный технический университет
ADAPTIVE SEARCH ALGORITHMS OF ARTIFICIAL NEURAL NETWORKS TRAINING
S.Yu. Beletskaja, D.N. Litsman, A.D. Povalyaev, A.V. Gaganov
The problems artificial neural networks training are considered. For solving of this problems the adaptive search engine optimization algorithms, based on randomized approach, are suggested
Key words: neural networks training, weights, randomization, random vector, adaptive search algorithms