Научная статья на тему 'Совершенствование алгоритмов обучения сетей радиальных базисных функций для решения задач аппроксимации'

Совершенствование алгоритмов обучения сетей радиальных базисных функций для решения задач аппроксимации Текст научной статьи по специальности «Математика»

CC BY
420
86
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БЕССЕТОЧНАЯ АППРОКСИМАЦИЯ / MESHFREE APPROXIMATION / НЕЙРОННАЯ СЕТЬ / NEURAL NETWORK / СЕТЬ РАДИАЛЬНЫХ БАЗИСНЫХ ФУНКЦИЙ / RADIAL BASIS FUNCTIONS NETWORK / ГРАДИЕНТНЫЙ АЛГОРИТМ ОБУЧЕНИЯ / GRADIENT LEARNING ALGORITHM / ИМПУЛЬСНЫЙ МЕТОД / МЕТОД УСКОРЕННОГО ГРАДИЕНТА НЕСТЕРОВА / NESTEROV''S ACCELERATED GRADIENT METHOD / МЕТОД ЛЕВЕНБЕРГА МАРКВАРДТА / LEVENBERG MARQUARDT METHOD / METHOD OF IMPULSE

Аннотация научной статьи по математике, автор научной работы — Алкезуини Мухи Муртада Мухи, Горбаченко Владимир Иванович

Перспективным инструментом решения задач аппроксимации, в том числе задач бессеточной аппроксимации, являются сети радиальных базисных функций, которые представляют специальный вид нейронных сетей. Решение задачи формируется в процессе обучения сети. Но в настоящее время отсутствуют быстрые и достаточно простые алгоритмы обучения сетей радиальных базисных функций. Цель данного исследования разработка и экспериментальное исследование новых быстрых алгоритмов обучения сетей радиальных базисных функций при решении задач аппроксимации. Материалы и методы. Реализация поставленных задач достигнута за счет использования для обучения сетей радиальных базисных функций современных ускоренных градиентных методов первого порядка и адаптации метода Левенберга Марквардта. Результаты. Для обучения сетей радиальных базисных функций впервые разработаны алгоритмы на основе методов первого порядка: градиентный спуск с импульсом (импульсный метод), алгоритм ускоренного градиента Нестерова и RMSProp в сочетании с ускоренным градиентом Нестерова. Показаны преимущества последовательной настройки параметров в каждом итерационном цикле обучения сети. Разработана реализация метода Левенберга Марквардта для обучения сетей радиальных базисных функций. Получены формулы для расчета параметров сетей при реализации алгоритмов. Даны рекомендации по выбору параметров обучения сетей. Показана связь между методом Левенберга Марквардта и методом доверительных областей. Таким образом, алгоритмом Левенберга Марквардта можно достичь тех же результатов, что и более сложным алгоритмом метода доверительных областей. Создан комплекс программ в системе MatLab, реализующий разработанные алгоритмы. Проведены экспериментальные исследования разработанных алгоритмов. Выводы. Для решения задач аппроксимации на сетях радиальных базисных функций можно рекомендовать адаптированный в работе алгоритм Левенберга Марквардта. Если в алгоритме Левенберга Марквардта возникают проблемы с плохой обусловленностью системы линейных алгебраических уравнений, то можно рекомендовать алгоритм ускоренного градиента Нестерова.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Алкезуини Мухи Муртада Мухи, Горбаченко Владимир Иванович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IMPROVEMENT OF THE LEARNING ALGORITHMS IN RADIAL BASIS FUNCTIONS NETWORKS FOR SOLVING THE APPROXIMATION TASKS

Background. A promising tool for solving the approximation tasks, including the tasks of mesh-free approximation, this tool is the radial basis functions networks, which are considered as a special form of the neural networks. The solution of the problem gets formed in the process of the network's learning. But currently, there are no fast and simple algorithms for the learning of the radial basis functions networks. The purpose of this research is the development and experimental study of new fast algorithms for the learning of the radial basis functions networks to solve the approximation tasks. Materials and methods. The implementation of the tasks can be achieved by the use of learning networks of the radial basis functions for the modern and accelerated gradient methods of the first order and by the adaptation of Levenberg Marquardt method. Results. For the learning of the radial basis functions networks, for the first time there were such developed algorithms based on the first order methods: gradient descent with an impulse (the impulse method), the accelerated gradient algorithm of Nesterov and RMSProp in combination with the accelerated gradient Nesterov... Background. A promising tool for solving the approximation tasks, including the tasks of mesh-free approximation, this tool is the radial basis functions networks, which are considered as a special form of the neural networks. The solution of the problem gets formed in the process of the network's learning. But currently, there are no fast and simple algorithms for the learning of the radial basis functions networks. The purpose of this research is the development and experimental study of new fast algorithms for the learning of the radial basis functions networks to solve the approximation tasks. Materials and methods. The implementation of the tasks can be achieved by the use of learning networks of the radial basis functions for the modern and accelerated gradient methods of the first order and by the adaptation of Levenberg Marquardt method. Results. For the learning of the radial basis functions networks, for the first time there were such developed algorithms based on the first order methods: gradient descent with an impulse (the impulse method), the accelerated gradient algorithm of Nesterov and RMSProp in combination with the accelerated gradient Nesterov. The showed advantages of the sequential parameter settings in each iterative cycle of the network's learning. The implementation of the Levenberg Marquardt method for the learning of the radial basis functions networks was developed. The resulted formulas are meant for the calculating of the networks parameters through the algorithms implementation. The given recommendations which are concerning the choosing of parameters for the learning of networks. The showed relationship between the method of Levenberg Marquardt and the trusted regions method. Thus, now it would be possible with the algorithm of Levenberg Marquardt to achieve the same results as with the use of the more complex trusted regions method. A software package in the system of MATLAB was created to implement the developed algorithms. Experimental studies of the developed algorithms were carried out. Conclusions. For solving the approximation tasks in the radial basis functions networks, it can be recommended to adapt, in the process of work, the algorithm of Levenberg Marquardt. If the algorithm of Levenberg Marquardt is having some problems concerning the poor conditionality of the linear algebraic equations system, it would possible to recommend Nesterov's accelerated gradient algorithm. function show_eabstract() { $('#eabstract1').hide(); $('#eabstract2').show(); $('#eabstract_expand').hide(); } ▼Показать полностью

Текст научной работы на тему «Совершенствование алгоритмов обучения сетей радиальных базисных функций для решения задач аппроксимации»

РАЗДЕЛ 2 МОДЕЛИ, СИСТЕМЫ, МЕХАНИЗМЫ В ТЕХНИКЕ

УДК 004.032.26

СОВЕРШЕНСТВОВАНИЕ АЛГОРИТМОВ ОБУЧЕНИЯ СЕТЕЙ РАДИАЛЬНЫХ БАЗИСНЫХ ФУНКЦИЙ ДЛЯ РЕШЕНИЯ ЗАДАЧ АППРОКСИМАЦИИ1

М. М. Алкезуини, В. И. Горбаченко

IMPROVEMENT OF THE LEARNING ALGORITHMS IN RADIAL BASIS FUNCTIONS NETWORKS FOR SOLVING THE APPROXIMATION TASKS

M. M. Alqezweeni, V. I. Gorbachenko

Аннотация. Актуальность и цели. Перспективным инструментом решения задач аппроксимации, в том числе задач бессеточной аппроксимации, являются сети радиальных базисных функций, которые представляют специальный вид нейронных сетей. Решение задачи формируется в процессе обучения сети. Но в настоящее время отсутствуют быстрые и достаточно простые алгоритмы обучения сетей радиальных базисных функций. Цель данного исследования - разработка и экспериментальное исследование новых быстрых алгоритмов обучения сетей радиальных базисных функций при решении задач аппроксимации. Материалы и методы. Реализация поставленных задач достигнута за счет использования для обучения сетей радиальных базисных функций современных ускоренных градиентных методов первого порядка и адаптации метода Левенберга - Марквардта. Результаты. Для обучения сетей радиальных базисных функций впервые разработаны алгоритмы на основе методов первого порядка: градиентный спуск с импульсом (импульсный метод), алгоритм ускоренного градиента Нестерова и RMSProp в сочетании с ускоренным градиентом Нестерова. Показаны преимущества последовательной настройки параметров в каждом итерационном цикле обучения сети. Разработана реализация метода Левенберга -Марквардта для обучения сетей радиальных базисных функций. Получены формулы для расчета параметров сетей при реализации алгоритмов. Даны рекомендации по выбору параметров обучения сетей. Показана связь между методом Левенберга -Марквардта и методом доверительных областей. Таким образом, алгоритмом Левенберга - Марквардта можно достичь тех же результатов, что и более сложным алгоритмом метода доверительных областей. Создан комплекс программ в системе MatLab, реализующий разработанные алгоритмы. Проведены экспериментальные ис-

1 Исследование выполнено при финансовой поддержке РФФИ (грант № 16-0800906).

следования разработанных алгоритмов. Выводы. Для решения задач аппроксимации на сетях радиальных базисных функций можно рекомендовать адаптированный в работе алгоритм Левенберга - Марквардта. Если в алгоритме Левенберга - Марквардта возникают проблемы с плохой обусловленностью системы линейных алгебраических уравнений, то можно рекомендовать алгоритм ускоренного градиента Нестерова.

Ключевые слова: бессеточная аппроксимация, нейронная сеть, сеть радиальных базисных функций, градиентный алгоритм обучения, импульсный метод, метод ускоренного градиента Нестерова, метод Левенберга - Марквардта.

Abstract. Background. A promising tool for solving the approximation tasks, including the tasks of mesh-free approximation, this tool is the radial basis functions networks, which are considered as a special form of the neural networks. The solution of the problem gets formed in the process of the network's learning. But currently, there are no fast and simple algorithms for the learning of the radial basis functions networks. The purpose of this research is the development and experimental study of new fast algorithms for the learning of the radial basis functions networks to solve the approximation tasks. Materials and methods. The implementation of the tasks can be achieved by the use of learning networks of the radial basis functions for the modern and accelerated gradient methods of the first order and by the adaptation of Levenberg - Marquardt method. Results. For the learning of the radial basis functions networks, for the first time there were such developed algorithms based on the first order methods: gradient descent with an impulse (the impulse method), the accelerated gradient algorithm of Nesterov and RMSProp in combination with the accelerated gradient Nesterov. The showed advantages of the sequential parameter settings in each iterative cycle of the network's learning. The implementation of the Levenberg -Marquardt method for the learning of the radial basis functions networks was developed. The resulted formulas are meant for the calculating of the networks parameters through the algorithms implementation. The given recommendations which are concerning the choosing of parameters for the learning of networks. The showed relationship between the method of Levenberg - Marquardt and the trusted regions method. Thus, now it would be possible with the algorithm of Levenberg - Marquardt to achieve the same results as with the use of the more complex trusted regions method. A software package in the system of MATLAB was created to implement the developed algorithms. Experimental studies of the developed algorithms were carried out. Conclusions. For solving the approximation tasks in the radial basis functions networks, it can be recommended to adapt, in the process of work, the algorithm of Levenberg - Marquardt. If the algorithm of Levenberg - Marquardt is having some problems concerning the poor conditionality of the linear algebraic equations system, it would possible to recommend Nesterov's accelerated gradient algorithm.

Key words: meshfree approximation, neural network, radial basis functions network, gradient learning algorithm, method of impulse, Nesterov's accelerated gradient method, Levenberg - Marquardt method.

Введение

При моделировании рельефа, реконструкции поверхностей и во многих других случаях возникает необходимость аппроксимации «рассеянных» данных [1], когда узлы интерполяции расположены произвольным образом, а не на некоторой сетке. Методы аппроксимации таких данных являются бессеточными (meshfree) [2, 3]. Они не накладывают ограничений на расположение узлов интерполяции и могут применяться и в случае расположения

узлов интерполяции на сетке. Методы бессеточной аппроксимации являются основой многих бессеточных методов решения уравнений в частных производных.

Для бессеточной аппроксимации широко используются радиальные базисные функции (РБ-функции) [2, 3]. РБ-функция - это функция, значение которой в некоторой точке зависит от расстояния между точкой и параметром РБ-функции, называемым центром. Обычно параметры РБ-функций подбираются, а веса находятся из условий равенства аппроксимированных значений и известных значений функции в узлах интерполяции. Недостатком применения РБ-функций является трудно формализуемый подбор параметров РБ-функций. Этот недостаток устраняется при использовании специального вида нейронных сетей - сетей радиальных базисных функций (РБФ-сетей) [4-5]. При использовании РБФ-сетей решение формируется в процессе обучения сети с настройкой весов и параметров РБ-функций.

Для обучения РБФ-сетей используются в основном градиентные методы [4-5], среди которых выделяют методы первого порядка, использующие для своей реализации первые производные минимизируемой функции, т.е. градиент функции, и методы второго порядка, использующие вторые производные - матрицу Гессе. Все градиентные алгоритмы позволяют найти только локальный минимум функции. Методы первого порядка просты в реализации, но работают медленно. Методы второго порядка выполняются за гораздо меньшее число итераций, но сложны и ресурсоемки, т.е. одна итерация занимает много времени и требует много памяти. Для обучения РБФ-сетей используют в основном методы первого порядка. Известные методы второго порядка, например метод Левенберга - Марквардта [5], не применяются для обучения РБФ-сетей, а предложенный в [6] быстрый алгоритм метода доверительных областей довольно сложен.

В настоящее время для глубокого обучения сетей, содержащих большое количество слоев и обучающихся на больших объемах данных, усилился интерес к несложным ускоренным градиентным методам первого порядка [7]. Такие методы не применялись для обучения РБФ-сетей.

Целью настоящей работы является разработка и экспериментальное исследование ускоренных градиентных методов первого порядка и метода Ле-венберга - Марквардта для обучения РБФ-сетей при решении задач аппроксимации.

Сетьрадиальных базисных функций

РБФ-сеть - это двухслойная сеть, первый слой которой составляют РБ-функции, а второй - линейный сумматор [4-5]. В случае аппроксимации функции двух переменных сеть имеет два входа - координаты точки - и один выход - значение функции в точке. Выход сети радиальных базисных функций при значении входа x = [ х1, х2 ] (значение функции в точке x) описывается выражением

пКБЕ

и ^ )= £ ^ Фк ^ ), (1)

к=1

где х - входной вектор; птР - количество РБ-функций (количество нейронов); wk - вес к -го нейрона; фк (х) - значение к -й РБ-функции в точке х.

В качестве РБ-функций используются различные радиальные базисные функции [2]. В данной работе применяется функция Гаусса (гауссиан), в двумерном случае имеющая вид

( II - II2 ^

ф(Х ) = еХР

(2)

где ||х-с|| = ^(х1 -с1 )2 -(х2 -с2 )2 - евклидова норма (расстояние между точкой х и центром с РБ-функции); с = [с1, с2] - вектор координат центра

РБ-функции; а - ширина (параметр формы).

При решении задач аппроксимации функций входные векторы при обучении сети представляют собой координаты пробных точек (узлов интерполяции), а целевые значения - значения функции в пробных точках. После обучения сеть при подаче координат произвольной точки области определения функции выдает значение функции в этой точке.

Обучение РБФ-сетей имеет свои особенности. Наличие только двух слоев упрощает обучение сети. Но в процессе обучения РБФ-сети необходимо настраивать две группы параметров сети: веса, которые входят линейно в выходной сигнал сети (1), и параметры РБ-функций (в случае гауссиана (2) -центры и ширина), которые входят нелинейно в выходной сигнал. Открытым является вопрос выбора количества РБ-функций и начальных значений параметров РБ-функций. Известна зависимость между количеством РБ-функций птР для задач аппроксимации и количеством узлов интерполяции N:

Првр ~ N13 , где гс означает пропорциональность [8]. Однако эта оценка сильно завышена, и количество РБ-функций требуется подбирать. Если в процессе обучения сети настраиваются параметры РБ-функций, то их начальные значения целесообразно выбирать случайным образом.

Обучение РБФ-сети представляет собой минимизацию некоторого функционала ошибки (функции потерь в терминах машинного обучения). Будем использовать функционал ошибки, представляющий собой сумму квадратов ошибок в пробных точках:

Чк -г,))2. (3)

2 ,=1 2 ,=1

где п - количество пробных точек; е, - ошибка решения в , -й пробной точке; р, - координаты , -й пробной точки (в случае аппроксимации функции

двух переменных р, = [р,1, р,2] ), и(р,) - решение (1) в ,-й пробной точке; Т, - целевое значение в ,-й пробной точке; множитель 1/2 введен для упрощения вычислений.

Разработка ускоренных градиентных алгоритмов первого порядка обучения РБФ-сетей

Рассмотрим алгоритм градиентного спуска обучения РБФ-сети. Если I -функционал ошибки (3), а 0 - вектор одного или всех параметров сети (в нашем случае это векторы весов, центров и ширины РБ-функций), то настройка вектора 0 на к -й итерации градиентного спуска описывается следующим образом [5]:

0(м)= 0(к )+M(w), (4)

где Л0(к+1)=-^g0 (0(к )) - поправка вектора 0, здесь ^ - подбираемый числовой коэффициент (скорость обучения); g0 ((к)) - вектор градиента функционала I (3) по значению параметра 0(к) на итерации к . Процесс вычислений по (4) продолжается до малого значения функционала ошибки (3). Более наглядно применять среднеквадратическую погрешность (Mean Squared Error):

IMSE = П Î ( (p, )" Tj )2. (5)

П ,=1

В алгоритме градиентного спуска с импульсом (в русской литературе принято использовать термин «момент» [5]; принятый в англоязычной литературе термин «momentum» (импульс) по аналогии с импульсом в механике точнее отражает суть метода [7]) поправка к вектору параметров описывается следующим образом:

Л0(к+1)=аЛ0(к )-^g0 (0(к )), (6)

где а - коэффициент момента, принимающий значения в интервале [0, 1]; ^ - скорость обучения.

Выражение (6) содержит слагаемые, зависящие от градиента и не зависящие от градиента. Причем чем больше значение коэффициента а, тем сильнее на настройку весов оказывает влияние слагаемое, не зависящее от градиента. Это влияние существенно возрастает на плоских участках целевой функции и вблизи локальных минимумов. В этих областях слагаемое, не зависящее от градиента, начинает доминировать в (6), что приводит к выходу из этой области. Можно сказать, что изменение весов происходит «по инерции» в направлении вектора поправки предыдущего шага обучения.

В методе ускоренного градиента Нестерова (NAG - Nesterov Accelerated Gradient) [7, 9] поправка вектора параметров описывается следующим образом:

Л0(к+1) = аЛ0(к )-^g0 (( +аЛ0(к )).

Метод NAG отличается от градиентного спуска с импульсом более точным вычислением вектора поправки.

При обучении глубоких сетей получили распространение алгоритмы с адаптивной скоростью обучения [7]. В этих алгоритмах используется различная скорость обучения для различных компонентов вектора параметров сети, так как разные компоненты могут оказывать различное влияние на обучение сети. В частности, эффективным и практичным методом является RMSProp (Root Mean Square Propagation) и его сочетание с ускоренным градиентом Нестерова [7], к -я итерация которого включает следующие вычисления:

g = ge(е(к)+аде<к)), r(k+1) =pr(k>+(i-P)g.g, де(к+1) = але(к) --=L=• g, е(к+1) = е(к) + ле(к+1)

где r(0) = 0; • - операция поэлементного умножения (произведение Адама-

ра); Vr(к+1) вычисляется поэлементно; p, а, е - подбираемые коэффициенты.

При обучении РБФ-сети можно реализовать одновременную и последовательную стратегию настройки векторов весов, центров и ширины на каждом цикле обучения. При одновременной настройке в каждой итерации обучения при значениях векторов параметров, полученных на предыдущей итерации, находятся векторы градиентов функционала ошибки по каждому параметру, затем вычисляются поправки параметров и вычисляются обновленные векторы параметров. При последовательной настройке сначала вычисляется градиент по весам (настройка весов оказывает наибольшее влияние на обучение сети) и вычисляется обновленный вектор весов. Затем с использованием обновленного вектора весов вычисляется градиент по центрам и вычисляется обновленный вектор центров. Наконец, с использованием обновленных векторов весов и центров вычисляется градиент по ширине и обновляется вектор ширины. Так как при последовательной настройке каждый параметр настраивается при обновленной части других параметров, можно предположить, что последовательная настройка может обеспечить сокращение числа итераций обучения.

Компоненты градиента функционала по весам, центрам и ширине несложно вычислить аналитически (рассмотрен случай аппроксимации функции двух переменных, номера итераций опущены):

=%( (p, К км, f-=(p, K)-*(p, ypa;

°wi j=1 ocn j=1 Ui

£=w % ((p, к ) (p, )Pjt =w % ( (p' )-T' ) (p' ^

где сл и ci2 - координаты центра i -й РБ-функции; p,1 и p,2 - координаты пробной точки p, ; p, - cJ - евклидова норма.

Адаптация алгоритма Левенберга - Марквардта для обучения РБФ-сетей

Рассмотрим применение для обучения сети метода второго порядка -метода Левенберга - Марквардта [5, 10], являющегося реализацией известного метода безусловной оптимизации [11]. Метод Левенберга - Марквардта широко применяется для обучения многослойных персептронов [5, 10], но практически не применяется для обучения сетей радиальных базисных функций. Следует отметить работу [12], в которой предложена эффективная с вычислительной точки зрения аппроксимация матрицы Гессе, рассмотрена реализация метода Гаусса - Ньютона для обучения РБФ-сетей, но не рассмотрена реализация метода Левенберга - Марквардта.

Рассмотрим настройку параметров. Введем единый вектор параметров

0 = Гш, ш2,..., , с„, с21,..., с ,, с12, с22,..., сп 2, а1, а2,..., ап 1 ,

|_ 1 ' 2' ' "яв^ П' 21' ' пяве ^ 12' 22' ' пЯВЕ 2' ^ 2' ' пЯВЕ 1 '

где параметры ]-й РБ-функции (] = 1,2,3,..., пЯВР): Шу - вес; с^ и cj2 - координаты центра (рассматриваем аппроксимацию функций двух переменных); а^ - ширина.

Настройка вектора параметров 0 в к -м цикле (итерации) производится по формуле

0(к)= 0(к-1)+Д0(к),

где вектор поправки Д0(к) находится из решения системы линейных алгебраических уравнений

( Т-Л к -1 + ^ Е)Д0(к )=-Ек -1,

(7)

где Jк-1 - матрица Якоби, вычисленная по значениям параметров сети в к -1 итерации; цк - параметр регуляризации, изменяющийся на каждом шаге обучения; Е - единичная матрица; g = J те - вектор градиента функционала

(3) по вектору параметров 0; е = [^ , е2,..., еп ^ - вектор ошибок. Матрица Якоби имеет вид

Эе1 де1 Эе1 Эе1 Эе1 Эе1 Эе1 Эе1

Эш1 Эшп ЯВЕ Эси дсп 1 пЯВ Е1 Эс12 Эсп 2 пЯВ Е 2 Эа1 Эап ЯВЕ

де2 де2 Эе2 Эе2 Эе2 Эе2 Эе2 Эе2

Эш1 Эшп ЯВЕ Эси Э<ЧвЕ 1 Эс12 ЭСпявЕ 2 Эа1 Эап ЯВ Е

Эеп Эеп Эея Эеп Эеп Эеп Эеп Эеп

Эш1 Эси Э<ЧвЕ 1 Эс12 ЭСпявЕ 2 Эа1 Эап ЯВ Е

. (8)

Л

Представим матрицу Якоби (8) в блочном виде:

где

J II 3 1 т 1 т 1 1 1 ^ 1 J, ] •

дв1 дв1 дв1

дw1 дw2 дwn ЯВЕ

дв2 дв2 дв2

Jw = дw1 дw2 дwn пЯВЕ ?

Эв'п двп "' двп

дw1 дw2 дwn ЯВЕ

дв1 дв1 дв1 дв1

дс11 ^ 1 дс12 2

дв2 дв2 дв2 дв2

дс11 дсПявЕ 1 • Jc, = дс12 дспяВЕ 2

двп двп двп двп

дс11 ^п,», 1 дс12 ^ 2

дв1 да1 дв2 да1

двп да.

дв.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

да дв.

ЯВЕ 2

дапяв

дап

Элементы матрицы Jw (9) с учетом (3) и (1) имеют вид дв, д г ( ) т ди (р,) ф ( )

(Р,)"Т] = = ф, (Р,),

дwj дwj

(9)

(10)

(11)

где ф, (р,) - значениеj-й радиальной базисной функции (2) в пробной точке р,. Элементы матрицы JCl (10) описываются формулой

д [и(Р,)-Т] = д

дс,1 дсА

дс.

"ЯВЕ

Е Фк (р,)

к =1

= W:

дс.

(Р,1 -с,1 ) +(Р,2 -с, 2 )

= Wjв

дс.

(( - с,1 )2 + (2 - с,2 )2 2а 2

= ^ Ф ,(Р,)'

Рч - с,1

J

а

Аналогично для элементов матрицы Jc получаем

Ъег Ф ( \ 2 ~ CJ 2

' = Wj 'ФУ (P.' )--

90 j 2 "J

Элементы матрицы Ja вычисляются по формуле

^L = _L [u (p.)~ T, 1 = -L

i— —I 9a

9a у 9a y

= w .

9a,

|p-~cjf

= wye

l|p-~cj||2 _ 2a" _9_

9a,

P- ~c

2a

Z wk Фк (p.)

=wJ Ф j (p-)-

P- ~cУ

Матрица JTkAJкч + цkE является плотной симметричной и положительно определенной. Поэтому для решения системы (7) целесообразно использовать метод Холецкого [13], реализованный в математических пакетах, например в MatLab, и в математических библиотеках популярных языков программирования. Недостатком метода Холецкого является использование при выполнении разложения матриц длительной операции извлечения квадратного корня. От этого недостатка свободен метод LDL -разложения [13], который представляет матрицу в виде A = LDLT , где L - нижняя треугольная матрица с единичной главной диагональю; D - диагональная матрица; T -операция транспонирования матрицы. При разложении не применяется операция извлечения квадратного корня.

В методе Левенберга - Марквардта важен правильный подбор параметра ц . В начале процесса обучения, когда вектор весов далек от оптимального, используется относительно большое значение параметра ц . В этом случае гессиан заменяется приближенным значением H ~ цЕ, а вектор поправки определяется методом градиентного спуска с малым шагом

Цк

По мере уменьшения погрешности параметр ц уменьшается и метод

приближается к методу Ньютона с аппроксимацией гессиана H ~ JT J. Это обеспечивает высокую скорость сходимости, так как метод Ньютона вблизи минимума функционала ошибки имеет хорошую сходимость. Марквардт рекомендует [14] начинать со значения ц0 и коэффициента v> 1. Текущее значение ц делится на v , если функционал ошибки уменьшается, или умножается на v , если функционал ошибки увеличивается.

Процесс заканчивается при малом значении функционала ошибки (3) или среднеквадратической погрешности (5).

Можно показать, что метод Левенберга - Марквардта является вариантом метода доверительных областей (trust-region methods) [15]. Особенно-

1

стью метода доверительных областей является поиск минимума функции в ограниченной доверительной области. В [6] разработана реализация метода доверительных областей для обучения сетей радиальных базисных функций. Но метод доверительных областей является достаточно сложным, так как из-за условия поиска минимума в доверительной области требует решения задачи условной оптимизации, в отличие от других градиентных методов обучения нейронных сетей, в которых решается задача безусловной оптимизации. Марквардт доказал [14], что этот метод эквивалентен методу доверительных областей, при этом радиус доверительной области регулируется параметром ц . Таким образом, метод Левенберга - Марквардта, сохраняя положительные качества метода доверительных областей, является более простым в реализации.

Экспериментальное исследование алгоритмов обучения РБФ-сетей

Экспериментальное исследование рассмотренных методов проводилось на примере аппроксимации функции г = х2 + у2 в области (х = — 3... + 3,

у = —3. +3). Количество узлов интерполяции равно 100. Узлы интерполяции располагались случайным образом в области (рис. 1). Количество РБ-функций (нейронов) равно 16. В начальном состоянии центры РБ-функций располагались на сетке (рис. 2).

Рис. 1. Пример расположения узлов Рис. 2. Начальное расположение центров интерполяции РБ-функций

Веса инициировались случайными числами, равномерно распределенными от 0 до 0,001. Начальная ширина всех РБ-функций была постоянной, равной 3,0 для методов спуска и NAG и 1,0 - для метода Левенберга - Марквардта. Итерационный процесс обучения продолжался до достижения значения среднеквадратической ошибки (5), равной 0,01.

Для проведения экспериментов разработан комплекс программ в системе MatLab. Эксперименты проводились на компьютере со следующими характеристиками: процессор Intel Core i5-2500K, 3,30 GHz, ОЗУ 8,0 GB. Результаты экспериментов представлены в табл. 1. Так как число итераций и время решения зависят от случайных начальных значений весов, то для каждого метода проводилось 10 экспериментов, и в таблице представлены полу-

ченные диапазоны числа итераций и времени решения. Индексы у коэффициентов означают: 1 - коэффициент для весов, 2 - для центров, 3 - для ширины. Значения коэффициентов подбирались экспериментально.

Таблица 1

Результаты экспериментов

Метод Стратегия обучения Параметры Число итераций Время решения, с

Градиентный спуск Одновременная настройка | = 0,00150, Г2 = 0,00100, Г3 = 0,00050 45000-70000 2500-5000

Градиентный спуск Последовательная настройка | = 0,05000, Г2 = 0,00100, Г3 = 0,00050 35000-50000 2000-3500

Градиентный спуск с импульсом Одновременная настройка Г1 = 0,00700, a1 = 0,9, Г2 = 0,00002, a2 = 0,9, Г3 = 0,00020, a3 = 0,9 1500-2100 50-70

Градиентный спуск с импульсом Последовательная настройка Г1 = 0,00700, a1 = 0,9, Г2 = 0,00002, a2 = 0,9, Г3 = 0,00020, a3 = 0,9 200-9000 9-360

NAG Последовательная настройка Г1 = 0,00500, a1 = 0,9, Г2 = 0,00200, a2 = 0,5, r3 = 0,00100, a3 = 0,3 270-470 14-24

RMSProp+NAG Последовательная настройка r1 = 0,00100 , Г2 = 0,00200 , r3 = 0,00100, a1 = 0,90000, P1 = 0,90000, a2 = 0,50000, p2 = 0,90000, a3 = 0,10000, p3 = 0,90000 5700-13400 245-600

Метод Левенберга -Марквардта Одновременная настройка Ц = 0,1, v=10 6-11 1,77-1,96

Результаты экспериментов показали явное преимущество ускоренных методов первого порядка по сравнению с классическим методом градиентного спуска. Последовательная настройка параметров также дает существенный эффект. Градиентный спуск с импульсом очень чувствителен к случайным начальным значениям весов и параметрам обучения. Процесс изменения среднеквадратической погрешности носит колебательный характер и неустойчив. Наиболее быстрым и устойчивым является метод NAG, он наименее чувствителен к начальным значениям весов и параметрам обучения. Процесс изменения среднеквадратической погрешности носит гладкий характер и устойчив (рис. 3). Экспериментально обнаружена необходимость использования различных значений коэффициентов а для различных параметров сети. Метод RMSProp+NAG устойчив к изменению начальных значений весов и параметров обучения. Процесс изменения среднеквадратической погрешности носит гладкий характер и устойчив. Но метод проигрывает NAG по числу итераций.

10° 101 102 103 Номер итерации

Рис. 3. Зависимость среднеквадратической ошибки от номера итерации в методе NAG

Эксперименты подтвердили важность настройки не только весов, но и параметров РБ-функций. Конечное положение центров РБ-функций, полученное в результате обучения сети (рис. 4), радикально отличается от начального положения (см. рис. 2), причем после обучения сети центры вышли за пределы области решения.

Метод Левенберга - Марквардта обеспечивает качественное преимущество по числу циклов обучения сети по сравнению с методами первого порядка. С помощью метода Левенберга - Марквардта удалось достичь значения среднеквадратической погрешности, равного 10-, что практически невозможно сделать методами первого порядка. Решение при этом было достигнуто за число циклов обучения, изменявшееся от 23 до 98 (время решения менялось от 2,23 с до 4,65 с).

О -О-'-о- •

О О

> О'

О К <1

о

О ® о 0

■5 0 5

х

Рис. 4. Пример конечного положения центров РБ-функций

Недостаток метода Левенберга - Марквардта - плохая обусловленность системы (7), зависящая от начальных значений ширины РБ-функций и увеличивающаяся с ростом точности вычислений. Известно, что матрица, элементами которой являются функции Гаусса, является плохо обусловленной и обусловленность матрицы зависит от ширины РБ-функций [16]. С ростом ширины значения РБ-функций (2), являющиеся элементами матрицы ^ (11), стремятся к единице, а элементы матриц ^ и Jа стремятся к нулю. Число обусловленности матрицы JтJ растет. В пределе матрица Jт J будет содержать 3птР нулевых строк и столбцов и становиться особенной. Это следует из известного свойства, что определитель матрицы равен нулю, если матрица имеет хотя бы два одинаковых столбца (или две одинаковые строки). Параметр регуляризации ц улучшает обусловленность системы (7), но уменьшение параметра ц по мере уменьшения погрешности приводит к ухудшению обусловленности. В отличие от обучения многослойного персептрона методом Левенберга - Марквардта, обучение РБФ-сети требует значительно больших значений параметра регуляризации ц. Так, для обучения многослойного персептрона рекомендуется ц = 0,001 [17], а обучение РБФ-сети работает даже при ц> 1, но при этом процесс изменения среднеквадратиче-ской погрешности носит сильно колебательный характер.

При некоторых значениях начальных параметров не удалось решить систему (7) в Ма1;ЬаЬ из-за практической вырожденности. В частности, систему не всегда удавалось решить при постоянном начальном значении ширины, большем единицы. Например, при начальном расположении центров на сетке, постоянном начальном значении ширины, равном 3,0, и случайных малых начальных значениях весов ранг матрицы JTJ 0 при начальных значениях параметров сети равен 22, когда размер этой матрицы 64^64, т.е. значительная часть столбцов матрицы линейно зависима. Определитель матрицы

JТ J0 + ЦкЕ равен 2,487968848564625 • 10 51, т.е практически равен нулю. Поэтому зачастую не удавалось решить систему с использованием стандартного решателя МЛТЬЛБ. Уменьшение начального значения ширины РБ-функций до 1,0 позволило преодолеть этот недостаток. Число обусловленности матрицы Jк_1 + цкЕ увеличивалось по мере повышения точности решения. Например, число обусловленности матрицы JT_1 Jк_1 + ЦкЕ менялось в экспериментах от 1,9349 • 10+2 при начальных значениях сети до 2,1619 • 10+6 и при значении среднеквадратической погрешности, равной 0,01 и 3,2367 • 10+8, при среднеквадратической погрешности 10-6. Процесс изменения среднеквадратической погрешности в методе Левенберга - Марквардта носит колебательный характер (рис. 5). Более гладкий характер изменения среднеквадратической погрешности можно обеспечить, уменьшая коэффициент V , но при этом растет число циклов обучения.

Среднеквадрэтическая ошибка

102 -'-

10° ю* 102

Номер итерации

Рис. 5. Зависимость среднеквадратической ошибки от номера итерации в методе Левенберга - Марквардта

Заключение

Впервые разработаны и исследованы ускоренные алгоритмы первого порядка и Левенберга - Марквардта обучения сетей радиальных базисных функций для решения задач аппроксимации функций. Экспериментальное исследование алгоритмов показало преимущество алгоритма Левенберга - Марк-вардта и проблемы использования этого алгоритма, связанные с плохой обусловленностью решаемой системы линейных алгебраических уравнений.

Для решения задач аппроксимации на сетях радиальных базисных функций можно рекомендовать адаптированный в работе алгоритм Левен-берга - Марквардта, но при этом необходимо оценивать обусловленность решаемой системы. При возникновении проблем с плохой обусловленностью системы можно рекомендовать использовать алгоритм ускоренного градиента Нестерова.

Библиографический список

1. Wendland, H. Scattered Data Approximation / H. Wendland. - Cambridge : Cambridge University Press, 2010. - 348 p.

2. Buhmann, M. D. Radial Basis Functions: Theory and Implementations / M. D. Buhmann. - Cambridge : Cambridge University Press, 2009. - 272 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Fasshauer, G. F. Meshfree Approximation Methods with MATLAB / G. F. Fasshauer. -New Jersey : World Scientific Publishing Company, 2007. - 520 p.

4. Хайкин, С. Нейронные сети: полный курс / С. Хайкин. - М. : Вильямс, 2006. -1104 с.

5. Осовский, С. Нейронные сети для обработки информации / С. Осовский. - М. : Горячая линия - Телеком, 2016. - 448 с.

6. Горбаченко, В. И. Решение краевых задач математической физики с помощью сетей радиальных базисных функций / В. И. Горбаченко, М. В. Жуков // Журнал вычислительной математики и математической физики. - 2017. - Т 57, № 1. -С. 133-143.

7. Гудфеллоу, Я. Глубокое обучение / Я. Гудфеллоу, И. Бенджио, А. Курвилль. - М. : ДМК Пресс, 2017. - 652 с.

8. Niyogi, P. On the relationship between generalization error, hypothesis complexity and sample complexity for radial basis functions / P. Niyogi , F. Girosi // Neural Computation. - 1996. - Vol. 8, Issue 4. - P. 819-842.

9. Sutskever, I. On the importance of initialization and momentum in deep learning / I. Sutskever, J. Martens, G. Dahl, G. Hinton // Proceedings of the 30th International Conference on International Conference on Machine Learning. - Vol. 28. - Atlanta, Georgia, 2013. - P. 1139-1147.

10. Bishop, C. M. Neural Networks for Pattern Recognition / C. M. Bishop. - Oxford : Oxford University Press, 1996. - 504 p.

11. Гилл, Ф. Практическая оптимизация / Ф. Гилл , У. Мюррей , М. Райт . - М. : Мир, 1985. - 509 с.

12. Fast and Efficient Second-Order Method for Training Radial Basis Function Networks / T. Xie, H. Yu, J. Hewlett, P. Rozycki, B. Wilamowski // IEEE transactions on neural networks and learning systems. - 2012. - Vol. 23, № 4. - P. 609-619.

13. Горбаченко, В. И. Вычислительная линейная алгебра с примерами на MATLAB / В. И. Горбаченко . - СПб. : БХВ-Петербург, 2011. - 320 с.

14. Marquardt, D. W. An Algorithm for Least-Squares Estimation of Nonlinear Parameters / D. W. Marquardt // Journal of the Society for Industrial and Applied Mathematics. - 1963. - Vol. 11, № 2. - P. 431-441.

15. Conn, A. R. Trust regions methods / A. R. Conn, N. I. M. Gould , P. L. Toint. - Philadelphia : Society for Industrial and Applied Mathematics, 2000. - 959 p.

16. Boyd, J. P. Numerical experiments on the condition number of the interpolation matrices for radial basis functions / J. P. Boyd , K. W. Gildersleeve // Applied Numerical Mathematics. - 2011. - Vol. 61, Issue 4. - P. 443-459.

17. Beale, M. H. Neural Network Toolbox. User's Guide / M. H. Beale , M. T. Hagan , H. B. Demuth. - Natick : MathWorks, Inc., 2017. - 446 p.

Алкезуини Мухи Муртада Мухи Alqezweeny Mohie Mortadha Mohie

аспирант, postgraduate student,

Пензенский государственный университет Penza State University E-mail: [email protected]

Горбаченко Владимир Иванович доктор технических наук, профессор, заведующий кафедрой компьютерных технологий,

Пензенский государственный университет E-mail: [email protected]

Gorbachenko Vladimir Ivanovich doctor of technical sciences, professor, head of sub-department of computer technologies, Penza State University

УДК 004.032.26 Алкезуини, М. М

Совершенствование алгоритмов обучения сетей радиальных базисных функций для решения задач аппроксимации / М. М. Алкезуини, В. И. Горбаченко // Модели, системы, сети в экономике, технике, природе и обществе. - 2017. - № 3 (23). -С. 123-138.

i Надоели баннеры? Вы всегда можете отключить рекламу.