2018 Математика и механика № 55
УДК 519.6 М8С 65К05, 90С30, 82С32
Б01 10.17223/19988621/55/3
В.Н. Крутиков, Н.С. Самойленко
О СКОРОСТИ СХОДИМОСТИ СУБГРАДИЕНТНОГО МЕТОДА С ИЗМЕНЕНИЕМ МЕТРИКИ И ЕГО ПРИЛОЖЕНИЯ В СХЕМАХ НЕЙРОСЕТЕВЫХ ПРИБЛИЖЕНИЙ
Исследуется релаксационный субградиентный метод с двухранговой коррекцией матриц метрики. Доказано, что на сильновыпуклых функциях, в случае существования линейного преобразования координат, уменьшающего степень обусловленности задачи, метод имеет линейную скорость сходимости, соответствующую этой степени обусловленности. Экспериментально установлено, что скорости сходимости квазиньютоновского и изучаемого методов на гладких функциях практически эквивалентны. Вычислительные возможности метода используются для построения эффективных алгоритмов обучения нейронных сетей.
Ключевые слова: метод, субградиент, минимимизация, скорость сходимости, нейронные сети, регуляризация.
В задачах обучения по прецедентам (см., например, [1]) при небольших по размеру обучающих выборках и неизвестном виде математической модели возникает необходимость поиска соответствующего описания в виде искусственной нейронной сети (ИНС) [1-4]. При этом структура модели должна быть достаточной сложной для качественного описания данных и достаточно простой для обеспечения хороших обобщающих свойств [1]. Подобные проблемы возникают в различных практических приложениях аппарата ИНС [5-7]. Для устранения избыточного описания нейросети используют различные способы регуляризации [1, 8-12]. В задачах обучения ИНС при небольших обучающих выборках [1-4, 6, 7, 13] используют, как правило, сети с небольшим числом слоев, а в качестве методов обучения применяют методы сопряженных градиентов (МСГ) [13], квазиньютоновские (КНМ) [14, 15] и Левенберга - Марквардта (ЛМ) [16]. Учитывая неприменимость этих методов для решения негладких задач, слабую устойчивость методов ЛМ [13] и МСГ в условиях плохой обусловленности и росте размерности задачи представляется актуальным исследование методов обучения ИНС, имеющих высокую скорость сходимости как на гладких, так и негладких овражных функциях, в том числе и невыпуклых.
К числу методов, обладающих возможностями минимизации негладких и, в том числе, невыпуклых функций, относятся релаксационные субградиентные методы (РСМ). Свойствами скорости сходимости, близкими свойствам метода сопряженных градиентов, обладают РСМ, предложенные в работах [17-22]. Существенного повышения эффективности РСМ удалось достичь в результате создания методов негладкой оптимизации с изменением метрики пространства [17, 23, 24]. В данной работе теоретически и экспериментально рассмотрен релаксационный субградиентный метод с двухранговой коррекцией матриц метрики (СМДМ) [23], который при исключении операции сжатия пространства эквивалентен г-алгоритму Н.З. Шора [17]. В статье установлено, что на сильновыпуклых функци-
ях с липшицевым градиентом [14] метод сходится линейно. В силу инвариантных свойств алгоритма, полученная оценка справедлива и в системе координат с наилучшими для оценки скорости сходимости пропорциями констант сильной выпуклости и Липшица. Проведенный вычислительный эксперимент подтверждает близость свойств методов СМДМ и КНМ на квадратичных функциях и эффективность метода при минимизации негладких функций с высокой степенью вытяну-тости поверхностей уровня.
Использование ИНС при небольших по размеру обучающих выборках наталкивается на проблемы выбора хорошего начального приближения и быстро наступающего переобучения в случае излишнего числа нейронов. Предложен новый эффективный способ выбора начального приближения ИНС. Использование регуляризации позволило исключить эффекты переобучения и эффективно удалять малозначимые нейроны и связи внутри нейронов. Возможности эффективного решения подобных задач обеспечены методом СМДМ. В статье приведены примеры решения задач обучения ИНС.
2. О скорости сходимости субградиентного метода с изменением метрики
Рассматривается задача минимизации дифференцируемой функции /(х), х е Я" , где Я" - конечномерное евклидово пространство. Обозначим (х, у) -скалярное произведение векторов, ||х|| = -у/(х, х) - норму вектора. Для произвольной симметричной строго положительно определенной матрицы Н размера " х " будем использовать обозначение Н > 0 .
Условие А. Будем предполагать, что функция /(х), х е Я", дифференцируема и сильновыпукла с константой I > 0 [14]:
/(Хх + (1 -Х)у) <Х/(х) + (1 -Х)/(у)-1Х(1 -Х)|| х-у||2/2, 0 <Х<1 , (1) а ее градиент удовлетворяет условию Липшица с константой Ь > 0
II У/(х) -У/ (у) ||< Ь || х-у||. (2)
Последовательные приближения алгоритма СМДМ [23] на некоторой к-й итерации при точном одномерном спуске строятся по формулам
хк+1 = хк- у А , ^ = Нк8к; (3)
Ук = агятт / (хк-у 8к). (4)
у>0
Здесь х0 - заданная начальная точка, Н0 > 0 - заданная начальная матрица, а матрицы Нк > 0 вычисляются по формулам
Н Н (1 1) НкУкУкНк (1 1) НкРкРкНк . (5)
Нк+1 = Нк-(1---)--7}--7}-Г. (5)
а2 (У к, НкУк) Р2 (Рк, НкРк)
ук = 8к+1 - ёк , рк = ёк+1 + 1кук, 1к = ук гТ к+! ,
( ут , нтут )
а > 1, Ре (0,1], а-р> 1, (6)
где коэффициент tk вычисляется из условия ортогональности (ук, Нкрк) = 0.
Здесь и далее g , g (х) - некоторый субградиент из субградиентного множества д/ (х) функции / (х), gk = g (хк).
Итерационный процесс (3) - (6) является частным случаем алгоритма минимизации из [23]. В [23] для преобразования (5) необходимо из множества д/(хк+1) выбирать субградиент g (хк+1), удовлетворяющий условию
(А, g(хк+1)) =(Hkg(хкX g(хк+1)) < 0.
В силу точного одномерного спуска (4) для дифференцируемой функции это условие выполняется (5к, g (хк+1)) = 0. В качестве нового агрегированного субградиента для формирования направления спуска в работе [23] предложено выбирать вектор на отрезке двух векторов рк, gk+1. В этой работе, как следует из (3), для формирования направления спуска используется только вектор gk+1 этого отрезка, что определяет алгоритм (3) - (6) как частный случай метода минимизации из
[23].
Обозначим через х точку минимума функции /(х), / = /(х ), /к = /(хк), Кк = /к - /*, Ак = Н- . Для матрицы Нк+1, полученной в результате (5) при параметрах а, р , удовлетворяющих (6), при условии Нк > 0 в [23] показано, что матрица Нк+1 > 0 и для нее выполняются равенства
Ак+1 = Ак + (а2 -1)( УкУ + (Р2 -1)( РкР ) ; (7)
(Ук, НкУк) (Рк, НкРк)
Бр(Ак+1) = 5р(Ак) + (а2 -1) (Ук -¡Ук \ + (Р2 -1) (Рк , Рк \ ; (8)
(Ук, НкУк) (Рк, НкРк)
ОД+>) =--2г. ^е1(Ак+!) = а2р2ае1 Ак. (9)
¿С1(Нк) , = „2„2
а 2Р
В следующей теореме показано, что наличие движения в результате итераций метода (3) - (5) приводит к уменьшению функции.
Теорема 1. Пусть функция / (х) удовлетворяет условию А. Тогда для последовательности {/к}, к = 0,1, 2,..., заданной процессом (3), (4), имеет место оценка:
Кк+1 < К0 ехР
2к - ^ I
^ ¿=0II g,112
(10)
Доказательство. Для сильновыпуклой функции выполняются неравенства [14]
/||х - х„||2/2 < /(х) - (х)||2 / 2/ . (11)
Согласно определению Кк , с учетом правого из неравенств в (11), получим
Кк+1 = Кк- (Л - Л+1) = Кк(1 - (Л - Л+1)/ Кк) <
<Кк (1 -2/ (/к-/к+1)% (х)||2). (12)
Левое из неравенств в (11) справедливо и для одномерной функции
2
ф(/) = /(хк -/||гк||). Отсюда, с учетом точного одномерного поиска (4) и условия Липшица (2), следует оценка
/к - /к+1 > % - Хк+1||2/2>/Ы\2/2Ь\ Преобразуем (12), используя последнее соотношение и неравенство ехр(-с) > 1 - с при с > 0:
Цк+1 < Цк
( ;2 II ||2 Л
1 - ЦУк
ь2\ к 112
< ц к ехр
( ;2 И ||2 Л
/ IIУк|I
к II У
2 И- ||2 к II У
ь21 к
Рекуррентное использование последнего неравенства приводит к оценке (10). Теорема доказана.
В следующей теореме обосновывается линейная скорость сходимости метода СМДМ.
Теорема 2. Пусть функция /(х) удовлетворяет условию А . Тогда для последовательности {/к }, к = 0,1,2,..., заданной процессом (3) - (6), с ограниченной начальной матрицей Н0
т0 < (Н02,2)/(г,2) <М0, (13)
имеет место оценка
Цк+1 < Цо ехР 1 -
Ь2
2(к + 1)1и(аР) + 1п(т0 /М0)
(14)
п(а2 -1) (а2 -1)
Доказательство. Исходя из (8), учитывая неравенство Р2 -1 < 0, получим оценку следа матриц Ак :
Бр(Ак+!) < Бр(Ак)
1 + ■
(а -1)(Ук, Ук)
(15)
Бр( Ак )(НкУк, Ук). В силу точного одномерного спуска (4) выполняется условие (5к, к(Хк+1)) =(Нкк(Хк), к(Хк+1)) = 0, что вместе с положительной определенностью матриц Нк доказывает неравенство
(НкУк, Ук) =(Нкк(ХкX к(Хк)) +(Нкк(Хк+1), к(Хк+1)) -- 2(Нкк (Хк )к, к (Хк+1)) > (Нкк (Хк), к (Хк)). Отсюда, с учетом неравенства 8р(Ак) > Мк, где Мк - максимальное собственное значение матрицы Ак , получим
$р(Ак)(НкУк, Ук) > §р(Ак)(Нкк(Хк), к(Хк)) > > §р(Ак),
Мк
-(к(хк )к, к(хк)) > (к(хкX к(хк)).
Неравенство (15) на основании последней оценки преобразуется к виду
Бр(Ак+!) < Бр(Ак)
1 + (а2 -1)
2 1Ч ||Ук|Р
11к (Хк )|2
(16)
На основе соотношения между среднеарифметическим и среднегеометрическим собственных значений матрицы А > 0 имеем Бр(А)/п > ^(А)]17п. Отсюда
и из(16) получим
k
Sp(Л) п
i=0
1 + (а2 -1)
l|g (- )|f
> Sp(A+]) > (det(Ak+1))1/n = [(a2p2)k + det(A0)]1/n
Последнее неравенство на основе соотношения 1 + p < exp(p) преобразуем к виду
> (а2p2)(k+1)/n(det(A0))1/n. (17)
SP( ^-exp
n
В силу условия (13)
(а2 -1)£
i=0 2
U (- )ll2 J
Sp(A0)/n < 1/m0, (det(A0))1/n > 1/M0. Логарифмируя (17), с учетом последних неравенств, найдем
yJyjL > 2(k + 1)ln(gp) + ln(m0 /M0)
g(- )f n(a2 -1) (a2 -1) ,
что вместе с (10) доказывает (14). Теорема доказана.
Полученные оценки скорости сходимости не объясняют факт высокой скорости сходимости метода СМДМ, например, на квадратичных функциях. Для обоснования наличия ускоряющих свойств у метода нам необходимо показать его инвариантность относительно линейного преобразования координат, а затем использовать оценку (14) в системе координат, в которой отношение l / L максимально. Подобная возможность существует, например, в случае квадратичных функций, где это отношение будет равно 1.
Пусть задано линейное преобразование координат х = P-, -, - е Rn, где - -переменные новой системы координат, Р - невырожденная матрица размера nxn. Образуем функцию f (-) = f (P- -) = f (-). Здесь и далее черта сверху - признак принадлежности одноименной переменной новой системе координат. Обозначим P= (PT )-1. Установим соответствие между характеристиками процесса (3) -
(5), применяемого для минимизации функций f (-) и f-).
Лемма 1. Пусть начальные условия процесса (3) - (5), применяемого для минимизации функций f (-) и f (-), связаны равенствами
-0 = P-0, H = PH0 PT . (18)
Тогда характеристики этих процессов связаны соотношениями
f(-k) = f(-k), -k = P-k , g(-k) = P~Tg (-k) , Hk = PHkPT ( k = 0,1,2,...). (19) Доказательство. Для производных функций f (-) и f (-) справедлива взаимосвязь g (-) = P ~T g (-). Отсюда и предположения (18) следует (19) при k = 0. Предположим, что равенства (19) выполнены при всех k = 0,1,...,i. Покажем их выполнимость при k=i+1. Из (3) при k = i после умножения на Р слева с учетом доказанных равенств (19) получим
P-i+1 = P-t - у iPHiPrP~Tg(-i) = - - уHig(-). (20)
Отсюда, согласно определению функции f, на этапе одномерной минимизации (4) выполняется равенство yi = уг. Поэтому правая часть (20) - реализация шага (3) в новой системе координат. Следовательно:
РХ+1 = Хч^ = P~Ig(xг+1) и У = g(X■+1) - 8(Хг) = Р- . (21) Помножая (5) слева на Р, а справа на Рт, с учетом (21) получим
РИ1+Г = рнрт - (!-_!) РНгрТ^-ТУгУТР-рТтРТ -'+1 г ( а2) (Уг, Р РИ,Р Р Уг)
- (1 - ±) рЩРтР-т РР Р-1РИТ Рт =
Р2 (Рг, р-'РИкРтр-трг )
=И - (1 - Ну У ит - (1 - 1 ИрртЩ
' а2 (НгУг, У, ) р2 (Ир, р ) '
где правая часть есть реализация формулы (5) в новой системе координат. Поэтому РИ{+1Рт = Иг+1. Следовательно, равенства (19) будут справедливы и при к = г + 1. Продолжая процесс индукции, получим доказательство леммы.
Обозначим через 1Р, ЬР соответственно константы сильной выпуклости и
Липшица для функции f (х). Введем функцию К(Р) = 1Р / ЬР . Обозначим V матрицу преобразования координат такую, что К(V) > К(Р) для произвольных невырожденных матриц Р.
Теорема 3. Пусть функция f (х) удовлетворяет условию А . Тогда для последовательности {^ }, к = 0,1,2,..., заданной процессом (3) - (6), с ограниченной начальной матрицей И0 (13) имеет место оценка
1(2
^к+1 <К> ехР I- ~т
¿V
2(к + 1)1и(аР) 1п(т / М)
п(а2 -1) (а2 -1) _
(22)
где т и М - соответственно минимальное и максимальное собственные значения матрицы Н0 = (И0(т .
Доказательство. Согласно результатам леммы 1, мы можем выбрать произвольную систему координат для оценки скорости сходимости процесса минимизации (3) - (5). Поэтому используем оценку (14) в системе координат с матрицей Р = V , получим оценку (22).
Для метода скорейшего спуска (схема (3), (4) при Ик = I) на функциях, удовлетворяющих условию А, порядок скорости сходимости определяется выражением цк < ц0 ехр(-к//Ь) [14, 25]. При условии >> //Ь оценка (22) оказывается предпочтительнее. Такая ситуация возникает, например, при минимизации квадратичных функций, матрицы вторых производных которых имеют большой разброс собственных значений. Второе слагаемое оценки (22) характеризует этап настройки матрицы СМДМ-алгоритма. При больших значениях а настройка матрицы протекает интенсивнее. Таким образом, при конечных значениях параметра
растяжения пространства алгоритм СМДМ на сильно выпуклых функциях, без предположения существования вторых производных, обладает ускоряющими свойствами сравнительно с методом скорейшего спуска.
3. Результаты вычислительного эксперимента
1. Исследование скорости сходимости алгоритма СМДМ. Предварительный вычислительный эксперимент имеет целью сравнить скорости сходимости квазиньютоновского метода Бройдена - Флетчера - Гольдфарба - Шанно (БРв8) [15] и СМДМ и на квадратичных функциях с высокой степенью обусловленности (ц = 1010). Вторая часть эксперимента состоит в соотнесении скорости сходимости СМДМ на квадратичных и негладких функциях с равной степенью вытянуто-сти функции:
п
У1( х) = £ х2 • (1 + (г -1)(105 -1)/( п -1))2, х0,г = 1, х* = 0, г = 0,1,2,..., п ,
г=1
Л( х) = £|хг|-(1 + (г -1)(105 - 1)/(п -1)), х0,г = 1, х* = 0, г = 0,1,2,., п .
г=1
Обозначим 11 - число итераций метода, а п!§ -количество вычислений функции и градиента, требуемые для достижения заданной точности /к - /* < е . Результаты для методов приведены в табл. 1.
Таблица 1
Результаты сходимости методов на сложных функциях
Функция /1 (е =10-10) /2 (е =10-5) /3 = /1 + /2( е =10-5)
Методы БЕОБ а^) СМДМ а^) СМДМ (ЙМ£) смдм а^)
п = 500 543/993 755 / 1267 2747/ 4883 2596 / 4600
п = 1000 1049/1974 1330 / 2144 5451 / 9159 5178 / 8305
п = 5000 5100 / 9873 5411 / 8321 20073 / 29607 18328 / 26514
Метод БРв8 является конечным на квадратичных функциях с числом итераций, равным размерности задачи. Стратегии методов БРв8 и СМДМ различные. В квазиньютоновских методах важна точность одномерного поиска, а в релаксационных субградиентных алгоритмах наоборот, чем больше окрестность поиска, тем эффективнее выбор направления для последующего выхода из этой окрестности. Результаты табл. 1 свидетельствуют о практической идентичности методов на квадратичных функциях с высокой степенью обусловленности и высокой эффективности СМДМ при минимизации сложных негладких функций /2 и /3. В представленных ниже сценариях обучения ИНС требуется высокая точность решения задач негладкой минимизации. Данный эксперимент дает определенные гарантии возможности СМДМ решать подобные задачи.
2. Задача аппроксимации двухслойной ИНС сигмоидального типа. ИНС представляют собой мощный инструмент аппроксимации и находят применение в различных областях, в том числе и при решении уравнений математической физики [6, 7]. Требования к аппарату приближения - это надежность и качество приближения. Ниже будут изложены способы решения подобных проблем, где важ-
ную роль играет исследованный выше релаксационный субградиентный метод с двухранговой коррекцией матриц метрики СМДМ. Рассмотрим задачу аппроксимации
м>* = а^шш Е(а,м,Б),
Е(а, м, Б) = X^б (У - f (х, м))2 + Xк=1 аД- (м), (23)
где Б = {(хг, yi )| хг е ЯР, Уг е Я1}, г = 1,..., Ж} - данные наблюдения, Я, (м>) - различные виды регуляризаторов; аг - параметры регуляризации, f (х, м) - аппроксимирующая функция; х е ЯР - вектор данных; м е Яп - вектор настраиваемых параметров, р и п - их размерности. В качестве регуляризаторов можно использовать следующие:
Я2(м) = Хп=1 Ч2 [8], Я1(м) = ХП=11 Мг | [26], Яу(м) = Хп=1 (Мг1 + е)У (е = Ю-6, У = 0.7) [9].
Использование Я2 приводит к подавлению в большей мере больших компонент вектора м, Я1 - больших и малых, а Яу - преимущественно малых. Подобное
свойство Яу позволяет сводить к нулю слабые компоненты, несущественные для описания данных. В задачах приближения ИНС в отсутствие помех мы будем использовать регуляризатор Яу.
В задаче аппроксимации сетью прямого распространения требуется по данным Б обучить двухслойную сигмоидальную нейронную сеть следующего вида (оценить ее неизвестные параметры м):
f (х, м) = м02) +Х т=1 м(2) Ф (5 ) , Ф(Я) = ^ /(1+ | 5 |) ,
5 = ^ +Х р=1 х^, г = 1,2,..., т , (24)
где х! - компоненты вектора хеЯР , м=(См*-2-1,г = 0,...,т),(]=0,...,р, г=1,...,т))
- набор неизвестных параметров, которые необходимо оценить методом наименьших квадратов (23), ф(5) - функция активации нейрона, т - число нейронов.
Для решения задач (23) используем субградиентный метод СМДМ.
3. Оптимизационный алгоритм нахождения начального приближения ИНС. Начальное приближение в задаче обучения ИНС играет решающую роль. В литературе по нейронным сетям [2, 3] предлагается задавать начальные значения параметров нейронов м случайным образом. Рассмотрим процесс задания начальных параметров сети, в котором каждому нейрону отводится зона активного приближения данных и при этом зоны нейронов покрывают область данных.
Рабочие области нейронов ф(5) в (24) имеют характер активной зависимости только в некоторой окрестности значений 5 = 0, а при значительных отклонениях значений 5 от нуля значения ф(5) близки к своим асимптотам, принимающим значения {-1, 1}. Важно иметь такие параметры нейронов м, которые обеспечивают для векторов области данных х е ЯР принадлежность рабочей области хотя бы одного нейрона.
При произвольном задании начальных параметров в задаче минимизации (23) зачастую оказывается, что рабочие области нейронов охватывают только часть области аппроксимации либо выходят за ее пределы, образуя локальные минимумы, выход из которых нельзя осуществить приемами локальных изменений текущего приближения. Даже если предположить, что рабочие области нейронов расположены правильно, нельзя гарантировать, что их положение сохранится при дальнейшем решении задачи обучения. Расположение нейронов в точках с высокой концентрацией данных также не обеспечивает сохранения этого положения, поскольку при дальнейшем обучении нейроны могут покинуть изначально заданные области. Поэтому требуется дополнительная привязка рабочих областей нейронов посредством обучения нейросети при фиксированных центрах. В этом случае нейрон сможет покинуть свой регион только в случае, когда в этом регионе будет обеспечена уже имеющаяся точность приближения данных.
В следующем алгоритме предлагается найти приближение ИНС, т.е. параметры нейронов при фиксированном положении рабочих областей нейронов с помощью заданных центров сг е ЯР, г = 1,2,...,т, в области аппроксимации х е ЯР , определяемой данными. В этом случае в (24) будут использоваться выражения
5 =ХР=1(х, - с1} г = l,2,...,т ,
м = ((мг(2), г = 0,...,т), (м(1), ] = 1,...,Р, г = 1,...,т)) . (25)
Центры сг можно найти некоторым алгоритмом кластеризации данных х' е ЯР, г = 1,...,N, что полезно и с точки зрения расположения нейронов в областях с высокой плотностью данных. В этой работе использовался максиминный алгоритм [27], в котором в качестве первых двух центров выбираются две максимально удаленные друг от друга точки данных. Каждый новый центр получается выбором точки данных хг , расстояние от которой до ближайшего известного центра максимально.
Оптимизационный алгоритм нахождения начального приближения ИНС (ОНП).
1. Задать данные Б, число нейронов т<Ж. Выбрать регуляризатор и его параметры в (23).
2. На данных Б определить центры рабочих областей нейронов сг е ЯР, г = 1,2,...,т .
3. Выбрать начальное приближения параметров ИНС (24) в форме (25).
4. Для ИНС (24) в форме (25) найти неизвестные параметры посредством решения задачи (23).
5. Вернуться к исходному описанию сети в виде (24) посредством образования параметров
=-ХР=1 сА>, г = 1,2,...,т . (26)
Пункт 4 алгоритма в определенной степени гарантирует, что область данных будет покрыта рабочими областями нейронов. В своей выделенной области каждый нейрон обеспечит некоторое качество приближения, которое при возврате (26) к виду (24) сохраняется, а при дальнейшем обучении может только улучшиться.
4. Алгоритм обучения ИНС в задачах аппроксимации. При малой размерности данных х е Rp , например, при решении уравнений математической физики [6], можно обойтись без удаления переменных внутри нейронов, а сосредоточится на выборе оптимального числа нейронов, удаляя избыточные. В следующем алгоритме задается избыточное число нейронов, а регуляризация проводится только по параметрам w(2), i = 1,...,m, из (24) с использованием регуляризатора Ry.
Алгоритм обучения ИНС в задачах аппроксимации при отсутствии помех (А0).
1. Задать данные D, число нейронов m<N. Выбрать регуляризатор Ry(w) и
параметр а для алгоритма ОНП и для алгоритма обучения нейросети (23).
2. Найти начальное приближение ИНС W0, используя алгоритм ОНП.
3. Для £=1,2,..., m-1 выполнить действия:
3.1. wk = arg min Eü(a, wk-1, D). Вычислить величину среднеквадратичной
w ^ '
погрешности
Sk = S (D, fk ) = Xх,yeD (y - f (х, w£))2/ N . (27)
3.2. Последовательно по одному удалить нейроны, обеспечивающие минимальное после удаления значение показателя S (D, f), не превосходящее значение Sk более чем на заданное число процентов.
3.3. Если в пункте 3.2 не произошло удаления нейронов, то удалить один из нейронов, приводящий к наименьшему росту показателя S (D, f).
4. В качестве окончательной модели аппроксимации выбрать ИНС f (х, wk) с числом параметров n, не превосходящим N, имеющую наименьшее значение показателя Sk .
Первоначально алгоритм, подобный А0, по аналогии с методом построения компактной линейной модели [9], не содержал пункта 2. Для получения качественной модели приходилось многократно примененять алгоритм со случайным выбором начального приближения ИНС. При этом не всегда удавалось достигнуть необходимого качества. Сочетание первоначального равномерного покрытия области данных рабочими областями избыточного числа нейронов с последующим удалением избыточных нейронов средствами негладкой регуляризации позволило получать качественные приближения за один просчет алгоритма А0.
Обладание техникой размещения рабочих зон сигмоидальных нейронов в нужных областях данных и способом удаления избыточных нейронов позволяет построить другие разновидности алгоритма А0, например, с последовательным добавлением нейронов в областях данных с низким качеством приближения на предыдущих этапах. При этом негладкая регуляризация позволит исключить из модели малоинформативные нейроны.
5. Примеры решения задач аппроксимации. Обоснование эффективности изложенных алгоритмов проведем на примерах функций, для которых известны результаты аппроксимации ИНС [3]. Будем использовать следующую функцию активации нейрона <p(s) = 1/(1 + exp(-s)). Зададим параметр регуляризации
a = 10-9. При решении задач алгоритмом АО в качестве решения будем выбирать ИНС с наименьшим значением показателя (27) при условии n < N.
В [3, с. 149) на данных при N = 625, сформированных в области О = [-3, 3] х [-3, 3] датчиком равномерных случайных чисел, аппроксимировалась функция
¡3 (^, х2) = 3(1 - х )2 ехр(-Х12 - (Х2 +1)) --10(х1 /5 - хц3 - х25) ехр(х12 - х22) - ехр(-(х1 +1) - х22) / 3 .
Максимальное уклонение построенной в [3] ИНС, основанной на радиальных базисных функциях (КБР), на проверочной выборке из 1000 данных составило А1000=0.06 [3]. Функция /3 - типичный пример удобной для аппроксимации сетью КБР функции. Тем не менее использование алгоритма А0 на меньшей по размеру выборке ^ = 600) позволяет получить сигмоидальную сеть с меньшим уклонением Аю00=0.0171.
В той же работе [3, с. 162] в области О = [-1,1] х [-1,1] аппроксимировалась
функция /4(Х1,Х2) = 8ш(лх12)8ш(2лх2)/2 . На основе выборки с N = 500 получено А1000=0.15 [3]. Алгоритм А0 при меньшем количестве данных N = 150 позволяет получить сигмоидальную ИНС, для которой максимальное уклонение почти на порядок меньше А1000 = 0.018.
Отметим, что при аппроксимации функций /3 и /4 сигмоидальной нейронной сетью без использования оптимизационного алгоритма нахождения начального приближения не удавалось получить качество аппроксимации выше, чем в [3].
В работе [6] ИНС применялись для решения уравнений математической физики. Использовался метод доверительных областей [28], в котором накладываются ограничения на область изменения параметров ИНС при обучении. В силу сложности и низкой скорости сходимости используемого метода в [13] предпринята попытка найти наиболее подходящий алгоритм для обучения сетей КБР. Среди исследуемых алгоритмов в [13] присутствовали и эффективные методы обучения глубоких нейронных сетей [29, 30]. На функции /5(х1, х2) = Хц + Х2 в области О = [-3, 3] х [-3, 3] на равномерно распределенных в области данных при N = 100 лучшим оказался метод Левенберга - Марквардта. При этом достигнутая величина среднеквадратичной погрешности на обучающей выборке составляет 8100=10-6 [13]. Для сигмоидальной ИНС, полученной алгоритмом А0, имеем на обучающей выборке £100 = 1.5510-11, а на тестовой выборке - £1000 = 5.310-10, что на несколько порядков превосходит имевший место результат.
Приведенные результаты сведены в табл. 2, где т - число нейронов аппроксимирующей сети, т0 - первоначальное число нейронов. Остальные обозначения введены ранее.
Таблица 2
Результаты аппроксимации нейросетями
Функция Известные результаты Полученные результаты
N т Результат N т0 т Результат
/3 625 36 А1ооо=0.06 600 70 64 Аюоо=0.0171
/4 500 41 А1ооо=0.15 150 70 48 Аюоо= 0.018
/5 100 16 §1оо=10"6 100 30 16 ^00= 1.55-10-11; ^000 = 5.3-10"10
Таким образом, оптимизационный алгоритм отыскания начального приближения сети вместе с процедурой подавления избыточных нейронов позволяет получать ИНС высокого качества. Высокая точность решения задачи минимизации и скорость сходимости метода СМДМ дают возможность эффективно реализовать этапы алгоритма АО.
Заключение
Доказано, что на сильно выпуклых функциях с липшицевым градиентом релаксационный субградиентный метод с двухранговой коррекцией матриц метрики сходится линейно, а преобразование метрики пространства в алгоритме обеспечивает его ускоряющие свойства. Вычислительный эксперимент устанавливает близость свойств скорости сходимости изучаемого алгоритма и квазиньютоновских методов на квадратичных функциях. Метод обладает высокой скоростью сходимости и на негладких функциях.
Предложен комплекс алгоритмов построения ИНС в условиях небольших по размеру обучающих выборок. Сюда входит оптимизационный алгоритм нахождения начального приближения ИНС, который состоит в закреплении рабочих областей нейронов в области данных посредством построения первоначальной сети с фиксированными центральными линиями сигмоидальных нейронов. В основной схеме построения ИНС используется негладкая регуляризация, необходимая для целей устранения эффектов переобучения и удаления малозначимых нейронов. Приводимые примеры решения задач построения ИНС позволяют сделать заключение об эффективности предложенных в работе алгоритмов. Высокая скорость сходимости на гладких и негладких функциях алгоритма минимизации СМДМ дает возможность эффективно решать задачи минимизации в схемах построения ИНС.
Авторы считают своим долгом выразить признательность анонимным рецензентам, замечания и комментарии которых позволили существенным образом улучшить изложение результатов.
ЛИТЕРАТУРА
1. Воронцов К.В. Курс лекций «Математические методы обучения по прецедентам» URL: http://www.machinelearning.rU/wiki/images/6/6d/Voron-ML-1.pdf
2. Хайкин С. Нейронные сети: полный курс. М. : Вильямс, 2006. 1104 с.
3. Осовский С. Нейронные сети для обработки информации. М.: Горячая линия - Телеком, 2016. 448 с.
4. Горбань А.Н. Обучение нейронных сетей. М.: Изд-во СССР - США СП «Параграф», 1990. 160 с.
5. Бурнаев Е.В., Приходько П.В. Об одной методике построения ансамблей регрессионных моделей // Автомат. и телемех. 2013. Вып. 10. С. 36-54.
6. Горбаченко В.И., Жуков М.В. Решение краевых задач математической физики с помощью сетей радиальных базисных функций // Журнал вычислительной математики и математической физики. 2017. Т. 57. № 1. С. 133-143.
7. Кретинин А.В. Метод взвешенных невязок на базе нейросетевых пробных функций для моделирования задач гидродинамики // Сиб. журн. вычисл. матем. 2006. Т. 9. № 1. С. 23-35.
8. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. М.: Наука, 1986.
9. Крутиков В.Н., Арышев Д.В. Алгоритм последовательного отсева неинформативных переменных линейной модели // Вестник Кемеровского государственного университета. 2004. № 3(7). С. 124-129.
10. Li Wang, Ji Zhu, Hui Zou. The doubly regularized support vector machine // Statistica Sinica. V. 16. No. 2. P. 589-615.
11. Tatarchuk A., Mottl V., Eliseyev A., Windridge D. Selectivity supervision in com-bining pattern-recognition modalities by feature- and kernel-selective Support Vector Machines // Proc. of the 19th Int. Conf. on Pattern Recognition, Vol. 1-6, IEEE, ISBN 978-1-4244-21749. 2008. P. 2336-2339.
12. Tatarchuk A., Urlov E., Mottl V., Windridge D. A support kernel machine for supervised selective combining of diverse pattern-recognition modalities // Multiple Classifier Systems. Lecture Notes In Computer Science. V. 5997. Berlin; Heidelberg: Springer-Verlag, 2010. P. 165-174.
13. Алкезуини М.М., Горбаченко В.И. Совершенствование алгоритмов обучения сетей радиальных базисных функций для решения задач аппроксимации // Модели, системы, сети в экономике, технике, природе и обществе. 2017. № 3 (23). C. 123-138.
14. ПолякБ.Т. Введение в оптимизацию. М.: Наука, 1983.
15. Дэннис Дж., Шнабель Р. Численные методы безусловной оптимизации и решения нелинейных уравнений. М.: Мир, 1988.
16. Marquardt D.W. An algorithm for least-squares estimation of nonlinear parameters // J. Society for Industrial and Applied Mathematics. 1963. V. 11. No 2. P. 431-441.
17. Шор Н.З. Методы минимизации недифференцируемых функций и их приложения. Киев: Наукова думка, 1979.
18. Wolfe Ph. Note on a method of conjugate subgradients for minimizing nondifferentiable functions // Math. Program. 1974. V. 7. No. 1. P. 380-383.
19. Lemarechal C. An extension of Davidon methods to non-differentiable problems // Math. Program. Study. 1975. V. 3. P. 95-109.
20. Нурминский Е.А., Тьен Д. Метод сопряженных субградиентов с ограниченной памятью // Автомат. и телемех. 2014. № 4. P. 67-80; Autom. Remote Control. 2014. V. 75. No. 4. P. 646-656.
21. Крутиков В.Н., Вершинин Я.Н. Многошаговый субградиентный метод для решения негладких задач минимизации высокой размерности // Вестник Томского государственного университета. Математика и механика. 2014. № 3. С. 5-19.
22. Крутиков В.Н., Вершинин Я.Н. Субградиентный метод минимизации с коррекцией векторов спуска на основе пар обучающих соотношений // Вестник Кемеровского государственного университета. 2014. T.1. № 1 (57). С. 46-54. DOI: https://doi.org/10.21603/ 2078-8975-2014-1-46-54
23. Крутиков В.Н., Горская Т.А. Семейство релаксационных субградиентных методов с двухранговой коррекцией матриц метрики // Экономика и мат. методы. 2009. Т. 45. Вып. 4. С. 37-80.
24. Крутиков В.Н., Петрова Т.В. Релаксационный метод минимизации с растяжением пространства в направлении субградиента // Экономика и мат. методы. 2003. Т. 39. Вып. 1. С. 106-119.
25. Карманов В.Г. Математическое программирование. М.: Наука, 1980. 256 с.
26. Tibshirani R.J. Regression shrinkage and selection via the lasso // J. Royal Statistical Society. Series B (Methodological). 1996. V. 58. No. 1. P. 267-288.
27. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978.
28. Conn A.R., Gould N.I.M., Toint P.L. Trust regions methods. Society for Industrial and Applied Mathematics, 2000. 959 p.
29. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение. - М.: ДМК Пресс, 2017. 652 с.
30. Sutskever I., Martens J., Dahl G., Hinton G. On the importance of initialization and momentum in deep learning // Proc. 30th Int. Conf. on Machine Learning. V. 28. Atlanta, Georgia, 2013. P. 1139-1147.
Статья поступила 31.03.2018 г.
Krutikov V.N., Samoylenko N.S. (2018) ON THE CONVERGENCE RATE OF THE SUBGRADIENT METHOD WITH METRIC VARIATION AND ITS APPLICATIONS IN NEURAL NETWORK APPROXIMATION SCHEMES Vestnik Tomskogo gosudarstvennogo universiteta. Matematika i mekhanika [Tomsk State University Journal of Mathematics and Mechanics]. 55. pp. 22-37
DOI 10.17223/19988621/55/3
Keywords: method, subgradient, minimization, rate of convergence, neural networks, regularization.
In this paper, the relaxation subgradient method with rank 2 correction of metric matrices is studied. It is proven that, on high-convex functions, in the case of the existence of a linear coordinate transformation reducing the degree of the task casualty, the method has a linear convergence rate corresponding to the casualty degree. The paper offers a new efficient tool for choosing the initial approximation of an artificial neural network. The use of regularization allowed excluding the overfitting effect and efficiently deleting low-significant neurons and intra-neural connections. The ability to efficiently solve such problems is ensured by the use of the subgradient method with metric matrix rank 2 correction. It has been experimentally proved that the convergence rate of the quasi-Newton method and that of the method under research are virtually equivalent on smooth functions. The method has a high convergence rate on non-smooth functions as well. The method's computing capabilities are used to build efficient neural network learning algorithms. The paper describes an artificial neural network learning algorithm which, together with the redundant neuron suppression, allows obtaining reliable approximations in one count.
AMS Mathematical Subject Classification: 65K05, 90C30, 82C32
KRUTIKOV Vladimir Nikolayevich (Doctor of Technical Science, Professor at the Department of Applied Mathematics, Kemerovo State University, Kemerovo, Russian Federation).
SAMOYLENKO Natalya Sergeevna (Department of Applied Mathematics, Kemerovo State University, Kemerovo, Russian Federation).
REFERENCES
1. Vorontsov K.V. Course of lectures "Mathematical methods of learning by precedents" http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf
2. Khaikin S. ( 2006) Neyronnyye seti: polnyy kurs [Neural networks: a full course]. Moscow: Williams. 1104 p.
3. Osovski S. (2016) Neyronnyye seti dlya obrabotki informatsii [Neural networks for information processing]. Moscow: Goryachaya liniya - Telecom. 448 p.
4. Gorban A.N. (1990) Obucheniye neyronnykh setey [Training of neural networks]. Moscow: USSR - USA JV Paragraph. 160 p.
5. Burnaev E.V., Prikhodko P.V. (2013) On a method for constructing ensembles of regression models. Autom. Remote Control. 74(10). pp. 1630-1644. DOI: https://doi.org/10.1134/ S0005117913100044.
6. Gorbachenko V.I., Zhukov M.V. (2017) Solving boundary value problems of mathematical physics using radial basis function networks. Comput. Math. and Math. Phys. 57(1). pp. 145155. DOI: https://doi.org/10.1134/S0965542517010079.
7. Kretinin A.V. (2006) Metod vzveshennykh nevyazok na baze neyrosetevykh probnykh funktsiy dlya modelirovaniya zadach gidrodinamiki [The weighted residuals method based on neural net trial functions for simulation of hydrodynamics problems]. Siberian J. Num. Math. 9(1). pp. 23-35.
8. Tikhonov A.N., Arsenin V.Ya. (1986) Metody resheniya nekorrektnykh zadach [Methods for solving ill-posed problems]. Moscow: Nauka.
9. Krutikov V.N., Aryshev D.V. (2004) Algoritm posledovatel'nogo otseva neinformativnykh peremennykh lineynoy modeli [Algorithm of sequential screening of non-informative variables of a linear model]. Bulletin of Kemerovo State University. 3(7). pp. 124-129.
10. Li Wang, Ji Zhu, Hui Zou. (2006) The doubly regularized support vector machine. Statistica Sinica. 16. pp. 589-615.
11. Tatarchuk A., Mottl V., Eliseyev A., Windridge D. (2008) Selectivity supervision in combining pattern-recognition modalities by feature- and kernel-selective support vector machines. Proceedings of the 19th International Conference on Pattern Recognition. Vol. 1-6. pp. 2336-2339.
12. Tatarchuk A.I., Urlov E., Mottl V., Windridge D. (2010) A support kernel machine for supervised selective combining of diverse pattern-recognition modalities. Multiple Classifier Systems. Lecture Notes In Computer Science. 5997. Springer-Verlag: Berlin, Heidelberg. pp. 165-174.
13. Alkezuini M.M., Gorbachenko V.I.. (2017) Sovershenstvovaniye algoritmov obucheniya setey radial'nykh bazisnykh funktsiy dlya resheniya zadach approksimatsii [Improving the training algorithms for the networks of radial basis functions for solving approximation problems]. Modeli, sistemy, seti v ekonomike, tekhnike, prirode i obshchestve - Models, systems, networks in economics, engineering, nature and society. 3(23). pp. 123-138.
14. Polyak B.T. (1983) Vvedeniye v optimizatsiyu [Introduction to optimization]. Moscow: Nauka.
15. Dennis J., Schnabel R. (1988) Chislennyye metody bezuslovnoy optimizatsii i resheniya nelineynykh uravneniy [Numerical Methods for Unconstrained Optimization and Nonlinear Equations]. Moscow: Mir.
16. Marquardt D.W. (1963) An algorithm for least-squares estimation of nonlinear parameters. Journal of the Society for Industrial and Applied Mathematics. 11(2). pp. 431-441.
17. Shore N.Z. (1979) Metody minimizatsii nedifferentsiruyemykh funktsiy i ikh prilozheniya [Minimization Methods for Non-Differentiable Functionsmm]. Kiev: Naukova Dumka.
18. Wolfe Ph. (1974) Note on a method of conjugate subgradients for minimizing nondifferentiable functions. Math. Program. 7(1). pp. 380-383.
19. Lemarechal C. (1975) An extension of Davidon methods to non differentiable problems. Math. Program. Study. 3. pp. 95-109.
20. Nurminskii E.A., Thien D. (2014) Method of conjugate subgradients with constrained memory. Autom. Remote Control. 75(4). pp. 646-656. DOI: https://doi.org/10.1134/ S0005117914040055.
21. Krutikov V.N., Vershinin Ya.N. (2014) Mnogoshagovyy subgradiyentnyy metod dlya resheniya negladkikh zadach minimizatsii vysokoy razmernosti [The subgradient multistep minimization method for nonsmooth high-dimensional problems]. Vestnik Tomskogo gosudarstvennogo universiteta. Matematika i mekhanika - Tomsk State University Journal of Mathematics and Mechanics. 3(29). pp. 5-19.
22. Krutikov V.N., Vershinin Ya.N. (2014) Subgradiyentnyy metod minimizatsii s korrektsiyey vektorov spuska na osnove par obuchayushchikh sootnosheniy [Subgradient minimization method with descent vectors correction based on pairs of training relations]. Bulletin of Kemerovo State University. 1-1(57). pp. 46-54. DOI: https://doi.org/10.21603/2078-8975-2014-1-46-54.
23. Krutikov V.N., Gorskaya T.A. (2009) Semeystvo relaksatsionnykh subgradiyentnykh metodov s dvukhrangovoy korrektsiyey matrits metriki [A family of subgradient relaxation methods with rank 2 correction of metric matrices]. Ekonomika i mat. metody - Economy and math. methods. 45(4). pp. 105-120.
24. Krutikov V.N., Petrova T.V. (2003) Relaksatsionnyy metod minimizatsii s rastyazheniyem prostranstva v napravlenii subgradiyenta [Relaxation method of minimization with space extension in the subgradient direction]. Ekonomika i mat. metody - Economy and math. methods. 39(1). pp. 106-119.
25. Karmanov V.G. (1980)Matematicheskoyeprogrammirovaniye [Mathematical programming]. Moscow: Nauka.
26. Tibshirani R.J. (1996) Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society. Series B (Methodological). 58(1). pp. 267-288.
27. Tou J.T., Gonzalez R.C. (1974) Pattern recognition principles. Reading, MA: Addison-Wesley.
28. Conn A.R., Gould N.I.M., Toint P.L. (2000) Trust region methods. Philadelphia PA: Society for Industrial and Applied Mathematics (SIAM). 959 p.
29. Goodfellow J. et al. (2016) Deep Learning. MIT Publ.
30. Sutskever I. et al. (2013) On the importance of initialization and momentum in deep learning. Proceedings of the 30th International Conference on International Conference on Machine Learning. 28. Atlanta, Georgia. pp. 1139-1147.