УДК 519.688
А. В. Гасников1'2, Д. И. Камзолов1, М.А. Мендель1
1 Лаборатория структурных методов анализа данных в предсказательном моделировании (ПреМоЛаб), Московский физико-технический институт (государственный университет) 2Институт проблем передачи информации им. А. А. Харкевича РАН
Основные конструкции над алгоритмами выпуклой оптимизации и их приложения к получению новых оценок для сильно выпуклых задач
В статье собраны вместе основные современные конструкции работы с алгоритмами (численными методами) решения задач выпуклой оптимизации. В частности, с помощью искусственного введения неточности в вычисление градиента, следуя Ю. Е. Нестерову, рассматривается «адаптивная игра на гладкости задачи», позволяющая использовать методы, настроенные на гладкие задачи для решения негладких задач; рассматривается конструкция рестартов, позволяющая получить из численного метода, ищущего решение задачи выпуклой оптимизации, метод, пригодный к использованию для задач сильно выпуклой оптимизации; рассматривается прием регуляризации, позволяющий сводить любую выпуклую задачу к сильно выпуклой. Все эти (и некоторые другие) конструкции (например, композитной оптимизации) описываются, исходя из одной общей линии - руководствуясь принципом «бритвы Оккама»: попытаться изложить современное состояние «оптимальных» численных методов выпуклой оптимизации в пространствах больших размеров (для детерминированных постановок: размерность пространства больше необходимого числа итераций). Статья написана по просьбам коллег и студентов, планирующих использовать собранные в статье конструкции в своей работе.
Ключевые слова: композитная оптимизация, быстрый градиентный метод, неточный оракул, универсальный метод Ю.Е. Нестерова, рестарт-техника, регуляризация, mini-batch.
A. V. Gasnikov1'2, D.I. Kamzolov1, M.A. Mendel1
1 Laboratory of Structural Methods of Data Analysis in Predictive Modeling (PreMoLab), Moscow Institute of Physics and Technology (State University) 2Institute for Information Transmission Problems (Kharkevich Institute) RAS
Basic design of convex optimization algorithms and their application to obtain new estimates for strongly convex
problems
The paper brings together the major modern design that works with algorithms for solving convex optimization problems. In particular, by the artificial introduction of an error in the computation of the gradient, following Yu.E. Nesterov, we consider an adaptive tuning algorithm for smoothness of the problem. This makes it possible to solve a nonsmooth problem using smooth methods. The paper discusses the restart design. It allows us to use convex numerical methods for solving strongly convex problems. The work deals with the reception of regularization. It enables us to reduce any convex problem to a strongly convex problem. We describe these and some other structures, such as composite optimization based on a common line - the principle of Occam's razor. We try to present the current state of «optimal» numerical methods for convex optimization in large spaces (for deterministic productions: the dimension of space is greater than the required number of iterations). The paper is written at the request of colleagues and students who plan to use the paper design in their work.
Key words: composite optimization, fast gradient method, inexact oracle, universal Nesterov method, restart technique, regularization, minibatch.
1. Введение
В весеннем семестре 2015/2016 учебного года А. В. Гасников прочитал курс «Стохастическая и Huge-scale оптимизация» одновременно для студентов Физтеха, Независимого московского университета и студентов магистерской программы ММОС ВШЭ [1]. Также подобные вопросы подробно обсуждались с коллегами (А.Ю. Горновым и А. С. Аникиным) во время пребывания А. В. Гасникова в марте 2016 г. в Иркутске. Полученная в ходе этих мероприятий обратная связь привела нас к необходимости записать основные положения, излагаемые в курсе. Несмотря на то, что подавляющее большинство приводимых далее фактов (конструкций) являются хорошо известными (впрочем, при этом большинство приводимых результатов, безусловно, можно назвать современными) в оптимизационном сообществе (прежде всего, благодаря усилиям Ю.Е. Нестерова и А. С. Немировского), мы сочли необходимым собрать часто используемые конструкции в одном месте и описать их в достаточно популярной форме, удобной для понимания их сути. Мы также постарались разбавить классические результаты некоторыми недавними собственными наработками (многие из этих наработок были получены совместно с П. Е. Двуреченским), которые (на наш взгляд) удачно дополняют имеющиеся результаты, как бы «овыпукляя» их. В основном новые результаты в данной статье связаны с рассмотрением сильно выпуклых постановок. Отметим также полезные (на наш взгляд) замечания, в которых мы постарались отметить возможные дальнейшие направления развития приводимых в статье результатов.
2. Основные результаты
Рассматривается задача выпуклой композитной оптимизации [2]
F (х) = f (х) + h (х) ^ min. (1)
x£Q
Мы считаем, что нам доступен (5, Ь)-оракул (глава 4 [3], [4]), который, получая на вход произвольный элемент х £ Q С Мга, выдает такую пару (число + вектор из Rn) ifs,L (х), g&,L (ж)}, что для любого у £ Q
L 2
0 < f (у) - fs,L (х) - {gs,L (х) ,у - х) < - \\у - Ж||2 + S.
Функция h (х) считается простой структуры (см. [2]), поэтому можно не «обременять» оракула запросами, касающимися этой функции, т.е. мы ее «зашиваем» в шаг метода без обращения к оракулу.
Положим R2 = V(х*,х°), где прокс-расстояние определяется формулой (см., например, главу 2 [3], [4])
V(х, z) = d(x) - d(z) - {Vd(z),x - z),
прокс-функция d(x) > 0, d(x°) = 0, Vd(x°) = 0 считается сильно выпуклой относительно выбранной нормы \\ \\, с константой сильной выпуклости > 1; х* — решение задачи (1) (если решение не единственно, то выбирается то, которое доставляет минимум V ( точка старта итерационного процесса; yN - то, что выдает итерационный процесс после N итераций (обращений к оракулу).
Приводимые далее утверждения фактически получены в работах [3-7]. Однако здесь предлагается более наглядная схема рассуждений. Новым в последующем изложении являются результаты, касающиеся сильно выпуклого случая, и следующие после описания этого случая замечания.
Утверждение 1 (см. главу 4 [3], [4]). Композитный быстрый градиентный метод (БГМ) Ю.Е. Нестерова с (ö, L)-оракулом (вместо «обычного» оракула, выдающего «настоящие»
значения функции и градиенты) сходится (Ж - число обращений к оракулу) следующим образом (с точностью до констант оценки оптимальны)
Р {у") - Г* * ,, N = , 5 * О (£) . (2)
Замечание 1 (см. главу 6 [3], [5]). Можно предложить однопараметрическое семейство (параметр р £ [0,1]) промежуточных градиентных методов с оценками
Г (Л - Г, * е, N = О 0) , * * О (£) . (3)
Утверждение 2 (см. главу 4 [3], [4]). Пусть
IV/ (у) -V/ (х)\\* * \\у - х\\" (4)
при некотором и £ [0,1]. Тогда
Ь 2
0 * /(у) - /(х) - (Vf (х), у - х) * - \\у - Ж||2 + 5, Ь = Ьь
Ьу 1 - V
~25 1 + V
1 + и
(5)
Утверждение 3. Пусть / (х) удовлетворяет условию (4), тогда метод из утверждения 1 с (5, £)-оракулом (¡' (х), V/ (х)) сходится следующим (оптимальным) образом:
Ь (у") - Р* * ,, N = ^() ^ . (6)
Заметим, что выше в определении (5, Ь)-оракула 5 считается по формуле (2), причем N в этой формуле надо подставлять из формулы (6); а Ь считается по формуле (55), в которую надо подставить описанное 5.
Схема доказательства. Воспользуемся утверждениями 1 и 2 (см. формулы (2), (5))
2
И2 ~-, Ь ~ • ^^^^ , ^ ~
N
2 2 2 2 Д72 ьь + в2 Ы + к2 ы + в2 (и п1+у\ ^
N2--^---2-~ ^ N ^--2-^ м
(^)
т2 „ .
ед £1+ Ы-е
Утверждение 4 (см. описание универсального метода Ю.Е. Нестерова [6]). Пусть в утверждении 3 используется композитный БГМ с адаптивным подбором константы Липшица градиента. Методу известна точность е > 0 , с которой хотим решить задачу (больше методу ничего знать о параметрах задачи не обязательно), и доступен оракул, выдающий (/ (х), V/ (ж)). Тогда оценку (6) можно уточнить следующим образом:
* ) - Д * в, л = (7)
При этом число обращений за значением функции Ь в среднем будет не более четырех на одну итерацию (итерация характеризуется одним обращением за градиентом).
Схема доказательства. Поясним, что имеется в виду под «композитным БГМ с адаптивным подбором константы Липшица градиента». Подавляющее большинство современных методов содержит в качестве составной части то, что нужно сделать на каждой итерации: расчет градиентного отображения (см., например, шаг 2 описанного ниже в п. 3 БГМ
£
- также часто рассматривают проксимальный вариант градиентного отображения, в котором ||ж — хк+1 || заменяют на V (х, хк+, рассуждения можно перенести и на этот случай). Далее мы приводим процедуру (схожую с оригинальной [6], но все же отличающуюся от неё выбором ), которая позволяет «универсализировать» метод за счет изменения шага расчета градиентного отображения.
База Lq = 1.
(к + 1) —й шаг. Положим L^+i ■= L^/2. До тех пор пока
F (Grad^1 {хк+1)) > FLk+1 (Grad^1 {хк+1) ;хк+1) + Ö+, Ö+ - е3/2 / L^,
Grad^^ (хк+1^ = arg min FL ^x; хк+1^ , Fl (x; xk+1) = f (хк+1^ Vf (V+1) , ж — хк+1^ + | ||ж — хк+11|2 + h (x),
выполнять
Lk+l ■= 2Рк+1.
Положить
к+1 i к
X
ук+1 = GradLk+1 (хк+^ .
Формула для 5^+1 возникла исходя из того, что для используемого базового метода
(композитного БГМ) 6 ~ е/И, а N ~ л/Ь/е (см. формулу (2)). На самом деле, надо вы-
к+1
бирать 5к+1 следующим (более точным) образом: 5к+1 = еак+1/(2Ак+\), где Ак+1 = ^ аг,
г=1
адаптивно подбирая а.к+1, исходя из соотошения Ьк+1 = Ак+1/о?к+\ (см. п. 3).И
Замечание 2. Если, в свою очередь, вместо обычного оракула, выдающего (¡' (х). V/ (ж)), использовать (5. Ь)-оракул (с константой Ь, определяемой согласно формуле (5) для обобщения (6), и с взятием т! в (5) для обобщения (7)), то оценку (7)
можно уточнить следующим образом [8] (приведенные оценки не улучшаемы):
г ОЛ) - Г. < е. N = о ^). , < О (£). (8)
Замечание 3. Исходя из формулы (3) можно провести рассуждения для промежуточного градиентного метода аналогично доказательству утверждения 3. Это приводит в итоге к следующему обобщению формулы (8) [9]:
(/ Т R1+v \ \ / р \
f JLir-) ) • 6 * 0Ь) • "е ^11 ■ (9)
Опишем далее основную конструкцию (рестарт-технику), позволяющую переносить описанные выше результаты на случай ^-сильно выпуклого функционала Р в ||||-норме (отметим, что ^-сильно выпуклым может быть только композит К).
С учетом утверждения 2 можно ограничиться рассмотрением гладкого случая. Из [2] следует, что БГМ «работает» согласно оценке (левое неравенство имеет место в виду ^-сильной выпуклости Р)
2
N 2 ( N\ 4LV (х*,х°)
yN — X* * P(yN) — F* *-У^.
Не ограничивая общности [10, 11], будем считать, что прокс-расстояние V можно выбрать так, чтобы оно удовлетворяло условию (в евклидовом случае шп = 1)
2У (х.х0) , ч
Шп = йиР 7,-Ш = ° (1п п) ■
Цх - ж0||
Отсюда имеем
Выбирая
получим, что
N
У1 - X*
2 8ЬV (х*,х0) 1 ,, 0 112 8Ьшп
^ --||х —X II —.
—V2 2 11 *" —V2
л,
N = \ —Шп,
V-
N
У —X*
2 1 II О
^ 2 11 х X* |
Выберем в БГМ в качестве точки старта у11, в качестве прокс-функции (считаем, что так определенная функция корректно определена на ^ с сохранением свойства сильной выпук-
лости)
:= — у1 + хи)
и снова сделаем N итераций, и т.д. Несложно понять, что если мы хотим достичь точности по функции е, то число к таких рестартов (перезапусков) БГМ достаточно взять (здесь используется стандартное обозначение [ ■ ], которое мы поясним примером [0.2] = 1)
к =
1о§2
С?)
где в данной (формуле К2 = ||х0 — х*||2 в отличие от формул (2), (3), (6) - (9), в которых В2 = V (х*,х°). Приведенная формула следует из выкладки
, (кГ)-«< (2 У
I о 112
/у> _ Гр
—
4 ЬШп
N 2
I 0 _ 112
— X X гЦ
2^+! .
Общее число обращений к оракулу будет N = к]Ч, т.е.
(10)
ШП [10]. Нам неизвестно, можно ли
N = —Шп -
Эта оценка оптимальна с точностью до множителя устранить этот множитель или он неустраним.
Утверждение 5. Используя рестарт-технику (с помощью формулы (10)), можно предложить такое «рестарт-обобщение» описанных выше методов (выбирается наиболее общая форма записи (9)), что оценки их работы будут иметь следующий вид:
/
— Ь* < е, N = 0
т!
V
2
Т 1 + V
1-у -£ 1+у
1+V
1 + 2pv + V
Шп
Ч '-В)
\
/
\NPJ
(11)
Данная оценка ранее уже приводилась с 5 = 0 при р = {0; 1} в главе 5 [3]. Здесь мы привели (следуя идее [12]) обобщение соответствующих результатов [3], используя довольно общий прием рестартов (см., например, [13]).
Однако для полноты изложения нам представляется полезным пояснить обратный способ проверки связи формул (9), (11). А именно, далее с помощью конструкции регуляризации исходной задачи (1) мы опишем общий прием погружения не сильно выпуклых задач в класс сильно выпуклых с последующим извлечением оптимальных методов для не сильно выпуклых задач, исходя из имеющихся оптимальных методов для сильно выпуклых. Кроме того, регуляризация задачи сразу дает эффективный критерий останова метода - в виде контроля малости градиента (градиентного отображения). Не в сильно выпуклом случае такой подход является слишком грубым [14].
2
Введем семейство 7-сильно выпуклых в норме |||| задач (7 > 0):
F1 (x)=F (x)+7V (х,х°) ^ min. (12)
Пусть
2 V (x*,x0) = 2R2' (13)
и удалось найти е/2-решение задачи (12), т.е. нашелся такой уN £ Q, что
F1 {yN) -F1 < s/2.
Тогда
F {yN) — F* < ..
Действительно,
F {yN) — F* < F1 (yN) — F* < F1 (yN) — Fl + e/2 < e. Здесь мы использовали определение F* и формулу (13):
Fl = min {F (x) + 7V (x, x0)} < F (x*) + 7V (x*, x0) < F* + e/2.
x<EQ
Полагая в формуле (11) ß = 7, из формулы (13) (понимаемой как равенство), приходим к оценкам формулы (9) с точностью до некоторой степени множителя ~ шп:
\ 1+2-pv+v I „ \ 1+2-pv+v 2 2
L1+V \ / Ll+V R2 \ {LVR1+V у+2р"+" iLvRl+v\ 1+2р-+-
ßMUn) ~ 1 ^ЗТ"") ~ (-T-v) ~ [—)
Замечание 4. Все описанные методы являются прямо-двойственными (см., например, [15] и цитированную там литературу). В сильно выпуклом случае это не представляет, как правило, особого интереса, потому что наличие сильной выпуклости позволяет эффективно восстанавливать решение соответствующей сопряженной задачи (речь идет о задачах, в которых есть «модель», позволяющая по явным формулам или просто эффективно связывать решения исходной и сопряженной задачи). В не сильно выпуклом случае отмеченное свойство методов представляется весьма полезным.
В виду связи формул (9), (11) может показаться, что не сильно выпуклый случай малоинтересен, поскольку в категориях О () он сводим (с помощью регуляризации) к сильно выпуклому случаю со всеми вытекающими отсюда преимуществами. Отчасти это так, и этим приемом (регуляризацией) часто пользуются. Однако стоит отметить, что процедура рестартов, к сожалению, описана нами таким образом, что на каждом рестарте необходимо делать предписанное число итераций V рестартуемого метода. Проблема в том, что в отличие от не сильно выпуклого случая, описанная конструкция рестартов требует явного знания констант Липшица (Гёльдера) градиента гладкой части функционала. В связи с этим могут возникать сложности в практической реализации универсального рестарт-метода, оптимально настраивающегося на параметр V £ [0,1]. Заметим, что в не сильно выпуклом случае эту задачу решал сам метод. Мы не давали ему на вход никакой информации о гладкости задачи (и, тем более, не давали методу константу Липшица (Гельдера) градиента гладкой части функционала), метод сам настраивался на нужную гладкость. Тем не менее отмеченная проблема разрешима с помощью отслеживания максимальной (на текущем рестарте) константы Липшица градиента гладкой части функционала по накопленной последовательности этих констант. Но не смотря на наличие такого решения, все равно имеются заметные потери в эффективности из-за необходимости выполнения на каждом рестарте предписанного (жестко заданного) числа итераций, которое, как правило, оказывается заметно выше, чем нужно для сокращения расстояния до решения в два
раза. На данный момент нам не известны более адаптивные варианты выхода из рестарта, чем выполнения предписанного числа итераций. Естественная тут идея контроля малости градиента (градиентного отображения) приводит в теоретическом плане к заметному ухудшению оценки необходимого числа итераций на каждом рестарте.
В продолжение вышенаписанного заметим, что согласно «теории», если взять не сильно выпуклую задачу, взять не сильно выпуклый метод для этой задачи и применить, то получится оценка времени работы, которая должна совпасть по порядку с оценкой, получаемой при решения регуляризованной задачи с помощью рестартованного метода. На самом деле численные эксперименты говорят о том, что второй подход (при имеющихся сейчас у нас способах программной реализации конструкции рестартов) приводит к увеличению времени работы на один-два порядка, т.е. константа в О () может отличаться на практике в 100 раз и даже больше!
Замечание 5. Все описанные методы могут быть распространены (насколько нам известно, это пока еще не сделано в общем случае) на задачи условной оптимизации. Для этого сначала, следуя п. 2.3 [16], стоит рассмотреть минимаксную задачу (ввести правильную лианеризацию исходного функционала и градиентное отображение). Далее использовать идею метода нагруженных функционалов п. 2.3.4 [16], приводящую к рестартам по неизвестному параметру п. 2.3.5 [16] (оптимальное значение функционала задачи), введение которого позволяет свести задачу условной оптимизации к минимаксной. Дополнительная плата за такое «введение» (т.е. за рестарты) будет всего лишь логарифмическая, и с точностью до этой «платы» оценки будут оптимальными.
Замечание 6. Интересно, на наш взгляд, рассматривать приложения описанных выше методов, где неточность возникает из-за невозможности точного вычисления градиентного отображения (проектирования градиента). В большинстве приложений «стоимость» (время) получения от оракула (роль которого, как правило, играют нами же написанные подпрограммы вычисления градиента) градиента функционала заметно превышает время, затрачиваемое на то, чтобы сделать шаг итерации, исходя из выданного оракулом вектора. Желание сбалансировать это рассогласование (усложнить итерации, сохранив при этом старый порядок сложности, и выиграть за счет этого в сокращении числа итераций) привело к возникновению композитной оптимизации [2], в которой (аддитивная) часть функционала задачи переносится без лианеризации (запроса градиента) в итерации. Другой способ перенесения части сложности задачи на итерации был описан в замечании 5. Здесь остается еще много степеней свободы, позволяющие играть на том, насколько «дорогими» будут оракул и соответствующая (этому оракулу) «процедура проектирования», и на том, сколько (внешних) итераций потребуется методу для достижения заданной точности. В частности, если обращение к оракулу за градиентом и последующее проектирование требуют, в свою очередь, решения вспомогательных оптимизационных задач, то можно «сыграть» на том, насколько точно надо решать эти вспомогательные задачи, пытаясь найти «золотую середину» между стоимостью итерации и числом итераций. Также можно сыграть и на том, как выделять эти вспомогательные задачи. Другими словами, что понимать под оракулом и под итерацией метода. Общая идея «разделяй и властвуй» применительно к численным методам выпуклой оптимизации может принимать довольно неожиданные и при этом весьма эффективные формы (особенно ярким примером, на наш взгляд, являются методы внутренней точки [11, 16]). Разные варианты описанной игры в связи с транспортно-сетевыми приложениями уже разбирались нами в других работах [8, 14, 17] (см. также п. 3). Интересно было бы систематизировать и структурировать накопленные здесь знания.
Замечание 7. Известно, см., например, [10], что для задач стохастической оптимизации все приведенные выше оценки существенным образом модернизируются. И главная особенность этой модернизации заключается в том, что теперь уже гладкость функционала не играет в общем случае существенной роли. Соответствующие оценки (в выпуклом и сильно выпуклом случае) для сходимости в среднем будут иметь вид независимо от класса
гладкости задачи (см. (4)):
^ - (^) ■ ~ = ° (£-) . (14)
Определение М = Ьо см. в формуле (4), что в стохастическом случае можно понимать, как 1Е [V,/ (у; 01 - ^ [V,/ (х; С)] ||* < М, Е? [V,/ (х; С)] = [/ (х; О] •
Оценки достигаются и оптимальны [10] (последняя оценка оптимальна с точностью до множителя ~ шп; нам неизвестно, можно ли в принципе избавиться от этого множителя). Естественно задаться вопросом: можно ли улучшить эти оценки, если перейти от выбранных категорий к более точным категорям (см. определение (5, Ь)-оракула в начале этого пункта): для любого х £ Q
Ер
{х;0 -Ер [д(х; 0} II
^ D
и для любых х,у £ Q
Ь 2
0 < /(у) - Е? [Дь (х;О] - Е [95,ь (ж;С)] ,У - х) < ь Цу - х||2 + ¿7
Очевидно, что оценки (14) перестают быть оптимальными в случае, когда И мало. Тут особенно интересны различные приложения, возникающие при специальных рандомизациях, в которых И зависит от х £ Q, и по мере приближения к решению х ^ х* выполняется И (х) ^ 0+ [14, 18-24]. Оказывается, что существует такая вариация описанных ранее методов (описанию планируется посвятить отдельную работу, впрочем, основная идея достаточно простая и приведена в конце этого замечания), что можно получить следующее обобщение оценки (9) (при V = 1, р = {0; 1} см. главу 7 [3] и [25], в случае V = 1, р £ [0, 1] см. [12]):
Е [F(уN)] -F* < г,
N = max <
О
>• **оШ •р€ [о1}
N
Аналогичное обобщение можно сделать и в сильно выпуклом случае:
Е [Ь(ум)] - Ь* < е,
(
N = max
О
inf
v e[o,i]
V
LV+ У
-Т—7шп
1+У 1+2ру +у
Н¥)] н
N
VNV pJ
В приведенных формулах обращает на себя внимание введение N. Оказывается, с помощью приема, который в западной литературе называют (см., например, [22]) mini-batch (русского эквивалента пока нет), можно добиться того, чтобы число итераций метода было N1 [12] (при этом число обращений к оракулу за стохастическим градиентом, по-прежнему, будет N). Отсюда и получаются соответствующие (определяемые гладкой частью оценки) оценки на уровень допустимого шума 5 (не случайной природы). Прием заключается в том, что вместо одного раза к оракулу на каждой итерации обращаются m раз за §s,l (х; при
одном и том же х € Q, но разных (независимых друг от друга) реализациях . Исходя из этих обращений на каждой итерации рассчитывается вектор
1
т
т
^ 9&,l (х; Ск),
к=1
который и используется в качестве «градиента» в методе. Параметр т ^ 1 подбирается (минимально возможным), исходя из одного из условий (везде, где мы пишем О (), на самом деле можно писать точные константы ~ 101—102):
n>о(т!), n>оm
\ те2 ) \т/ле)
те2 j \тце/
Оказывается, что можно организовать и адаптивный подбор этого параметра (что дает возможность брать в итоговых оценках inf по v £ [0,1]) вместе с коэффициентами {ак+i} (см. п. 3): тк+i ~ 2ak+\D/e.
Замечание 8. Отметим, что приводимые выше результаты обобщаются на покомпонентные методы, спуски по направлению и безградиентные методы. То, как преобразуются соответствующие формулы, можно посмотреть, например, в работах [9, 14]. Недавно было обнаружено [20], что все эти обобщения можно получить просто при подстановке в описываемые выше методы (а точнее, в правильные их модификации), соответствующие рандомизированным вариантам градиента и правильной корректировке, способа выбора шагов (с безградиентными методами ситуация чуть посложнее, приходится еще сглаживать задачу с помощью свертки с хорошим ядром [10, 20, 21, 24] - не следует путать с методом двойственного сглаживания Ю.Е. Нестерова [26]). Здесь имеется некоторый подвох [18], заключающийся в том, что оптимальные оценки для таких рандомизированных вариантов необходимо получать заново (заглядывая в структуру метода), т.е. не пытаться использовать (также оптимальные) оценки, выписанные в замечании 7 (попытка использовать приводит в итоге к заметно завышенным оценкам, не являющимся оптимальными). То есть в данном случае не так уж и просто породить из оптимального метода, скажем, его оптимальный покомпонентный вариант. Имеющиеся сейчас процедуры, которые позволяют это делать (см., например, [18]), требуют аккуратного погружения в структуру метода. Однако при этом, например для (блочно-)покомпонентных методов (в отличие от общих задач стохастической оптимизации), по-видимому, сохраняется возможность перенесения конструкции адаптивного подбора константы Липшица [23] и идеи адаптивной настройки метода на гладкость задачи [18].
3. Пример задачи композитной оптимизации (сильно выпуклый случай)
Рассмотрим конкретный пример задачи выпуклой композитной оптимизации [27, 28]:
1 п F (х) = 1 \\АХ -b||2 + ß^2xk lnxk ^ min . (15)
2 ^ п_
к=1 Т, хк = 1,
к=1
п
Вместо ограничения ^ Хк = 1 можно рассматривать ограничение ^П=1 Хк < 1. к=1
Разберем два случая: а) 0 < ß ^ e/(2\nn) - мало (сильную выпуклость композита в 1-норме можно не учитывать); б) ß ^ е/(2 \n n) - достаточно большое (сильную выпуклость композита в 1-норме необходимо учитывать).
Выберем норму в прямом пространстве \\\\ = \\\\i. Положим
f(x) = 2 \\Ах -ьII2 , h (х)=^Хк \пхк,
к=1
Q = Sn (1) = < x ^ Ü^Sfc = 1 I , L = max A{k)
I f ^ I b— 1 n
max
k=1,...,n k=1 )
2
где A^ - k-й столбец матрицы A.
Введем два оператора (см. также утверждение 4)
Gradf,h (xk+1j = arg min F (x;xk+1j ,
F (ж; xk+1) = f (xk+1) Vf (xk+1) , x - xk+1) + L ||x - xk+11|2 + h (x);
Mirr^fc (V f (x-1)) = arg min | (Vf (xk+1) , x - + 1V (x, zk) + h (x) j ,
где прокс-расстояние (расстояние Брэгмана) определяется формулой [11, 26, 29]
V (x, z) = d (x) — d (z) - (Vd (z) ,x — z),
прокс-функция d (x) ^ d (x0) ^ Ü считается сильно выпуклой относительно выбранной нормы |||| = ЦЦ1, с константой сильной выпуклости ^ 1. Для случая а) можно выбирать
d (x) = ln n + ^ xk ln xk.
Тогда
n
k=1
V (x, z) = ^xk ln(xk / zk), R2 ^ lnn. k=1
Существуют варианты БГМ (см., например, алгоритм 8 главы 2 [3]), в которых шаг Gradj,^ (xk+1) заменяется его проксимальным аналогом, т.е., грубо говоря, ||x — x^1^ заменяется в выражении для F (x;xk+1) на V (x,xk+1). В таком варианте метода (оценки скорости сходимости аналогичны оценкам, приводимым в утверждении 6) мы имеем ситуацию, когда композит совпадает по форме с прокс-расстоянием (энтропийного типа), и шаг итерации осуществим по явным формулам (см., например, [11, 30]). Таким образом, стоимость итерации будет О (nnz (A)), где nnz (A) - число ненулевых элементов в матрице A (считаем, что это число ^ n).
Для случая б) планируется использовать рестарт-технику (см. п. 2). Но для выбранной функции V (x, z) (расстояние Кульбака-Лейблера [30]) процедура рестартов некорректна. Однако существует другой способ выбора прокс-функции (детали, см., например, в работах [10, 11, 13, 30])
,, . 1 .. ||2 2lnn . .
d (x) = —-- ||x n , a = —-. (16)
w 2(a - 1) " ||n 2 lnn -1 v 7
В этом случае R2 = О (lnn), wn = О (lnn).
Опишем вариант быстрого градиентного метода Ю.Е. Нестерова в форме [29]. Здесь мы распространяем подход работы [29] на задачи композитной оптимизации. Фактически предложенный далее алгоритм есть сочетание БГМ работы [29] и конструкции композитной оптимизации работы [2].
Определим две числовые последовательности {ak, Tk}:
1 1/1 2 1
L, ak+1 = 2L Чй2 +ak, Tk = ¿k+Г
В случае адаптивного подбора константы Липшица (см. утверждение 4)
ai = 2. 1 = 1 / 1 ! a2 Lk Tfc= 1
L1 ' 2Lk+1 V 4Lk+1 k Lk+1 ' «k+1Lk+1
2
Заметим, что при k ^ 1
к 2 <У-к ~ -, Тк ~ —.
к 2Ь' к к БГМ
1) хк+1 = ткгк + (1 - тк) ук.
2) ук+1 = Огаё^ (хк+1).
3) ^ = М^^ (V / (хк+1)).
4) Если не выполняется критерий останова (можно по-разному определять [14]), положить
к :=к + 1
и перейти к п. 1. Иначе остановиться и выдать ук+1.
Утверждение 6. Для задачи (15) БГМ генерирует такую последовательность точек ( к к к 1 » /
|хк, ук, хк /к_0, что имеют место следующие неравенства (второе неравенство означает, что
описанный вариант БГМ является прямо-двойственным методом):
^ {у») < АШ2
(N + 1)2'
(N-1 1 a%LF (yN) < miJ ^ ak+i {f (xk+1) + (Vf (xk+1) ,x - xk+1) + h (x)} + V (x,x0) .
xeQ {k=0 ) Замечание 9. Заметим, что если условие x G Q можно записать, например, как g (x) ^ 0, и ввести двойственную функцию
G (Л) = min [f (x) + h (x) + {X,g (x))} , Л ^ 0,
x
то, поскольку
N -1
2
aNL = £ ak+1 d= Snи/ (xk+1) + (Vf (xxk+1) , x - xk+1) < f (x),
k=0
получим
F (yN) -G (XN) < 4LR2
(N + 1)2'
где ÄN = Xn /Sn , Л - множитель Лагранжа к ограничению g (x) ^ 0 в задаче N 1
^ ak+1 {f (xk+1^j Vf(xk+1^j , x -xk+1) + h (x)}+V (x,x0) ^ mj^,
k=0
а R2 = V {x,x°), где x - решение задачи
f (x) + h (x) + (XN,g (x)) ^ min .
x
Последнее условие, к сожалению, в общем случае не дает возможности как-то разумно оценивать сверху R2, как следствие, возникает проблема с теоретической оценкой зазора двойственности. Проблема решается, если удается обосновать возможность компактифи-кации. Пример того, как эту компактификацию можно делать (на основе «слейтеровских соображений»), будет описан далее (см. формулы (20), (21)).
Используя описанную в предыдущем пункте технику рестартов, можно получить из утверждения 6 его аналог в случае сильно выпуклой постановки задачи (15) - случай б). Мы опускаем соответствующие рассуждения и остановимся подробнее на том, как осуществлять шаг итерации описанного БГМ в случае б), т.е. когда прокс-функция выбирается согласно (16). Сложность выполнения одной итерации (дополнительная к вычислению градиента гладкой части функционала О (ппг (А))) определяется тем, насколько эффективно можно решить задачу следующего вида:
F(x) = (c.x) + ||ж||2 lnxk ^ min .
xes„(1)
fc=i
(17)
Задачу (17) удобно переписать следующим почти «сепарабельным» образом:
(с,х) + i + InXk ^ min .
fc=i *es„(i), ||x|ia<W2,
0«n2/a,
Слово «почти» можно убрать, если с помощью метода множителей Лагранжа переписать задачу следующим образом:
G(A) = min
0<i<n2/a
{n £
k=1
Ck Xk + t + Ai
(n \ / n \ n ^
Exk - 1 +A2 ■ - + ß ^Xk lnxA . k=1 / \k=1 ) k=1 )
0<xfc <1, k=1,...,n
G(A) ^ max .
AiGR, A2^0
(18)
Поиск минимума (x ( A), t ( A)), где
m{ (^)2-a n i}
* ( А) = т!^ ( —
сводится к решению п одномерных задач сильно выпуклой оптимизации на отрезке [0,1]. Таким образом, если задаться некоторой точностью а > 0, то за время О (п 1п (п/а)) методом деления отрезка пополам (или, скажем, методом золотого сечения [31]) можно найти такой ха (А), что
|X (A)-X (A) 11 = О (а)
(19)
Далее попробуем (следуя [32]) оценить «запас» в условии Слейтера, чтобы, исходя из этого, оценить сверху размер решения А = А* двойственной задачи (18) (в приводимой далее выкладке, приводящей к формуле (20), для упрощения записи мы опускаем нижний индекс «*» у А). Из сильной двойственности имеем
- IIеIL-ß Inn < F* = G* < E CkXk+t+A1 ■
k=1
(n \ / n \ n
EXk - 1 WaJ EX2 -И +ß E k=1 / \k=1 ) k=1
\Xk lnXk.
Если A1 ^ 0, то положим t = 1, Xk = 1/(2n), к = 1. ...,n. Тогда
^A1 + 1A2 < 2 ||c+2ßln(n) + 1. Если A1 < 0, то положим t = 8, Xk = 2/n, к = 1. ...,n. Тогда
| A11 + A2 < 3 ||c||co + 2ß ln (2n) + 8.
В любом случае, с хорошим запасом можно гарантировать, что
IIA.ll! < 4 ||с||те + 4/1п (2п) + 8С.
(20)
Таким образом, чтобы решить задачу (17), мы должны решить двойственную задачу (18), которую (в виду формулы (20)) можно переписать следующим образом:
С (А) = -С (А) ^
шт
А1 ек, \2>о, ||
(21)
с
Поскольку эта задача оптимизации на двумерной плоскости (т.е. в пространстве малой размерности), то ее можно решать, скажем, методом эллипсоидов [10]. При этом для расчета градиента С (А) мы должны решить задачу (17) и воспользоваться формулой Демьянова-Данскина [32]
Ц = 1 - !> ^ Ц ='(А)"2 - (А)"
К сожалению, точно решить задачу (18) мы не можем, зато можем найти приближенное значение градиента. Точнее говоря, в виду (19), (20), мы можем найти для задачи (21) 5 = О (Ст)-градиент (А) (см., например, [33]). Если использовать в методе эллипсоидов в пространстве размерности г (в нашем случае г = 2) вместо градиента ¿-градиент (чаще говорят ¿-субградиент, но в нашем случае можно говорить о градиенте), то имеют место следующие оценки [10]:
С(АМ) -С. < е, N = О( г21п (С/е)) , 6^О (е)
(22)
при этом стоимость одной итерации будет О (г2"). Число итераций можно сократить в ~ г раз, сохранив сложность итерации (см., например, [22]). В нашем случае стоимость одной итерации будет О (п 1п (пС/е)).
Однако решение задачи (18) (или (21)), в смысле (22) еще не гарантирует возможность точного восстановления решения задачи (17). Для того чтобы показать, что метод эллипсоидов с той же по порядку точностью позволяет восстанавливать (без каких бы то ни было существенных дополнительных затрат) решение задачи (17), нужно воспользоваться прямо-двойственностью этого метода [34]. Ввиду компактности множества (единичный симплекс), на котором ведется оптимизация в прямом пространстве и сильной выпуклости функционала прямой задачи (17), мы не просто восстанавливаем из прямо-двойственной процедуры метода эллипсоидов решение задачи (17) с точностью по функционалу (прямой задачи) порядка е, но и делаем это в нужном нам более сильном смысле - см. п. 5.5.1 (следует сравнить с п. 4.6 [3] и п. 2 выше). Формула 5.5.15 [11] гарантирует при этом справедливость следующего результата.
Утверждение 7. Для задачи (15) в случае б) БГМ с рестартами и с прокс-функцией (16) приводит к необходимости на каждой итерации наряду с расчетом градиента гладкой части функционала ( О (ппг ( А)) операций) два раза решать задачу типа (17) с помощью перехода к двойственной задаче и ее решения с помощью прямо-двойственной версии метода эллипсоидов (О (п 1п ( С/е) 1п (п С/е)) операций). При этом
^ {ум) - ^ < е,
если общее число итераций (обращений к оракулу за градиентом)
/
= О
N = ['п (/)])
\
шах II А< к>||21п
п
к=1,...,п
/
Н //)
(23)
Заметим, что в «пороговой» ситуации, отвечающей регуляризации (см. п. 2), ц ~ е/(21пп). В этом случае формула (23) примет вид
/
N = О
\
max Ш< к) 112 in2 n 1
к=1,...,п11 112
что с точностью до ~ Vinn соответствует оценке в случае а). Отличие случая а) и б) также и в том, что в случае а) существует способ добиться стоимости итерации О (nnz (А)), а в случае б) нам не известно более эффективного способа, чем способ (описанный выше) со стоимостью итерации
О (nnz (А) + n in (С/е) in (пС/е)).
Поскольку в типичных приложениях первое слагаемое заметно доминирует второе, то можно было бы не сильно задумываться (что часто и делают на практике) о плате за невозможность выполнения «проектирования» по явным формулам и не сильно задумываться, с какой точностью решать вспомогательную задачу, делая это с точностью длины мантиссы (описанный подход позволяет решать ее с очень хорошей точностью, и сложность решения вспомогательной задачи практически нечувствительна к этой точности). По-видимому, этот тезис имеет достаточно широкий спектр практических приложений. Настоящий пункт имел одной из своих целей на конкретном примере более подробно, чем это принято на практике, продемонстрировать тезис, что для большого класса задач наличие явных формул для шага итерации не есть сколько-нибудь сдерживающие обстоятельство для использования метода. Используемая при этом техника и способ рассуждений характерным образом (на наш взгляд) демонстрируют современный арсенал средств (описанных в п. 2) решения задач выпуклой оптимизации в пространствах больших размеров.
4. Заключительные замечания
Когда статья готовилась к печати, авторам стала известна работа [35], в которой предложено изящное обобщение конструкций рестартов/регуляризации и сглаживания.
В целом данная работа писалась не столько как научная статья (хотя она и содержит новые результаты, прежде всего, в утверждениях 5, 7 и ряде замечаний), а, скорее, как удобный для использования (хотелось бы на это надеяться) материал обзорного характера, содержащий основные конструкции (или хотя бы ссылки на них) современных численных методов выпуклой оптимизации в пространствах больших и сверхбольших размеров. Мы специально довольно много места отвели описательной части (содержащей мало строгих фактов, но много идей), в которой постарались обрисовать возможные направления развития соответствующих методов и подходов. Мы надеемся, что это побудит читателей к работе в указанных направлениях.
При отборе материала мы исходили из желания продемонстрировать целостную картину с проработкой различных связей. Тем не менее большое количество деталей, к сожалению, мы вынуждены были опустить, стараясь приводить в соответствующих местах наиболее удобные для восстановления результата ссылки.
Авторы выражают благодарность Б.Т. Поляку, А.С. Немировскому и Ю.Е. Нестерову, побудивших своим вниманием и отзывчивостью к написанию данной работы, а также Мите Грищенко за исправление ряда опечаток.
Работа выполнена при поддержке грантов РФФИ 15-31-20571-мол_а_вед, 15-3170001 мол а мос.
Литература
1. Гасников А.В. Стохастическая и Huge-scale оптимизация. Курс лекций для студентов МФТИ, НМУ, ВШЭ. Весна 2016.
http://www.mathnet.ru/php/conference.phtml?option_lang=rus&eventID=25&confid=394
2. Nesterov Yu. Gradient methods for minimizing composite functions // Math. Prog. 2013. V. 140, N 1. P. 125-161.
3. Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale convex optimization. CORE UCL, PhD thesis, March 2013.
4. Devolder O., Glineur F., Nesterov Yu. First order methods of smooth convex optimization with inexact oracle // Math. Progr. Ser. A. 2014. V. 146 (1-2). P. 37-75.
5. Devolder O., Glineur F., Nesterov Yu. Intermediate gradient methods for smooth convex problems with inexact oracle // CORE Discussion Paper 2013/17. 2013.
6. Nesterov Yu. Universal gradient methods for convex optimization problems // Math. Prog. 2015. V. 152, N 1-2. P. 381-404; CORE Discussion Paper 2013/63. 2013.
7. Devolder O., Glineur F., Nesterov Yu. First order methods with inexact oracle: the smooth strongly convex case // CORE Discussion Paper 2013/16. 2013.
8. Гасников А.В., Двуреченский П.Е., Камзолов Д.И., Нестеров Ю.Е., Спокойный В.Г., Стецюк П.И., Суворикова А.Л., Чернов А.В. Поиск равновесий в многостадийных транспортных моделях // Труды МФТИ. 2015. Т. 7, № 4. С. 143-155.
9. Гасников А.В., Двуреченский П.Е., Камзолов Д.И. Градиентные и прямые методы с неточным оракулом для задач стохастической оптимизации // Динамика систем и процессы управления. Труды Международной конференции, посвященной 90-летию со дня рождения академика Н.Н. Красовского. Екатеринбург, 15-20 сентября 2014. Издательство: Институт математики и механики УрО РАН им. Н.Н. Красовского (Екатеринбург). 2014. С. 111-117. arXiv:1502.06259
10. Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.: Наука, 1979.
11. Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013.
http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf
12. Гасников А.В., Двуреченский П.Е. Стохастический промежуточный метод для задач выпуклой оптимизации // ДАН РАН. 2016. Т. 467, № 2. С. 131-134. arXiv:1411.2876
13. Juditsky A., Nesterov Yu. Deterministic and stochastic primal-dual subgradient algorithms for uniformly convex minimization // Stoch. System. 2014. V. 4, N 1. P. 44-80.
14. Гасников А.В., Двуреченский П.Е., Нестеров Ю.Е. Стохастические градиентные методы с неточным оракулом // Труды МФТИ. 2016. Т. 8, № 1. С. 41-91. arxiv:1411.4218
15. Аникин А.С., Гасников А.В., Двуреченский П.Е., Тюрин А.И., Чернов А.В. Двойственные подходы к задачам минимизации сильно выпуклых функционалов простой структуры при аффинных ограничениях // ЖВМ и МФ. 2017. Т. 57 (в печати). arXiv:1602.01686
16. Нестеров Ю.Е. Введение в выпуклую оптимизацию. М.: МЦНМО, 2010.
17. Гасников А.В., Двуреченский П.Е., Спокойный В.Г., Стецюк П.И., Суворикова А.Л. Суперпозиция метода балансировки и универсального градиентного метода для поиска энтропийно-сглаженного барицентра Вассерштейна и равновесий в многостадийных моделях транспортных потоков // Труды МФТИ. 2016. Т. 8, № 3. C. 5-24. arXiv:1506.00292
18. Гасников А.В., Двуреченский П.Е., Усманова И.Н. О нетривиальности быстрых (ускоренных) рандомизированных методов // Труды МФТИ. 2016. Т. 8, № 2. С. 67-100. arXiv:1508.02182
19. Аникин А.С., Гасников А.В., Горнов А.Ю. О неускоренных эффективных методах решения разреженных задач квадратичной оптимизации // Труды МФТИ. 2016. Т. 8, № 2. С. 44-59. arXiv:1602.01124
20. Гасников А.В., Лагуновская А.А., Усманова И.Н., Федоренко Ф.А. Безградиентные прокс-методы с неточным оракулом для негладких задач выпуклой стохастической оптимизации на симплексе // Автоматика и телемеханика. 2016. № 10. C. 57-77. arXiv:1412.3890
21. Гасников А.В., Крымова Е.А., Лагуновская А.А., Усманова И.Н., Федоренко Ф.А. Стохастическая онлайн оптимизация. Одноточечные и двухточечные нелинейные многорукие бандиты. Выпуклый и сильно выпуклый случаи // Автоматика и телемеханика. 2017 (в печати). arXiv:1509.01679
22. Bubeck S. Convex optimization: algorithms and complexity //In Foundations and Trends in Machine Learning. 2015. V. 8, N 3-4. P. 231-357. arXiv:1405.4980
23. Nesterov Y.E. Efficiency of coordinate descent methods on large scale optimization problem // SIAM Journal on Optimization. 2012. V. 22, N 2. P. 341-362.
24. Nesterov Yu. Random gradient-free minimization of convex functions // CORE Discussion Paper 2011/1. 2011.
25. Devolder O. Stochastic first order methods in smooth convex optimization // CORE Discussion Paper 2011/70. 2011.
26. Nesterov Y. Smooth minimization of non-smooth function // Math. Program. Ser. A. 2005. V. 103, N 1. P. 127-152.
27. Anikin A., Dvurechensky P., Gasnikov A, Golov A., Gornov A., Maximov Yu., Mendel M., Spokoiny V. Modern efficient numerical approaches to regularized regression problems in application to traffic demands matrix calculation from link loads // Proceedings of International conference ITAS-2015. Russia, Sochi, September, 2015. arXiv:1508.00858
28. Гасников А.В., Гасникова Е.В., Двуреченский П.Е., Ершов Е.И., Лагуновская А.А. Поиск стохастических равновесий в транспортных моделях равновесного распределения потоков // Труды МФТИ. 2015. Т. 7, № 4. С. 114-128. arXiv:1505.07492
29. Allen-Zhu Z., Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent // e-print, 2014. arXiv:1407.1537
30. Юдицкий А.Б., Назин А.В., Цыбаков А.Б., Ваятис Н. Рекуррентное агрегирование оценок методом зеркального спуска с усреднением // Проблемы передачи информации. 2005. Т. 41:4, С. 78-96.
31. Васильев Ф.П. Методы оптимизации. М.: МЦНМО, 2011.
32. Bertsekas D.P. Nonlinear programming. Athena Scientific, 1999.
33. Поляк Б.Т. Введение в оптимизацию. М.: УРСС, 2014.
34. Nemirovski A., Onn S., Rothblum U.G. Accuracy certificates for computational problems with convex structure // Mathematics of Operation Research. 2010. V. 35, N 1. P. 52-78.
35. Allen-Zhu Z., Hazan E. Optimal Black-Box Reductions Between Optimization Objectives // e-print, 2016. arXiv:1603.05642
References
1. Gasnikov A.V. Stochastic and Huge-scale optimization. A course of lectures for students of MIPT, NMU and HSE. Spring 2016.
http://www.mathnet.ru/php/conference.phtml?option_lang=rus&eventID=25&confid=394
2. Nesterov Yu. Gradient methods for minimizing composite functions. Math. Prog. 2013. V. 140, N 1. P. 125-161.
3. Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale convex optimization. CORE UCL, PhD thesis, March 2013.
4. Devolder O., Glineur F., Nesterov Yu. First order methods of smooth convex optimization with inexact oracle. Math. Progr. Ser. A. 2014. V. 146(1-2). P. 37-75.
5. Devolder O, Glineur F., Nesterov Yu. Intermediate gradient methods for smooth convex problems with inexact oracle. CORE Discussion Paper 2013/17. 2013.
6. Nesterov Yu. Universal gradient methods for convex optimization problems. Math. Prog. 2015. V. 152, N 1-2. P. 381-404; CORE Discussion Paper 2013/63. 2013.
7. Devolder O., Glineur F., Nesterov Yu. First order methods with inexact oracle: the smooth strongly convex case. CORE Discussion Paper 2013/16. 2013.
8. Gasnikov A.V. Dvurechensky P.E., Kamzolov D.I., Nesterov Y.E., Spokoiny V.G., Stetsyuk P.I., Suvorikova A.L., Chernov A.V. Finding equilibrium in multiphase transport models. Proceedings of MIPT. 2015. T. 7, N 4. P. 143-155.
9. Gasnikov A.V., Dvurechensky P.E., Kamzolov D.I. Gradient and direct methods with inexact oracle for stochastic optimization problems. Dynamics systems and control processes. Proceedings of the International Conference, dedicated to the 90th birthday of academician N.N. Krasovsky. Ekaterinburg, 15-20 September 2014 Publisher: Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences. N.N. Krasovsky (Ekaterinburg), 2015. P. 111-117. arXiv:1502.06259
10. Nemirovsky A.S., Yudin D.B. The problem's complexity and optimization method's efficiency. M.: Nauka, 1979.
11. Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013.
http://www2.isye.gatech.edu/ nemirovs/Lect_ModConvOpt.pdf
12. Gasnikov A.V., Dvurechensky P.E. Stochastic intermidiate method for convex optimization problems. DAN RAS. 2016. V. 467, N 2. P. 131-134. arXiv:1411.2876
13. Juditsky A., Nesterov Yu. Deterministic and stochastic primal-dual subgradient algorithms for uniformly convex minimization. Stoch. System. 2014. V. 4, N 1. P. 44-80.
14. Gasnikov A.V, Dvurechensky P.E., Nesterov Y.E. Stochastic gradient methods with inexact oracle. Proceedings of MIPT. 2016. V. 8, N 1. P. 41-91. arxiv:1411.4218
15. Anikin A.S., Gasnikov A.V., Dvurechensky P.E., Tyurin A.I., Chernov A.V. The dual approach to the problem of minimizing strongly convex functional of simple structure with affine constraints. JCMaMP. 2017. V. 57 (in print). arXiv:1602.01686
16. Nesterov Y.E. Introduction in convex optimization. M.: MCCME, 2010.
17. Gasnikov A.V., Dvurechensky P.E., Spokoiny V.G., Stetsyuk P.I., Suvorikova A.L. The superposition method of balancing and universal gradient method for finding the entropy-smoothed barycenter Wasserstein and equilibria in multiphase models of traffic flow. Proceedings of MIPT. 2016. V. 8, N 3. P. 5-24. arXiv:1506.00292
18. Gasnikov A.V., Dvurechensky P.E. Usmanova I.N. About nontriviality fast (accelerated) randomized methods. Proceedings of MIPT. 2016. V. 8, N 2. P. 67-100. arXiv:1508.02182
19. Anikin A.S., Gasnikov A.V., Gornov A.Y. About the non-accelerated effective methods for solving sparse quadratic optimization problems. Proceedings of MIPT. 2016. V. 8, N 2. P. 44-59. arXiv:1602.01124
20. Gasnikov A.V., Lagunovskaya A.A., Usmanova I.N., Fedorenko F.A. Non-gradient prox-methods with inexact oracle for nonsmooth convex stochastic optimization problems on the simplex. Automation and Remote Control. 2016. N 10. P. 57-77. arXiv:1412.3890
21. Gasnikov A.V., Krimova E.A., Lagunovskaya A.A., Usmanova I.N., Fedorenko F.A. Stochastic online optimization. Single-point and multi-point non-linear multi-armed bandit. The convex and strongly convex cases. Automation and Remote Control. 2017 (in print). arXiv:1509.01679
22. Bubeck S. Convex optimization: algorithms and complexity. In Foundations and Trends in Machine Learning. 2015. V. 8, N 3-4. P. 231-357. arXiv:1405.4980
23. Nesterov Y.E. Efficiency of coordinate descent methods on large scale optimization problem. SIAM Journal on Optimization. 2012. V. 22, N 2. P. 341-362.
24. Nesterov Yu. Random gradient-free minimization of convex functions. CORE Discussion Paper 2011/1. 2011.
25. Devolder O. Stochastic first order methods in smooth convex optimization. CORE Discussion Paper 2011/70. 2011.
26. Nesterov Y. Smooth minimization of non-smooth function. Math. Program. Ser. A. 2005. V. 103, N 1. P. 127-152.
27. Anikin A., Dvurechensky P., Gasnikov A., Golov A., Gornov A., Maximov Yu., Mendel M., Spokoiny V. Modern efficient numerical approaches to regularized regression problems in application to traffic demands matrix calculation from link loads. Proceedings of International conference ITAS-2015. Russia, Sochi, September, 2015. arXiv:1508.00858
28. Gasnikov A.V., Gasnikova E.V., Dvurechensky P.E. Ershov E.I., Lagunovskaya A.A. Searching of stochastic equilibrium in transportation models with equilibrium flow's distribution. Proceedings of MIPT. 2015. V. 7, N 4. P. 114-128. arXiv:1505.07492
29. Allen-Zhu Z., Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent. e-print, 2014. arXiv:1407.1537
30. Yuditsky A.B., Nazin A.V. Tsybakov A.B., Vayatis N. Recursive Aggregation of Estimators by averaged Mirror Descent. Information transportation problems 2005. V. 41:4, P. 78-96.
31. Vasiliev F.P. Optimization methods. M.: MCCME, 2011.
32. Bertsekas D.P. Nonlinear programming. Athena Scientific, 1999.
33. Polyak B.T. Introduction in optimization. M.: URSS, 2014.
34. Nemirovski A., Onn S., Rothblum U.G. Accuracy certificates for computational problems with convex structure. Mathematics of Operation Research. 2010. V. 35, N 1. P. 52-78.
35. Allen-Zhu Z., Hazan E. Optimal Black-Box Reductions Between Optimization Objectives. e-print, 2016. arXiv:1603.05642
Поступила в редакцию 31.03.2016