УДК 519.856
А. В. Гасников1'2, П. Е. Двуреченский2'4, Ю. Е. Нестеров3'5
1 Московский физико-технический институт (государственный университет)
2Институт проблем передачи информации РАН 3Национальный исследовательский университет Высшая школа экономики 4Weierstrass Institute for Applied Analysis and Stochastics 5Universite catholique de Louvain, Center for operations research and econometrics
Стохастические градиентные методы с неточным
оракулом
В работе предпринята попытка описать современное состояние методов проекции градиента (в том числе прямых методов и методов покомпонентного спуска) решения задач выпуклой стохастической оптимизации с неточным оракулом (неточность неслучайной природы), выдающим стохастический субградиент. Заметная часть приведенных в статье результатов была получена относительно недавно. Цель данной работы - собрать все вместе и посмотреть на разнообразные факты из этой области с единой позиции.
Ключевые слова: стохастическая оптимизация, рандомизация, неточный оракул, безградиентные методы, покомпонентные методы
A. V.Gasnikov1'2, P. E.Dvurechensky2'4, Yu. E.Nesterov3'5
1Moscow Institute of Physics and Technology (State University) 2 Institute for Information Transmission Problems RAS 3National Research University Higher School of Economics 4Weierstrass Institute for Applied Analysis and Stochastics 5Universite catholique de Louvain, Center for operations research and econometrics
Stochastic gradient methods with inexact oracle
In this paper, we try to describe state of the art in projected gradient methods, including gradient-free and coordinate descent methods, for convex stochastic optimization problems with inexact oracle. This oracle is meant to give access to the stochastic subgradient of an objective function with some inexactness of deterministic nature. Most of the results described in the paper are obtained relatively recently. The goal of this work is to collect these results all together and consider them from a unified viewpoint.
Key words: stochastic optimization, randomozation, inexact oracle, gradient-free methods, coordinate descent method
Статья приурочена к 80-летию Бориса Теодоровича Поляка 1. Введение
В 1960-е годы численные методы выпуклой оптимизации переживали свою первую большую революцию. В работах того времени четко и последовательно развивалась линия градиентных методов. Основополагающим здесь можно признать вклад Бориса Теодоровича Поляка [1, 2], с работ которого во многом и началось активное и повсеместное использование градиентных методов в Советском Союзе. Следующая революция началась в конце 1970-х годов после фундаментальных работ А. С. Немировского, Д. Б. Юдина, Л. Г. Хачияна, N. Karmarkar'а и др. [3, 4]. В монографии [4] была предложена классификация задач выпуклой (и не только) оптимизации по степени гладкости и выпуклости. Были получены нижние оценки для соответствующих классов задач оптимизации с оракулом, выдающим по запросу градиент или стохастический градиент, его компоненту или
просто значение функции в точке. Стало понятно, чего в принципе можно достичь. Стали строиться оптимальные методы, см., например, [5-7]. При этом на задачи начали смотреть более пристально с точки зрения теории сложности. Появилась битовая сложность. Была показана полиномиальная разрешимость задач линейного программирования в битовой сложности [3]. Началась разработка полиномиальных методов внутренней точки для задач выпуклой оптимизации на базе метода Ньютона, которая впоследствии привела к созданию общей теории [8-11] и соответствующего пакета CVX [12], способного решать широкий спектр задач выпуклой оптимизации в пространствах размерности до n ~ 104 —105. Однако вызовы нового тысячелетия заставляют снова вернуться к градиентным методам. Задачи, которые стали возникать в последние десять лет, отличаются огромными размерностями n ~ 106 — 109. Такие задачи (классифицируемые как задачи large-scale и huge-scale оптимизации) приходят из анализа данных, поиска равновесий в различных сетевых моделях (связанных с компьютерными и транспортными сетями), биоинформатики и многих других областей. Для таких размерностей шаг (итерация) метода Ньютона, становится слишком дорогим, поэтому приходится снова возвращаться к более медленным (в смысле скорости сходимости), но более дешевым (в смысле стоимости одной итерации) градиентным методам (см. [13]). Но для указанных размерностей даже градиентные методы могут испытывать проблемы. В этой связи оказалась очень полезной концепция «заглядывания в черный ящик», т.е. использование структуры задачи с целью ускорения вычислений [14], и использование вместо градиента его легко вычислимой (стохастической) аппроксимации [11]. Как следствие, принято стало считать, что правильный способ эффективно решать ту или иную задачу - это отказаться от общих методов, оптимальных на больших классах, и погружаться в специфику конкретной задачи в надежде ускориться и получить оценки лучше, чем нижние границы [4]. Можно сказать, что началась новая революция. Поток работ на эту тему в основных профилирующих журналах (например, Math. Program.) резко возрос (см., например, обзор [11]). Тем не менее, параллельно стали появляться работы (в том числе работы авторов статьи), показывающие, что многие эффективные методы решения современных задач выпуклой оптимизации в пространствах огромных размеров получаются сочетанием небольшого количества приемов и идей. Цель настоящей работы состоит в том, чтобы собрать воедино набор основных таких идей и показать их связь с некоторыми концепциями 1960-х годов, многие из которых восходят к Б. Т. Поляку. Мы сосредоточимся на оценках числа итераций, требующихся различным методам для решения задачи выпуклой оптимизации с заданной точностью по функции. Эта информация не в полной мере характеризует эффективность метода, но она необходима для последующего его полного исследования. Мы также ограничимся рассмотрением методов проекции градиента [15, 16], в которые, например, не входят очень популярные в последнее время методы условного градиента [11, 17, 18]. В качестве основного инструментария для получения эффективных методов используется метод оценивающих последовательностей, восходящий к работам одного из авторов статьи [7, 10, 14]. Здесь имеются и альтернативные подходы, например, [19-21]. Из-за ограничений на объем статьи и большого количества технических деталей мы ограничимся здесь лишь изложением общей картины. В частности, в статье не приводится псевдокод соответствующих алгоритмов, но, как правило, указываются источники, в которых его можно найти. Мы также не претендуем здесь на полный обзор современного состояния исследований, посвященных градиентным методам. Более того, при ссылках на литературу мы далеко не всегда ссылались на первоисточники, иногда предпочитая ссылаться на удачно написанный более доступный и более современный обзор или монографию.
2. Стохастическая оптимизация
Рассматривается задача выпуклой стохастической оптимизации [2, 22, 23]:
f (х) = [/ (х,£)] ^ шп, (1)
где f (х) - выпуклая по х € Мга (п ^ 1) функция. Будем называть V/ (х,^) стохастическим субградиентом функции / (х,£) в точке х по первой переменной [24]. Будем считать, что1 п.н. (х,()||2 < М, V = V;!: и Е^ - перестановочны.2 Предположим, что Q - выпуклое замкнутое ограниченное множество. Обозначим через К - диаметр множества Q: К = шах^ед ||ж — у^. В действительности, достаточно считать, что К - расстояние от точки старта до решения (ближайшего, если решение не единственно) задачи (1) (см. замечание 1). При этом множество может быть не ограничено [27].3 Мы будем считать, что множество Q простой структуры, т.е. на него можно эффективно проектироваться. В работах [27-31] рассматривались различные варианты методов проекции градиента с усреднением и длинными шагами4 применительно к решению задачи (1). Общая оценка скорости сходимости этих методов есть (а > 0 - малый доверительный уровень, N - число итераций метода, на каждой итерации мы можем один раз обратиться к оракулу за субградиентом)5
(V (ХМ) — шщш / (X) > см^ 1 + =
= ^ [/ (ХМ, С)] — ЩШ! щ [/ (х, 0] > СМ^ 1 + < а,
где С - константа (здесь и далее константы в основном будут в диапазоне ~ 100 — 102), а случайный вектор хм - то, что выдает алгоритм (например, метод зеркального спуска [30] или метод двойственных усреднений [27] - сравнительный анализ и описание «физики» этих методов в детерминированном случае проводится в работе [21]) после N итераций. Мы будем называть хм - (£, ст)-решением задачи (1), если
PxN ( f (хм) - min f (х) > е ) < а. \ x£.Q у
Таким образом, для достижения точности по функции е и доверительного уровня а методу потребуется (здесь и далее мы будем использовать О (■), однако все эти формулы могут быть переписаны с точными константами, что важно, поскольку во многих ситуациях такие оценки используются для формирования критерия останова метода)
0 (М2Я2 Ц«-)N (2)
ХВ действительности [25], здесь и практически в любом другом контексте, где возникают такого типа условия, достаточно требовать, что п.н. выполнено неравенство ||У/(у,£.) — V/ (ж,£)||2 < М. Это позволяет в ряде случаев понизить оценку константы М, и как следствие (см. (2)), ускорить метод. Отметим, что под V/ (х,£) (аналогично под V/ (у,£)) понимается любой элемент соответствующего стохастического субградиента [24].
2Для задач онлайн оптимизации условие перестановочности необходимо записывать в более общем (мар-тингальном) виде [26].
3Впрочем, в случае неограниченного множества Q, даже когда выпуклая функция f (х) имеет ограниченную вариацию на мы не можем никак априорно оценить это расстояние Я в общем случае - оно может быть сколь угодно большим [4]. Интересный нюанс для выпуклой (но не обязательно сильно выпуклой и гладкой) функции / (х) имеет место, если / (х) задана на ограниченном множестве . В этом случае размер Я множества может не входить в оценку необходимого числа итераций. Например, это имеет место для метода центра тяжести [2, 4, 11].
4Б. Т. Поляком было показано [28], что такое сочетание позволяет получать эффективные методы для данного класса задач.
5 Эта оценка неулучшаема с точностью до мультипликативной константы С (при N < п оценка неулуч-шаема и в детерминированном случае / (х, £) = f (х)), см. [4].
итераций. На каждой итерации вычисляется стохастический субградиент и осуществляется проектирование.
Отметим, что если использовать метод Монте-Карло, заключающийся в замене исходной задачи (1) следующей задачей
1 N
^Е f ) ^ mm, (3)
k=1
где с.в. - i.i.d., и распределены так же, как и £, то для того, чтобы гарантировать, что абсолютно точное решение этой новой задачи является (е, ст)-решением исходной задачи потребуется взять N порядка [24]
0 ^ М2R2(n \n(MR/e)+\n(a-1)) ^
Это наблюдение хорошо поясняет, что подход, связанный с усреднением случайности за счет самого метода, более предпочтителен, чем замена задачи (1) ее стохастической аппроксимацией (3)6. Более предпочтителен не только тем, что допускает адаптивность постановки и легко переносится на онлайн модификации исходной задачи но прежде всего лучшей приспособленностью к большим размерностям.
Здесь важно подчеркнуть фундаментальную идею7, которую можно усмотреть, например, в [2] и в цикле работ Б.Т. Поляка с Я.З. Цыпкиным [33], о том, что для получения (агрегирования) хороших оценок неизвестных параметров (особенно когда размерность пространства параметров велика) имеет смысл рассматривать задачу поиска оптимальных значений параметра как задачу стохастической оптимизации и рассматривать выборку как источник стохастических градиентов. Например, истинное значение неизвестного вектора параметров в предположении верности исходной параметрической гипотезы может быть записано как решение задачи стохастической оптимизации [34, 35] (метод наибольшего правдоподобия Фишера):
9* = arg max Е£ \L (д,£)1, eeQ ?
где L (в,£) - логарифм функции правдоподобия. Однако решать эту задачу обычными методами мы не можем, потому что математическое ожидание берется по с.в. £, распределение которой задается неизвестным параметром в*. Обойти эту сложность можно, если решать ту же самую задачу
Е£ \-L (0,01 ^ min
? eeQ
методами стохастической оптимизации, получая на каждом шаге новую реализацию (элемент выборки) и рассчитывая значения стохастического градиента dL (в, ^) /дв. То, что выдает алгоритм, и будет оценкой вектора неизвестных параметров в*. Как правило, дополнительно известно, что L (в, £) - гладкая и ^-сильно вогнутая (равномерно по £) функция от в. Последнее обстоятельство позволяет получить лучшую оценку скорости сходимости по функции [36-39] (в [36, 37] используется специальная модификация метода проекции
6Особенно ярко это проявляется в случае, бесконечномерных пространств, возникающих в статистической теории обучения (СТО = SLT, Statistical Learning Theory) [32]. Попытка обучиться за счет минимизации эмпирического риска (а именно так можно расшифровать формулу (3) в СТО) может не дать состоятельной оценки/решающего правила, в то время как соответствующий стохастический зеркальный спуск дает состоятельную оценку. Отметим, что в работе [32] приводится достаточно интересный общий результат: в задачах обучения (в частности, в задачах СТО, математической статистики и онлайн обучения) способ получения оптимальных (с точностью до логарифмических факторов) оценок/решающих правил (или, другими словами, способ наискорейшего обучения) базируется на применении соответствующего метода зеркального спуска. Правда, найти «соответствующий метод», в свою очередь, представляет собой непростую задачу.
Распространяемую и на непараметрическую статистику. Отметим, что начиная с 1980-х годов XX века в этом направлении был цикл работ А.С. Немировского, Б. Т. Поляка и А. Б. Цыбакова, оказавших заметное влияние и на текущие исследования в этой области.
градиента с усреднением и выбором шагов Нк = 2 (ц ■ (к + 1)) 1 и Нк = (цк) 1, где к -номер итерации, о подходе [38] и близком к нему подходе [39] будет немного написано в п. 3)
О М
2 ln(ln( N )/a)
ßN
(4)
т.е. (x = в, f = —L, С - некоторая константа)
Р;
XN
f(xN) — min f (х) > СМ
. xeQ
2 ln (ln (N)/a) -ßN ,
< ст.
Из неравенства Рао-Крамера [35] (Q = Rra) будет следовать, что оценка (4) - не улучшаемая (с точностью до слагаемого ln(ln ( N))). Правда, тут возникают некоторые тонкости, когда мы говорим о неулучшаемости оценок с учетом вероятностей больших отклонений. Строго говоря, классические результаты типа Рао-Крамера, Ван-Трисса и т.п. (см., например, [35]) позволяют лишь говорить о неулучшаемости в смысле сходимости полных математических ожиданий (без вероятностей больших отклонений), и именно в таком смысле можно получить (с помощью методов [11, 37-39]) неулучшаемую (с точностью до мультипликативной константы) оценку:
См 2
EtXN [f(xN, О] — min [f (x, 0] <
xeQ
ßN '
где С - некоторая константа.
Можно обобщить рассмотренную постановку задачи (1) на случай, когда ||У f (х, {)||2 имеет субгауссовский хвост (определение см., например, в [30]). Тогда (в том числе в сильно выпуклом случае) вместо 1п (о--1) стоит писать 1п2 (о-1). Если же ||У/(х, £)||2 имеет степенной хвост [40], т.е.
Р
Л|у f (х, ml
^ М2
»)=4 D
где а > 2, то8
PXN f(xN) — min f (x) >CaMR
VN +( N / a)1/a
)
< a.
xeQ " v ' N
Если дополнительно f (x) = E£ [f (x, {)] - ß-сильно выпуклая функция, то (при а> 1)
(
PxN f(xN) — min f (x) >СаМ
xeQ
2 ln (ln (N)) +a-1/a
ßN
)
a.
Если ничего не известно о ||У} (х, {)||2, кроме неравенства ||У/(х,< неравенству Маркова
М2, то по
Р
XN, f(xN)—me^/(x) >CVMR) <a,
Р.
(
См 2
f(xN)—m^(x) > aßN
< a,
8Приводимые ниже неравенства стоит понимать так, что хм выдается методом [27,30], а в сильно выпуклом случае, методом [37-39]. При этом для оценок вероятностей больших уклонений в случае тяжелых хвостов требуются некоторые оговорки и уточнения. К сожалению, мы не смогли найти соответствующий выписанным оценкам (в случае тяжелых хвостов) источник литературы. Приведенные здесь нами формулы нуждаются в дополнительной проверке.
второе неравенство подразумевает ^-сильную выпуклость f (х).
Можно задать вопрос: насколько вообще уместно рассматривать постановки, в которых возникают тяжелые хвосты. Ведь, если мы можем эффективно вычислять значения функции f (х) = Е^ [f (х, £)] в задаче (1), то ни о каких тяжелых хвостах можно не заботиться. Поскольку, выбрав число шагов так, чтобы метод находил е-решение с вероятностью > 1/2, запустив log2 (а-1) реализаций такого метода и выбрав реализацию с минимальным значением функции в конечной точке алгоритма, мы за дополнительную log2 (а-1) плату (мультипликативную) получим с вероятностью 1 — а среди выданных ответов хотя бы одно е-решение [31, 39]. Однако предположение о возможности эффективно вычислять значения функции (при условии трудной вычислимости ее градиента), как правило, не встречается на практике. В некотором смысле типичным тут является пример 1 (см. ниже) вычисления вектора PageRank (при n ~ 109). Собственно, искусственность ситуации, в которой значение функции легко вычислимо, а градиент нет, неплохо соответствует философии быстрого автоматического дифференцирования (БАД) [41, 42]. Согласно теории БАД, если мы можем посчитать значение функции, то мы можем не более чем в 4 раза дороже посчитать и ее градиент.9 Как следствие, если мы можем эффективно вычислить значение f (х), то, как правило, мы и V f (х) можем эффективно вычислить. Тогда и на исходную задачу (1) можно смотреть уже не как на задачу стохастической оптимизации, а как на обычную задачу выпуклой оптимизации, что может существенно ускорить ее решение (см. п. 3 ниже). Впрочем, во многих интересных приложениях отмеченный прием (амплификация), как правило, весьма успешно работает [43, 44], поскольку время работы метода, как правило, оказывается заметно большим, чем расчет значения функции.
Отметим также (следуя А. С. Немировскому), что с помощью концепции неточного оракула (см. п. 3 ниже) мы можем редуцировать задачу с тяжелыми хвостами ||Vf (х, £)||2 и компактным множеством Q к ситуации, когда п.н. ||Vf (х, £)||2 < М (е). Для этого нужно «обрезать» стохастический градиент
w f( n = f Vf (х, О , ||Vf (х, Ш2 <М (£) Vf (х °:=\М (S) рЩ^, ||Vf (х, Ш2 >М (е) '
Константа М (е) подбирается оптимальным образом, исходя из желаемой точности е. Чем больше М (е), тем меньше смещение (bias) обрезанного стохастического градиента, как следствие, тем точнее можно восстановить решение исходной задачи, но при этом возрастает необходимое число итераций (см. (2), (4), в которые входит константа М = М (е)). Оптимальный выбор этой константы (с точностью до логарифмического фактора) дает приведенные выше оценки.
Все сказанное выше10 обобщается и на другие прокс-структуры [4] (не обязательно евклидовы, когда выбирается прокс-функция d (х) = ||х||2/2), согласно которым осуществляется (как правило, по явным формулам11) «проектирование» на Q. Например, для множества Q = Sn (1) (Sn (R) = {х е Мга : х^ > 0, г = 1,..., n, Y^i=1 х% = R} - единичный сим-
9Это легко понять в случае f (х) = {с, х). В случае, когда f (х) - многочлен, это также несложно понять (Баур-Штрассен). В общем случае рассуждения аналогичны.
10В сильно выпуклом случае (если в прямом пространстве выбрана д-норма (¿") и прокс-функция
й (х) > 0) в оценку (4) дополнительно входит фактор ш = вир 2У (х,у) (а Цу — ж||2) > 1, где V (х,у)
определяется через й (х) в замечании 1 (при 1 < д < 2 удается найти такую прокс-функцию, что ш = О (1п п), см. замечание 2), где а - константа сильной выпуклости й (х) на в д-норме [38]. Отметим, что при этом константы в отношение М21^ в оценке (4), считаются относительно д-нормы.
11Впрочем, в подавляющем большинстве случаев даже если нет возможности явно решить задачу проектирования, ее можно эффективно решить приближенно [9] (посредством перехода к двойственной задаче малой размерности). Как правило, при таком способе рассуждений необходимо использовать концепцию неточного оракула (см. п. 3), поскольку рассчитать градиент двойственного функционала можно лишь приближенно. Однако все эти выкладки обычно не изменяют по порядку сложность одной итерации метода, основной составляющей которой является расчет (пересчет) градиента или его стохастического аналога. Некоторые тонкости и оговорки тут возникают в случае разреженных постановок задач [43, 44].
плекс в n-мерном пространстве) часто рассматривается (см. пример 1 вычисления вектора PageRank ниже) KL-прокс-структура: d (х) = lnn + ^ г^=\х% ln®j. Эта прокс-функция d (х) > 0 сильно выпукла в 1-норме с константой сильной выпуклости a = 1 на Sr (1) - в силу неравенства Пинскера [27, 30]. Она «наилучшим» образом подходит для симплекса (с некоторыми оговорками [26, 45]). Выгода от ее использования в том, что норма стохастического субградиента всегда оценивается в сопряженном пространстве к пространству, в котором прокс-функция 1-сильно выпукла. В рассматриваемом случае получается ||Vf (х, £)||те < М, что в типичных ситуациях дает оценку константы М в ~ y/n раз лучше, чем в 2-норме, а плата за это - увеличение оценки размера области (в этой ситуации в оценке числа итераций нужно использовать R2 = maxd (х) /а) в ~ lnn раз. Детали имеются, например, в статье [30]. Интересным также представляется выбор прокс-функции для прямого произведения симплексов [46]. Здесь мы отметим (следуя А. С. Немировскому), что в общем случае оптимальный выбор прокс-структуры (с точностью до умножения на степень логарифма размерности пространства) связан с симметризацией множества Q. Выпуклое центрально симметричное множество В = (Q — Q) /2 порождает по теореме Колмогорова норму, в которой В является единичным шаром. Далее ищется оптимальная прокс-функция, согласованная с этой нормой. Говоря более формально, ищется такая сильно выпуклая в этой норме функция d (х) > 0 с константой сильной выпуклости a > 1,
чтобы число R2 = maxd (х) /а было минимально возможным. Если Q = ВП (1) - единич-x€Q
ный евклидов шар, то значение R < 1, т.е. не зависит от размерности пространства n, но если Q = ВГ (1) - единичный шар в 1Г норме, то R = Q (n) (т.е. существует такое число X, что при достаточно больших значениях n имеет место неравенство R > %n, причем можно добиться того, что R = О (n)). Как будет видно из замечания 2 (на примере когда Q = В'Г (1)), выбор 1Г нормы не всегда приводит к оптимальным во всех смыслах оценкам (аналогичные примеры нам встретятся и в следующих двух пунктах).
Замечание 1. Стоит обратить внимание на то, что если выбрана евклидова прокс-
структура, то R - квадрат евклидова диаметра Q. При переходе к другой прокс-
структуре в оценках числа итераций в качестве R фигурирует прокс-диаметр Q
(diam ( Q) = maxd (х)), поделенный на константу сильной выпуклости a = a (Q) прокс-x£Q
функции, заданной на Q, относительно выбранной нормы в прямом пространстве. Скажем, в случае выбора KL-прокс-структуры, 1-нормы в прямом пространстве и Q = Sr (г), имеем
R2 = diam(Sr (г))/a (Sn (г)) = г ■ diam(Sr (1)) / (a (Sr (1)) /г) = г2 ■ (lnn)/1 = г2 lnn.
Для евклидовой прокс-структуры размер Q = Sr ( ) равнялся бы 2 2. Отсюда можно сделать вывод (верный и в общем случае), что выбор прокс-структуры имеет целью оптимально учесть структуру множества с точки зрения того, как в итоговую оценку числа итераций будет входить размерность пространства, в котором происходит оптимизация. При гомотетичном увеличении/уменьшении множества оценки числа итераций будут меняться одинаково, независимо от выбранной прокс-структуры. Отметим также, что в формуле (2) для прокс-структуры, отличной от евклидовой, точнее писать не R2 ln , где R2 = г2 lnn (приводим для KL-прокс-структуры), а г2 (lnn + ln (ст-1)) = г2 ln (n/a). В действительности, в оценки скоростей сходимости (в среднем, но не в оценки вероятностей больших уклонений, см. замечание 4) всех упомянутых в данной статье методов (кроме обычного (прямого) градиентного метода и метода Франк-Вульфа) входит не прокс-диаметр множества Q, на котором происходит оптимизация (если Q = Rn прокс-диаметр будет бесконечным), а брэгмановское «расстояние» V (х* ,х0) от решения х* до точки старта хо (часто выбирают хо = arg mind (х), d (х0) = 0, Vd (х0) = 0 [27]), где V (х, у) = d (х) — d (у) — (Vd (у) ,х — у).
Замечание 2. Пусть Q = Вn (1) - единичный шар в д-норме или, в более общем случае, Q содержится в В^п (1). Относительно оптимального выбора нормы и прокс-структуры можно заметить следующее (см., например, [4, 9, 47]): если q > 2, то в качестве нормы оптимально выбирать ||||2 (2-норму) и евклидову прокс-структуру. Определим q' из 1/ q + 1/ q' = 1.
Пусть 1 < q < 2, тогда q' > 2. Если при этом q' = o(logn), то оптимально выбирать || У = ||||д, а прокс-структуру задавать прокс-функцией d (х) = 2(д-1) \\х\\2 Во всех этих случаях R2 = О (1). Для q' > Q (logn), выберем a = 2 logn/ (2 logn — 1), |||| = ||||a, а прокс-структуру будем задавать прокс-функцией d (х) = 2(а-1) ||х|^. В этом случае R2 = О (logn). Не сложно проверить, что для единичного симплекса, вложимого в единичный шар в 1-норме, выбор соответствующих прокс-структур из замечаний 1, 2 приводит к одинаковым оценкам числа итераций в категориях О (). В частности, для случая когда Q = В^ (1), выбор 2-нормы и евклидовой прокс-структуры приводит к оценке (далее в замечании речь идет только об оценке (2)) 1) О (M2;n ln (а-1) /е2) вместо 2) О (M^n ln (а-1) /е2)
(здесь Е^ ||V/ (х, {)|2 < M2), получаемой при выборе нормы в прямом пространстве. Аналогично вышенаписанному можно отметить, что в типичных ситуациях оценка 2 может быть в ~ n раз хуже оценки 1. Тем не менее оценка 2 О (M^n ln (а-1) /е2) не улучшаема в общем случае. Потому что в общем случае нет гарантий, что M.2 ^ M^, а если такие гарантии есть, то это уже сужает класс функций, для которого получена нижняя оценка с константой M2 .
Подчеркнем, что приведенные здесь оценки (2), (4) (в детерминированном случае при дополнительном условии, что требуемое число итераций для достижения точности удовлетворяет неравенству N (е) < n [4]) без дополнительных предположений являются неулучшаемыми (с точностью до мультипликативных констант) для класса задач стохастической оптимизации (1) и негладких детерминированных задач. Причем дополнительная гладкость функционала задачи (1) в стохастической постановке в общем случае не приводит к улучшению приведенных оценок (2), (4). Если делать дополнительные предположения о малости случайного шума (low noise conditions), то приведенные оценки можно улучшать (см. п. 3). Один пример того, как можно устанавливать неулучшаемость оценок, был рассмотрен выше, следуя [2] (на основе неравенства Рао-Крамера), в общем случае следует смотреть монографию [4] и [47]. Отметим, что в работе [47] показывается, что для задач стохастической оптимизации (1) при оптимизации на шарах в д-норме оценки типа (2), даваемые методами зеркального спуска с выбором прокс-структуры согласно замечанию 2, соответствуют с точностью до логарифмического фактора нижним оценкам.
Следует, однако, различать задачи стохастической оптимизации и задачи, в которые мы сами искусственно привносим случайность (используя рандомизацию), с целью уменьшения числа арифметических операций на одну итерацию метода [31, 43, 44, 48]. К последнему можно отнести случай, когда (негладкий) выпуклый функционал в задаче является детерминированным, но представляет собой трудно вычислимый интеграл (сумму), зависящую от (оптимизируемых) параметров, который может быть компактно представлен в виде математического ожидания по некоторой простой вероятностной мере. Тогда выгоднее вычислять на каждой итерации метода стохастический градиент, существенно экономя на вычислениях на каждом шаге и лишь немного теряя на логарифмическом увеличении числа шагов ln (ст-1)). Подробнее об этом подходе будет сказано ниже в примере 3. Ярким примером на эту тему является Google problem (PageRank). По-видимому, одними из первых на эту задачу посмотрели в указанном выше контексте А. В. Назин и Б. Т. Поляк в работе [49], см. также [44, 50-52].
Пример 1 (PageRank). Задача поиска вектора PageRank р из уравнения Ртр = р (Р - стохастическая матрица по строкам матрица), сводится [51, 52] к негладкой задаче выпуклой оптимизации (седловой задаче)
max (и, Ртр — р) ^ min . uesn(1y pesn(1)
Перепишем эту задачу в общем виде
min max (у, Ах) , xesn(1) yesn(1)
где матрица А большого размера п х п (вообще говоря, неразреженная) с элементами, ограниченными по модулю числом М = 1. Ключевое наблюдение для решения этой задачи состоит в том [30, 49], что:
Азе = Еф]
А^ М)
где А(г) - г-й столбец матрицы А, вектор х € Sn (1), а с.в. i [х] имеет категориальное распределение с вектором параметров х. Важным следствием является тот факт, что левая часть равенства, А х, вычисляется за О n2 арифметических операций, а выражение, стоящее в правой части под математическим ожиданием, А^ И) - всего лишь за О ( n) арифметических операций. Используя это наблюдение (и аналогичное для умножения матрицы А на вектор-строку слева), можно показать, что (рандомизированный) метод зеркального спуска [30] (с KL-прокс-структурой) и стохастическим градиентом по х, равным А^[x]) (аналогично по у), после
0 ^ nM2 ln (n/a) ^ _ 0 ^ n ln (n/a) ^
элементарных арифметических операций выдает такие х € Sn (1) и у € Sm (1), что
max утАх — min утАх < е yesm(i) xe sn (1)
с вероятностью > 1 — a.
Аналогичные рассуждения [31, 48] позволяют получить с такими же затратами О {n ln(n/a) е-2) такой вектор х € Sn (1), что ||Ах||те < е. Кроме того, если дополнительно известно, что матрица Р - разрежена, то можно организовать поиск (е, а)-решения еще эффективнее - рандомизировать при проектировании на симплекс [26, 48, 52]. Тогда вместо фактора n в оценках общего числа операций О {и + s ln n ln (n/a) е-2) будет фигурировать s - «среднее» число элементов матрицы Р (по строкам и столбцам) отличных от нуля (к сожалению, численные эксперименты Антона Аникина показали, что это «эффективное среднее» число на практике часто близко к максимальному по строкам и столбцам, т.е. от этого подхода можно получить гарантированную выгоду, только если имеет место равномерная разреженность матрицы по строкам и столбцам [48]).
Отметим, что в определенных ситуациях (например, при условии n ^ е-2 - типичном для задач huge-scale оптимизации) такому рандомизированному методу потребуется использовать относительно небольшое количество элементов матрицы А за все время работы, в то время как для класса детерминированных алгоритмов потребуется считать как минимум половину элементов матрицы А [3] для = 0.1.
Хочется также отметить, что на задаче из примера 1 можно продемонстрировать большую часть современного инструментария, необходимого для решения задач huge-scale оптимизации. Так, в случае разреженной матрицы А для решения поставленной негладкой задачи выпуклой оптимизации (и многих других) хорошо подходит метод Б. Т. Поляка [2, 51], работающий по нижним оценкам (2) (функционал негладкий) и при этом учитывающий разреженность А при пересчете градиента [51]. Другой подход [50] (задача поиска вектора PageRank сводится к минимизации другого функционала), также нашедший широкое применение [43, 53-55], связан с заменой градиентного спуска на покомпонентный спуск. Такая замена увеличивает в среднем число итераций всегда не больше (а, как правило, намного меньше), чем в n раз, но зато (благодаря разреженности) происходит экономия при пересчете одной компоненты градиента, как правило (но не всегда - особенности возникают в разреженных задачах), в n раз по сравнению с расчетом полного градиента. В результате получается выгода, которая при определенных условиях может сократить объем вычислений в ~ л/n раз (см., например, [43]). Поясним это следующим примером [48], который можно понимать как вариацию неускоренного варианта покомпонентного метода с выбором максимальной компоненты [50].
Пример 2 (разреженный PageRank). Задача поиска вектора PageRank также может быть сведена к следующей задаче выпуклой оптимизации (далее для определенности будем полагать 7 = 1, в действительности, по этому параметру требуется прогонка)
1 п ¡(х) = ~ + 2 Е )+ ^ ^,
2 2 к=1 \х,е)—1
где, как и в примере 1, А = Рт — I, I - единичная матрица, е = (1,..., 1)т,
<»>+ ={ 0:
У, У> 0 + \ 0, у < 0
При этом мы считаем, что в каждом столбце и каждой строке матрицы Р не более в ^ л/п элементов отлично от нуля (Р - разрежена). Эту задачу предлагается решать обычным градиентным методом12, но не в евклидовой норме, а в 1-норме (см., например, [21]):
lin Í „
>=0 I
Хк+1 =Хк + arg min /(а*) + (V f (Хк) ,h) + L \\h\\1
L
h: {h,e>=0 I 2
12
где L = max ||А{г>||9 + 7 < 3 (А{г> - г-й столбец матрицы А). Для достижения точности
г=1,...,га 2
е2 по функции потребуется сделать О (LR2/е2) = О (l/e2) итераций [14]. Не сложно проверить, что пересчет градиента на каждой итерации заключается в умножении АтAh, что может быть сделано за О (s2). Связано это с тем, что вектор h всегда имеет только две компоненты, отличные от нуля (такая разреженность получилась благодаря выбору 1-нормы), причем эти компоненты соответствуют arg min df (хк) /дхг и arg max df (хк) /дхг, что пере-
г=1,...,»г г=1,...,»г
считывается (при использовании специального двоичного дерева (кучи) для поддержания максимальной и минимальной компоненты градиента [51]) за О (s2 inn) (логарифмический фактор можно ослабить, если использовать, например, фибоначчиевы или бродалевы кучи [48]). Таким образом, общая трудоемкость предложенного метода будет О (n + s2inn/e2), что заметно лучше многих известных методов [52]. Стоит также отметить, что функционал, выбранный в этом примере, обеспечивает намного лучшую оценку \\Ах||2 < £ по сравнению с функционалом из примера 1, который (в варианте [31]) обеспечивает УАхЦ^ < е. Наилучшая (в разреженном случае без, условий на спектральную щель матрицы Р [52]) из известных нам на данный момент оценок О (sinn ln(n/a) / e2) [26, 52] для \\Ах^ может быть улучшена приведенной в этом примере оценкой, поскольку, как уже отмечалось ранее, \\Ах|| 2 может быть (и так часто бывает) в ~ y/ñ раз больше \\Ах^, а s ^ y/ñ.
Заметим, что в решении могут быть маленькие отрицательные компоненты. Также численные эксперименты показали [48], что для достижения выписанных оценок требуется препроцессинг (в нашем случае он заключается в представлении матрицы по строкам в виде списка смежности: в каждой строке отличный от нуля элемент хранит ссылку на следующий отличный от нуля элемент, аналогичное представление матрицы делается и по столбцам). Заметим, что препроцессинг помогает ускорять решение задач не только в связи с более полным учетом разреженности постановки, но и, например, в связи с более эффективной организацией рандомизации [31, 43, 50].
Пример 2 также характерным образом демонстрирует, как используется разреженность (см. также [44, 51, 56]). Обратим внимание на то, что число элементов в матрице Р, отличных от нуля, даже при наложенном условии разреженности (по строкам и столбцам), все
12Выписанная далее оценка скорости сходимости (на число итераций) - неулучшаема с точностью до мультипликативного фактора. Речь идет не об оптимальности метода на классе гладких задач на симплексе, а о том, что конкретно для этого метода такая оценка если и может быть улучшена, то лишь на мультипликативный фактор. Это замечание касается практически всех известных сейчас градиентных методов. Показывается это приблизительно так же (даже еще проще), как и в случае оптимальности оценок на классах [4]: строятся конкретные примеры (семейства) функций.
равно может быть достаточно большим вп. Удивляет то, что в оценке общей трудоемкости это число не присутствует. Это в перспективе (при правильной организации работы с памятью) позволяет решать задачи огромных размеров. Более того, даже в случае небольшого числа не разреженных ограничений вида (аг ,х) = Ьг, г = 1,..,т = О (1), можно «раздуть» пространство (не более чем в два раза), в котором происходит оптимизация (во многих методах, которые учитывают разреженность такое раздутие не приведет к серьезным затратам), и переписать эту систему в виде А х = , где матрица будет иметь размеры О (п) х О (п), но число отличных от нуля элементов в каждой строке и столбце будет О (1). Таким образом, допускается небольшое число «плотных» ограничений.
Заметим, что если применить метод условного градиента [17] (Франк-Вульфа) к задаче из примера 2, то общая трудоемкость (для точности е2, как и в примере 2) будет [48, 56]
(о I ^ 1с2
о(п + £Ü^£Ü)
В связи со сказанным выше, заметим, что задача может быть не разрежена, но свойство разреженности появляется в решении при использовании метода Франк-Вульфа, что также может заметно сокращать объем вычислений в постановках аналогичных примеру 2, но с матрицами А, у которой число столбцов на много порядков больше числа строк (см., например, п. 3.3 [11], [57]).
Приведем еще один пример, подсказывающий, как следует решать задачу (3), полученную из (1) с применением идеи метода Монте-Карло.
Пример 3 (рандомизация суммы). Пусть необходимо решить задачу выпуклой оптимизации (или ее композитный вариант, см., например, замечание 6):
1 М
/(х) = ^Е Л (х) ^ (5)
к=1 4
где ¡к (х) - негладкие выпуклые функции с ограниченной числом М нормой субградиента, Q - выпуклое замкнутое множество простой структуры (можем эффективно на него проектироваться, согласно заданной прокс-функции) прокс-диаметра К. Введем новую функцию
/(х, 6 = (х),
где £ принимает значения от 1 до N с вероятностью 1/N. Стохастический субградиент функции /(х, £) легко вычислить. Для этого разыгрывается за О (lnN) с.в. £, принимающая значения 1,....,N с равными вероятностями (см., например, [52]). Затем считается субградиент Д (х) (и выполняется прокс-проектирование на Q). Как уже отмечалось ранее, можно найти (е, ст)-решение так понимаемой задачи (5) за
(М2К2 1п (а-1)\
01 V м
2
итераций, со стоимостью одной итерации, равной О (1nN), + затраты на вычисления субградиента Д (х) + затраты на вычисление проекции. Если решать задачу без рандомизации, то число итераций будет О (М2К2/е2Л), строго говоря, здесь М должно быть немного
меньше за счет того, что
N
тах
хея
1 Е v л (ж)
N к=1
"к ^ an "VA WH*
*
но мы считаем, что обе части неравенства одного порядка. Зато шаг итерации будет теперь почти в N раз дороже. И если N ^ 1, это может оказаться существенным.
Приведенную постановку можно распространить на случай, когда взвешивание функций не равномерное (тогда первое разыгрывание с.в. £, имеющей категориальное распределение, или приготовление процедуры рандомизации займет О (Ж), а все последующие О (1пЖ)) и /к (х) := [/к (х, £к)] с равномерно ограниченными (по к, х и £) нормами стохастических субградиентов. При этом все приведенные оценки числа итераций сохранятся. Причем требование равномерной ограниченности норм стохастических субградиентов можно существенно ослабить за небольшую плату (см. выше).
Если на решение задачи (3) теперь посмотреть в контексте описанной рандомизации с !к (х) = f (х, £к) (здесь ^к - не случайная величина, а полученная в методе Монте-Карло к-я по порядку реализация с.в. £), то «все встанет на свои места» в смысле одинаковости (с точностью до логарифмического фактора) двух подходов к решению задачи (1), описанных в начале пункта.
Описанная рандомизация при вычислении субградиента суммы функций, по-видимому, была одной из первых, которые предлагались в стохастической оптимизации [22]. Однако она популярна и по сей день, например, в связи с приложениями к поиску равновесий в транспортных сетях [58-62] и анализу данных [63-65]. В частности, в [11, 43, 59, 6671] в предположении, что все функции в (5) гладкие с константой Липшица градиента Ь, предложен специальный рандомизированный метод (на базе описанного выше способа рандомизации суммы), в котором число вычислений градиентов слагаемых13
О^Ж + шт |ьВ2/е, ^ЖЬВ2/^ (1п(Д//е) + 1п (а-1))^ ,
где Д / разность значения функции в стартовой точке и в минимуме. Эта оценка с точностью до выражения под логарифмом соответствует нижней оценке в классе детерминированных алгоритмов [70, 72]. Если дополнительно имеется еще и ц-сильная выпуклость ( х), то оценку можно переписать следующим образом
О ((V + шт |ь/ц, ^ЖЬ/ц}) (1п (Д//е) + 1п (а-1))
Отметим, что вторая оценка переходит в первую при следующей квадратичной регуляризации. К выпуклому функционалу прибавляется регуляризирующее слагаемое ц \\х||2. В результате функционал становится сильно выпуклым и справедлива вторая оценка на число вычислений градиента. Такая регуляризация изменяет исходную целевую функцию на число, не больше цВ2 /2, и чтобы итоговая погрешность по исходной функции была порядка е, нужно выбирать ц ~ е/В2 и решать регуляризованную задачу с точностью е/2. При подстановке этого значения во вторую оценку числа вычислений градиента последняя переходит в первую оценку.
Отметим также, что сначала (см., например, [55, 68]) получается результат о сходимости
14
средних :
Е ( / (хм) — шт / (х) ) < е, \ хея у
хeQ
где
N = N (е) = О ((я + шт |ь/ц, л/ЖЬ/ц^ 1п (Д//е)) , Потом из неравенства Маркова получают оценку вероятности больших уклонений:
Р (/ (хм(б)) — х^и/ (х) > ^ < е/а,
13Строго говоря, имеющиеся сейчас рассуждения для второго аргумента минимума [43, 73] позволяют получить только при дополнительных предположениях о структуре задачи оценку, аналогичную приведенной ниже, и то только в категориях общего числа арифметических операций.
14Описанная далее конструкция не зависит от того, изначально имела место сильная выпуклость или мы ее искусственно ввели должной регуляризацией.
ТРУДЫ МФТИ. 2016. Том 8, № 1 А.В. Гасников, П.Е. Двуреченский, Ю.Е. Нестеров 53 которую переписывают в виде
Мы привели здесь это наблюдение, потому что оно оказывается полезным и во многих других контекстах, в которых рандомизированный метод сходится со скоростью геометрической прогрессии.
При наличии дополнительной структуры у задачи (5) приведенные оценки можно было получить (и даже немного улучшить, например, учитывая разреженность) исходя из рандомизированных покомпонентных методов (например, ЛЬРИЛ или ЛРРИОХ [63] или ЛСИСБ* из замечания 8 [43]) для «двойственной» к (5) задаче [43, 55, 59, 73, 74].15 Заметим также, что в работе [43] показывается, как можно просто получить часть выписанных оценок с помощью метода, работающего по оценкам (8) (см. ниже).
В книге [2] Б. Т. Поляк отмечает, что если рандомизация осуществляется каким-то специальным образом, например, таким, что16
где А > 0 - некоторая малая погрешность, и в точке минимума V / (х) = 0, то приведенные выше оценки (2), (4) можно существенно улучшить. Примеры будут приведены ниже в п. 4 (см. (22)). В частности, в сильно выпуклом случае можно получить геометрическую скорость сходимости. Важно отметить, что при рандомизации, возникающей в покомпонентных спусках, спусках по направлению и безградиентных методах в гладком случае условие (6) выполняется [2, 50, 76]. Мы вернемся к этому кругу вопросов в п. 4. Описанная же выше конструкция (с довольно грубым неравенством Маркова) используется в данном контексте [50, 76] для (точной!) оценки больших уклонений. Причем за счет регуляризации функционала, о которой было сказано выше, все это переносится и просто на гладкий случай без предположения сильной выпуклости.
3. Стохастические градиентные методы с неточным оракулом
В этом пункте мы опишем, что можно получить, если дополнительно известно, что / (х) - гладкая по х функция, с константой Липшица градиента Ь и(или) сильно выпуклая с константой ^ > 0, но вычисление стохастического градиента на каждом шаге происходит с неконтролируемой неточностью 5, вообще говоря, не случайной природы.17
Замечание 3. И гладкости, и сильной выпуклости можно добиться искусственно. Как уже отмечалось в п. 2, сильная выпуклость всегда легко получается регуляризацией функционала в исходной задаче. Как правило, это не дает ничего нового с точки зрения выписанных оценок (и даже может ухудшать эти оценки на логарифмический фактор), но в ряде специальных случаев (см. ниже) это может давать определенные преимущества. Кроме того, такая регуляризация иногда просто необходима для корректности постановки. Это связано с тем, что в общем случае даже для гладких детерминированных выпуклых задач мы можем гарантировать сходимость итерационного метода лишь по функции, но не по аргументу. Для сходимости по аргументу нужна сильная выпуклость функционала,
15Строго говоря, построение двойственной задачи предполагает возможность явного выделения в функционале в виде отдельного слагаемого сильно выпуклого композита - желательно сепарабельного.
16Если рассматривать приложения методов стохастической оптимизации к СТО [32], а в правой части неравенства вместо ||У/(ж)У^ писать ||У/(ж)||У2, то выписанное неравенство будет соответствовать условиям малого шума Цыбакова-Массара, Бернштейна [75].
17Особое внимание таким постановкам стали уделять после выхода книг [2, 33]. В них обстоятельно изучается «влияние помех», в том числе не случайной природы, на методы выпуклой оптимизации.
где
N (ea) = О ((V + min^L/ß, ^NL/ß}) (in (Af/e) + In (a-1)))
E HVf (x, 0112 <Cra HVf (x)\\2 + A,
(6)
которую и обеспечивают должной регуляризацией (см., например, конец п. 2), при этом сходимость по аргументу имеет место к решению регуляризованной задачи. Идея регуляризации используется в популярном методе двойственного сглаживания [77] (регуляризация двойственной задачи с целью улучшения гладких свойств прямой). В отличие от прямой регуляризации эта техника хорошо работает только для вполне конкретных задач, имеющих определенную (седловую - Лежандрову) структуру (модель), когда исходная задача имеет явное двойственное представление (см. пример 4), введя в которое регуляризацию, можно явно (эффективно) пересчитать, во что превратится исходная прямая задача. Другой пример сглаживания будет приведен в п. 4.
Сформулируем более точно предположения об оракуле, выдающем стохастический градиент, следуя [78, 79].18
Предположение 1. (5, Ь, ц)-оракул выдает (на запрос, в котором указывается только одна точка х) такую пару (Р (х, £), С (х, £)) (с.в. £ независимо разыгрывается из одного и того же распределения, фигурирующего в постановке (1)), что для всех х € ( ограничена дисперсия
< И,
щ
и для любых х,у € (
\\С (х, О — Е? [С (х, Ш\2
ц \\у — х\\2 < щ [/ (у, 01 — Ес [Р (х, 01 — (Е [С (х, 0] ,У — х) < Ь \\у — х\\2 + 5.
Из недавних результатов [78-87] можно получить общий метод (мы приводим огрубленный вариант оценки времени работы этого метода для большей наглядности) с такими
19
оценками скорости сходимости :
шп + Ш + N.) , О (ЬВ2ехР (—ХЖ ■ (Ь) *) + И + (*) * >) }.
(7)
где 1 < X < С 1пп, С - некоторая константа, а параметр р € [0,1] подбирается «оптимально» перед запуском метода исходя из масштаба шума 5. Для лучшего понимания оценки (7) полезно ее переписать в еще более огрубленном виде20:
ш'" (N+1 + + , О (ЬВ2ехР ■ (Ь) *) + И + } .
Этот общий метод есть в некотором смысле «выпуклая комбинация» двойственного градиентного метода (БСМ) и быстрого градиентного метода21 (РОМ) [83, 87], оценки скорости сходимости для которых имеют соответственно вид
18В работе [78] собрано много различных мотиваций такому предположению (определению), обобщающему классическую концепцию ¿-субградиента [2]. В определенном смысле это предположение 1 наиболее общее и одновременно наиболее точно отражающее спектр всевозможных приложений [43, 55, 60-62].
19 Оценки характеризуют достигнутую в среднем точность (по оптимизируемому функционалу) после N итераций. При этом, в случае когда минимум достигается на втором аргументе (выгодно использовать факт наличия ^-сильной выпуклости), под N правильнее понимать не число итераций, а число обращений к {5, Ь, ^)-оракулу [87]. Отметим, что при р = 0 оценку можно сделать непрерывной по параметру ^ > 0 (см. [79]). Также заметим, что в метод (например, в размер шагов) не входит требуемое число итераций (или желаемая точность - одно через другое выражается). Таким образом, можно говорить об адаптивности метода. Отметим, что за это не приходится дополнительно платить логарифмическую плату [27]. Отметим также, что при р = 1 метод наихудшим (а при р = 0 наилучшим) способом (среди всех разумных вариаций градиентного метода) накапливает неточность в вычислении градиента. Это переносится и на негладкие задачи (см. далее).
20Насколько нам известно, для всех методов, которые используют только градиент и значение функции (или их стохастические аналоги) накопление шума методом со скоростью Ир6 с р € [0,1] - является общим местом.
21 Отметим, что при В = 0 не улучшаемые оценки, которые дает метод РОМ [11], были установлены Б. Т. Поляком [2] для ряда других многошаговых методов (метод тяжелого шарика, сопряженных гради-
(DGM) min{o(+ +SУ О (LE2eXp (-TiN$) + ^ + s)},
(FGM) min {О (+ + N6^, О (м2ехр (-Т2Ж + ^ + ^£ ) }.
Комбинируя эти два метода, можно непрерывно настраиваться (оптимально подбирая метод, регулируя р £ [0,1]) на шум (известного масштаба). В этой связи также полезно отметить (аналогичный факт имеет место и для покомпонентного варианта FGM [43]), что FGM есть специальная выпуклая комбинация прямого градиентного метода (PGM), оценки скорости сходимости которого совпадают с оценками DGM, и метода зеркального спуска/двойственных усреднений [21, 92] (по-видимому, здесь вместо зеркального спуска можно использовать и метод из работы [93]). Нельзя в этой связи не обратить внимание на то, что комбинация двух методов привела к новому методу, работающему лучше, чем каждый из методов по отдельности. Отметим здесь также недавнюю работу [94], в которой предлагается общий способ получения ускоренных (быстрых) методов.
Вся последующая часть п. 3 будет посвящена обсуждению этих результатов и их окрестностей.
Прежде всего, заметим, что дисперсию у первого аргумента минимума в (7) можно уменьшать в m раз, запрашивая на одном шаге реализацию стохастического градиента не один раз, а m раз, и заменяя стохастический градиент средним арифметическим [11, 31, 79] (в случае тяжелых хвостов у стохастических градиентов лучше пользоваться более робастными оценками, например, медианного типа [4]).22 Это имеет смысл делать, если слагаемое, отвечающее стохастичности, доминирует. Важно, что мы при этом не увеличиваем число итераций, и слагаемое Np5 остается прежним. Отметим, что число вызовов оракула при этом увеличивается, но тем не менее в некоторых ситуациях такой подход может оказаться оправданным. Такая игра используется23 в способе получения второго аргумента оценки (7). В этой связи оценку (7) правильнее переписать следующим образом (здесь N (е) - число обращений к (5, L, р)-оракулу, необходимых для достижения в среднем по функции точности , индекс 1 соответствует просто выпуклому, а индекс 2 сильно выпуклому случаю):
N (е) = max {о (Lf) (f2)},
*(«)—{о ((Lf'n 'О Ш} (8)
при (условия на допустимый уровень шума, при котором оценки (8) имеют такой же вид, с точностью до О (1), как если бы шума не было)
ентов). Отличие в том, что тогда оценки были установлены локально. Все приведенные в данной статье оценки - глобальные, т.е. не требуют оговорок о близости точки старта к решению, для гарантии нужной скорости сходимости. Заметим также, что техника установления локальной сходимости основана, как правило, на первом методе Ляпунова [2, 88], в то время как глобальной - на втором [2, 89]. При этом функцию Ляпунова можно искать по непрерывному аналогу итерационного процесса - системе дифференциальных уравнений [89]. Скажем, для обычного градиентного метода это будет система [1] (Коши, 1847): dx/dt = — Vf (х). Скорости сходимости у итерационного процесса и его непрерывного аналога могут отличаться. Скажем, непрерывный аналог метода Ньютона сходится за конечное время. Другой пример -метод зеркального спуска [4]. Недавно появилась работа, посвященная и непрерывному аналогу FGM [90], см. также [91].
22Этот прием в западной литературе часто называют «mini-batch» [11].
23Вместе с идеей рестартов [38, 43, 56, 84-87], распространяющей (ускоряющей) практически любой итерационный метод (желательно с явной оценкой необходимого числа итераций N (е) для достижения заданной точности е) на случай сильно выпуклого функционала. Нетривиально здесь то, что при довольно общих условиях при таком распространении сохраняется (и работает уже в условиях сильной выпуклости) свойство оптимальности исходного метода.
<£> <О(е (^)'+ 0 • * (в) <о(^ (Ь)'+ '). (9)
Как уже отмечалось, выписанные оценки (7) ((8), (9)) характеризуют скорость сходимости в среднем. Они, с одной стороны, не улучшаемы24 с точностью до мультипликативной константы (см. п. 2 и [4, 47]), а, с другой стороны, достигаются. Все это (неулучшаемость оценок) справедливо и при 5 = 0 и(или) И = 0. При этом в случае И = 0, ц = 0 необходимо считать, что требуемое число итераций для достижения точности удовлетворяет неравенству N (е) < п [4], в противном случае оценки улучшаемы - метод центров тяжести [4, 11], с оценкой числа итераций типа О (п 1п(В/е)), где |/(х)| < В. В терминах больших отклонений возникают оценки, аналогичные тем, которые были приведены в п. 2, см. [87].
Отмеченные результаты переносятся и на прокс-структуры отличные от евклидовой [87]. При этом рассмотрение какой-либо другой д-нормы ( Iя-нормы) в прямом пространстве ( ц > 1), отличной от евклидовой, в сильно выпуклом случае (когда минимум достигается на втором выражении в (7)), как правило, не имеет смысла. Связано это с тем, что квадрат евклидовой асферичности -нормы, который может возникать в оценках числа обусловленности прокс-функции в -норме (это число, в свою очередь, оценивает увеличение числа итераций метода при переходе от евклидовой норме к -норме), больше либо равен 1. Равенство достигается на евклидовой норме. Скажем, для 1-нормы эта асферичность оценивается снизу размерностью пространства [14, 38]. Другими словами, действительно, можно выбирать в сильно выпуклом случае -норму (отличную от евклидовой) и получать оценки на число итераций вида (см. (7), (8) и п. 2)
о((Ь")*-(¥)) - ^
ц ) Vе )) х,уеяа \\у — х\\1
где Ь и ц считаются относительно д-нормы, а Л2 - брэгмановское «расстояние» от точки старта до решения (см. замечание 1). Однако смысла, как правило, в этом нет, поскольку " > 1, а число обусловленности % = Ь/ц не меньше, чем в случае выбора 2-нормы. Например [38], для функции \\ х\ 22 = х1 + ... + х2 в евклидовой норме число обусловленности % = 1, а в 1-норме % = п. Тем не менее выгода от использования не евклидовой прокс-структуры в сильно выпуклом случае может быть, если рассматривать задачи композитной оптимизации, в которых сильная выпуклость приходит от композитного слагаемого (см. замечание 6). Так, в приложениях, описанных в работах [55, 59], в качестве композитного слагаемого возникает сильно выпуклая в 1-норме энтропийная функция. Отметим, что энтропию при этом нельзя использовать в качестве прокс-функции. Другими словами, в данной ситуации нельзя использовать КЬ-прокс-структуру (см. замечание 1), поскольку для нее " = те. Нужно брать (и это можно сделать, см. замечание 2) другую прокс-функцию, соответствующую 1-норме, которая обеспечивает (по-видимому, оптимально возможную) оценку " = О (1пп).
Заметим также, что обычный метод РОМ в не стохастическом сильно выпуклом случае для задач безусловной оптимизации, в действительности, дает оценку (следует сравнить с (8)) [10]: ^
О|'</- 1п ^ (х0) — /(х*)'
(Л ■» ())
Поскольку V / (х*) = 0, то / (х0) — / (х*) < ЬК2/2. Если рассматривается задача условной оптимизации (на выпуклом множестве ( С Мга), то, вообще говоря, V/ (х*) = 0, следовательно, нельзя утверждать, что / (х0) — / (х*) < ЬК2/2. В [79, 87] предлагается обобщение
24В нижнюю оценку во втором выражении под знаком минимума при экспоненте вместо ЬН2 входит цВ2, а константа Т = 1 в (7). Впрочем, получить вместо фактора ЬН2 фактор ^Н2 можно аккуратно проанализировав оценки, даваемые с помощью техники рестартов (см., например, [21, 87]).
классического FGM для класса гладких сильно выпуклых задач, которое фактически позволяет вместо f (х0) — f (х*) писать нижнюю оценку pR2/2 < f (х0) — f (х*) в том числе для задач условной оптимизации. Заметим, что это же наблюдение справедливо для описываемых в данной работе методов (мы не стали писать pR2 вместо LR2 в (7) и далее для сохранения непрерывности выписанных оценок по р, т.е. чтобы делать меньше оговорок о переключениях с сильно выпуклого случая на выпуклый при малых значениях р).
Замечание 4. Отметим, что пока нам не известно (для произвольной прокс-структуры, отличной от евклидовой) строгое обоснование оценок (7) ((8), (9)) с вероятностями больших отклонений для случая не ограниченного множества Q. В известном нам способе получения оценок вероятностей больших уклонений (см., например, [79, 87]), к сожалению, явно используется предположение об ограниченности множества Q. С другой стороны, для используемых в статье неускоренных методов (кроме Франк-Вульфа и кроме PGM в варианте [21], для PGM в варианте [79] все хорошо) оценки на скорость сходимости обычно получаются в следующем виде [14, 27, 60, 61, 79, 87, 92]:
N
• (/ (ж к) - f (ж*)) < V (х*,хо) - V (ж*, xN+i) +
к=0
N
+ Е Хк (G (Хк, Ск) - V/ (Жк) , х* - Хк) +
к=0
+ ДN ({Лк}£=0 , {||С (Хк, 6) - V / (Хк)||2}^=0 , { Хк} > 0
или, в случае ускоренных методов (к которым относится РОМ и его производные), в похожем, но немного более громоздком (с большим числом параметров и оценивающих последовательностей). Опуская в правой части V(х*,хN+1), далее оптимально подбирают параметры метода {Лк}, получают оценку скорости сходимости метода по функции в среднем. Если считать, что ||х* — Хк|| = О (Я), то отсюда также получают оценки скорости сходимости и с вероятностями больших уклонений (используется обобщение неравенства Азума-Хефдинга для последовательности мартингал-разностей [24, 79]). В детерминированном случае соотношение ||х* — Хк|| = 0 (Я) имеет место (всегда в евклидовом случае, и в зависимости от метода в общем случае) ввиду сходимости метода и того, что параметры оптимально подбираются так, что слагаемые V (х*,х0) и ДN одного порядка (отличаются обычно не более чем в 10 раз):
1 _ _ 2 ||хк — Х* || < V (х*,хк) < V (х*,хо) + Дк-1 < V (х*,хо) + ДN.
В случае стохастического оракула, к сожалению, такие рассуждения уже не проходят. Можно, однако, из таких соображений оценить ЕХк [V (х*,хк)]. Дальше угадывается хвост распределения случайной величины ||х* — Хк|| исходя из выписанного выше соотношения, которое стоит понимать как равенство, т.е. хвост распределения ищется как неподвижная точка (а точнее ее оценка). Задавшись определенным доверительным уровнем а > 0 можно оценить «эффективный» Я: с вероятностью > 1 — а имеют место неравенства V (х*,Хк) < Я, к = 0,...,Ж. В частности, для субгауссовских стохастических градиентов Я = О (V (х*, хо) 1п2 (Ж/а)), а для равномерно ограниченных - Я = О (V (х*, хо) 1п (Ж/а)). Детали можно посмотреть в доказательстве теоремы 4 работы [60] (см. также [43]). Примечательно, что все эти рассуждения в случае не ограниченного множества не требуют равномерной ограниченности констант Липшица (функции, градиента) на всем [92]. Похожим образом можно получать оценки вероятностей больших уклонений в сильно выпуклом случае в онлайн контексте (см. конец этого пункта). К сожалению, не все методы обладают такими же свойствами. Например, РОМ [21] (в случае детерминированного оракула и не евклидовой прокс-структуры [43]) гарантирует лишь, что ||х* — Хк|| = О (Я),
к = 0, ...,N, если [21] (прокс-диаметр здесь не нужен):
R = max (Уж — х* || : х е Q, f (х) </(хо)} .
Хотя PGM и является релаксационным методом ( f (х^+г) < f (хк)), возможно, что R = те. Требование R < те (коэрцитивности) не является сильно обременительным. Его можно обеспечивать за счет регуляризации задачи [97].
Полезно также иметь в виду, что за счет допускаемой неточности оракула, можно погрузить задачу с гельдеровым градиентом, т.е. удовлетворяющим неравенству || V f (х) — V f (у)||* < Lv ||ж -у!, при некотором v е [0,1] (в том числе и негладкую задачу с ограниченной нормой разности субградиентов при v = 0) в класс гладких задач с неточным оракулом, характеризующимся точностью 5 и [78]
L = Lv
Lv (1 - и)
1 + V
. (10)
25(1 + v)
Заметим в этой связи, что если в предположении 1 считать
L 2
Щ [f (У, 01 - Щ [F (х, 01 - (Es [G (х, 01 ,У - х) < L \\у-х\\2 + М \\у - ж|| + S,
то вместо D в (7) стоит писать М2 + D [95, 96].
Таким образом, например, можно получить оценки (2), (4) из оценки (7). В частности, метод двойственных усреднений и зеркальный спуск (см. п. 2) можно получить из PGM в варианте [79] с неточным оракулом и L = М2/ (25). Но наряду с введенной нами искусственной неточностью оракула, можно допустить, что имеется также реальная неточность оракула. Несложно привести оценки (на базе формулы (7) и ((8), (9))), сочетающие наличие в задаче искусственной и реальной неточности [61].
Как мы предполагали выше, множество Q должно быть достаточно простой структуры, чтобы на него можно было эффективно проектироваться. Однако в приложениях часто возникают задачи условной минимизации [2], в которых, например, есть ограничения вида д (ж) < 0, где д(х) - выпуклые функции [15]. «Зашивать» эти ограничения в Q, как правило, не представляется возможным ввиду вышесказанного требования о легкости проектирования. Тем не менее на основе описанного выше можно строить (за дополнительную логарифмическую плату) двухуровневые методы (наверное, лучше говорить «методы уровней», чтобы не было путаницы с многоуровневой оптимизацией, см. пример 5) условной оптимизации [10, 96]. При этом на каждом шаге такого метода потребуется проектироваться на пересечение множества Q с некоторым полиэдром, вообще говоря, зависящим от номера шага. Последнее обстоятельство в общем случае сужает класс задач, к которому применимы такие многоуровневые методы до класса задач, к которым применимы методы внутренней точки [10]. В частности, возникает довольно обременительное условие на размер пространства, в котором проходит оптимизация: n ~ 104 — 105. Все это не удивительно, поскольку имеются нижние оценки [4] (рассматриваются аффинные ограничения в виде равенств, аналогично могут быть рассмотрены и неравенства), показывающие, что в общем случае для нахождения такого ж £ Мга, что \\Ах — bЦ2 < £ потребуется не меньше, чем ^ (VL~xRx/e) операций типа умножения Ах (Lx = amax (А) = Amax (АтА) - максимальное
собственное значение матрицы АТА, Rx = \\х*\\2 = ||(АТА) АТЬII ). Аналогичное можно
сказать и про седловые задачи: для отыскания такой пары ( х, ), что (левая часть этого неравенства всегда неотрицательная)
max ут Ах — min утАх < е, yesn(iy xesn(\)y
потребуется не меньше, чем ЩЛ/е ) (Л - максимальный по модулю элемент матрицы А) операций типа умножения Ах и утА. Заметим, что обе выписанные нижние оценки справедливы при условии, что число итераций (операций типа умножения Ах) к < n. Как
1-V
следствие, в общем случае даже для гладкой детерминированной сильно выпуклой постановки при наличии всего лишь аффинных ограничений Ах = b нельзя надеяться на быстрое решение. Тем не менее некоторые дополнительные предположения в ряде случаев позволяют ускорить решение таких задач (см., например, [55, 97]).
Замечание 5 (см. также [92]). Задача поиска такого х*, что Ах* = b сводится к задаче выпуклой гладкой оптимизации
f (х) = У Ах - 6||2 ^ min.
2 X
Нижняя оценка для скорости решения такой задачи [4] (см. также формулу (7) с 5 = D = 0, р = 1) имеет вид: f (хк) > ^ (LXR^/k2). Откуда следует, что только при k > Q (y/LXRX/e) можно гарантировать выполнение неравенства f (хк) — е2, т.е. ||Ах& — &12 — Заметим, что эта нижняя оценка для специальных матриц может быть улучшена. Причем речь идет не о недавних результатах D. Spielman^ [98] (премия Неванлины 2010 года), а о более простой ситуации. Вернемся к задаче поиска вектора PageRank (примеры 1, 2), которую мы перепишем как
Ах = (Г.— .?)х = ( 0 )
где I— единичная матрица. По теореме Фробениуса-Перрона [99] решение такой системы с неразложимой матрицей Р единственно и положительно х > 0. Сведем решение этой системы уравнений к вырожденной задаче выпуклой оптимизации:
12
- ||х|2 ^ шп .
2 Ax=b
Построим двойственную к ней задачу [9]:
1 2 f 1 2 min ö 1|ж|12 = min max < - ||х||2 + (b - Ах, A) f =
Ах=Ъ 2 X х [2
= maxmin < 1 ||х||2 + ( b - Ах, A) 1 = таЛ (b, A) - 1 ||АТА||2 1
х х 2 2 х 2 2
Поскольку система Ах = b совместна, то по теореме Фредгольма не существует такого Л, что АтЛ = 0 и (Ь, Л) > 0, следовательно, двойственная задача имеет конечное решение (т.е. существует ограниченное решение двойственно задачи Л*). Зная решение Л* двойственной задачи
(Ь, Л) — - ||АТЛ||2 ^ max, 2 Л
можно восстановить решение прямой задачи (из условия оптимальности по х): х (Л) = АТЛ. Однако важно здесь то, что FGM [10] для этой двойственной задачи дает возможность попутно получать следующую оценку на норму этого градиента [92]:
IIА х^ — 6||2 = ,
где хк есть известная выпуклая комбинация
{х ( Лг)}кг=1 , Ly = ffmax (АТ) = ffmax (А) , Ry = 11Л* 12 ,
где можно считать, что Л* - решение двойственной задачи с наименьшей евклидовой нормой. Кажется, что это противоречит нижней оценке ||Ахк — Ш2 > П (y/LXRx/k). Однако важно напомнить [4], что эта нижняя оценка установлена для всех k < п (п - размерность вектора х), и она будет улучшена в результате описанной процедуры, только если дополнительно предположить, что матрица А удовлетворяет следующему условию: Ly Ry < пл/LXR x, что сужает класс, на котором была получена нижняя оценка
^ (л/LxRx/k). В типичных ситуациях можно ожидать, что Ry ^ Rx (Rx < л/2). Это обстоятельство мешает выполнению требуемого условия.
Пример 4. Если имеется дополнительная информация о структуре седловой задачи, то можно её использовать для ускорения [14, 100]. Более того, многие современные постановки задач (негладкой) выпуклой оптимизации (в частности, связанные с compressed sensing и 1\-оптимизацией) в пространствах огромных размеров специально стараются представить сед-ловым образом с целью получения эффективного решения (см. работы А. С. Немировского, А. Б. Юдицкого [31, 101, 102]). Далее будет разобран один простой пример (немного обобщающий результаты [78, 79], см. также [92]), демонстрирующий возможности градиентных методов с неточным оракулом в седловом контексте. Рассматривается седловая задача (х е Rn,y е Мт):
f (х) = max {G (у) + ( Ву,х)} ^ min , J ( ) 1Ы12<я,1 (У) ( ^ )} INb«^
где функция G (у) - сильно вогнутая с константой к относительно 2-нормы и константой Липшица градиента Lg (также в 2-норме). Тогда функция f (х) будет гладкой, с константой Липшица градиента в 2-норме Lf = umax (В) /к. Казалось бы, что мы можем решить
задачу минимизации функции f (х) за О ^Y^mäxCB^RXZ^KfiÖj итераций, где е - желаемая точность по функции. Но это возможно, только если мы можем абсолютно точно находить Vf (х) = Ву* (х), где у* (х) - решение вспомогательной задачи максимизации по у при заданном х. В действительности, мы можем решать эту задачу (при различных х) лишь приближенно. Если мы решаем вспомогательную задачу быстрым градиентным методом [14] с точностью 8/2 (на это потребуется О {^Lg/к ln (LgR^итераций), то выдаваемая по формуле V f (х) = Вy$/X (х) аппроксимация градиента будет (5, 2Lf, 0)-оракулом [78, 79]. Выбирая ö = О ^е/ (LfRX^j (см. формулу (9) при р = 1), получим после
^ ( Lg(t max (В)RX LfLaRXA
к2е
итераций (на итерациях производится умножение матрицы В на вектор/строчку и вычисление градиента G (у)) е-решение задачи минимизации /(х). Отметим, что если не использовать сильную вогнутость функции G (у), то для получения пары (хм,Vn), удовлетворяющей неравенству
max {G (у) + (Ву,хм)} - min {G (ум) + (ВУм,x)} < £, \\y\\2<Ry \\x\\2<Rx
потребуется Q (max{LGRy, amax (В) RxRy} /е) итераций (см., например, [4, 9, 11]).
Интересно отдельно разобрать ситуацию, когда вместо множества ||у||2 < Ry фигурирует симплекс Sm (Ry), G (у) = — Т=1 У к ln (Ук/Ry) - сильно вогнутая в 1-норме с константой к = 1 функция и Rx = те (энтропийно-линейное программирование [97]). В этом случае мы не можем обеспечить даже равномерной ограниченности градиента функции G (у). Тем не менее также можно рассчитывать [97] на зависимость О (е-1/2 ln (£-1)) числа итераций от точности е для критерия:
max min {G (у) + (Ву, х)} — min {G (ум) + (Вум, х)} < е.
yesm(Ry) x x
При этом вместо энтропии в качестве функции G (у) можно брать любую сильно вогнутую в 1-норме функцию, для которой решение задачи максимизации (вычисление f (х) с точностью е) может быть осуществлено за О (ln (£-1)). В примере с энтропией, для f (х) есть просто явная формула. Точнее, важно то, что есть явная формула25 для оптимального
25Сложность формулы оценивается числом ненулевых элементов в матрице В. При этом считаем, что градиент С (у) рассчитывается быстрее, чем занимает умножение матрицы В на столбец/строку.
решения у* (ж).26 К сожалению, имеется проблема вхождения в оценку необходимого числа итераций неизвестного размера решения ж* задачи минимизации / (ж). Эта проблема решаема [97]. В частности, в случае, когда С (у) имеет ограниченную вариацию на множестве 8т (Щ) (для энтропии эта вариация равна Ку 1пт), можно предложить метод, с оценкой числа итераций О(е-11п (£-1)). В эту оценку уже никак не входит неизвестный размер решения ж*, который может оказаться большим [97]. Далее мы еще вернемся к вопросу о том, как действовать, в случае, когда тот или иной параметр задачи (в данном случае размер решения) априорно не известен.
Отметим, что сильной вогнутости можно добиться и искусственно [77], глава 3 [79], [92, 97]. Подход отмеченных работ приводит к оптимальным для такого класса задач оценкам (с точностью до логарифмического фактора27 1п (£-1)) и позволяет, на самом деле, контролировать точность решения одновременно по ж и по без использования прямо-двойственности в классическом варианте (см. ниже), что может быть полезным в определенных ситуациях [55]. Здесь под оптимальными методами мы имеем в виду методы с проксимальным оракулом. Однако в ряде задач оптимизации огромных размеров оказывается эффективнее использовать линейный минимизационный оракул [103], пришедший из метода Франк-Вульфа (см., например, п. 3.3 [11]). Грубо говоря, суть подхода в том, что сначала вычисляется не / (ж) согласно модели, описанной в примере 4, а в седловом представлении задачи меняется порядок взятия максимума и минимума и вычисляется с помощью линейного минимизационного оракула сначала минимум по ж. Причем это не обязательно делать точно (см. п. 5 § 1 главы 5 [2]). Получающаяся задача максимизации по у уже не будет гладкой, поэтому с учетом сильной вогнутости С (у) здесь молено рассчитывать только на зависимость числа итераций от желаемой точности О (£-1). Получается вроде как хуже, чем раньше. Но тут надо учитывать, как входят размерности п и т, которые могут быть огромными в приложениях, см. п. 3.3 [11], [59, 60, 61, 103]. Удивительным образом, в сложность внутренней задачи при таком подходе (минимизации по ж) при определенной структуре (как правило, связанной с ограничениями симплексного типа и матрицей В, имеющей комбинаторую [103] или сетевую природу [60]) может не входить размерность вектора ж (т.е. п), что позволяет решать задачи колоссальных размеров по п.
Пример 4 был приведен, прежде всего, потому, что он поясняет одно интересное и достаточно современное направление в численных методах выпуклой оптимизации (см., например, [61, 62, 92, 96, 101, 102]). Грубо говоря, это направление можно охарактеризовать, как попытку ввести оптимальную «алгебру» над алгоритмами выпуклой оптимизации. А именно, если требуется оптимизировать функционал (искать седловую точку), который обладает разными свойствами (гладкости, сильной выпуклости, быстроты вычислимости частных производных и т.п.) по разным группам переменных (такие задачи часто в последнее время возникают в разных приложениях, в частности, в транспортных и экономических [58, 60, 61, 62, 104-107]) и(или) сам представляет собой некоторую суперпозицию других функционалов (с разными свойствами; наиболее популярен случай суммы двух функционалов [9, 14, 43, 55, 59, 63, 96, 101, 102]), то хотелось бы получить такую декомпозицию исходной задачи, чтобы правильное сочетание (правильное чередование с правильными частотами) оптимальных методов для получившихся отдельных подзадач позволило бы получить
26Отметим, что если С (у) - сепарабельная вогнутая функция (но не обязательно сильно вогнутая) и вместо ограничения ||у||2 < Яу задано сепарабельное ограничение (например, < Яу), то е-приближенный поиск у* (х) можно осуществить за О (1п (е-1)) умножений матрицы В на столбец, решая соответствующие одномерные задачи. Не много более громоздкие рассуждения [55] позволяют и при наличии ограничения |Ы|2 < К-у осуществить е-приближенный поиск у* (х) также за О (1п (е-1)) умножений матрицы В на столбец. К сожалению, отсутствие сильной вогнутости не позволяет использовать в том же виде концепцию (6, Ь, ^)-оракула для внешней задачи, однако можно при этом использовать концепцию ¿-субградиента для внешней задачи [2]. Это приводит лишь к оценкам О (е-2), которые уже не будут оптимальными (улучшаемы до О (е-1)).
27Ниже мы обсудим, как можно избавиться от этого логарифмического фактора для задач с явной формулой для у* (х), например, для задач энтропийно-линейного программирования [55, 97].
оптимальный метод для исходной задачи. В ряде интересных случаев такое оказывается возможным (с оговоркой, что оптимальность понимается с точностью до логарифмического фактора). По-видимому, новым в этом направлении является наблюдение, отмеченное в примере 4 (см. также [61, 62, 92]), что при определенных условиях идея оптимального сочетания различных методов для решения одной сложной по структуре задачи оптимизации, может быть реализована на основе концепции неточного оракула.
Другой способ борьбы с дополнительными ограничениями типа равенств или неравенств в задачах выпуклой оптимизации базируется на прямо-двойственной структуре [27] всех обсуждаемых методов (поскольку они строят модель функции [14]). Это означает, что ограничения вносятся во вспомогательную задачу оптимизации, возникающую на каждом шаге метода и отвечающую за проектирование. В результате на каждом шаге решается более сложная задача. Тем не менее если такие вспомогательные задачи можно эффективно решать (что в общем случае также наталкивается на сложности, описанные ранее) с помощью метода множителей Лагранжа (найдя и сами множители), или когда у исходной задачи есть модель (см. пример 4 и [18, 55, 59-62, 77, 92, 97, 110]), то тогда описанные методы позволяют не только эффективно решать исходную задачу оптимизации с ограничениями, но и находить попутно (по явно выписываемым формулам) решение двойственной задачи.
Основная идея работы [27] состоит в том (здесь мы ограничимся рассмотрением детерминированного случая с точным оракулом, выдающим градиент; в стохастическом случае с неточным оракулом см., например, [55] и лемму 7.7 [79]), что метод генерирует в прямом пространстве на итерациях такую последовательность {хк}28, что зазор двойственности
(duality gap) А ( Л, х; N) удовлетворяет условию
-
<е,
\ 1 N 1
А ( Л, х; N) = max { — V" Лк (V/ (хк) ,хк — и) >
ueQ {SNt0 J
где Sn = Е N=o Лк, Лк > 0, поэтому
£Лк хк)
f ( у ] Лк хк] — min f (х) < е.
xeQ
Это следует из выкладки
( 1М \ 1М 1М 1' (ЕХкжч - ?(и) - •(жк) - $(и)) - (жк) ,жк -и"> ■
\ к=0 / к=0 к=0
Аналогичную точность (для двойственной задачи) дает следующая аппроксимация решения двойственной задачи:
1 М У = ^ХкУк ■
1 к=0
Это сразу следует из того, что зазор двойственности оценивает сверху разность между получившимися значениями целевой функции в прямой задаче и двойственной [27], которую мы будем называть двойственным зазором. Эта разность всегда неотрицательна, и на точных решениях прямой и двойственной задачи (и только на них) равна нулю. Заметим, что контроль онлайн-зазора двойственности
А (Л,х;N) = max ^
ueQ 1
- N
{ У~] Лк (Vfк (хк) ,хк — и) >
{SNt=0 J
28В двойственном пространстве при этом генерируется последовательность соответствующих множителей Лагранжа {ук} [27] или, в случае наличия модели у исходной прямой задачи (см. пример 4), последовательность {ук} генерируется по явным или расчетным формулам {ук = у (ж&)} согласно этой модели [18, 55, 59, 92, 110]. Такой подход также позволяет убрать логарифмический фактор в задачах энтропийно-линейного программирования [55, 97] и аналогичных задачах, см. п. 5.2 [110] и [43, 55, 92].
позволяет в случае, когда удается выбрать Ак = 1, получать оценки регрета (псевдоре-грета в стохастическом случае) в задачах онлайн-оптимизации (см. [32, 45] и конец этого пункта). К сожалению, ограничение Ак = 1 существенно сужает класс методов. Скажем, для рассматриваемых в этом пункте быстрых градиентных методов Ak ~ кр. Кроме того, даже если в онлайн-постановке допустить взвешивание с различными весами, все равно требуется, чтобы способ получения оценки на зазор двойственности допускал бы обобщение на онлайн-постановки. Быстрый градиентный метод, например, этого не допускает, что несложно усмотреть из оценок работы [21].
Описанная выше конструкция, основанная на оценке зазора двойственности, работает в случае ограниченного множества Q. В случае неограниченного Q (это типичная ситуация, когда необходимо решать двойственную задачу, по решению которой требуется восстанавливать решение прямой задачи) можно искусственно компактифицировать Q [55, 60, 61,
110]. Однако в большинстве случаев такая компактификация не позволяет очевидным образом оценивать настоящий (не обрезанный) двойственный зазор в исходной задаче, что часто представляется важным ввиду наличия простых явных формул для этого настоящего зазора, и возможности использования контроля зазора двойственности в качестве критерия останова метода. Несмотря на отмеченную теоретическую проблему, на практике проблема оказывается решаемой [55, 59, 60].
Более общий способ оценки разности между получившимися значениями целевых функций в прямой задаче и двойственной базируется на контроле сертификата точности [110,
111] (accuracy certificate), в который наряду с градиентами функционала входят градиенты нарушенных ограничений или в общем случае вектора нормалей к гиперплоскостям, отделяющим хк от множества Q (в ряде постановок «градиенты» стоит заменить на «субградиенты»). Векторы двойственных множителей формируются из соответствующих (сертификату точности) взвешенных сумм векторов нормалей отделяющих гиперплоскостей. Собственно, такая интерпретация двойственных множителей следует из способа обоснования принципа множителей Лагранжа на основе следствия теоремы Хана-Банаха (теоремы об отделимости) [112]. Причем в работе [111] за счет слейтеровской релаксации ограничений (допущения возможности нарушения ограничений на е [9, 97]) получаются оценки скорости сходимости, не зависящие от размера двойственного решения, который может быть большим.
Во многих (транспортно-) экономических приложениях при поиске равновесных конфигураций требуется решать пару задач (прямую и двойственную), см., например, [58-62, 97, 104-109]. Причем интересны решения обеих задач (решения этих задач имеют содержательную интерпретацию и используются при принятии решений/управлении). Если у этой пары задач, на которую можно смотреть, как на одну седловую задачу, есть определенная структура (проявляющаяся, например, в сильной выпуклости функционала по части переменных, наличии эффективно вычислимого линейного минимизационного оракула и т.п.), то описанный выше формализм позволяет развить идею примера 4 таким образом, чтобы одновременно (без дополнительных затрат) получать решения обеих задач. Даже в случае огромного размера одной из этих задач можно надеяться (при эффективном линейном минимизационном оракуле), что эта размерность не войдет в сложность поиска решения прямой и двойственной задачи [59, 60, 103].
В действительности, выбранный в данной статье класс проекционных методов с построением модели функции далеко не единственный возможный способ строить прямодвой-ственные методы. Скажем, уже упоминавшиеся методы условного градиента также являются прямодвойственными [17, 18]. Еще более удивительным может показаться, что пря-модвойственная интерпретация есть, например, у метода эллипсоидов [110]. Более того, в ряде ситуаций мы можем за линейное время (с геометрической скоростью сходимости) находить одновременно решение прямой и двойственной задачи. Причем речь идет не только о конструкциях типа [74], базирующихся на принципе (см. также замечание 6): сопряженная функция к выпуклой функции с липшицевым градиентом - сильно выпуклая, и обратно,
сопряженная к сильно выпуклой функции - выпуклая функция с липшицевым градиентом; но и о более общем контексте [43, 55, 74, 92, 110].
Возвращаясь к сказанному выше в связи с оценками (7) - (10) интересно заметить, что если множество Q С Мга есть шар В™ (К) радиуса К в д-норме29, то нижние оценки (для случая И = 5 = 0) на точность (по функции), которую можно получить после N <п итераций, имеют вид [113] (считаем, что30 ||У/(х) — V / (у)|| , < \\х — у\\д, 1/<? + 1/</ = 1, (0,1]):
1 Ь„К1+и
ГV
-А ^ L1R1L ) (2 <q< те),
Vmin {q, ln n}v Nv+(v+1)/ч J v < '
^ ( 1 LvR1+v \ ,
"U (N + 1) N^<y+W) (1 <9 < 2)-
Приведенный результат хорошо соответствует тому, что написано в замечании 2 (см. также [114]).
Для q = те иг/ = 1 (гладкий случай) приведенная оценка с точностью до логарифмического фактора будет иметь вид Q (LR2/N). Эта оценка достигается, например, на методе условного градиента Франк-Вульфа [17, 115]31. Исходя из только что написанного и тезиса о неулучшаемости оценок (7) ((8), (9)) (при D = 5 = у = 0, р = 1), может возникнуть ощущение противоречия. Это ощущение дополнительно усиливается примером 2 из п. 2. Действительно, исходя из этого примера, может сложиться ощущение, что проблема выбора прокс-структуры в задаче не очень актуальна, поскольку можно исходить просто из самой нормы. И это действительно так, если мы ограничиваемся не ускоренными градиентными методами (PGM, метод Франк-Вульфа), которые сходятся как 0(LqR^/N) (здесь Rq = R - диаметр множества Q, посчитанный в g-норме, в нашем случае q = те). Если же мы хотим ускориться и достичь оптимальной оценки О (LR2/N2), то уже необходимо существенно использовать прокс-функцию d (х) > 0 со свойством сильной выпуклости относительно выбранной нормы и с константой сильной выпуклости a > 1 [14]. Скажем (в связи с примером 2), квадрат 1-нормы не есть сильно выпуклая функция относительно 1-нормы, т.е. d (х) = ||х|| 1 не может быть прокс-функцией при выборе 1-нормы для симплекса. В классе удовлетворяющих условию 1-сильной выпуклости прокс-функций (относительно
выбранной нормы) подбирается такая, которая минимизирует R2 := maxd (х). Именно это
xeQ
R2 входит в оценку FGM О (LR2/N2). И как уже отмечалось (см. п. 2), для Q = B^ (R)
Если о выпуклом замкнутом множестве известно только то, что оно содержит (К), то все сказанное далее также остается в силе.
30В случае достаточной гладкости функции f (х) можно выписать следующее представление для константы Липшица градиента (верхний индекс д соответствует выбору нормы в прямом пространстве):
Ьд = тах (к, V2f(х) . В частности, Ь1 < Ь2 < пЬ1, Ь2 < < пЬ2. Эти формулы вместе со <1
сказанным ранее относительно того, как может меняться М - обычная константа Липшица / (х) - при изменении нормы в прямом пространстве, поясняют, почему в «устойчивые сочетания» эти константы входят таким образом: М2Н2/е2, ЬН2/е. Если ввести «физические размерности», скажем, считать, что f (х) - это рубли (руб), а х - это килограммы (кг), то е [ руб ], Н [ кг ], М [ руб/кг ], Ь [ руб/кг2 ]. Поскольку число итераций N должно быть безразмерной величиной, то возникновение агрегатов М2К2/е2, ЬК2/е вполне закономерно. Аналогичные рассуждения можно провести и для оценок в сильно выпуклом случае. Все это приводит к довольно интересным следствиям [92]. Например, что шаг метода в негладком случае к ~ е/М2, в гладком случае к определяется из соотношения вида (Ш (),]¥() - какие-то функции) Ш (^г = 1. В стохастическом случае (вместо градиента получаем стохастический градиент с
дисперсией а2) из \¥ (к,НЬ,к^ = 1.
31Отметим также, что этот метод допускает обобщение на случай неточного оракула, и неулучшаемость оценок может быть проинтерпретирована с точки зрения сохранения свойства разреженности решения [17]. Это неудивительно, поскольку аналогичный метод (с линейным минимизационным оракулом, см. пример 4) с аналогичными оценками скорости можно получить (см. п. 5.5.1 [9], [57]) из композитного варианта РОМ в концепции неточного оракула (суть метода в том, что в композитном варианте РОМ на каждой итерации решается задача, в которой коэффициент при прокс-слагаемом равен нулю, т.е. оно просто отсутствует).
имеет место следующая оценка на прокс-диаметр В2 := шах^ (ж) = В20 (п). Отсюда, с учетом того, что N — п, получаем, что оценка О [ЬВ2/Ж) и оценка О [ЬВ2п/N2), приводят, в общем-то, к одному результату, но в случае использования РОМ требуется дополнительно искать оптимальную прокс-структуру. Только в таком случае будет совпадение результатов. Более того, также как и в замечании 2, здесь хорошо видно, что при ц > 2 можно ограничиться рассмотрением только евклидовой прокс-структуры для РОМ и евклидовой нормы для метода Франк-Вульфа. В частности, для Q = ВТ (В), действуя так, мы получим для РОМ оценку О (Ь2В2п/Ж2) вместо ранее полученной оценки О В2п/Ж2), соответствующей при N — п неулучшаемой оценке О(Ь^В2/Ж) (здесь мы проставили верхние индексы у Ь, поскольку они различаются). Дальше можно написать все то же по поводу неулучшаемости оценок, что и в конце замечания 2.
Отметим также, что параметры В и р могут быть не известны априорно или процедуры их оценивания приводят к слишком (соответственно) завышенным и заниженным результатам. Это может быть проблемой, поскольку в ряде случаев знание этих и других параметров требуется методу для расчета величин шагов и условий остановки. Из этой ситуации можно выйти за логарифмическое (по этим параметрам) число рестартов метода. Стартуя, скажем, с В = 1 и делая число шагов, вычисленное из оценки скорости сходимости при выбранном В, мы проверяем, выполняется ли для вектора, выдаваемого алгоритмом, условие е-близости по функции (при условии, что мы можем сделать такую проверку). Если условие е-близости не выполняется, то полагаем В := 2В и т.д. Все эти перезапуски увеличат общее число обращений к оракулу лишь в О (1) раз [14, 31, 38]32. Аналогичное можно сказать про33 Ь, М, р и И. Однако, если убрать стохастичность, тогда Ь, М можно не только эффективнее адаптивно подбирать (аналогично правилу Армихо [16] в независимости от того, можем ли мы сделать проверку условия -близости значения функции в текущей точке к оптимальному) по ходу самих итераций (увеличив в среднем число обращений к оракулу не более чем в 4 раза), но и в некотором смысле оптимально самонастраиваться (используя формулу (10)) на гладкость функционала на текущем участке пребывания метода [116]. Это означает, что в детерминированном случае без учета сильной выпуклости функционала существует универсальный метод, работающий по оценкам (8) с Ь, рассчитанной по формуле (10) (в которой 5 берется из (9)), и оптимальным в смысле скорости сходимости выбором параметра V £ [0,1]. Причем выбор V осуществляется не нами заранее исходя из знания всех констант и минимизации выписанных оценок, а самим алгоритмом (здесь выбрано р = 1):
N (е) = inf ' 2 2 LvR Х
^2 3i2r^LvR1+- ^
Это соответствует (с точностью до логарифмического фактора) нижним оценкам [110], выписанным выше для случая ц £ [1, 2]. Отметим, что здесь при определении В используется соответствующая прокс-функция, см. замечание 2. К сожалению, пока не очень понятно,
32В свою очередь можно поиграть и на этом О (1), стараясь его минимизировать. Для этого шаг, который мы для простоты положили равным 2, подбирают оптимально исходя из того, с каким показателем степени входит неизвестный (прогоняемый) параметр в оценку числа итераций [56, 97].
33Впрочем, в детерминированных постановках мы можем явно наблюдать за последовательностью выдаваемых оракулом субградиентов и отслеживать условие на норму субградиентов. Как только наше предположение нарушилось (при этом мы не успели сделать предписанное текущему М число шагов), мы увеличиваем М в два раза и перезапускаем весь процесс с новым значением М. Число таких перезапусков будет не более чем логарифмическим от истинного значения М. Все эти рассуждения с небольшими оговорками (типа равномерной п.н. ограниченности стохастического субградиента) переносятся и на стохастические постановки, в которых наблюдается стохастический субградиент. Для определенного класса задач, в которые неизвестные параметры входят только в критерий останова, но не в сам метод (к таким задачам, например, относится задача поиска равновесия в модели Бэкмнана методом Франк-Вульфа и неизвестной константе Ь) можно обходиться и без перезапусков [60]. Заметим также, что у ряда популярных методов (например, метода зеркального спуска) есть варианты, в которые входит не оценка супремума нормы субградиента (или градиента), а норма субградиента на текущей итерации, которая известна [9, 27, 60].
можно ли что-то похожее сделать с параметром р и с введенным нами в начале этого пункта параметром метода р £ [0,1] и можно ли идеи универсальности (самонастраиваемо-сти) распространить на задачи стохастической оптимизации. Обзор других работ на тему самонастройки алгоритмов в гладком детерминированном случае имеется в [20].
Приведенную оценку можно обобщить, если дополнительно известно, что функция ( ж) р-сильно выпукла. Можно дополнительно к искусственно введенной игре на неточности оракула допустить, что имеет место и настоящая неточность. В этом случае также можно выписать соответствующие оценки [61]. Не играя на выборе V £ [0,1], можно распространить все, что описано выше в этом абзаце на стохастические постановки. Аналогичное можно сделать для стохастических безградиентных и покомпонентных методов с неточным оракулом (см. п. 4 и [43]). Соответствующие обобщающие формулы собраны в работе [117], мы не будем их здесь приводить. Такие обобщения востребованы, например, в связи с приложениями к поиску равновесий в многостадийных моделях равновесного распределения транспортных потоков [58, 59, 61, 62, 107-109]. В основе этих приложений лежит конструкция, изложенная в примере 4, с универсальным методом [116] вместо РОМ для решения внешней задачи.
Выше мы сделали обременительное предположение о возможности выполнять проверку условия -близости по функции. Такое заведомо возможно только при известном значении функционала в точке оптимума. Как правило, такой информации у нас априорно нет. Один из способов выхода из этой ситуации для задач стохастической оптимизации описан в п. 7.7 работы [79]. Другой способ - контролировать зазор двойственности (со стохастическими градиентами). Для применимости этого способа требуется, чтобы числовая последовательность { Хк/51 }1=о не зависела от неизвестных параметров. Во многих задачах, приходящих из транспортных и экономических приложений, нужно одновременно находить решения прямой и двойственной задачи, которые можно явно выписать. В таких случаях имеется эффективный способ проверки условия -близости по функции. Нужно проверить условие е-малости разницы между полученным (приближенным) значением функционалов прямой и двойственной задачи (т.е. двойственного зазора) [59-61, 109].
Отметим также, что в детерминированном р-сильно выпуклом случае, когда в точке минимума ж* выполняется условие34 V/ (ж*) = 0, критерий е-близости по функции может быть переписан в терминах малости рассчитываемого на итерациях градиента:
!(жк) - /* — 1 (IV / (жк)||2 —
В постановках с сильно выпуклой/вогнутой двойственной задачей (этого можно добиться искусственно, вводя регуляризацию в двойственную задачу, см. главу 3 [79] и [92, 97])
также можно оценивать точность решения прямой задачи по точности решения двойствен» 35
ной задачи, применяя к двойственной задаче неравенство
2Ь IV / (жк)||* — /(жк) - и
В частности, это обстоятельство используется в критерии остановки двойственного метода из [97], см. также пример 4 и [55, 92].
Все сказанное выше, по-видимому, переносится в полной мере на задачи композитной оптимизации [9, 14, 78, 119] и некоторые их обобщения, например, [96, 101, 102].
34От этого условия можно избавиться, используя в приведенных далее формулах вместо градиента градиентное отображение [10, 55].
35В замечании 5 (см. также [92]) был приведен пример, когда ||V/ (xfc)||2 = О (к-2). Из выписанного неравенства мы можем гарантировать лишь ||V f (®fc)||2 = О (к-2). Ситуацию можно улучшить, если ре-гуляризовать функционал (см. конец п. 2 и [92, 97]), сделав его сильно выпуклым, и применить FGM [10, 14, 92, 118] к регуляризованной задаче, тогда ||Vf (xk)||2 = О ((lnk)2 /к2) (если использовать, например,
FGM с оценкой числа итераций oly/L/il [In (ßR2/s)]), i - s/R2). В негладком случае ситуация проще, см. [27].
Замечание 6. Композитные задачи имеют вид: f (х) + Xh (х) ^ min, где Л > 0, h (х)
xeQ
- выпуклая функция простой структуры, скажем, h (х) = ||х||г Хочется, чтобы сложность решения этой задачи всецело определялась только гладкостью выпуклого функционала /(х), а сильная выпуклость - обоими слагаемыми. Если не лианеризовывать функцию h (х) при подсчете на каждой итерации градиентного отображения [14], а просто оставлять это слагаемое как есть, то, конечно, сложность решения вспомогательной задачи на каждой итерации увеличится (впрочем, ввиду простой структуры функции h (х), ожидается, что не намного), зато в оценку необходимого числа итераций уже не будут входить никакие константы, характеризующие гладкость h (х), только константы, характеризующие сильную выпуклость (если имеется). На такие задачи также можно смотреть следующим
образом (принцип множителей Лагранжа): f (х) ^ min . Поскольку функция h (х)
xeQ, h(x)<C(Л)
простой структуры, то проектироваться на множество Лебега этой функции несложно.
Отсюда можно усмотреть независимость числа итераций от h (х). Другой способ «борьбы»
с композитным членом h (х) (А. С. Немировский) заключается в переписывании задачи в
«раздутом» (на одно измерение) пространстве: f (х) + у ^ min . Норма в раздутом
xeQ, h(x)<y
пространстве задается как ||(х, у) || = ||х|| + а \у\. Функционал имеет такой вид, что в независимости от гладкости f (х) в оценки супремума нормы субградиента/константы Липшица градиента не будет входить что-либо, связанное с у. В гладком случае все ясно сразу из определения, а в случае негладкой ( х) это связано с тем, что в действительности в оценку необходимого числа итераций входит не супремум нормы субградиента, а супремум нормы разностей субградиентов [25] (см. также начало п. 2). За счет возможности выбирать сколь угодно маленьким а > 0, можно считать независящим от и прокс-расстояние (от точки старта до решения раздутой задачи), входящее в оценку необходимого числа итераций. Таким образом, можно сделать оценку числа итераций независящей от и h ( х). В связи с написанным выше полезно заметить, что гладкость (липшицевость градиента) и сильная выпуклость функционала являются взаимодвойственными друг к другу для задач безусловной оптимизации (константа Липшица градиента переходит в константу сильной выпуклости и наоборот, отсюда, кстати сказать, можно усмотреть, что оценка скорости сходимости для таких задач должны зависеть от отношения L/ß, другой способ понять это -соображения «физической» размерности), что активно используется в приложениях, см., например, [43, 55, 73, 74]. Однако для задач условной оптимизации остается только один переход: двойственная (сопряженная) задача к сильно выпуклой - гладкая (см., например, [77] и замечание 3), обратное не верно даже в случае сильно выпуклой функции h (х). Собственно, мы уже сталкивались с «неравноправностью» гладкости и сильной выпуклости. При рассмотрении универсального метода мы отмечали, что на гладкость можно настраиваться адаптивно, чего нельзя сказать про сильную выпуклость. Замечание 6 немного проясняет (с учетом лагранжева формализма) соотношения между этими свойствами задачи. Впрочем, до окончательного понимания, к сожалению, сейчас еще довольно далеко. Не ясно даже, принципиальны ли эти различия или их можно в перспективе устранить. По-видимому, принципиальны, но строгого обоснования мы здесь не имеем.
Также нам видится, что сказанное выше переносится на седловые задачи и монотонные вариационные неравенства [4, 14]. Причем речь идет не о том, что было описано в примере 4, а о том, как скажется неточность оракула на оптимальные методы для сед-ловых задач и монотонных вариационных неравенств [4, 14]. Ответ более-менее известен: неточность оракула не будет накапливаться на оптимальных методах (в отличие от задач обычной выпуклой оптимизации). Отметим, что концепцию неточного оракула еще необходимо должным образом определить36 - предположение 1 нуждается в корректировке для
36Например, для монотонного вариационного неравенства: найти такой х € Q, что для всех у € Q выполняется {д (у) ,у — х) > 0, достаточные условия на (5, Ь)-оракул будут иметь вид: для любых х,у € Q {д (у) — д {х) ,у — х) > —5, \\д (у) — д (ж)||+ < L \\х — у У + 5. Вероятно, в ряде ситуаций эти условия можно ослабить (доказательства в этом случае нам не известны) —5 < {д (у) — д (х) ,у — х) < L \\у — х\\2 + S.
данного класса задач. Отсутствие накопления неточностей связано с тем, что для таких задач оценка (7) будет оптимальна (с некоторыми оговорками) при р = 0. Другие р £ (0,1] рассматривать не стоит (такие оценки просто не достижимы). Впрочем, пока про это имеются лишь частичные результаты [96, 101, 102].
В оценку числа итераций для достижения заданной точности решения в описанных методах не входит явно размерность пространства п. Это наталкивает на мысль (подобные мысли, по-видимому, впервые были высказаны и реализованы для класса обычных градиентных методов в кандидатской диссертации Б. Т. Поляка [1], см. также [2, 15]) о возможности использовать эти методы, например, в гильбертовых пространствах [16, 42]. Оказывается это, действительно, можно делать при определенных условиях (см., например, [117] в контексте использованных в данной работе обозначений). В частности, концепция неточного оракула позволяет привнести сюда элемент новизны, существенно мотивированный практическими нуждами - принципиальной невозможностью (в типичных случаях нет явных формул) решать с абсолютной (очень хорошей) точностью вспомогательную задачу на каждом шаге градиентного спуска. Например, решение такой вспомогательной задачи для класса задач оптимального управления со свободным правым концом приводит к двум начальным задачам Коши для систем обыкновенных дифференциальных уравнений (важно, чтобы СОДУ для фазовых переменных и сопряженных решались, скажем, методом Эйлера, на одной и той же сетке), которые необходимо решить для вычисления градиента функционала [16]. Однако в действительности почти все практически интересные задачи (за редким исключением, к коим можно отнести класс ляпуновских задач [112]) в бесконечномерных пространствах не являются выпуклыми, поэтому здесь имеет смысл говорить лишь о поиске локальных минимумов (локальной теории) [120]. Если ограничиться неускоренными методами (например, PGM), то можно показать, что при весьма общих условиях эти методы могут быть использованы в гильбертовом пространстве в концепции неточного оракула и для невыпуклых (но гладких) функционалов, причем с аналогичными оценками скорости сходимости (отличие от выпуклого случая будет в том, что метод сходится лишь к стационарной точке (локальному экстремуму), в бассейне притяжения которой окажется точка старта). Заметим, что задачи оптимального управления можно численно решать, построив соответствующую (аппроксимирующую) задачу оптимального управления с дискретным временем, что приводит к конечномерным задачам, для решения которых можно использовать конечномерный вариант PGM в невыпуклом случае (с точным оракулом). Этот путь, как правило, и предлагается в большинстве пособий (см., например, [16]). Однако при таком подходе мы должны уметь (по возможности точно) решать сложную задачу оценки качества аппроксимации исходной задачи оптимального управления ее дискретным по времени вариантом. Более теоретически обоснованный способ рассуждений, по сути, приводящий к необходимости решать все те же конечномерные задачи, заключается в рассмотрении исходной задачи оптимального управления и ее решения бесконечномерным вариантом PGM в невыпуклом случае (с неточным оракулом). Неточность оракула существенна. Поскольку на каждой итерации этого градиентного метода необходимо решать две задачи Коши для СОДУ, что в общем случае можно сделать лишь приближенно, но с лучшим контролем точности, чем при подходе с дискретизацией задачи оптимального управления. Отметим, что во многих «физических» приложениях схема Эйлера имеет хорошие теоретические свойства сходимости (устойчивости). Связано это с тем, что на оптимальном режиме, как правило, наблюдается некоторая стабилизация поведения системы управления, что приводит к устойчивости якобиана прямой и обратной системы дифференциальных уравнений.
Покажем в заключение, как приведенные результаты переносятся на задачи стохастической онлайн-оптимизации. Для этого напомним вкратце, в чем состоит постановка задачи (см., например, [9, 26, 32, 45, 121-126]). Требуется подобрать последовательность37
37Если Q = {х : д(х) < 0} и на это множество сложно проектироваться, то можно обобщить, сохранив оценку (11), конструкцию прямодвойственного метода из работы [111] (см. также [44]) на онлайн-контекст с таким множеством Q.
{xk} £ Q так, чтобы минимизировать псевдорегрет:
N N
л £% [л (xk, - ssiig л [лЮ
k=1
к=1
на основе доступной информации {V /1 (х1, ;...; V/ к-1 (хк 1, £к 1
где38
V }к(хк, е) -V !к{хк, е)
при расчете х
к
< S,
Е
Ик
V fk(xk, = V/k(xk) .
Здесь с.в. {£ к} могут считаться независимыми одинаково распределенными. В онлайн-постановке подразумевается, что на каждом шаге к функция /к может подбираться из рассматриваемого класса функций враждебно по отношению к используемому нами методу генерации последовательности хк . В частности, к может зависеть от
{x1, е, h (■); ...;xk-1, е-1, h-i (■ );xk}
В стохастической онлайн-оптимизации с неточным оракулом можно получить следующие оценки псевдорегрета (см., например, [124], случай неточного оракула в похожем контексте ранее уже частично прорабатывался в [31]):
mig < О
¡M2R2 Л /М2 lg Л \1
rlv—^J^b^-+rv|
(11)
где (IV/к (х, < М - равномерно по х, к и п.н. по £. Эти оценки достигаются (фактически на тех же методах, что и в п. 2 с небольшой оговоркой в сильно выпуклом случае [39, 124]) и неулучшаемы (в том числе для детерминированных постановок с 5 = 0 и с линейными функциями /к (ж)). Как видно из этих оценок, наличие гладкости не позволяет получить более высокую скорость сходимости. То есть никакого аналога формулы (7) здесь нет. Все, что ранее говорилось про прокс-структуру39 и большие отклонения, насколько нам известно, полностью и практически без изменений переносится и на задачи онлайн-оптимизации.
4. Стохастические безградиентные и покомпонентные методы с неточным оракулом
Рассматривается задача стохастической выпуклой оптимизации (1)
(х) = [/ (х, О] ^ шт .
Предположения те же, что и в первом абзаце п. 2. В частности, п.н. IV / (х, £)||2 < М. Здесь важно, что функция / (х) задана не только на множестве (, но и в его то-окрестности (см. ниже), и все предположения делаются не для х £ Q, а для х из то-окрестности множества ( (аналогичная оговорка потребуется далее, при перенесении результатов п. 3). Однако теперь оракул не может выдавать стохастический субградиент функции. На каждой итерации мы можем запрашивать у оракула только значения реализации функции ( х, ) в нескольких точках х. Принципиальная разница есть только между запросом значения (реализации) функции в одной и запросом в двух точках [117, 127]. Здесь мы ограничимся
38Это условие можно заменить, считая, что вместо субградиента мы получаем ¿-субградиент [2, 126].
39За исключением сильно выпуклого случая, для которого нам известны только оценки в евклидовой прокс-структуре. Кроме того, в сильно выпуклом случае в оценках вероятностей больших уклонений 1п(1п( Ж)) ^ 1пЖ - доказательство этого утверждения мы не смогли найти (впрочем, см. замечание 4).
рассмотрением случая двух точек - случай одной точки представляет интерес только в онлайн-контексте (см. [126] и цитированную там литературу). Впрочем, есть достаточно большой и популярный класс одноточечных не онлайн-постановок, которого мы здесь не касаемся (см., например, [128, 129]).
Предположение 2. 5-оракул выдает (на запрос, в котором указывается только одна точка х) f (х, £) +5 (х, £), где с.в. £ независимо разыгрывается из одного и того же распределения, фигурирующего в постановке (1), случайная величина 5(х, £) = 5 (х) +¿(0, где 5 (£) - независимая от х случайная величина с неизвестным распределением (случайность которой может быть обусловлена не только зависимостью от £), ограниченная по модулю 5/2 (число 5 - допустимый уровень шума), 5 (х) / ( R5) - неизвестная 1-липшицева функция.
Далее в изложении мы будем во многом следовать [2, 33, 45, 76, 124-131]. По полученным от оракула зашумленным значениям f (х, £) + £ (х, £) мы можем определить стохастический субградиент (важно, что можно обратиться с запросом к оракулу в двух разных точках при одной и той же реализации £):
n
gT,s (х, s, О = - ( f (х + гs , О + Нх + гs, О - ( f (х, О + 5 (х, £))) s, (12)
где s - случайный вектор (независимый от £), равномерно распределенный на S2 (1) - единичной сфере в 2-норме в пространстве R"".40 Из этого представления можно усмотреть, что липшицева составляющая шума 2 из предположения 2 и уровень шума из предположения 1 связаны соотношением §2 ~ 5i/n (см. формулу (24)). В действительности, для обоснования этой связи требуются значительно более громоздкие рассуждения.
Приведем одну из возможных мотивировок введенной в предположении 2 концепции -оракула. Предположим, что оракул может считать абсолютно точно значение липшицевой функции, но вынужден нам выдавать лишь конечное (предписанное) число первых бит. Таким образом, в последнем полученном бите есть некоторая неточность (причем мы не знаем, по какому правилу оракул формирует этот последний выдаваемый значащий бит). Однако мы всегда можем прибавить (по mod 1) к этому биту случайно приготовленный (независимый) бит. В результате, не ограничивая общности, можно считать, что оракул последний бит выбирает просто случайно в независимости от отброшенного остатка. То, что в итоге выдает оракул, соответствует концепции -оракула.
Перейдем к получению оценок. В отличие от пп. 2, 3, везде далее в этом пункте мы будем считать, что имеет место обратное неравенство на требуемое число итераций N > n [127]. Прежде всего заметим, что41
Es,ts [9т,& (х, s, О] = VU (х) + VxEu,s [5 (х + т5,01 , (13)
где 5 - случайный вектор, равномерно распределенный на B2 (1) - единичном шаре в 2-норме, а fT (х) = Es,^ [f (х + т5, £)] - сглаженная42 версия функции f (х) = Е^ [/ (х, £)]. Причем
0 < U (х) - f (х) < Мт, (14)
|| 9т,б (х, s, 0||2 <п[ы + 2^). (15)
40С помощью леммы Пуанкаре [133] такой вектор можно сгенерировать за О (п), разыгрывая п независимых одинаково распределенных стандартных нормальных случайных величин и нормируя их на корень из суммы их квадратов.
41Взятие математического ожидания по S подчеркивает, что S (х, £) может быть случайной величиной не только потому, что может зависеть от £, но и потому, что может иметь собственную случайность.
42Все свойства функции f (х) при переходе к fT (х) могут только улучшиться. В частности, fT (х) - также выпуклая функция (можно перенести и на сильную выпуклость с не меньшей константой), с константой Липшица и константой Липшица градиента (если таковая существует у f (х)), не большей, чем у f (х).
Основная идея [2] заключается в подмене задачи (1) следующей задачей:
¡г (х) = [/ (х + гё, 01 ^ шт, (16)
е/2-решение которой при т = е/ (2 М) будет е-решением исходной задачи (1).
Считая 5 = О (е) и43 (приведенное условие выполняется, если мы имеем доступ к 5-оракулу из предположения 2)
IVхЕи,ё [5(х + тё, 01П2 = О (е/Я),
можно получить для среднего числа итераций (используя те же алгоритмы для задачи (16), что и в п. 2, со стохастическим градиентом (12)) соответствующие аналоги оценок (2), (4)44:
О (^) ■ О (^) . (17)
Если дополнительно известно, что / (х, £) - равномерно гладкая по х функция (это условие можно ослабить [125]) и п.н. по £
(IV/ (х, О-V/ (у, £)||2 <- Ух-у\\2 , (18)
то вместо (14) будем иметь
Т т2
0 < и (х) - /(х) < —. (19)
Из формулы (19) следует, что можно ослабить требование к неточности: допускать неточность оракула масштаба45 5 ~
Мт ~ Мл/ё/-.
При сделанных дополнительных предположениях о гладкости (18) за счет ужесточения требований к масштабу допускаемой неточности 5 (как именно требуется это сделать, можно усмотреть из формулы (21); ниже мы вернемся к этому вопросу) можно улучшить скорость сходимости (фактор п2 перейдет в п):
0 (^) , 0 (^у ,20,
£2 / \
Оценки (20) в общем случае не улучшаемы (даже при 5 = 0) для гладких стохастических и негладких задач [127]. Фактически это означает, что мы можем выбрать настолько малое т (насколько малым мы можем его выбрать, определяется еи5), что конечная разность в (12) «превращается» (с нужной точностью) в производную по направлению. Для объяснения отмеченного перехода полезно заметить, что [76, 125-127] (см. также (22))
Е
1 8Л2«2
9т,5 (x, s, 0112 < 4nМ2 + Ь2т2п2 + • (21)
Замечание 7 (техника двойного сглаживания негладких задач Б. Т. Поляка [2], см. также [127, 132]). За счет подмены изначально негладкого функционала в задаче (1) на
f (х) := ^ (х) = Е~31Л [/ (х + ^ё\, С)] , 7 < е/ (2М),
43Если это условие не выполняется, то все, что написано далее, останется верным, правда, при более ограничительных условиях на допустимый уровень шума (это касается и всего последующего изложения). Так, если не налагать это ограничение, то потребуется считать 5 = О (е2/ (^пМЯ)) или 6 = О (е3/2 /(у/пВЩ) в случае, если / (х) имеет Ь-липшицев градиент. Это можно получить с помощью замечания 8.
44Аналогично (2), (4) можно переписать оценку (17) не в среднем, как сейчас, а с учетом вероятностей больших уклонений. Это замечание касается и последующих вариаций формулы (17). Нам неизвестно, являются ли оценки (17) оптимальными при заданном уровне шума 6 = О (е).
45Здесь мы дополнительно считаем, что V хг (х + те, £)] = 0. В частности, это условие выполняется, если неточность 6 (х,£) имеет независимое от х распределение.
где «1 - случайный вектор (независимый от £), равномерно распределенный на В' (1), получим новую задачу (е/2-аппроксимирующую исходную), для которой при достаточно малом т будет иметь место оценка (21) с достаточно большим Ь > 2пМ2/е. Далее, решая с помощью уже описанной техники с точностью е := е/2 задачу стохастической оптимизации (1) с
£:= (51,0 , ¡(х, О :=/(х + 7вь С) , п
9т,6 (х; 8 2, С) := - (/ (х + 18 1 + Т«2, О + 5 (х + 181 + Т,в2, О -
- ( /(х + 181, О+Нх + 181, 0)) 82,
где 82 - случайный вектор (независимый от £ и §1), равномерно распределенный на Б' (1), получим те же оценки (20), только при существенно более жестких условиях на уровень шума 5. К сожалению, получить конструктивное описание этих условий на данный момент не удалось.
Оценки (17) и (20) переносятся и на задачи стохастической онлайн-оптимизации (см., например, [43, 124-127, 130]) с возникновением дополнительного фактора 1п* в сильно выпуклом случае (см. формулу (11)). При этом даже в гладком случае не обязательно требовать дополнительно стохастичность исходной постановки для оптимальности оценок (20).
Далее рассматривается нестохастический вариант постановки задачи (1) (необобщае-мый на онлайн-постановки) с Q = Мга (обобщения на произвольные выпуклые множества Q С Кга представляются интересными, но на данный момент нам неизвестны такие обобщения46 - в последующих рассуждениях существенным образом используется то, что в точке минимума V / (х*) = 0). Так что теперь К - расстояние от точки старта до решения в 2-норме. В этом варианте выписанная оценка (21) может быть уточнена
Е3
85 2п2
II9т,8 (х, 8)||2] < 4п IV / (х)||2 + Ь2т2п2 + . (22)
Последняя оценка следует из явления концентрации равномерной меры на Б' (1) с выделенными полюсами вокруг экватора (см. [133] - в случае покомпонентных методов эта оценка особенно просто получается [43], в в приводимой формуле, и только в ней, соответствует покомпонентной рандомизации):
Е3
(V / (х), *}2] = п IV/ (х)||2 .
Считая для простоты формулировок, что
VxE~s,s (х + те)] = 0,
можно распространить метод [87], дающий оценки (8), на текущий контекст и получить следующие оценки (с г ~ л/5/Ь) числа итераций для достижения точности е для случая выпуклой и сильно выпуклой целевой функции соответственно
* (е) = п ■ О (^) * , * (в) = п ■ О ((Ь) * 1п ()) (23)
при (условия на допустимый уровень шума, при котором оценки (23) имеют такой же вид, с точностью до О (1), как если бы шума не было47)
46По-видимому, такие обобщения возможны. Также возможно перенесение концепции универсальных методов (см. п. 3) на безградиентные методы и спуски по направлению (покомпонентные спуски) для детерминированных задач (не задач стохастической оптимизации).
47В отсутствие шума оракул нам фактически может выдавать производную по направлению в д(х, в) = п (V/ (х) , в) в, точнее (V/ (х) , в), в мы генерируем сами. Если, в свою очередь, считать, что (V / (х) , в ) оракул выдает с аддитивным шумом (для простоты считаем, независящим от в) масштаба 6 :=у/Ы (5 в правой части определяется исходя из формулы (24)), то формула (23) останется верной [117].
И L) Ä)
(24)
По-видимому (строгим доказательством мы не располагаем на данный момент), и в стохастическом случае имеет место аналог формул (23), (24) с заменой в формуле (23)
N1 (е) = п ■ max < О
' LR2 \ р+1
■О&)}
(L) * (LR!)) - (£)}
N2 (е) = п ■ ша^ О ( ( —
Можно продолжать переносить все написанное в п. 3 на рассматриваемую ситуацию (частично это уже сделано в [43, 117]). Однако мы остановимся лишь на наиболее интересном (на наш взгляд) месте. А именно, на согласовании прокс-структуры с рандомизацией, порождающей сглаживание.
Основным результатом (ввиду замечания 7) в негладком и(или) стохастическом случае с точным оракулом здесь является следующее наблюдение [125, 126]: независимо от выбора прокс-структуры рандомизацию всегда стоит выбирать согласно (12) (если ставить цель - минимизировать число итераций), т.е. с помощью разыгрывания случайного вектора в, равномерно распределенного на Б'П (1). В случае неточного оракула, по-видимому, это утверждение уже перестает быть верным [125]. Ограничимся далее обобщением оценок (20) на случай использования общих прокс-структур.
Приведем соответствующее обобщение формулы (21) (здесь и далее нижний индекс «2» у констант Липшица подчеркивает, что они считаются согласно евклидовой норме из-за сделанного нами выбора способа рандомизации)
Е
||gT,s (x,s, £)||2
= О
4 М2п + L22ß2n2 +
8S2n2\
Ii2
Ея
INI
где в прямом пространстве выбрана д-норма и 1/ ц + 1/</ = 1. Согласно замечанию 2 можно считать, что 2 < д' < те - выбирать другие нормы, как правило, бывает не выгодно. Для
такого диапазона Е3
= О (n2/q' 1 , в частности Es
п)] = О(п-Ч (О () с
точностью до логарифмического фактора от п совпадает с О (), аналогично с П ()). Исходя из такого обобщения, можно привести следующую таблицу, распространяющую оценку (20) на произвольные прокс-структуры ( К - расстояние брэгмана, согласованное с ^-нормой, см. замечание 1).
f (х) - выпуклая f (х) - -сильно выпуклая в д-норме
О (пМ'Г )О (п2/я'-1) О (•;:? И О (п»"'-1И
Выпишем условия, из которых можно получить требования на шум (нам представляется, что здесь это может хорошо прояснить суть дела):
1) шт {М2Т, — т212} = О (е) - условие достаточной точности аппроксимации исходной функции ее сглаженной версией;
2) —2т2п2 + 8^П-2 = О (МЩ - условие «правильной» ограниченности квадрата нормы аппроксимации стохастического градиента.
Выписанные условия позволяют для всех полей таблицы (с оценками) написать соответствующие условия на допустимый уровень шума и параллельно подобрать оптимальный размер параметра сглаживания .
Замечание 8 (см. [126]). Если не делать никаких предположений о шуме 5 (х, £) в предположении 2, кроме (х, £)| < то для получения требований на уровень шума потребуется еще воспользоваться следующим утверждением. Пусть последовательность независимых случайных векторов {в к равномерно распределенных на (1), и
хк si}f=Q1) } обладают свойством Е \\хк — х*\\2
Е
1 N
J^Yl к ,хк —х*)| к=1
< R2. Тогда < 2 R
'п
В виду замечаний 2, 4 при использовании этого утверждения можно считать, что R = О (V (х*, хо)). Причем константа в О () может быть сделана ~ 1.
Приведенная в первом столбце таблицы оценка при определенных условиях может быть лучше нижней оценки [127]. Здесь ситуация аналогична той, о которой написано в конце замечания 2 (будем использовать те же обозначения) и в п. 3. Например, если Q = Bf (1), то в нижней оценке [127] стоит Q (пМЦ/е2) (Eg \\V/ (х, {)\\L < М2), а в таблице будет
стоять (О (М2/£2). Осталось заметить, что М2 < пМ^, причем в определенных ситуациях может быть М2 ^ пМ2.
Основные конкурирующие рандомизации в гладком случае - это рандомизация на евклидовой сфере и покомпонентная рандомизация [43, 125-127], которая используется в основном только с евклидовой прокс-структурой [43]. Исследования последних нескольких лет показали (см., например, [43, 50, 55, 63, 65]), что для довольно большого класса глад-
48
ких задач выпуклой оптимизации в пространствах огромной размерности , возникающих в самых разных приложениях [50, 55, 60, 63], покомпонентные методы являются наиболее эффективным способом решения (с точки зрения общего числа арифметических операций для достижения заданной точности по функции). Покомпонентные методы, безусловно, заслуживают отдельного подробного обзора. Поэтому здесь мы ограничимся только ссылкой на такие обзоры [43, 134].
Приведем далее несколько примеров, демонстрирующих важность изучения безградиентных методов (часто эти методы называют прямыми методами [2] или методами нулевого порядка [76]).
Пример 5 (двухуровневая оптимизация [135]). Требуется решить задачу, возникающую, например, при поиске равновесия по Штакельбергу [106]:
ф (х, u) ^ max, иеи
f (х, u (х)) ^ min.
х
Из первой задачи находится зависимость u (х), которая входит во вторую (внешнюю) задачу. Проблема здесь в том, что явная зависимость u (х) в общем случае может быть недоступна. Как следствие, могут быть проблемы с расчетом Vu (х). Поэтому предлагается приближенно решать первую задачу и использовать безградиентный метод с неточным оракулом для второй. Насколько точно надо решать первую задачу и какой именно безградиентный метод (с точки зрения чувствительности к неточности) выбирать для второй - определяется сложностью решения первой задачи и свойствами второй.
Рассмотренная двухуровневая задача может быть сильно упрощена, если удается найти ее седловое представление [14, 58, 61, 62, 101, 102, 107-109]. В частности, если функции ф (х, u), f (х, u) - выпуклы по х и вогнуты по u, и ф (х, u) - простой структуры, то можно (для достаточно большого Л) заменить исходную задачу на следующую:
min max [ f (х, u) + Лф (х, u)] .
х U&J
48Во всех этих задачах можно считать полные градиенты и строить на их базе различные методы. То есть для таких задач выбор покомпонентного метода - осмысленный выбор наиболее быстрого способа решения, а не следствие каких-то (в том числе вычислительных) ограничений на задачи.
Полученную седловую задачу стоит решать методами композитной оптимизации (см. замечание 6 и [9, 14, 101, 102]), чтобы параметр Л либо совсем не входил в оценки числа итераций, либо входило очень слабо.
К сожалению, седловое представление возможно далеко не всегда.
Пример 6 (огромная скрытая размерность). Пусть у (х) € Rm, х € Rra, n ^ т. Требуется решить задачу
Мы предполагаем, что можем эффективно посчитать с необходимой точностью у (х) и / (х, у (х)) за О (ш). Если для решения этой задачи оптимизации мы будем использовать безградиентный метод, то общее число сделанных арифметических операций пропорционально шп (см. (20), (23)). Заметим, что если бы мы могли использовать обычный градиентный метод, то общее число сделанных арифметических операций также было бы пропорционально шп, однако вычисление градиента по разным причинам может быть затруднено (см. пример 5 и метод МСМС [52] для расчета PageRank в подходе [136, 137]). В действительности часто имеет место следующее полезное наблюдение [136]: если мы можем вычислить значения у (х) и / (х,у (х)) за О (ш), то мы можем с такой же по порядку сложностью (и затратами памяти) вычислить и производные по фиксированному направлению 1г:
Тем не менее тут требуется много оговорок, в том числе про точность расчетов. Если не вдаваться в детали, то такие рассуждения также приводят к затратам, пропорциональным шп, где п возникло в виду оценок (20), (23) для спусков по направлению. Только в отличие от полноградиентного метода для покомпонентного метода константа Липшица градиента функционала в оценке числа итераций уже будет рассчитываться не по худшему направлению, а в среднем (это может давать выгоду, по порядку равную корню квадратному из размерности пространства [43, 138]), да и, как правило, будет ощутимая выгода в затрачиваемых ресурсах машинной памяти [136]. Оговорки о точности здесь все же необходимы, поскольку для безградиентных методов и спусков по направлению требования к точности могут существенно отличаться (об этом ранее уже было немного написано в данном пункте). Как следствие, в оценку О (ш) необходимо явно вводить зависимость от точности вычисления у(х) и /(х, у (х)). Об этом планируется написать отдельно.
В примерах 5, 6 в действительности требуются некоторые оговорки о невозможности или неэффективности использования БАД для полноградиентного метода (см. п. 2, а также [41, 42]). Нам известны случаи, подпадающие под разобранные примеры, в которых не понятно, как можно было бы воспользоваться БАД [106, 136, 137]. В частности, в работах [136, 137], соответствующих примеру 6, сложность в том, что БАД хочется использовать для ускорения вычисления матрицы Якоби отображения (вектор функции) у(х) € Бт (1), неявно заданного уравнением у = Р (х) у, со стохастической (по столбцам) эргодической матрицей Р (х) со спектральной щелью а и числом ненулевых элементов зш. Метод простой итерации позволяет с точностью е найти у (х) за время О (вш (п + а-11п (£-1))) с затратами памяти О (вш). Нам неизвестно более эффективного способа расчета матрицы Якоби отображения у(х), чем естественное обобщение метода простой итерации (для продифференцированного по х уравнения у (х) = Р (х)у(х)), требующее затрат времени О (зшпа-11п (е-1)) и памяти О (8шп). Для реальных приложений [136, 137]: ш ~ 109, в ~ 102, п ~ 103, а ~ 10-1, е ~ 10-12 Отсюда ясно, что при использовании полноградиентного метода просто невозможно будет выделить даже у 64-битной операционной системы, стоящей на самом современном персональном компьютере, необходимой памяти под работающую программу, в основе которой лежит полноградиентный подход.
Кроме того, в примерах 5, 6 важно уметь эффективно пересчитывать значения и (х) или ( х), а не рассчитывать их каждый раз заново (на каждой итерации внешнего цикла). Поясним сказанное. Предположим, что мы уже как-то посчитали, скажем, и (х), ре-
f (х, у (х)) ^ min.
шив с какой-то точностью соответствующую задачу оптимизации. Тогда для вычисления и (х + Дх) (на следующей итерации внешнего цикла) у нас будет хорошее начальное приближение и (х). А как известно (см. пп. 2-4), расстояние от точки старта до решения (не в сильно выпуклом случае) существенным образом определяет время работы алгоритма оптимизции. Эта конструкция (hot/warm start) напоминает фрагмент обоснования сходимости методов внутренней точки при изучении движения по центральному пути [8-11]. Тем не менее известные нам приложения (пример 4 п. 3 и [61, 62, 136, 137]) пока как раз всецело соответствуют сильно выпуклой ситуации. Связано это с тем, что если расчет и (х) или у (х) с точностью е осуществляется за О (C ln (R/e)) операций, то для внешней задачи можно выбирать самый быстрый метод (а стало быть, и самый требовательный к точности), и с точностью до того, что стоит под логарифмом, общая трудоемкость будет просто прямым произведением трудоемкостей решения внутренней и внешних задач по отдельности. Как правило, такое сочетание оказывается недоминируемым.
Также необходимо отметить, что, как правило, итоговые задачи оптимизации (после подстановки зависимости и (х) или у (х) в задачу верхнего уровня) в этих примерах получаются не выпуклыми. В этой связи можно лишь говорить о локальной сходимости к стационарной точке. В отсутствие выпуклости даже если ограничиться локальной сходимостью, многое из того, что описано в данной статье, требует отдельного рассмотрения [76, 96].
Отметим в заключение, что если немного по-другому посмотреть на описанное в этом пункте, то можно заметить следующее. Какой бы большой (но равномерно ограниченный по итерациям) шум ни был, если 5 (х + тs, £) имеет распределение, не зависящее от s, то (возможно, через очень большое число итераций) мы сможем сколь угодно точно (по функции) решить задачу! Аналогичное можно сказать, если мы изначально исходим из концепции оракула, выдающего зашумленное значение (V f (х), s), причем зашумленность не зависит от s. Все это восходит к идеям Р. Фишера, развитым О. Н. Граничиным и Б. Т. Поляком [33].
5. Заключение
Авторы выражают благодарность А. С. Антипину, С. Бойду, А. Ю. Горнову, Ф. Глинёру, О.Н. Граничину, А. И. Голикову, О. Деволдеру, Н.К. Животовскому, А. В. Назину, Е. А. Нурминскому, А. Рахлину, П. Рихтарику, А. Содину, В. Г. Спокойному, С. П. Тарасову, Э. Хазану, С. В. Чуканову, А. Г. Шапиро, А. Б. Юдицкому и особенно А. С. Немировскому за возможность обсуждения разных частей данного текста в разное время, а также Ильнуре Усмановой, обнаружившей несколько опечаток.
Особо хотелось бы отметить то позитивное влияние, которое на каждого из авторов оказал Борис Теодорович Поляк, отметившим в 2015 году свое восьмидесятилетие [139]. Так, Ю. Е. Нестеров защищал кандидатскую диссертацию под руководством Б. Т. Поляка в 1983 г. Два других соавтора в значительной степени являются учениками Ю. Е. Нестерова по части, связанной с численными методами выпуклой оптимизации. Набор идей, здоровый оптимизм, понятность и открытость Бориса Теодоровича всегда делают общение и работу с ним чрезвычайно интересной и полезной. Настоящая статья во многом была вдохновлена его книгой [2] и попыткой ее переосмыслить с современных позиций. Несмотря на то, что большей частью эта книга была написана почти 40 лет назад, она до сих пор не утратила свою актуальность, о чем говорит, например, недавний выход ее нового издания.
Настоящая статья, в основу которой положено выступление [140], была написана уже к осени 2014 года. К сожалению, из-за объема и стиля у нас возникли проблемы с ее публикацией. Мы хотели бы поблагодарить Леонида Васильевича Стрыгина, любезно согласившегося взять данную статью (несмотря на ее большой объем) в журнал «Труды МФТИ» в марте 2016 года. Третий пункт настоящей статьи получил продолжение в другой публикации в журнале «Труды МФТИ» [141].
Исследование А. В. Гасникова и П. Е. Двуреченского в части 3 выполнено в ИППИ РАН
за счет гранта Российского научного фонда (проект №14-50-00150), а в частях 2 и 4 при
поддержке гранта РФФИ 15-31-20571-мол_а_вед; исследование Ю.Е. Нестерова в частях
2 и 4 выполнено при поддержке гранта РФФИ 14-01-00722-а.
Литература
1. Поляк Б.Т. Градиентные методы минимизации функционалов, решения уравнений и неравенств: диссертация на соискание ученой степени кандидата физико-математических наук. МГУ, механико-математический факультет, 1963.
2. Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983; М.: УРСС, 2014.
3. Хачиян Л.Г. Избранные труды / сост. С. П. Тарасов. М.: МЦНМО, 2009.
4. Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.: Наука, 1979.
5. Поляк Б.Т., Цыпкин Я.З. Оптимальные псевдоградиентные алгоритмы адаптации // Автоматика и телемеханика. 1980. № 8. С. 74-84.
6. Цыпкин Я.З., Позняк А.С. Оптимальные поисковые алгоритмы стохастической оптимизации // Докл. АН СССР. 1981. Т. 260, № 3. С. 550-553.
7. Нестеров Ю.Е. Эффективные методы в нелинейном программировании. М.: Радио и связь, 1989.
8. Nesterov Y., Nemirovsky A. Interior-point polynomial methods in convex programming. Studies in applied mathematics. V. 13. SIAM, Philadelphia, 1994.
9. Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013. http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf
10. Нестеров Ю.Е. Введение в выпуклую оптимизацию. М.: МЦНМО, 2010.
11. Bubeck S. Convex optimization: algorithms and complexity //In Foundations and Trends in Machine Learning. 2015. V. 8, N 3-4. P. 231-357. arXiv:1405.4980
12. http://cvxr.com/cvx/
13. http://www.cvxpy.org/en/latest/ ; https://github.com/cvxgrp/scs
14. Нестеров Ю.Е. Алгоритмическая выпуклая оптимизация: диссертация на соискание степени д.ф.-м.н. по специальности 01.01.07 - вычислительная математика. Долгопрудный, МФТИ 26 декабря 2013 г. 367 c. http://www.mathnet.ru/php/seminars.phtml?option_lang=rus&presentid=8313
15. Левитин Е.С., Поляк Б.Т. Методы минимизации при наличии ограничений // ЖВМ и МФ. 1966. Т. 6, № 5. С. 787-823.
16. Васильев Ф.П. Методы оптимизации. М.: МЦНМО, 2011.
17. Jaggi M. Revisiting Frank-Wolfe: Projection-free sparse convex optimization // Proceedings of the 30th International Conference on Machine Learning, Atlanta, Georgia, USA, 2013. https://sites.google.com/site/frankwolfegreedytutorial/
18. Nesterov Yu. Complexity bounds for primal-dual methods minimizing the model of objective function // CORE Discussion Papers. 2015/03. 2015.
19. Tseng P. On accelerated proximal gradient methods for convex-concave optimization // SIAM J. Optim. 2008. (submitted) http://www.mit.edu/~dimitrib/PTseng/papers.html
20. Neumaier A. OSGA: A fast subgradient algorithm with optimal complexity // e-print, 2014. arXiv:1402.1125
21. Allen-Zhu Z, Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent // e-print, 2014. arXiv:1407.1537
22. Ермольев Ю.М. Методы стохастического программирования. М.: Наука, 1976.
23. Нурминский Е.А. Численные методы решения детерминированных и стохастических минимаксных задач. Киев: Наукова думка, 1979.
24. Shapiro A., Dentcheva D., Ruszczynski A. Lecture on stochastic programming. Modeling and theory. MPS-SIAM series on Optimization, 2014.
25. Nesterov Y. Minimizing functions with bounded variation of subgradients // CORE Discussion Papers. 2005/79. 2005.
26. Гасников А.В., Нестеров Ю.Е., Спокойный В.Г. Об эффективности одного метода рандомизации зеркального спуска в задачах онлайн-оптимизации // ЖВМ и МФ. Т. 55, № 4. 2015. С. 55-71. arXiv:1410.3118
27. Nesterov Y. Primal-dual subgradient methods for convex problems // Math. Program. Ser. B. 2009. V. 120(1). P. 261-283.
28. Поляк Б.Т. Новый метод типа стохастической аппроксимации // Автоматика и телемеханика. 1990. № 7. C. 98-107.
29. Polyak B.T., Juditsky A.B. Acceleration of stochastic approximation by averaging // SIAM J. Control Optim. 1992. V. 30. P. 838-855.
30. Juditsky A., Lan G., Nemirovski A, Shapiro A. Stochastic approximation approach to stochastic programming // SIAM Journal on Optimization. 2009. V. 19, N 4. P. 1574-1609.
31. Juditsky A., Nemirovski A. First order methods for nonsmooth convex large-scale optimization, I, II. In: Optimization for Machine Learning. Eds. S. Sra, S. Nowozin, S. Wright. MIT Press, 2012.
32. Sridharan K. Learning from an optimization viewpoint. PhD Thesis, Toyota Technological Institute at Chicago, 2011. http://ttic.uchicago.edu/~karthik/thesis.pdf
33. Граничин О.Н., Поляк Б.Т. Рандомизированные алгоритмы оценивания и оптимизации при почти произвольных помехах. М.: Наука, 2003.
34. Spokoiny V. Parametric estimation. Finite sample theory // The Annals of Statistics. 2012. V. 40, N 6. P. 2877-2909. arXiv:1111.3029v5
35. Ибрагимов И.А., Хасьминский Р.З. Асимптотическая теория оценивания. М.: Наука, 1977.
36. Lacost-Julien S., Schmidt M., Bach F. A simpler approach to obtaining О (1/i) convergence rate for the projected stochastic subgradient method // e-print, 2012. arXiv:1212.2002
37. Rakhlin A., Shamir O., Sridharan K. Making gradient descent optimal for strongly convex stochastic optimization // ICML, 2012. arXiv:1109.5647
38. Juditsky A., Nesterov Yu. Deterministic and stochastic primal-dual subgradient algorithms for uniformly convex minimization // Stoch. System. 2014. V. 4, N 1. P. 44-80. arXiv:1401.1792
39. Hazan E., Kale S. Beyond the regret minimization barrier: Optimal algorithms for stochastic strongly-convex optimization // JMLR. 2014. V. 15. P. 2489-2512.
40. Боровков А.А., Боровков К.А. Асимптотический анализ случайных блужданий. Т. 1. Медленно убывающие распределения скачков. М.: Физматлит, 2008.
41. Ким К., Нестеров Ю., Скоков В., Черкасский Б. Эффективные алгоритмы для дифференцирования и задачи экстремали // Экономика и математические методы. 1984. Т. 20. С. 309-318.
42. Евтушенко Ю.Г. Оптимизация и быстрое автоматическое дифференцирование. М.: ВЦ РАН, 2013.
43. Гасников А.В., Двуреченский П.Е., Усманова И.Н. О нетривиальности быстрых (ускоренных) рандомизированных методов // Труды МФТИ. 2016. Т. 8. (в печати) arXiv:1508.02182
44. Аникин А.С., Гасников А.В., Горнов А.Ю. Рандомизация и разреженность в задачах huge-scale оптимизации на примере работы метода зеркального спуска // Труды МФТИ. 2016. Т. 8. (в печати) arXiv:1602.00594
45. Bubeck S., Cesa-Bianchi N. Regret analysis of stochastic and nonstochastic multi-armed bandit problems // Foundation and Trends in Machine Learning. 2012. V. 5, № 1. P. 1-122. http://www.princeton.edu/sbubeck/SurveyBCB12.pdf
46. Гасников А.В., Лагуновская А.А., Морозова Л.Э. О связи имитационной логит-динамики в популяционной теории игр и метода зеркального спуска в онлайн-оптимизации на примере задачи выбора кратчайшего маршрута // Труды МФТИ. 2015. Т. 7, № 4. С. 104-113. arXiv:1511.02398
47. Agarwal A., Bartlett P.L., Ravikumar P., Wainwright M.J. Information-theoretic lower bounds on the oracle complexity of stochastic convex optimization // IEEE Transaction of Information. 2012. V. 58, N 5. P. 3235-3249. arXiv:1009.0571
48. Аникин А.С., Гасников А.В., Горнов А.Ю., Камзолов Д.И., Максимов Ю.В., Нестеров Ю.Е. Эффективные численные методы решения задачи PageRank для дважды разреженных матриц // Труды МФТИ. 2015. Т. 7, № 4. С. 74-94. arXiv:1508.07607
49. Назин А.В., Поляк Б.Т. Рандомизированный алгоритм нахождения собственного вектора стохастической матрицы с приложением к задаче PageRank // ДАН РАН. 2009. Т. 426, № 6. С. 734-737.
50. Nesterov Y.E. Efficiency of coordinate descent methods on large scale optimization problem // SIAM Journal on Optimization. 2012. V. 22, N 2. P. 341-362.
51. Nesterov Y.E. Subgradient methods for huge-scale optimization problems // CORE Discussion Paper 2012/2. 2012.
52. Гасников А.В., Дмитриев Д.Ю. Об эффективных рандомизированных алгоритмах поиска вектора PageRank // ЖВМ и МФ. 2015. Т. 55, № 3. С. 355-371. arXiv:1410.3120
53. Fercoq O, Richtarik P. Accelerated, parallel and proximal coordinate descent // SIAM Journal on Optimization. 2015. V. 25, N 4. 1997-2023. arXiv:1312.5799
54. Qu Z., Richtarik P. Coordinate Descent with Arbitrary Sampling I: Algorithms and Complexity // e-print, 2014. arXiv:1412.8060
55. Anikin A., Dvurechensky P., Gasnikov A., Golov A., Gornov A., Maximov Yu., Mendel M., Spokoiny V. Modern efficient numerical approaches to regularized regression problems in application to traffic demands matrix calculation from link loads // Proceedings of International conference ITAS-2015. Russia, Sochi, September, 2015. arXiv:1508.00858
56. Аникин А.С., Гасников А.В., Горнов А.Ю. О неускоренных эффективных методах решения разреженных задач квадратичной оптимизации // Труды МФТИ. 2016. Т. 8. (в печати). arXiv:1602.01124
57. Nesterov Yu., Nemirovski A. On first order algorithms for l\ / nuclear norm minimization // Acta Numerica. 2013. V. 22. P. 509-575.
58. Гасников А.В., Дорн Ю.В., Нестеров Ю.Е, Шпирко С.В. О трехстадийной версии модели стационарной динамики транспортных потоков // Математическое моделирование. 2014. Т. 26:6. C. 34-70. arXiv:1405.7630
59. Гасников А.В., Гасникова Е.В., Ершов Е.И., Двуреченский П.Е., Лагуновская А.А. Поиск стохастических равновесий в транспортных моделях равновесного распределения потоков // Труды МФТИ. 2015. Т. 7, № 4. С. 114-128. arXiv:1505.07492
60. Гасников А.В., Двуреченский П.Е., Дорн Ю.В., Максимов Ю.В. Численные методы поиска равновесного распределения потоков в модели Бэкмана и модели стабильной динамики // Математическое моделирование. 2016. Т. 28. (в печати). arXiv:1506.00293
61. Гасников А.В., Двуреченский П.Е., Камзолов Д.И., Нестеров Ю.Е., Спокойный В.Г., Стецюк П.И., Суворикова А.Л., Чернов А.В. Поиск равновесий в многоста-дийныйх транспортных моделях // Труды МФТИ. 2015. Т. 7, № 4. С. 143-155. https://mipt.ru/upload/medialibrary/ffe/143-155.pdf
62. Гасников А.В., Двуреченский П.Е., Спокойный В.Г., Стецюк П.И., Суворикова А.Л. Суперпозиция метода балансировки и универсального градиентного метода для поиска энтропийно-сглаженного барицентра Вассерштейна и равновесий в многостадийных моделях транспортных потоков // Труды МФТИ. 2016. Т. 8. (в печати). arXiv:1506.00292
63. Richtarik P. http://www.maths.ed.ac.uk/~richtarik/
64. Shalev-Shwartz S. http://www.cs.huji.ac.il/~shais/
65. Zhang T. http://www.stat.rutgers.edu/home/tzhang/
66. Le Roux N., Schmidt M., Bach F. A stochastic gradient method with an exponential convergence rate for strongly-convex optimization with finite training sets //In Advances in Neural Information Processing Systems (NIPS). 2012. arXiv:1202.6258
67. Johnson B., Zhang T. Accelerating stochastic gradient descent using predictive variance reduction // In Advances in Neural Information Processing Systems (NIPS). 2013.http://www.stat.rutgers.edu/home/tzhang/pubs.html
68. Konecny J., Richtarik P. Semi-Stochastic gradient descent methods // e-print, 2013. arXiv:1312.1666
69. Konecny J., Liu J., Richtarik P., Takac M. Mini-batch semi-stochastic gradient descent in the proximal setting // e-print, 2015. arXiv:1504.04407
70. Lan G., Zhou Y. An optimal randomized incremental gradient methods // Technical Report, Department of Industrial and Systems Engineering, University of Florida, July 7, 2015, updated in October, 2015.http://www.ise.ufl.edu/glan/files/2015/10/OptRandom10-18.pdf
71. Lin Q., Lu Z., Xiao L. An Accelerated Randomized Proximal Coordinate Gradient Method and its Application to Regularized Empirical Risk Minimization // SIAM J. Optim. 2015. V. 25, N 4. P. 2244-2273.http://research.microsoft.com/pubs/228730/spdc_paper.pdf, http://research.microsoft.com/pubs/258430/APCG_ERM_2015.pdf
72. Agarwal A., Bottou L. A lower bound for the optimization of finite sums // e-print, 2014. arXiv:1410.0723
73. Shalev-Shwartz S., Zhang T. Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization // In Proceedings of the 31th International Conference on Machine Learning, ICML 2014, Beijing, China, 21-26 June 2014. P. 64-72. arXiv:1309.2375
74. Zheng Q., Richtarik P., Zhang T. Randomized dual coordinate ascent with arbitrary sampling // e-print, 2014. arXiv:1411.5873
75. Bartlett P.L., Mendelson S. Empirical minimization // Probability theory and related fields. 2006. V. 135(3). P. 311-334.
76. Nesterov Yu., Spokoiny V.Random gradient-free minimization of convex functions // Foundations of Computational Mathematics, 2015; CORE Discussion Paper 2011/1. 2011.
77. Nesterov Y. Smooth minimization of non-smooth function // Math. Program. Ser. A. 2005. V. 103, N 1. P. 127-152.
78. Devolder O., Glineur F., Nesterov Yu. First order methods of smooth convex optimization with inexact oracle // Math. Progr. Ser. A. 2014. V. 146(1-2). P. 37-75.
79. Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale convex optimization. CORE UCL, PhD thesis, March 2013.
80. D'Aspermont A. Smooth optimization with approximate gradient // SIAM Journal of Optimization. 2008. V. 19(3). P. 1171-1183.
81. Baes M. Estimate sequence methods: extensions and approximations. IFOR Internal report. ETH Zurich, Switzerland, 2009.
82. Devolder O., Glineur F., Nesterov Yu. First order methods with inexact oracle: the smooth strongly convex case // CORE Discussion Paper 2013/16. 2013.
83. Devolder O., Glineur F., Nesterov Yu. Intermediate gradient methods for smooth convex problems with inexact oracle // CORE Discussion Paper 2013/17. 2013.
84. Ghadimi S., Lan G. Optimal stochastic approximation algorithms for strongly convex stochastic composite optimization I: A generic algorithmic framework // SIAM J. Optim. 2012. V. 22(4). P. 1469-1492.
85. Ghadimi S., Lan G. Optimal stochastic approximation algorithms for strongly convex stochastic composite optimization II: Shrinking procedures and optimal algorithms // SIAM J. Optim. 2013. V. 23(4). P. 2061-2089.
86. Гасников А.В., Двуреченский П.Е. Стохастический промежуточный метод для задач выпуклой оптимизации // ДАН РАН. 2016. Т. 467, № 2. С. 131-134.
87. Dvurechensky P., Gasnikov A. Stochastic Intermediate Gradient Method for Convex Problems with Inexact Stochastic Oracle // Journal Optimization Theory and Applications. 2016. (подана) arXiv:1411.2876
88. Ортега Дж., Рейнболдт В. Итерационные методы решения нелинейных систем уравнений со многими неизвестными. М.: Мир, 1975.
89. Евтушенко Ю.Г. Методы решения экстремальных задач и их применение в системах оптимизации. М.: Наука, 1982.
90. Wu S., Boyd S., Candes E. A differential equation for modeling Nesterov's accelerated gradient method: Theory and insight // NIPS, December 2014. http://stanford.edu/~boyd/papers/ode_nest_grad.html
91. Wibisono A, Wilson A.C. On accelerated methods in optimization // e-print, 2015. arXiv:1509.03616
92. Аникин А.С., Гасников А.В., Двуреченский П.Е., Тюрин А.И., Чернов А.В. Двойственные подходы к задачам минимизации сильно выпуклых функционалов простой структуры при аффинных ограничениях // ЖВМ и МФ. 2016. Т. 56. (подана). arXiv:1602.01686
93. Nesterov Yu., Shikhman V. Convergent subgradient methods for nonsmooth convex minimization // CORE Discussion Paper 2014/5. 2014. https://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2014_5web.pdf
94. Lin H., Mairal J., Harchaoui Z. A universal catalyst for first-order optimization // Advances in Neural Information Processing Systems (NIPS), 2015. https://hal.inria.fr/hal-01160728
95. Lan G. Gradient sliding for composite optimization // Math. Progr. 2014. (submitted). http://pwp.gatech.edu/guanghui-lan/wp-content/uploads/sites/330/2016/02/GS-nonsmooth-stochastic6-11-submit.pdf
96. Lan G. http://www.ise.ufl.edu/glan/publications/
97. Гасников А.В., Гасникова Е.В., Нестеров Ю.Е., Чернов А.В. Об эффективных численных методах решения задач энтропийно-линейного программирования // ЖВМ и МФ. 2016. Т. 56, № 4. С. 523-534. arXiv:1410.7719
98. Spielman D. Algorithms, graph theory, and linear equations in Laplacian matrices // Proc. of the International Congress of Mathematicians. Hyderabad, India, 2010. P. 1-23.
99. Никайдо Х. Выпуклые структуры и математическая экономика. М.: Мир, 1972.
100. Nesterov Yu. Excessive gap technique in nonsmooth convex minimization // SIAM Journal of Optimization. 2005. V. 16, N 1. P. 235-249.
101. Nemirovski A. http://www2.isye.gatech.edu/~nemirovs/
102. Juditsky A. http://ljk.imag.fr/membres/Anatoli.Iouditski/
103. Cox B., Juditsky A., Nemirovski A. Decomposition techniques for bilinear saddle point problems and variational inequalities with affine monotone operators on domains given by linear minimization oracles // e-print, 2015. arXiv:1506.02444
104. Nesterov Y., de Palma A. Stationary dynamic solutions in congested transportation Networks: Summary and Perspectives // Networks Spatial Econ. 2003. N 3(3). P. 371-395.
105. Nesterov Yu., Shikhman V. Algorithmic models of market equilibrium // CORE Discussion Paper 2013/66. 2013.
106. Ващенко М.П., Гасников А.В., Молчанов Е.Г., Поспелова Л.Я., Шананин А.А. Вычислимые модели и численные методы для анализа тарифной политики железнодорожных грузоперевозок. М.: ВЦ РАН, 2014. arXiv:1501.02205
107. Гасников А.В. Заметка об эффективной вычислимости конкурентных равновесий в транспортно-экономических моделях // Математическое моделирование. 2015. Т. 27, № 12. С. 121-136. arXiv:1410.3123
108. Бабичева Т.С., Гасников А.В., Лагуновская А.А., Мендель М.А. Двухстадийная модель равновесного распределения транспортных потоков // Труды МФТИ. 2015. Т. 7, № 3. С. 31-41. https://mipt.ru/upload/medialibrary/971/31-41.pdf
109. Гасников А.В., Гасникова Е.В., Мациевский С.В., Усик И.В. О связи моделей дискретного выбора с разномасштабными по времени популяционными играми загрузок // Труды МФТИ. 2015. Т. 7, № 4. С. 129-142. arXiv:1511.02390
110. Nemirovski A., Onn S., Rothblum U.G. Accuracy certificates for computational problems with convex structure // Mathematics of Operation Research. 2010. V. 35, № 1. P. 52-78.
111. Nesterov Yu. New primal-dual subgradient methods for convex optimization problems with functional constraints // International Workshop «Optimization and Statistical Learning». January 11-16. France, Les Houches, 2015. http://lear.inrialpes.fr/workshop/osl2015/program.html
112. Магарил-Ильяев Г.Г., Тихомиров В.М. Выпуклый анализ и его приложения. М.: УРСС, 2011.
113. Guzman C., Nemirovski A. On lower complexity bounds for large-scale smooth convex optimization // Journal of Complexity. 2015. V. 31. P. 1-14. arXiv:1307.5001
114. Немировский А.С., Нестеров Ю.Е. Оптимальные методы гладкой выпуклой оптимизации // ЖВМ и МФ. 1985. Т. 25, № 3. С. 356-369.
115. Harchaoui Z., Juditsky A., Nemirovski A. Conditional gradient algorithms for norm-regularized smooth convex optimization // Math. Program. Ser. B. 2015. V. 152. P. 75-112. http://www2.isye.gatech.edu/~nemirovs/ccg_revised_apr02.pdf
116. Nesterov Yu. Universal gradient methods for convex optimization problems // Math. Prog. 2015, V. 152, N 1. P. 381-404; CORE Discussion Paper 2013/63. 2013.
117. Гасников А.В., Двуреченский П.Е., Камзолов Д.И. Градиентные и прямые методы с неточным оракулом для задач стохастической оптимизации // Динамика систем и процессы управления. Труды Международной конференции, посвященой 90-летию со дня рождения академика Н.Н. Красовского. Екатеринбург, 15-20 сентября 2014. Издательство: Институт математики и механики УрО РАН им. Н.Н. Красовского (Екатеринбург), 2015. С. 111-117. arXiv:1502.06259
118. Nesterov Yu. How to make the gradients small // OPTIMA 88. 2012. P. 10-11. http://www.mathopt.org/Optima-Issues/optima88.pdf
119. Nesterov Yu. Gradient methods for minimizing composite functions // Math. Prog. 2013. V. 140, N 1. P. 125-161.
120. Горнов А.Ю. Вычислительные технологии решения задач оптимального управления. Новосибирск: Наука, 2009.
121. Lugosi G., Cesa-Bianchi N. Prediction, learning and games. New York: Cambridge University Press, 2006.
122. Shalev-Shwartz S. Online learning and online convex optimization // Foundation and Trends in Machine Learning. 2011. V. 4, N 2. P. 107-194. http://www.cs.huji.ac.il/~shais/papers/OLsurvey.pdf
123. Rakhlin A., Sridharan K. Statistical Learning Theory and Sequential Prediction // e-print, 2015. http://stat.wharton.upenn.edu/~rakhlin/book_draft.pdf
124. Hazan E. Introduction to online convex optimization // e-print, 2015. http://ocobook.cs.princeton.edu/OCObook.pdf
125. Гасников А.В., Лагуновская А.А., Усманова И.Н., Федоренко Ф.А. Безградиентные прокс-методы с неточным оракулом для негладких задач выпуклой стохастической оптимизации на симплексе // Автоматика и телемеханика. 2016 (в печати). arXiv:1412.3890
126. Гасников А.В., Крымова Е.А., Лагуновская А.А., Усманова И.Н., Федоренко Ф.А. Стохастическая онлайн-оптимизация. Одноточечные и двухточечные нелинейные многорукие бандиты. Выпуклый и сильно выпуклый случаи // Автоматика и Телемеханика. 2016 (подана). arXiv:1509.01679
127. Duchi J.C., Jordan M.I., Wainwright M.J., Wibisono A. Optimal rates for zero-order convex optimization: the power of two function evaluations // IEEE Transaction of Information. 2015. V. 61, N 5. P. 2788-2806. http://www.eecs.berkeley.edu/~wainwrig/Papers/DucZero15.pdf
128. Поляк Б.Т., Цыбаков А.Б. Оптимальные порядки точности поисковых алгоритмов стохастической оптимизации // Проб. перед. информ. 1990. Т. 26, № 2. С. 45-53.
129. Spall J.C. Introduction to stochastic search and optimization: estimation, simulation and control. Wiley, 2003.
130. Agarwal A, Dekel O., Xiao L. Optimal algorithms for online convex optimization with multi-point bandit feedback // Proceedings of 23 Annual Conference on Learning Theory. 2010. P. 28-40.
131. Граничин О.Н. Об одной стохастической рекуррентной процедуре при зависимых помехах в наблюдении, использующей на входе пробные возмущения // Вестник Ленинградского университета. 1989. Cер. 1. Вып. 1. С. 19-21.
132. Shamir O. An Optimal Algorithm for Bandit and Zero-Order Convex Optimization with Two-Point Feedback // e-print, 2015. arXiv:1507.08752
133. Ledoux M. Concentration of measure phenomenon. Providence, RI, Amer. Math. Soc., 2001 (Math. Surveys Monogr. V. 89).
134. Wright S.J. Coordinate descent algorithms // e-print, 2015. arXiv:1502.04759
135. Dempe S. Foundations of bilevel programming. Dordrecht: Kluwer Academic Publishers, 2002.
136. Bogolubsky L., Dvurechensky P., Gasnikov A., Gusev G., Nesterov Yu., Raigorodskii A., Tikhonov A., Zhukovskii M. Learning supervised PageRank with gradient-free optimization methods // e-print, 2014. arXiv:1411.4282
137. Bogolubsky L., Dvurechensky P., Gasnikov A., Gusev G., Nesterov Yu., Raigorodskii A, Tikhonov A., Zhukovskii M. Learning Supervised PageRank with Gradient-Based and Gradient-Free Optimization Methods // e-print, 2016. arXiv:1603.00717
138. Nesterov Yu. Structural Optimization: New Perspectives for Increasing Efficiency of Numerical Schemes // International conference «Optimization and Applications in Control and Data Science» on the occasion of Boris Polyak's 80th birthday, Moscow, May, 2015. http://www.mathnet.ru/php/presentation.phtml?option_lang=rus&presentid=11909
139. http://www.mathnet.ru/php/conference.phtml?option_lang=rus&eventID=1&confid=699
140. Гасников А.В. «Алгебра» над эффективными методами выпуклой оптимизации (элементарное введение) // Математический кружок. ФУПМ МФТИ. 8 февраля 2014 г. http://www.mathnet.ru/php/seminars.phtml?option_lang=rus&presentid=8395
141. Гасников А.В., Камзолов Д.И., Мендель М.С. Основные конструкции над алгоритмами выпуклой оптимизации и их приложения к получению новых оценок для сильно выпуклых задач // Труды МФТИ. 2016. Т. 8 (в печати). arXiv:1603.07701
References
1. Polyak B.T. Gradient methods for minimization of functionals, solving equations and inequalities. PhD Thesis. MSU, 1963.
2. Polyak B.T. Introduction to Optimization, New York, Optimization Software, 1987, 464 pages.
3. Khachiyan L.G. Selected works. Editor S. P. Tarasov. M.: MCCME, 2009.
4. Nemirovsky A.S., Yudin D.B. Problem Complexity and Method Efficiency in Optimization. J. Wiley & Sons, New York, 1983.
5. Polyak B.T., Tsypkin Y.Z. Optimal pseudogradient algorithms of adaptation. Automation and remote control. 1980. N 8. P. 74-84.
6. Tsypkin Y.Z, Poznyak A.S. Optimal search algorithms for stochastic optimization // Doklady AN USSR. 1981. Т. 260, N 3. С. 550-553.
7. Nesterov Y.E. Efficient methods in nonlinear programming. M.: Radio and Communications, 1989.
8. Nesterov Y., Nemirovsky A. Interior-point polynomial methods in convex programming. Studies in applied mathematics. V. 13. SIAM, Philadelphia, 1994.
9. Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013. http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf
10. Nesterov Y. Introductory lectures on convex optimization: A basic course. Springer Science & Business Media, 2004.
11. Bubeck S. Convex optimization: algorithms and complexity //In Foundations and Trends in Machine Learning. 2015. V. 8, N 3-4. P. 231-357. arXiv:1405.4980
12. http://cvxr.com/cvx/
13. http://www.cvxpy.org/en/latest/ ; https://github.com/cvxgrp/scs
14. Nesterov Y.E. Algorithmic convex optimization. D.Sc. Thesis, 2013, 367 p. http://www.mathnet.ru/php/seminars.phtml?option_lang=rus&presentid=8313
15. Levitin E.S., Polyak B.T. Minimization methods in presence of constraints. Comp.Mat & Mat. Phys. 1966. V. 6, N 5. P. 787-823.
16. Vasiliev F.P. Optimization methods. M.: MCCME, 2011.
17. Jaggi M. Revisiting Frank-Wolfe: Projection-free sparse convex optimization. Proceedings of the 30th International Conference on Machine Learning, Atlanta, Georgia, USA, 2013. https://sites.google.com/site/frankwolfegreedytutorial/
18. Nesterov Yu. Complexity bounds for primal-dual methods minimizing the model of objective function. CORE Discussion Papers. 2015/03. 2015.
19. Tseng P. On accelerated proximal gradient methods for convex-concave optimization. SIAM J. Optim. 2008 (submitted). http://www.mit.edu/~dimitrib/PTseng/papers.html
20. Neumaier A. OSGA: A fast subgradient algorithm with optimal complexity. e-print, 2014. arXiv:1402.1125
21. Allen-Zhu Z, Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent. e-print, 2014. arXiv:1407.1537
22. Ermoliev Y.M. Methods for stochastic programming. M.: Nauka, 1976.
23. Nurminsky E.A. Numerical methods for solving deterministic and stochastic minimax problems. Kiev: Naukova dumka, 1979.
24. Shapiro A., Dentcheva D., Ruszczynski A. Lecture on stochastic programming. Modeling and theory. MPS-SIAM series on Optimization, 2014.
25. Nesterov Y. Minimizing functions with bounded variation of subgradients. CORE Discussion Papers. 2005/79. 2005.
26. Gasnikov A.V., Nesterov Y.E., Spokoiny V.G. On the efficiency of a randomized mirror descent algorithm in online optimization problems. Comp.Mat & Mat. Phys. V. 55, N 2015. P. 55-71. arXiv:1410.3118
27. Nesterov Y. Primal-dual subgradient methods for convex problems. Math. Program. Ser. B. 2009. V. 120(1). P. 261-283.
28. Polyak B.T. New method of stochastic approximation type. Automation and remote control. 1990. N 7. P. 98-107.
29. Polyak B.T., Juditsky A.B. Acceleration of stochastic approximation by averaging. SIAM J. Control Optim. 1992. V. 30. P. 838-855.
30. Juditsky A., Lan G., Nemirovski A., Shapiro A. Stochastic approximation approach to stochastic programming. SIAM Journal on Optimization. 2009. V. 19, N. P. 1574-1609.
31. Juditsky A., Nemirovski A. First order methods for nonsmooth convex large-scale optimization, I, II. In: Optimization for Machine Learning. Eds. S. Sra, S. Nowozin, S. Wright. MIT Press, 2012.
32. Sridharan K. Learning from an optimization viewpoint. PhD Thesis, Toyota Technological Institute at Chicago, 2011. http://ttic.uchicago.edu/~karthik/thesis.pdf
33. Granichin O.N., Polyak B.T. Randomized algorithms for estimation and optimization with nearly arbitrary noise. M.: Nauka, 2003.
34. Spokoiny V. Parametric estimation. Finite sample theory // The Annals of Statistics. 2012. V. 40, N 6. P. 2877-2909. arXiv:1111.3029v5
35. Ibragimov I.A., Khas'minski R.Z. Asymptotic theory of estimation. M.: Nauka, 1977.
Зб. Lacost-Julien S., Schmidt M., Bach F. A simpler approach to obtaining О (l/í) convergence rate for the projected stochastic subgradient method. e-print, 2012. arXiv:1212.2002
3T. Rakhlin A., Shamir O., Sridharan K. Making gradient descent optimal for strongly convex stochastic optimization. ICML, 2012. arXiv:1109.5647
38. Juditsky A., Nesterov Yu. Deterministic and stochastic primal-dual subgradient algorithms for uniformly convex minimization. Stoch. System. 2014. V. 4, N 1. P. 44-В0. arXiv:1401.1792
39. Hazan E., Kale S. Beyond the regret minimization barrier: Optimal algorithms for stochastic strongly-convex optimization. JMLR. 2014. V. 15. P. 24В9-2512.
40. Borovkov A.A., Borovkov K.A. Asymptotic analysis of random walks. V. 1. Slowly decreasing jump distributions. M.: Fizmatlit, 200В.
41. Kim K., Nesterov Y., Skokov V. Cherkasski B. Efficient algorithms for differentiation and extremal problem. Economics and nathematical methods. 19В4. V. 20. P. З09-З1В.
42. Evtushenko Y. G. Optimization and fast automatic differentiation. M.: CC RAS, 2013.
43. Gasnikov A.V., Dvurechensky P.E., Usmanova I.N.About accelerated randomized methods. Proceedings of MIPT. 201б. V. В. (in print) arXiv:1508.02182
44. Anikin A.S., Gasnikov A.V., Gornov A.Y. Randomozation and sparsity in huge-scale optimization problems on an example of Mirror Descent method. Proceedings of MIPT. 201б. V. В. (in print) arXiv:^02.00594
45. Bubeck S., Cesa-Bianchi N. Regret analysis of stochastic and nonstochastic multi-armed bandit problems. Foundation and Trends in Machine Learning. 2012. V. 5, N. P. 1-122. http:jjwww.princeton.edujsbubeckjSurveyBCB12.pdf
46. Gasnikov A.V., Lagunovskaia A.A., Morozova L.E. On the connection between imitation logit dynamics in population game theory and Mirror Descent method in online optimization on an example of shortest path choice. Proceedings of MIPT. 2015. V. 7, N 4. P. 104-113. arXiv:1511.02398
4T. Agarwal A., Bartlett P.L., Ravikumar P., Wainwright M.J. Information-theoretic lower bounds on the oracle complexity of stochastic convex optimization. IEEE Transaction of Information. 2012. V. 5В, N 5. P. 3235-3249. arXiv:1009.0571
48. Anikin A.S., Gasnikov A.V., Gornov A.Y., Kamzolov D.I., Maximov Y.V., Nesterov Y.E.Efficient numerical methods for solving PageRank problem with double sparse matrices. Proceedings of MIPT. 2015. V. 7, N 4. P. 74-94. arXiv:1508.07607
49. Nazin A.V., Polyak B.T. Randomized algorithm for finding eigenvector of stochastic matrix in application to PageRank problem. Doklady Mathematics. 2009. V. 42б, N б. P. 734-737.
50. Nesterov Y.E. Efficiency of coordinate descent methods on large scale optimization problem. SIAM Journal on Optimization. 2012. V. 22, N 2. P. З41-Зб2.
51. Nesterov Y.E. Subgradient methods for huge-scale optimization problems. CORE Discussion Paper 2012j2. 2012.
52. Gasnikov A.V., Dmitriev D.Y. On efficient randomized algorithms for finding the PageRank vector. Comp.Mat k Mat. Phys. V. 55, N 3. 2015. P. 355-371. arXiv:1410.3120
53. Fercoq O., Richtarik P. Accelerated, parallel and proximal coordinate descent. SIAM Journal on Optimization 2015 V. 25, N 4. 1997-2023 ; arXiv:1312.5799
54. Qu Z., Richtarik P. Coordinate Descent with Arbitrary Sampling I: Algorithms and Complexity. e-print, 2014. arXiv^^^O
55. Anikin A., Dvurechensky P., Gasnikov A, Golov A., Gornov A., Maximov Yu., Mendel M., Spokoiny V. Modern efficient numerical approaches to regularized regression problems
in application to traffic demands matrix calculation from link loads. Proceedings of International conference ITAS-2015. Russia, Sochi, September, 2015. arXiv:1508.00858
56. Anikin A.S., Gasnikov A.V., Gornov A.Y.On non-accelerated efficient methods for solving sparse problems of quadratic optimization. Proceedings of MIPT. 2016. V. 8 (in print). arXiv:1602.01124
57. Nesterov Yu., Nemirovski A. On first order algorithms for l\ / nuclear norm minimization. Acta Numerica. 2013. V. 22. P. 509-575.
58. Gasnikov A.V., Dorn Y.V., Nesterov Y.E., Shpirko S.V. On the three-stage version of stable dynamic model. Math. Model. & Comp. Simul. 2014. V. 26:6. P. 34-70. arXiv:1405.7630
59. Gasnikov A.V., Gasnikova E.V., Ershov E.I., Dvurechensky P.E., Lagunovskaia A.A. Searching stochastic equilibriums in transport models of equilibrium flow distribution. Proceedings of MIPT. 2015. V. 7, N 4. P. 114-128. arXiv:1505.07492
60. Gasnikov A.V., Dvurechensky P.E., Dorn Y.V., Maximov Y.V.. Computational methods for equilibrium traffic flow distribution in Beckman's and stable dynamics models. Math. Model. & Comp. Simul. 2016. V. 28 (in print). arXiv:1506.00293
61. Gasnikov A.V., Dvurechensky P.E., Kamzolov D.I., Nesterov Y.E., Spokoiny V.G., Stetsyuk P.I., Suvorikova A.L., Chernov A.V. Searching for equilibrium in multistage transport models. Proceedings of MIPT. 2015. V. 7, N 4. P. 143-155. https://mipt.ru/upload/medialibrary/ffe/143-155.pdf
62. Gasnikov A.V., Dvurechensky P.E., Spokoiny V.G., Stetsyuk P.I., Suvorikova A.L.Superposition of balancing method and universal gradient method for searching the entropy-regularized Wasserstein barycenter and equilibrium in multi-stage transport models. Proceedings of MIPT. 2016. V. 8 (in print). arXiv:1506.00292
63. Richtarik P. http://www.maths.ed.ac.uk/~richtarik/
64. Shalev-Shwartz S. http://www.cs.huji.ac.il/~shais/
65. Zhang T. http://www.stat.rutgers.edu/home/tzhang/
66. Le Roux N., Schmidt M., Bach F. A stochastic gradient method with an exponential convergence rate for strongly-convex optimization with finite training sets. Advances in Neural Information Processing Systems (NIPS). 2012. arXiv:1202.6258
67. Johnson B., Zhang T. Accelerating stochastic gradient descent using predictive variance reduction. Advances in Neural Information Processing Systems (NIPS). 2013.http://www.stat.rutgers.edu/home/tzhang/pubs.html
68. Konecny J., Richtarik P. Semi-Stochastic gradient descent methods. e-print, 2013. arXiv:1312.1666
69. Konecny J., Liu J., Richtarik P., Takac M. Mini-batch semi-stochastic gradient descent in the proximal setting. e-print, 2015. arXiv:1504.04407
70. Lan G., Zhou Y. An optimal randomized incremental gradient methods. Technical Report, Department of Industrial and Systems Engineering, University of Florida, July 7, 2015, updated in October, 2015.http://www.ise.ufl.edu/glan/files/2015/10/0ptRandom10-18.pdf
71. Lin Q., Lu Z., Xiao L. An Accelerated Randomized Proximal Coordinate Gradient Method and its Application to Regularized Empirical Risk Minimization. SIAM J. Optim. 2015. V. 25, N 4. P. 2244-2273.http://research.microsoft.com/pubs/228730/spdc_paper.pdf, http://research.microsoft.com/pubs/258430/APCG_ERM_2015.pdf
72. Agarwal A, Bottou L. A lower bound for the optimization of finite sums // e-print, 2014. arXiv:1410.0723
73. Shalev-Shwartz S., Zhang T. Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization // In Proceedings of the 31th International Conference on Machine Learning, ICML 2014, Beijing, China, 21-26 June 2014. P. 64-72. arXiv:1309.2375
74. Zheng Q., Richtarik P., Zhang T. Randomized dual coordinate ascent with arbitrary sampling // e-print, 2014. arXiv:1411.5873
75. Bartlett P.L., Mendelson S. Empirical minimization // Probability theory and related fields. 2006. V. 135(3). P. 311-334.
76. Nesterov Yu., Spokoiny V.Random gradient-free minimization of convex functions // Foundations of Computational Mathematics, 2015; CORE Discussion Paper 2011/1. 2011.
77. Nesterov Y. Smooth minimization of non-smooth function. Math. Program. Ser. A. 2005. V. 103, N 1. P. 127-152.
78. Devolder O., Glineur F., Nesterov Yu. First order methods of smooth convex optimization with inexact oracle. Math. Progr. Ser. A. 2014. V. 146 (1-2). P. 37-75.
79. Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale convex optimization. CORE UCL, PhD thesis, March 2013.
80. D'Aspermont A. Smooth optimization with approximate gradient. SIAM Journal of Optimization. 2008. V. 19(3). P. 1171-1183.
81. Baes M. Estimate sequence methods: extensions and approximations. IFOR Internal report. ETH Zurich, Switzerland, 2009.
82. Devolder O., Glineur F., Nesterov Yu. First order methods with inexact oracle: the smooth strongly convex case. CORE Discussion Paper 2013/16. 2013.
83. Devolder O., Glineur F., Nesterov Yu. Intermediate gradient methods for smooth convex problems with inexact oracle. CORE Discussion Paper 2013/17. 2013.
84. Ghadimi S., Lan G. Optimal stochastic approximation algorithms for strongly convex stochastic composite optimization I: A generic algorithmic framework. SIAM J. Optim. 2012. V. 22(4) P. 1469-1492.
85. Ghadimi S., Lan G. Optimal stochastic approximation algorithms for strongly convex stochastic composite optimization II: Shrinking procedures and optimal algorithms. SIAM J. Optim. 2013 V. 23(4). P. 2061-2089.
86. Gasnikov A.V., Dvurechensky P.E. Stochastic Intermediate Gradient Method for Convex Problems. Doklady athematics. 2016. V. 467, N 2. P. 131-134.
87. Dvurechensky P., Gasnikov A. Stochastic Intermediate Gradient Method for Convex Problems with Inexact Stochastic Oracle // Journal Optimization Theory and Applications. 2016. (submitted) arXiv:1411.2876
88. Ortega J. M. , Rheinboldt W. C. Iterative Solution of Nonlinear Equations in Several Variables. Elsevier, 1970.
89. Evtushenko Y.G. Methods for solving extremal problems and their application in optimization systems M.: Nauka, 1982.
90. Wu S., Boyd S., Candes E. A differential equation for modeling Nesterov's accelerated gradient method: Theory and insight. NIPS, December 2014. http://stanford.edu/~boyd/papers/ode_nest_grad.html
91. Wibisono A., Wilson A.C. On accelerated methods in optimization // e-print, 2015. arXiv:1509.03616
92. Anikin A.S., Gasnikov A.V., Dvurechensky P.E., Tyurin A.I., Chernov A.V. Dual approaches for problems of minimization of strongly convex functionals with simple structure with affine constraints. Comp.Mat & Mat. Phys. 2016. V. 56. (submitted) arXiv:1602.01686
93. Nesterov Yu., Shikhman V. Convergent subgradient methods for nonsmooth convex minimization. jj CORE Discussion Paper 2014j5. 2014. https:jjwww.uclouvain.bejcpsjucljdocjcorejdocumentsjcoredp2014_5web.pdf
94. Lin H., Mairal J., Harchaoui Z.A universal catalyst for first-order optimization. Advances in Neural Information Processing Systems (NIPS), 2015. https:jjhal.inria.frjhal-01160728
95. Lan G. Gradient sliding for composite optimization jj Math. Progr. 2014 (submitted). http:jjpwp.gatech.edujguanghui-lanjwp-contentjuploadsjsitesj330j2016j02jGS-nonsmooth-stochastic6-11-submit.pdf
96. Lan G. http:jjwww.ise.ufl.edujglanjpublicationsj
9T. Gasnikov A.V., Gasnikov E.V., Nesterov Y.E., Chernov A.V. On efficient numerical methods for entropy-linear programming problems. Comp.Mat k Mat. Phys. 2016. V. 56, N 4. P. 523-534. arXiv:1410.7719
98. Spielman D. Algorithms, graph theory, and linear equations in Laplacian matrices. Proc. of the International Congress of Mathematicians. Hyderabad, India, 2010. P. 1-23.
99. Nikaido H.. Convex structures and mathematical economics. M.: Mir, 1972.
100. Nesterov Yu. Excessive gap technique in nonsmooth convex minimization. SIAM Journal of Optimization. 2005. V. 16, N 1. P. 235-249.
101. Nemirovski A. http:jjwww2.isye.gatech.eduj~nemirovsj
102. Juditsky A. http:jjljk.imag.frjmembresjAnatoli.Iouditskij
103. Cox B., Juditsky A., Nemirovski A. Decomposition techniques for bilinear saddle point problems and variational inequalities with affine monotone operators on domains given by linear minimization oracles. e-print, 2015. arXiv:1506.02444
104. Nesterov Y., de Palma A. Stationary dynamic solutions in congested transportation Networks: Summary and Perspectives. Networks Spatial Econ. 2003. N 3(3). P. 371-395.
105. Nesterov Yu., Shikhman V. Algorithmic models of market equilibrium. CORE Discussion Paper 2013j66. 2013.
106. Vashenko M.P., Gasnikov A.V., Molchanov E.G., Pospelova L.Y., Shananin A.A. Computable models and numerical schen=mts for analysis of tariff policy of railway transportation. M.: CC RAS, 2014. arXiv:1501.02205
lOT. Gasnikov A.V. A note on efficient computability of competitive equilibrium in the transport and economic models. Math. Model. k Comp. Simul. 2015. V. 27, N 12. P. 121136. arXiv:1410.3123
108. Babicheva T.S., Gasnikov A.V., Lagunovskaia A.A., Mendel M.A. Two-stage model of equilibrium distribution of traffic flows.Proceedings of MIPT. 2015. V. 7, N 3. P. 31-41. https:jjmipt.rujuploadjmedialibraryj971j31-41.pdf
109. Gasnikov A.V., Gasnikov E.V., Matsievsky S.V., Usik I.V. On the relationship between the discrete choice models with population games with different scale time loads. Proceedings of MIPT. 2015. V. 7, N 4. P. 129-142. arXiv:1511.02390
110. Nemirovski A., Onn S., Rothblum U.G. Accuracy certificates for computational problems with convex structure. Mathematics of Operation Research. 2010. V. 35, N 1. P. 52-78.
111. Nesterov Yu. New primal-dual subgradient methods for convex optimization problems with functional constraints. International Workshop «Optimization and Statistical Learning». January 11-16. France, Les Houches, 2015. http:jjlear.inrialpes.frjworkshopjosl2015jprogram.html
112. Magaril-Ilyaev G.G., Tikhomirov V.M. Convex analysis and its applications. M.: URSS, 2011.
113. Guzman C., Nemirovski A. On lower complexity bounds for large-scale smooth convex optimization. Journal of Complexity. 2015. V. 31. P. 1-14. arXiv:1307.5001
114. Nemirovski A.S., Nesterov Y.E. Optimal methods for smooth convex optimization. Comp.Mat & Mat. Phys. 1985. V. 25, N 3. P. 356-369.
115. Harchaoui Z., Juditsky A., Nemirovski A. Conditional gradient algorithms for norm-regularized smooth convex optimization // Math. Program. Ser. B. 2015. V. 152. P. 75-112. http://www2.isye.gatech.edu/~nemirovs/ccg_revised_apr02.pdf
116. Nesterov Yu. Universal gradient methods for convex optimization problems // Math. Prog. 2015, V. 152, N 1. P. 381-404; CORE Discussion Paper 2013/63. 2013.
117. Gasnikov A.V., Dvurechensky P.E., Kamzolov D.I. Gradient and dirext methods with inexact oracle for stochastic optimization problems. Dynamics of systems and management processes. Proceedings of the International Conference dedicated to the 90th birthday of academician N.N. Krasovsky. Ekaterinburg, 15-20 September 2014 Publisher: Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences. (Ekaterinburg), 2015. P. 111-117. arXiv:1502.06259
118. Nesterov Yu. How to make the gradients small. OPTIMA 88. 2012. P. 10-11. http://www.mathopt.org/Optima-Issues/optima88.pdf
119. Nesterov Yu. Gradient methods for minimizing composite functions // Math. Prog. 2013. V. 140, N 1. P. 125-161.
120. Gornov A.Y. Computation technologies for solving optimal control problems. Novosibirsk: Nauka, 2009.
121. Lugosi G., Cesa-Bianchi N. Prediction, learning and games. New York: Cambridge University Press, 2006.
122. Shalev-Shwartz S. Online learning and online convex optimization // Foundation and Trends in Machine Learning. 2011. V. 4, N 2. P. 107-194. http://www.cs.huji.ac.il/~shais/papers/OLsurvey.pdf
123. Rakhlin A., Sridharan K. Statistical Learning Theory and Sequential Prediction. e-print, 2015. http://stat.wharton.upenn.edu/~rakhlin/book_draft.pdf
124. Hazan E. Introduction to online convex optimization. e-print, 2015. http://ocobook.cs.princeton.edu/OCObook.pdf
125. Gasnikov A.V., Lagunovskaia A.A., Usmanova I.N., Fedorenko F.A. Gradient-free prox-methods with inexact oracle for non-smooth problems of convez stochastic optimization problems on a simplex. Automation and remote control. 2016. (in print) arXiv:1412.3890
126. Gasnikov A.V., Krymova E.A., Lagunovskaia A.A., Usmanova I.N., Fedorenko F.A.Stochastic onlineo ptimization. Single-point and multi-point non-linear multi-armed bandits. The convex and strongly convex cases. Automation and remote control. 2016. (submitted) arXiv:1509.01679
127. Duchi J.C., Jordan M.I., Wainwright M.J., Wibisono A. Optimal rates for zero-order convex optimization: the power of two function evaluations. IEEE Transaction of Information. 2015. V. 61. № 5. P. 2788-2806. http://www.eecs.berkeley.edu/~wainwrig/Papers/DucZero15.pdf
128. Polyak B.T., Csybakov A.B. Optimal order of accuracy of search algorithms in stochastic optimization. Prob. Pered. Inf. 1990. V. 26, N 2. P. 45-53.
129. Spall J.C. Introduction to stochastic search and optimization: estimation, simulation and control. Wiley, 2003.
130. Agarwal A, Dekel O., Xiao L. Optimal algorithms for online convex optimization with multi-point bandit feedback. Proceedings of 23 Annual Conference on Learning Theory. 2010. P. 28-40.
131. Granichin O.N. On one stochastic recurrent procedure with dependent noise in the observation using trial observations as input. Vestnik Leningrad University. 1989. V. 1. I. 1. P. 19-21.
132. Shamir O. An Optimal Algorithm for Bandit and Zero-Order Convex Optimization with Two-Point Feedback. e-print, 2015. arXiv:1507.08752
133. Ledoux M. Concentration of measure phenomenon. Providence, RI, Amer. Math. Soc., 2001 (Math. Surveys Monogr. V. 89).
134. Wright S.J. Coordinate descent algorithms. e-print, 2015. arXiv:1502.04759
135. Dempe S. Foundations of bilevel programming. Dordrecht: Kluwer Academic Publishers, 2002.
136. Bogolubsky L., Dvurechensky P., Gasnikov A., Gusev G., Nesterov Yu., Raigorodskii A, Tikhonov A., Zhukovskii M. Learning supervised PageRank with gradient-free optimization methods. e-print, 2014. arXiv:1411.4282
137. Bogolubsky L., Dvurechensky P., Gasnikov A., Gusev G., Nesterov Yu., Raigorodskii A., Tikhonov A, Zhukovskii M. Learning Supervised PageRank with Gradient-Based and Gradient-Free Optimization Methods. e-print, 2016. arXiv:1603.00717
138. Nesterov Yu. Structural Optimization: New Perspectives for Increasing Efficiency of Numerical Schemes. International conference «Optimization and Applications in Control and Data Science» on the occasion of Boris Polyak's 80th birthday, Moscow, May, 2015. http://www.mathnet.ru/php/presentation.phtml?option_lang=rus&presentid=11909
139. http://www.mathnet.ru/php/conference.phtml?option_lang=rus&eventID=1&confid=699
140. Gasnikov A.V. «Algebra» on efficient methods for convex optimization (basic introduction)
http://www.mathnet.ru/php/seminars.phtml?option_lang=rus&presentid=8395
141. Gasnikov A.V., Kamzolov D.I., Mendel M.A. The basic design of the convex optimization algorithms and their applications to obtain new estimates for strongly convex problems. Proceedings of MIPT. 2016. V. 8 (in print). arXiv:1603.07701
Поступила в редакцию 07.03.2016