УДК 519.688
А. С. Аникин1, А. В. Гасникое2'3, А. Ю. Горнов1
Институт динамики систем и теории управления им. В.М. Матросова СО РАН 2Институт проблем передачи информации им. А.А. Харкевича РАН 3Московский физико-технический институт (государственный университет)
Рандомизация и разреженность в задачах Huge-Scale оптимизации на примере работы метода зеркального
спуска
В работе исследуются различные рандомизации метода зеркального спуска для задач huge-scale оптимизации с разреженной структурой. В качестве одного из примеров приложения приводится задача PageRank.
Ключевые слова: huge-scale оптимизация, рандомизация, метод зеркального спуска, разреженность, оценки вероятностей больших уклонений, PageRank.
A.S. Anikin1, A. V. Gasnikov2'3, A. Yu. Gornov1
1Matrosov Institute for System Dynamics and Control Theory of SB RAS 2Kharkevich Institute for Information Transmission Problems of RAS 3Moscow Institute of Physics and Technology (State University
Randomization and sparsity in huge-scale optimization on an example of mirror descent
We investigate different randomizations for the mirror descent method. We try to propose such a randomization that allows us to use sparsity of the problem as much as it possible. In the paper, one can also find a generalization of randomized mirror descent for the convex optimization problems with functional restrictions.
Key words: huge-scale optimization, randomization, mirror descent method, sparsity, large deviations probabilities estimation, PageRank
1. Введение
В недавнем цикле работ Ю.Е. Нестерова с соавторами [1-4] был введен класс задач huge-scale оптимизации (задачи выпуклой оптимизации, для которых размерность прямого и(или) двойственного пространства не меньше десятков миллионов), и исследовалась роль разреженности в таких задачах. Настоящая работа посвящена изучению конкретного
(но, пожалуй, наиболее важного) метода решения таких задач - метода зеркального спуска (МЗС). Это метод представляет собой обобщение метода проекции градиента. Он был предложен в конце 70-х годов прошлого века А. С. Немировским [5]. С тех пор метод получил повсеместное распространение для решения задач больших размерностей, прежде всего в связи с идей рандомизации. Метод оказался слабо чувствительным к замене настоящего градиента его несмещенной оценкой. Это обстоятельство активно используется на практике, поскольку построить несмещенную оценку в ряде случаев удается намного дешевле, чем посчитать градиент. Как правило, выгода получается пропорциональной размерности пространства, в котором происходит оптимизация. Однако для разреженных задач тут возникают нюансы, связанные с проработкой правильного сочетания рандомизации и разреженности. Настоящая работа посвящена изучению такого сочетания для МЗС. Данная работа является продолжением работы [3], в которой уже был рассмотрен один сюжет на эту тему (метод Григориадиса-Хачияна для задачи PageRank).
Структура статьи следующая. В п. 2 мы описываем рандомизированный МЗС. Стоит обратить внимание на случай, когда оптимизация происходит на неограниченном множестве, и при этом выводятся оценки вероятностей больших уклонений. Тут есть некоторые тонкости, проработка которых делает п. 2 не просто вводным материалом для последующего изложения, но и представляющим самостоятельный интерес. В п. 3 результаты п. 2 переносятся на задачи с функциональными ограничениями, на которые мы не умеем эффективно проектироваться. В детерминированном случае (когда используется обычный градиент) такого типа задачи рассматривались достаточно давно. Разработаны эффективные способы их редуцирования к задаче с простыми ограничениями. Предлагались различные эффективные методы (Поляк-Шор-Немировский-Нестеров). Однако в случае, когда вместо градиента мы используем его несмещенную оценку (для функционала и ограничений), нам не известны оценки, поэтому в п. 3 приводится соответствующее обобщение МЗС и устанавливаются необходимые в дальнейшем оценки. В п. 4 на основе теоретических заготовок пп. 2 ,3 мы описываем класс разреженных задач (обобщающих задачу PageRank), для которых удаётся за счет рандомизации получить дополнительную выгоду.
2. Рандомизированный метод зеркального спуска
Рассмотрим задачу выпуклой оптимизации
f (х) ^ min . (1)
x£Q
Под решением этой задачи будем понимать такой xN G Q С Rra, что с вероятностью > 1 — a имеет место неравенство
f (XN ) — f* < £,
где f* = f (x*) — оптимальное значение функционала в задаче (1), х* G Q — решение задачи (1). На каждой итерации k = 1,...,N нам доступен стохастический (суб-)градиент Vxfk(х,^к) в одной, выбранной нами (методом), точке хк.
Опишем метод зеркального спуска (МЗС) для решения задачи (1) (мы в основном будем следовать работам [5,6]). Введем норму || ■ || в прямом пространстве (сопряженную норму будем обозначать || ■ ||*) и прокс-функцию d(x) сильно выпуклую относительно этой нормы, с константой сильной выпуклости > 1. Выберем точку старта
х1 = argmin d(x), xeQ
считаем, что
d(x1) = 0, Vd(x1 ) = 0. Введем брэгмановское «расстояние»
Vx(y) = d(y) — d(x) — {Vd(x),y — x).
Определим «размер» решения
d(x*) = Vxi (x*) = R2. Определим оператор «проектирования» согласно этому расстоянию
Mirr^fc(v) = argmin j(v,y — xk^j + Vxk(y)^ .
МЗС для задачи (1) будет иметь вид, см., например, [6]
хк+1 = Mirr^fc (aVxfk (хк,£fc)) , к = 1,..., N.
Будем считать, что 1 представляет собой последовательность независимых слу-
чайных величин, и для всех x G Q имеют место условия (к = 1,..., N)
1) % [Vxfk (х,е)] = Vf(х);
\vxfk {х,е)
12
< м2.
В ряде случаев нам также понадобится более сильное условие 3) ЦУжД (х,£к) ||2 < М2 почти наверное по £к.
При выполнении условия 1 для любого и € Q,к = 1,..., N имеет место неравенство, см., например, [6]
а (ух/к (хк) ,хк - и) < ^ ||улД (хк) |2 + V;,(и) - ^+1 (и). Это неравенство несложно получить в случае евклидовой прокс-структуры [7]
й(х) = 1И12/2, Ух(у) = \\у - х\&/2.
В этом случае МЗС для задачи (1) есть просто вариант обычного метода проекции градиента (см. примеры 1, 2 ниже).
Разделим сначала выписанное неравенство на а и возьмем условное математическое ожидание Е^к [^Е^-1] (Ек-1 — сигма алгебра, порожденная ...,£к-1), затем просуммируем то, что получится по к = 1,..., N, используя условие 1. Затем возьмем от того, что получилось при суммировании, полное математическое ожидание, учитывая условие 2. В итоге, выбрав и = х* , и определив
1 Л
х" = — ,
получим
N к=1
N ■ (E\f (^)l - /*) < - Е [V*N+1 (Х*)] + 1М2aN < + 1М2aN.
v L v 11 ' a a 2 a 2
Выбирая1
R 2
a = mVN,
получим
E [f (xN)] - f* < MR J2. (2)
Заметим, что в детерминированном случае вместо xN можно брать
xN = argmin f (хк). k=l,..,N
Немного более аккуратные рассуждения (использующие неравенство Азума-Хефдинга)
с
R [2 а = м\N
позволяют уточнить оценку (2) следующим образом (см., например, [8,9]):
f {xN) - f* < м^ (я + (з)
с вероятностью > 1 - а, где
R = sup \\х - х*||,
xeQ
1 Можно получить и адаптивный вариант приводимой далее оценки, для этого потребуется использовать
метод двойственных усреднений [6,7]. Впрочем, в [5] имеется адаптивный вариант МЗС.
*
Q = {х е Q : Уж - ж*||2 < 65R2 ln(4N/a)} .
Собственно, для справедливости оценки (3) достаточно требовать выполнение условий 1-3 лишь на множестве Q С Q. Это замечание существенно, когда рассматриваются неограниченные множества Q (см., например, п. 4).
Оценки (2), (3) являются неулучшаемыми с точностью до мультипликативного числового множителя по N и а. Наряду с этим можно обеспечить и их неулучшаемость по размерности пространства п путем «правильного» выбора прокс-функции [5] (такой выбор всегда возможен и известен для многих важных в приложениях случаев выбора множества Q). Собственно прокс-структура (новая степень свободы по сравнению с классическим методом проекции градиента) и вводилась для того, чтобы была возможность обеспечить последнее свойство.
Ввиду того, что мы используем рандомизированный метод и всегда
f (xN) - f* > 0,
то, используя идею амплификации (широко распространенную в Computer Science), можно немного «улучшить» оценку (3). Для этого сначала перепишем оценку (2) в виде
Е [f (xN)] - f* < е,
где (здесь N, конечно, должно быть натуральным числом, поэтому эту формулу и последующие формулы такого типа надо понимать с точностью до округления к наименьшему натуральному числу, большему написанного)
N = ^ (4)
е2
Отсюда по неравенству Маркова
Р (/(х») - f* > 2е) < Е [f f* < 1.
Можно параллельно (независимо) запустить ^2(<т-1) траекторий метода. Обозначим х^щ тот из на этих траекториях, который доставляет минимальное значение /(хм). Из выписанного неравенства Маркова получаем, что имеет место неравенство
Р (/ - Л > 2е) < а.
Таким образом, можно не более чем за
д7 8М 2К2 . ь
N = —2^ ^(а-1) 2
обращений за стохастическим градиентом и не более чем за ^2(а-1) обращений за значением функции найти решение задачи (1) хм с требуемой точностью е и доверительным уровнем а.
Как уже отмечалось, во многих приложениях множество Q неограничено (см., например, п. 4). Поскольку х* априорно не известно, то это создает проблемы для определения Я, которое входит в формулу для расчета шага метода
К Г2 а = МУГ
Однако если мы заранее выбрали желаемую точность , то с помощью формулы (4) можно выразить шаг следующим образом:
" = М2 ■
Рассмотрим три конкретных примера множества Q, которые нам понадобятся в дальнейшем (см. п. 4). В примерах 1, 2 мы не приводим оценки скорости сходимости, поскольку они будут иметь вид (2), (3), т.е. никакой уточняющей информации тут не появляется в отличие от примера 3.
Пример 1 (все пространство). Предположим, что Q = Мга. Выберем
1Н1 = 1М12, ¿(Х) = \ ||Х||2.
Тогда МЗС примет следующий вид (а = е/М2, х1 = 0):
хк+1 =хк -аЧх/к(хк, , к = 1,...^. □ Пример 2 (неотрицательный ортант). Предположим, что
Q = М+ = {х е Мга : х > 0}.
Выберем
Н1 = ||-||2, <1(х) = 1 ||х -х|2, х е intQ. Тогда МЗС примет следующий вид (а = е/М2, х1 = х):
хк -аУх/к(хк, Ск) =ш&х{хк -аУх/к(хк, ^ , о} , к = 1,...^,
хк+1 =
где тах{} берется покомпонентно. □
Пример 3 (симплекс). Предположим, что
Q = Sn(l) = {x > 0:) ^хг = ^ .
Выберем
|х > 0 : ^хг = l|
II-у = ||-||b d(x) = lnx + £ in:
n
I х + ^ in хг
г=1
Тогда МЗС примет следующий вид:
х1 = l/n, i = l, ...,п,
при к = 1,...,N, i = 1,...,п
(- J>^) _ хк exp (-а.М^Л)
I Л dfr(хгЛ П к ( ^ dfk(хк£к)\ Е ex-p[ - £а J kl )) Е хк ex-py- ^Е а kl )
Оценки скорости сходимости будут иметь вид:
Е [f (xN)] - f* < М^^Щ^ (при а = М-1^2Ып/Ч);
f(xN) - f* (Vinn + 4^in(a-1)) (при а = Мinn/N)
с вероятностью > 1 -а. □
Представим себе, что задача (1) видоизменилась следующим образом:
f (х) ^ min .
й(х)<0 xeQ
Можно ли к ней применить изложенный выше подход, если «проектироваться» на множество (в отличие от Q)
{х е Q : д(х) < 0}
мы эффективно не умеем? В случае, когда мы знаем оптимальное значение /*, то мы можем свести новую задачу к задаче (1):
min{/(х) — f*,g(x)} ^ min .
xeQ
Несложно записать рандомизированный МЗС для такой задачи и применить к ней все, что изложено выше. Однако мы не будем здесь этого делать, поскольку в следующем пункте мы приведем более общий вариант МЗС, который не предполагает, что известно /*.
3. Рандомизированный метод зеркального спуска с функциональными ограничениями
Рассмотрим задачу
f (х) ^ min .
g(x)<0
xeQ
(5)
Под решением этой задачи будем понимать такой хп € СЦ, что имеют место неравенства
Е [/ )] - /* < ^ = ^^, 9(х") < ^,
где = f (х*) — оптимальное значение функционала в задаче (5), х* € — решение задачи (5). Будем считать, что имеется такая последовательность независимых случайных величин {£к} и последовательности {Ух/к (х, )}, {Ухдк (х,(к)}, к = 1,...,Ж, что для всех х € Q имеют место следующие соотношения (можно считать их выполненными при х € , см. п. 2 и последующий текст в этом пункте)
х
(х, Ск)] = Vf(х), Е^к [vxgk (х, Ск)] = Vg(х);
Vх fk (х, £к)
< М2, Е,
Vxgk (х, Ск)
<М.
МЗС для задачи (5) будет иметь вид (см., например, в детерминированном случае двойственный градиентный метод из [10]):
„к+1 _
Mirrxfc (hf Vx¡к [хк, , если д (V) < £д,
хк+1 = Мш^к (кдУхдк (хк, , если д (V) > ед,
где кд = ед/Мд, hf = ед/(MfMд), к = 1,...,М. Обозначим через I множество индексов к, для которых д(хк) < е. Введем также обозначения
[ N] = {!,..., N}, J = [N]\I, Nj = \I\, Nj = \J \, xN = —J2
x
кeJ
Тогда имеет место неравенство
hfNj ■ (Е [f — /*) <
< hfE
[Vxfk(xk,Хк —x*) < -f ^E jVx/к (хк, £k)
LkeJ
h2
keJ
E к
2
2
E к
*
*
2
*
-ЬдЕ
Ух9к{хк, е
, х к - х
кeJ^■
>д(хк )-д(х*)>£ £
ке[И ]
Ъ'2
+ 2Ее \\Ух9к(хк,е)
кеJ
+
+ Е (Е[^(х*)] -Е[Ухк+1 (х*)]) <
1
< -ЦМ2^! - 2М2е2дю + Е[Ух!(х*)] - Е[УхМ+1 (х*)] =
=1 (^М + Мь)* - щ^+к2 - Е [^ (х*)].
Будем считать, что (следует сравнить с формулой (4)):
N = N (£д) =
2 М2,К2
+ 1.
(6)
Тогда N > 1 и
1 г2
^м г - 1 [и м2 ьд
Е[/ (х^] - и < 2 [ЬМ +
М2Ь/
М
Мд
-£д = £/.
Соотношение
д (х^ < ^
следует из того, что по построению д(хк) < ед, к е I и из выпуклости функции д(х). Заметим, что в детерминированном случае вместо хм можно брать
хм = а^тт / (хк) ке! ^ '
Если известно, что для всех х е <3 и почти наверное по £к
V*
:/к (х,ек)
< м 2,
х к х, к
<М2, к = 1,...,*,
то для описанного в этом пункте метода (се = £/ = ед и Ь/ = Ьд = е/М2) вид оценки вероятностей больших уклонений (3) из п. 2 сохранится (оценка получается чуть лучше, чем нижняя оценка из работы [11], когда ограничений-неравенств больше одного, поскольку мы имеем доступ к точному значению ( х))
/ {хм) - ¡* < 2МУ* (я + 2Ё^Ы2/0)) ,
если N = 2N(е) (см. формулу (6)). К сожалению, трюк с амплификацией (см. п. 2) здесь уже не проходит в том же виде, как и раньше, поскольку теперь уже нельзя гарантировать
Цх") - /* > 0.
Однако если ввести обозначение
ед = ¡* - т^ ¡(х) = ШР ?(х) - ?(х),
д(х)<£д д(х)<0 д(х)<£д
хея хея хея
то
Р(/ (х^ - и + ед > 2(е/ + ед)) <
Е[1 -/* + 1
2(е/ + ед) " 2.
2
*
*
2
2
*
Можно параллельно (независимо) запустить log2( (J-1) траекторий метода. Обозначим ж^щ тот из xN на этих траекториях, который доставляет минимальное значение f(xN). Из выписанного неравенства Маркова получаем, что имеет место неравенство
Р (/ -f* > 2еf + £А) <a.
К сожалению, этот подход требует малости ед, что, вообще говоря, нельзя гарантировать из условий задачи.
Немного более аккуратные рассуждения (без новых идей) позволяют развязать во всех приведенных выше в п. 3 рассуждениях ef и еа, допуская, что они могут выбираться независимо друг от друга. Детали мы вынуждены здесь опустить. Основные приложения описанного подхода, это задачи вида
f(x) ^ min ,
max o"fc(AjTx)<0
с разреженной матрицей В частности, задачи вида
А =[А!,...,Ат]
т
т] ■
f(x) ^ min Ax<b
и приводящиеся к такому виду задачи
f(x) ^ min . J V ' Ax<b Cx=d
В этих задачах, как правило, выбирают || ■ || = || ■ ||2, d(x) = ||ж|||/2. Подобно [10] можно попутно восстанавливать (без особых дополнительных затрат) и двойственные множители к этим ограничениям. Причем эта процедура позволяет сохранить дешевизну итерации даже в разреженном случае.
4. Примеры решения разреженных задач с использованием рандомизированного метода зеркального спуска
Начнем с известного примера [12], демонстрирующего практически все основные способы рандомизации, которые сейчас активно используются в самых разных приложениях. Рассмотрим задачу поиска левого собственного вектора х, отвечающего собственному значению 1, стохастической по строкам матрицы Р = ||р^Ц™'^i 1 (такой вектор называют вектором Фробениуса-Перрона, а с учетом контекста - PageRank вектором). Изложение рандомизации, связанной с ускоренными покомпонентными методами, мы опускаем, поскольку она не завязана на МЗС. Тем не менее приведем ссылки на работы, в которых такой подход к поиску PageRank описан: замечание 5 [4] и пример 4 [13] (см. также замечания 10, 11 [14]).
Перепишем задачу поиска вектора PageRank следующим образом [3]:
1 2 f(x) = - ||Аж||2 ^ шп , 2 xeSn(i)
где S'ra(l) — единичный симплекс в R™, А = РТ — 1,1 — единичная матрица. Далее будем использовать обозначения А(к) — к-й столбец матрицы А, Ак — транспонированная к-я строка (то есть Ак — это вектор) матрицы А. Следуя [12], воспользуемся для решения этой задачи рандомизированным МЗС со стохастическим градиентом2
V*
jk(x, е) = (Р -fc)>- (р -1)^к >,
2Сначала согласно вектору х € 5„(1) случайно разыгрываем один из столбцов матрицы А = Рт — I (пусть это будет £к-й столбец). Пользуясь тем, что столбцы матрицы Рт сами представляют собой распределения вероятностей, независимо разыгрываем (согласно выбранному столбцу ) случайную величину, и выбираем соответствующий столбец матрицы Ат = Р-1, из которого вычитаем (Ат)<«*> (из -за наличия матрицы I), таким образом, конструируется несмещенная оценка градиента Vf(х) = АтАх.
где
q = г с вероятностью хг, г = 1,..., п;
j = j с вероятностью p^kj, j = 1, ...,п.
Несложно проверить выполнение условия 1 п. 2, если генерирование использующихся вспомогательных случайных величин осуществляется независимо. Ввиду симплексных ограничений естественно следовать при выборе прокс-структуры примеру 3 п. 2. Таким образом, можно оценить
М2 = max
xesn(i),ak
Vx fk(x, (k)
< 4.
Даже в случае, когда матрица Р полностью заполнена, амортизационная (средняя) стоимость одной итерации будет О(п) (вместо 0(п2), в случае честного расчета градиента). Таким образом, общее число арифметических операций будет 0(пInn/е2).
К худшей оценке приводит другой способ рандомизации (рандомизации суммы [4]). Чтобы его продемонстрировать, перепишем исходную задачу следующим образом:
п 11
f (Х)=П^П2 (А*Х^ ^хЖ).
Из такого представления следует, что можно определить стохастический градиент следующим образом
Vx/k (х, ^ = пА^А^у^х),
где
k = с вероятностью 1/ п, = 1, ... , п;
j(x) = j с вероятностью Xj, j = 1,..., п.
Амортизационная (средняя) стоимость одной итерации будет по-прежнему О(п), но вот оценка М2 получается похуже. Здесь мы имеем пример, когда М2 и М2 существенно отличаются, в действительности, можно вводить промежуточные условия, не такие жесткие, как условие 3, и получать более оптимистичные оценки вероятностей больших уклонений [4].
К сожалению, эти методы не позволяют полноценно воспользоваться разреженностью матрицы Р, которая, как правило, имеет место. Собственно, этот пункт отчасти и будет посвящен тому, как можно сочетать рандомизацию и разреженность. В частности, если переписать задачу PageRank следующим образом:
||Ах||те ^ min ,
xesn(i)
что равносильно (факт из теории неотрицательных матриц [15])
max АТх ^ min , k=1,...,n xesn(1)
то исходя из примера 3 (в детерминированном случае), можно получить следующую оценку [16] на общее число арифметических операций 0(п \пп/е2), при условии, что число элементов в каждой строке и столбце матрицы Р не больше 0(^/п/\пп). Здесь не использовалась рандомизация, а использовалась только разреженность матрицы Р (следовательно, и А). По-сути, способ получения этой оценки всецело базируется на возможности организации эффективного пересчета субградиента функционала, подобно [1-3]. Далее мы распространим этот пример на более общий класс задач, и постараемся привнести в подход рандомизацию.
Итак, рассмотрим сначала класс задач с Q из примера 1 или 2 п. 2
max ak (А!х) ^ min, (7)
k=1,..,m k V k ' x£Q к j
2
oo
1Т
где (7к () — выпуклые функции с константой Липшица, равномерно ограниченной известным числом М, (суб-)градиент каждой такой функции (скалярного аргумента) можно рассчитать за 0(1). Введем матрицу
А =[А1,...,Ату
и будем считать, что в каждом столбце матрицы А не больше 8т < т ненулевых элементов, а в каждой строке — не больше 8П < п. Заметим, что некоторую обременительность этим условиям создает требование, что в «каждом» столбце/строке. Это требование можно ослаблять, приближаясь к некоторым средним показателям разреженности (численные эксперименты в этой связи также проводились [3]), однако в данной работе для большей наглядности и строгости рассуждений мы ограничимся случаем, когда именно в каждом столбце/строке имеет место такая (или еще большая) разреженность.
Из работ [1-3] следует, что МЗС из примеров 1, 2 (в детерминированном случае) для задачи (7) будет требовать
(М2 тах \\Ак||2Е2\
к=1,...,т
О
V
/
итераций, где В^ — квадрат евклидова расстояния от точки старта до решения, а одна итерация (кроме первой) будет стоить
0(т\п{8п8т 1о§2 т, п}).
И все это требует препроцессинг (предварительных вычислений, связанных с «правильным» приготовлением памяти) объема 0(т + п). Таким образом, в интересных для нас случаях общее число арифметических операций для МЗС из примеров 1, 2 будет
(
О
log2 т
М-2 max \\Ак ||2^2
к=1,...,т
V
J
Постараемся ввести рандомизацию в описанный подход. Для этого осуществим дополнительный препроцессинг, заключающийся в приготовлении из векторов Ак вектора распределения вероятностей. Представим
Ak = Ч - А-,
где каждый из векторов А+, А— имеет неотрицательные компоненты. Согласно этим векторам приготовим память таким образом, чтобы генерирование случайных величин из распределений A+/\\A+\\i и А-/\\А-\\i занимало бы 0(log2п). Это всегда можно сделать [3]. Однако это требует хранения в «быстрой памяти» довольно большого количества соответствующих «деревьев». Весь этот препроцессинг и затраченная память будут пропорциональны числу ненулевых элементов матрицы А, что в случае huge-scale задач сложно осуществить из-за ресурсных ограничений. Тем не менее далее мы будем считать, что такой препроцессинг можно осуществить, и (самое главное) такую память можно получить. Введем стохастический (суб-)градиент
V*
jk (х,е)
Ак(х)
е^к) -
А
к(х)
где
к(х) £ Argmax (А^ ж) ,
к=1,...,т
причем не важно, какой именно представитель Argmax выбирается;
Ъ = (0,..., 0,1, 0,..., 0);
2
£
2
i
i { = i с вероятностью 3 (с fc) = 3 с вероятностью A-{x)j j
Ak(x)
A
k(x)
i = 1,...,n; j = 1, ...,n;
Легко проверить выполнение условия 1 п. 2 (заметим, что Vf(x) = Ak(x)). Также легко оценить
М2 <М2 max ||Ak||? .
k=l,...,m
И получить из примеров 1, 2 следующую оценку числа итераций (ограничимся для большей наглядности сходимостью по математическому ожиданию, т.е. без оценок вероятностей больших уклонений)
(М2 max ||Ak ||2^2\
О
k=l,...,m
V
/
Основная трудоемкость тут в вычислении k(x). Однако за исключением самой первой итерации можно эффективно организовать перерешивание этой задачи. Действительно, предположим, что уже посчитано k(xl), а мы хотим посчитать k(xlk1). Поскольку согласно примерам 1, 2 xlk1 может отличаться от xl только в двух компонентах, то пересчитать max ok (Xixl+l), исходя из известного max ok (Xix1), можно за (см., например, [1,3])
k=l,...,m k=l,...,m
0(2sm log2m). Таким образом, общее ожидаемое число арифметических операций нового рандомизированного варианта МЗС из примеров 1, 2 для задачи (7) будет
(
О
М2 max ||Ak И2в%\
Sm log2m-
k=1,... , m
(9)
V
/
Для матриц А, все отличные от нуля элементы которых одного порядка, скажем 0(1), имеем
max ||Ak||2 = sr,
k=1,... , m
max ||Ak Hi = sn.
k=1,...,m
В таком случае не стоит ожидать выгоды (формулы (8) и (9) будут выглядеть одинаково). Но если это условие (ненулевые элементы А одного порядка) выполняется не очень точно, то можно рассчитывать на некоторую выгоду.
Рассмотрим теперь более общий класс задач, возникающих, например, при поиске равновесий в транспортных сетях [9]
1 1
- У^ max oi (Afx) ^ min, rf—'l=ak+1,..., bk 4 l 7 xEQ k=1
0 = a1 < b1 = < = a3 < ... < br-1 = ar < br = m.
(10)
Матрица А и числа 8п, 8т определяются аналогично. Привнося (при расчете стохастического градиента) к описанным выше двум подходам для задачи (7) сначала равновероятный (и независимый от других рандомизаций) выбор одного из слагаемых в этой сумме, получим соответствующие обобщения (для задачи (10)) оценок (8), (9), которые будут иметь точно такой же вид. Только матрица А собирается теперь из всех слагаемых суммы (10).
Возвращаясь к примеру 3, заметим, что все описанные выше конструкции (в том числе, связанные с задачей (10)) можно перенести на этот пример, в случае, когда
При этом
ok {A^x) = Alx - bk.
R ^ Inn, M = 1 (для (8), (9)
1
1
2
2
max ^ max |, min{srasmlog2 m,n} ^ max{srasmlog2 m,n} (для (8))
k=l,...,m i=l,...,m
j=l,...,n
max ЦАк||l ^ max ЦАк Ц\, sm log2 m ^ max{sm log2 m,n} (для (9)).
k=l,...,m k=l,...,m
Собственно, пример PageRank, изложенный в начале этого пункта, как раз подходил под применение оценки (8).
С помощью п. 3 все написанное выше переносится и на задачи вида
f (х) ^ min
J V ' Ax<b
Cx=d
с разреженными матрицами. Такие задачи играют важную роль, например при проектировании механических конструкций [2] (Truss topology design). Мы не будем здесь приводить соответствующие рассуждения, поскольку они достаточно очевидны, и заинтересованный читатель сможет осуществить отмеченное обобщение самостоятельно.
5. Заключение
Авторы выражают благодарность Ю.Е. Нестерову за ряд ценных замечаний и внимательное отношение к работе.
Исследование в части 2 выполнено при поддержке гранта РФФИ 14-01-00722-а, исследования в частях 3, 4 — при поддержке гранта РФФИ 15-31-20571-мол_а_вед.
Литература
1. Nesterov Y.E. Subgradient methods for huge-scale optimization problems // CORE Discussion Paper 2012/2. 2012.
2. Nesterov Yu., Shpirko S. Primal-dual subgradient method for huge-scale linear conic problem // Optimization online. 2012.
http://www.optimization-online.org/DB_FILE/2012/08/3590.pdf
3. Аникин А.С., Гасников А.В., Горнов А.Ю., Камзолов Д.И., Максимов Ю.В., Нестеров Ю.Е. Эффективные численные методы решения задачи PageRank для дважды разреженных матриц // Труды МФТИ. 2015. Т. 7, № 4. С. 74-94. arXiv:1508.07607
4. Гасников А.В., Двуреченский П.Е., Нестеров Ю.Е. Стохастические градиентные методы с неточным оракулом // Труды МФТИ. 2016. Т. 8 (в печати). arxiv:1411.4218
5. Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013.
http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf
6. Allen-Zhu Z, Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent // e-print, 2014. arXiv:1407.1537
7. Nesterov Y. Primal-dual subgradient methods for convex problems // Math. Program. Ser. B. 2009. V. 120(1). P. 261-283.
8. Juditsky A., Nemirovski A. First order methods for nonsmooth convex large-scale optimization, I, II. In: Optimization for Machine Learning / eds. S. Sra, S. Nowozin, S. Wright. MIT Press, 2012.
9. Гасников А.В., Двуреченский П.Е., Дорн Ю.В., Максимов Ю.В. Численные методы поиска равновесного распределения потоков в модели Бэкмана и модели стабильной динамики // Математическое моделирование. 2016. Т. 28 (в печати). arXiv:1506.00293
10. Nesterov Yu. New primal-dual subgradient methods for convex optimization problems with functional constraints // International Workshop «Optimization and Statistical Learning». 2015, January 11-16. France. Les Houches.
http://lear.inrialpes.fr/workshop/osl2015/program.html
11. Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.: Наука, 1979.
12. Назин А.В., Поляк Б.Т. Рандомизированный алгоритм нахождения собственного вектора стохастической матрицы с применением к задаче PageRank // Автоматика и телемеханика. 2011. № 2. C. 131-141.
13. Гасников А.В., Двуреченский П.Е., Усманова И.Н. О нетривиальности быстрых (ускоренных) рандомизированных методов // Труды МФТИ. 2016. Т. 8 (в печати). arXiv:1508.02182
14. Аникин А.С., Двуреченский П.Е., Гасников А.В., Тюрин А.И., Чернов А.В. Двойственные подходы к задачам минимизации сильно выпуклых функционалов простой структуры при аффинных ограничениях // ЖВМ и МФ. 2016. Т. 56 (подана). arXiv:1602.01686
15. Никайдо Х. Выпуклые структуры и математическая экономика. М.: Мир, 1972.
16. Гасников А.В., Дмитриев Д.Ю. Об эффективных рандомизированных алгоритмах поиска вектора PageRank // ЖВМ и МФ. 2015. Т. 55, № 3. С. 355-371.
References
1. Nesterov Y.E. Subgradient methods for huge-scale optimization problems. CORE Discussion Paper 2012/2. 2012.
2. Nesterov Yu., Shpirko S. Primal-dual subgradient method for huge-scale linear conic problem. Optimization online. 2012.
http://www.optimization-online.org/DB_FILE/2012/08/3590.pdf
3. Anikin A.S., Gasnikov A.V., Gornov A.Yu., Kamzolov D.I., Maksimov Yu.V., Nesterov Yu.E. Effective numerical methods for huge-scale linear systems with double-sparsity and applications to PageRank. Proceedings of MIPT. 2015. V. 7, N 4. P. 74-94. arXiv:1508.07607
4. Gasnikov A.V., Dvurechensky P.E., Nesterov Yu.E. Stochastic gradient methods with inexact oracle. Proceedings of MIPT. 2016. V. 8 (in print). arxiv:1411.4218
5. Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013.
http://www2.isye.gatech.edu/~nemirovs/Lect_ModConvOpt.pdf
6. Allen-Zhu Z, Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent. e-print, 2014. arXiv:1407.1537
7. Nesterov Y. Primal-dual subgradient methods for convex problems. Math. Program. Ser. B. 2009. V. 120(1). P. 261-283.
8. Juditsky A., Nemirovski A. First order methods for nonsmooth convex large-scale optimization, I, II. In: Optimization for Machine Learning. Eds. S. Sra, S. Nowozin, S. Wright. MIT Press, 2012.
9. Gasnikov A.V., Dvurechensky P.E., Dorn Yu.V., Maximov Yu.V.. Searching equillibriums in Beckmann's and Nesterov-de Palma's models. Mathematical Models and Computer Simulations. 2016. V. 28 (in print).
arXiv:1506.00293
10. Nesterov Yu. New primal-dual subgradient methods for convex optimization problems with functional constraints. International Workshop «Optimization and Statistical Learning». 2015. January 11-16. France. Les Houches.
http://lear.inrialpes.fr/workshop/osl2015/program.html
11. Nemirovsky A, Yudin D. Problem complexity and method efficiency in optimization. John Wiley & Sons, 1983.
12. Nazin A.V., Polyak B.T. Randomized algorithm to determinethe eigenvector of a stochastic matrix with application to the PageRank problem. Autom. Remote Control. 2011. N 2. P. 342-352.
13. Gasnikov A.V., Dvurechensky P.E., Usmanova I.N. About accelerated randomized methods. Proceedings of MIPT. 2016. V. 8 (in print). arXiv:1508.02182
14. Anikin A.S., Dvurechensky P.E., Gasnikov A.V., Turin A.I., Chernov A.V. Dual approaches to the strongly convex simple function minimization problem under affine restrictions. Zh. Vychisl. Mat. Mat. Fiz. 2016. V. 56 (submitted). arXiv:1602.01686
15. Nikaido H. Convex Structures and Economic Theory. Academic Press, 1969.
16. Gasnikov A.V., Dmitriev D.Yu. On efficient randomized algorithms for finding the PageRank vector. Zh. Vychisl. Mat. Mat. Fiz. 2015. V. 54, N 3. P. 355-371.
Поступила в редакцию 8.02.2016