Научная статья на тему 'О связи имитационной логит-динамики в популяционной теории игр и метода зеркального спуска в онлайн оптимизации на примере задачи выбора кратчайшего маршрута'

О связи имитационной логит-динамики в популяционной теории игр и метода зеркального спуска в онлайн оптимизации на примере задачи выбора кратчайшего маршрута Текст научной статьи по специальности «Математика»

CC BY
77
12
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Гасников А. В., Лагуновская А. А., Морозова Л. Э.

В работе описывается метод зеркального спуска для задач стохастической онлайн оптимизации на симплексе и прямом произведении симплексов. На базе этого метода строятся оптимальные стратегии пользователей транспортной сети при выборе маршрутов следования. Поведение всех пользователей, действующих согласно таким стратегиям, порождает имитационную логит-динамику в популяционной игре, соответствующей модели Бэкмана равновесного распределения потоков по путям. Таким образом, на конкретном примере (The Shortest Path Problem) в работе показывается связь онлайн оптимизации и популяционной теории игр. Обнаружение отмеченной связи составляет основной результат данной работы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Гасников А. В., Лагуновская А. А., Морозова Л. Э.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О связи имитационной логит-динамики в популяционной теории игр и метода зеркального спуска в онлайн оптимизации на примере задачи выбора кратчайшего маршрута»

УДК 51.77

А. В. Гасните1'2'3, A. A. Лагуноеская1'4, Л. Э. Морозова5

1 Центр исследования транспортной политики, Институт экономики транспорта и транспортной

политики, НИУ ВШЭ

2Институт проблем передачи информации им. А. А. Харкевича РАН 3Лаборатория структурных методов анализа данных в предсказательном моделировании при

МФТИ(ГУ) (ПреМоЛаб) 4Институт прикладной математики им. М.В. Келдыша РАН 5Центр экономики транспорта, Институт экономики транспорта и транспортной политики,

НИУ ВШЭ

О связи имитационной логит-динамики в популяционной теории игр и метода зеркального спуска в онлайн оптимизации на примере задачи выбора кратчайшего маршрута

В работе описывается метод зеркального спуска для задач стохастической онлайн оптимизации на симплексе и прямом произведении симплексов. На базе этого метода строятся оптимальные стратегии пользователей транспортной сети при выборе маршрутов следования. Поведение всех пользователей, действующих согласно таким стратегиям, порождает имитационную логит-динамику в популяционной игре, соответствующей модели Бэкмана равновесного распределения потоков по путям. Таким образом, на конкретном примере (The Shortest Path Problem) в работе показывается связь онлайн оптимизации и популяционной теории игр. Обнаружение отмеченной связи составляет основной результат данной работы.

A. V. Gasnikov1'2'3, A. A. Lagunovskaya1'4, L.E. Morozova5 1 Research Centre for Transport Policy Studies, Institute for Transport Economics and Transport Policy Studies, National Research University Higher School of Economics 2Institute for Information Transmission Problems of the Russian Academy of

Sciences (Kharkevich Institute) 3Research laboratory in Predictive Modeling and Optimization at PhysTech

(PreMoLab) 4Keldysh Institute of Applied Mathematics 5Research Centre for Transport Economics, Institute for Transport Economics and Transport Policy Studies Higher School of Economics

On the relationship between simulation logit dynamics in the population game theory and a mirror descent method in the online optimization using the example of the shortest path problem

This paper describes a mirror descent method for the stochastic online optimization problems on the simplex optimization and direct product of simplexes. Based on this method the optimal strategies of the users of the transport network choosing a path are constructed. The behavior of all users following such strategies generates simulation logit dynamics in the population game corresponding to the Beckman model of the the equilibrium flow distribution path. Thus, a specific example (The Shortest Path Problem)is used to demonstrate a link between online optimization and population game theory. The discovery of this link is the main novelty of this work.

Key words: mirror descent method, online optimization, the shortest path in the graph, the equilibrium traffic flow distribution over paths.

1. Введение

В литературе по онлайн оптимизации почетное место занимает так называемая «Задача о выборе кратчайшего пути» («The Shortest Path Problem»), см., например, п. 5.4 [1]. Основной результат здесь заключается в описании «оптимальной» стратегии пользователя транспортной сети (на базе алгоритма «Follow the Perturbed Leader»), из дня в день выбирающего маршрут следования, исходя из истории загрузок графа транспортной сети.

В литературе по равновесной теории транспортных потоков наиболее популярными являются модели равновесного распределения потоков по путям. Одной из первых (и по-прежнему наиболее популярных) моделей такого рода является модель Бекмана [2] (также называемая BMW-моделью). Современные исследования этой модели связаны с ее пониманием как популяционной игры загрузок (как следствие, потенциальной игры [3]), поиск равновесия (Нэша) в которой сводится к задаче выпуклой оптимизации. Упомянутый эволюционный подход, в частности, приводит к изучению различных естественных динамик (наилучших ответов, репликаторов, имитационной логит-динамики и др.), отражающих «нащупывание» пользователями транспортной сети равновесия [4]. Все эти динамики положительно коррелированы с антиградиентной динамикой, поэтому все они приводят в конечном итоге к одному и тому же равновесию (или в более общем случае к одному и тому же множеству равновесий). Тем не менее возникает желание глубже разобраться с природой этих динамик, понять, чем та или иная динамика дополнительно (помимо отражения рациональности игроков/пользователей транспортной сети) примечательна.

В данной работе мы постараемся изложить, чем примечательна имитационная логит-динамика, пояснив ее связь с алгоритмом поведения «Follow the Perturbed Leader», а точнее, с переформулировкой этого алгоритма на языке современной выпуклой онлайн оптимизации: с методом зеркального спуска [5—11].

В разделе 2 статьи описаны различные варианты классического метода зеркального спуска применительно к задачам стохастической онлайн оптимизации с шумами. Ввиду последующих приложений мы сосредоточимся на множествах вида симплекса и прямого произведения симплексов. Хотя во многом эти результаты ранее были известны, тем не менее в такой общности, в которой они приведены в данной статье, нам не удалось найти точной ссылки, поэтому было решено посвятить этому отдельный раздел 2. В разделе 3 мы используем результаты раздела 2 (в данной статье не в максимальной общности) для объяснения имитационной логит-динамики, возникающей при описании поведения пользователей транспортной сети в модели Бекмана.

2. Метод зеркального спуска для задач стохастической онлайн оптимизации с неточным оракулом

Сформулируем основную задачу стохастической онлайн оптимизации с неточным оракулом. Требуется подобрать последовательность {ж^} £ Q так, чтобы минимизировать псевдорегрет [6-11]:

1 N 1 N

Regret w ({fk (■)} ,{**}) = - £ fk (ж*) - mm - £ fk (ж) (1)

k= 1 x k=1

на основе доступной информации:

{V, f\ (ж1, С1) ;...; Vjfc_i (ж*-1, £fc-1)} при расчете жк. Причем выполнено условие:1

е-1)

V, fk(xk, е) -vxfk(xk, е)

Е,

?fc

V,

(xfc, = Vfk(xk) .

Здесь случайные величины {могут считаться независимыми и одинаково распределенными. Онлайновость постановки задачи допускает, что на каждом шаге к функция Д (■) может выбираться из рассматриваемого класса функций враждебно по отношению к используемому нами методу генерации последовательности {жк}. В частности, Д (■) может зависеть от

[x1, е, h (■); -;xk-\е-1, Д-1 (■ );xk}

Относительно класса функций, из которого выбираются {Д (■)}, в данной работе будем предполагать выполненными следующие условия:

2) {¡к (■)} - выпуклые функции;

3) для любых к = 1,..., N, ж е ^

Vjk (x, о

^ м2.

Опишем метод зеркального спуска для решения задачи (1) (здесь можно следовать огромному числу литературных источников, мы в основном будем следовать работам [12,13]). Введем норму |||| в прямом пространстве (сопряженную норму будем обозначать ||||+) и прокс-функцию d (x), сильно выпуклую относительно этой нормы, с константой сильной выпуклости не меньше 1. Выберем точку старта

x1 = arg min d (x),

xeQ

считаем, что

d (x1) = Vd (x1) = 0

Введем брэгмановское «расстояние»

Ух (у) = й (у) -й (ж) - (Vd (ж) ,у -ж).

Везде в дальнейшем будем считать, что й (ж) = УХ1 (ж) ^ В2 для всех ж е

Определим оператор «проектирования» согласно этому расстоянию:

Mirr^fc (g) = arg imn { (g,y - x^ + Vxk

уея

Метод зеркального спуска (МЗС) для задачи (1) будет иметь вид, см., например, [13]:

жк+1=Ы[ттхк (аУх Д (жк, £к)) , к = 1,...,^

Тогда при выполнении условии (2) для любого и е Q, к = 0,..., N - 1 имеет место неравенство, см., например, [13]:

а (ух/к (жк, е) ,жк -и) < ^ |ужД (жк, е) |2 + Ухи (и) - Ухк+1 (и).

Это неравенство несложно получить в случае евклидовой прокс-структуры й (ж) = ||ж||2/2 [14] (в этом случае МЗС для задачи (1) есть просто вариант обычного метода проекции градиента). Разделим сначала выписанное неравенство на а и возьмем условное математическое ожидание Е^к+1 [ ■ | , затем просуммируем то, что получится по к = 1,...,N,

*

2

*

используя условие 1. Затем возьмем от того, что получилось при суммировании, полное

математическое ожидание, учитывая условие 3. В итоге, выбирая и = х* (решение задачи

N

Е fk (х) ^ min), получим при условиях 1, 2, 4 [11]: к=1

xEq

N • Е

Regret N ({Д (■)} ,{xh

<

Vxi (x*) Е [Vxn+i (x*)] Л -

a

a

+ Qm2a + R^ N <

Qm2a + R^ N,

—2 /1

< — + -M2 a + RS a V 2

выбирая2

получим

R /2

a = mVN,

Е

Regret n { fk (■)} Ax

^MR\I— + Rö.

(2)

Немного более аккуратные рассуждения (использующие неравенство Азума-Хефдинга) позволяют уточнить оценку (2) следующим образом (см., например, [15]):

Regret N ({ fk (■)} , [хк}) < М^ (я + 2R^ln(a-1)) + R5 (3)

с вероятностью не меньше 1 — а.

Оценки (2), (3) являются неулучшаемыми с точностью до мультипликативного числового множителя. Причем верно это и для детерминированных (не стохастических) постановок, в которых нет шумов (5 = 0), при этом можно ограничиться классом линейных функций [1].

Рассмотрим три примера, которые понадобятся нам в дальнейшем [11,15]. Пример 1 (симплекс). Предположим, что

Q = Sn (-) = jx ^ 0: ¿x, = -|

Выберем

п

INI = IHk , d (х) = Inn + lnxi

=1

Тогда МЗС примет следующий вид (а = М -V2 lnn/N):

х1 = 1/n, i = 1,..., n,

при к = 1,..., N, i = 1,..., n

xk+1 =

f Л dfr(xrrЛ k ( dfk(xk,ak)\

exP a Jrbx, JJ xk ex^-a ^ ))

i=1

dfr (xr r)

£exp( - £ a^dxxl

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

=1

\ П k ( dfk(xk )\ ) £ xk exP -a W )

Оценки псевдорегрета будут иметь вид

Е

RegretN { fk (■)} Ax

)] <M/

2 inn

+ 2 S,

2Можно получить и адаптивный вариант приводимой далее оценки, для этого потребуется использовать метод двойственных усреднений [11,13,14].

k

k

Иеиге^ ({Д (■)} , {жк}) < М^ (^П + 4^Ь(а-1)) + 25

с вероятностью не меньше 1 -а.

Пример 2 (прямое произведение симплексов). Предположим, что

= (

1 jm

X = Z , ..., Z

) 6Q = П^' ^).

3=1

Выберем

Уху =

\

£|И2, d (x) = 5>d3' (z3), d3 (z3) =dj Ыщ + £ 4 ln =1 =1

Iln ( Î )■

Тогда, вводя обозначения

R 2_

m

a = —\l — , R2 = ^ d3 lnщ, =1

МЗС можно записать следующим образом:

4 = йз /пз, г = 1,...,щ,

при к = 1,..., N, г = 1,..., п^, ] = 1,..., т

' ^ ,91г(хТ £Т)

zt+1 = dj

ex4- 5a "V2 J

x~ exp —a

= di

(—a ^ )

k ~ \ n

I ^ -/г (жг M V^ ™k

EexP — E a

¿=1 V r=1 -zl J 1=1

\ 3 n k ( -fk (xk ) V ) =1xkk ex^—a )

Оценки псевдорегрета будут иметь вид Regret N

Е

\

d2 ln щ + 25

=1

\

=1

Regretw ({fk ( ■ )} ^x^) ^M

Л

m

/ y d22 ln щ + 4 =1

\

m

ln((T-1) I + 25

=1

\

T.d2

=1

с вероятностью не меньше 1 - а.

Пример 3 (выбор среди вершин симплекса). Вернемся к примеру 1 и будем дополнительно считать, что по условию задачи {жк} должны выбираться среди вершин единичного симплекса Бп (1). Так же, как и раньше, онлайновость постановки задачи допускает, что на каждом шаге к функция Д может подбираться из рассматриваемого класса функций враждебно по отношению к используемому нами методу генерации последовательности {жк}. В частности, Д может зависеть от

{x1, е, h ( ■ ); ...;xk-1, £k-1, Д-1 ( ■ )}

и даже от распределения вероятностей рк, согласно которому осуществляется выбор жк. Чтобы можно было работать с таким классом задач, нам придется наложить дополнительные условия:

4) fk (x) = ( lk ,x), к = 1,...,-.

5) На каждом шаге генерирование случайной величины хк согласно распределению вероятностей рк осуществляется независимо ни от чего. Выбор Д осуществляется без

к

знания реализации хк.

Следуя примеру 1, положим р} = х} = ^, г = 1, ...,п. При к = 1, ...,И, г = 1, ...,п согласно распределению вероятностей ( а = М-1л/2\йп/М)

ехр (-¿а™) Р* ехр (-а^)

рк+ =

™ fk dfr(хТ)\ ^ к ( df~k(xk'gfe)Y £ exp — £ аafr^ ) J Е РГ exP —а дх1 )

генерируем случайную величину г (к + 1) и полагаем

хЙ+1) = 1, х*+1 = 0, з=г(к + 1).

Оценки псевдорегрета будут иметь вид

Е

/21пп

Regret^ ({fk (■)} , {хк})] < М^2

RegretN ({fk (■)} , {хк}) < М^ + 6^ln(a-1)) + 25

с вероятностью не меньше 1 — а.

3. Приложение к задаче о выборе кратчайшего пути

Рассмотрим транспортную сеть, которую будем представлять ориентированным графом

(V, Е), где V - множество вершин, а Е - множество ребер. Обозначим множество пар

источник-сток через OD С V ® V (|OD| = m); dw - корреспонденция, отвечающая паре w;

хр - поток по пути р; Pw - множество путей, отвечающих корреспонденции w, Р = (J Pw

weOD

- множество всех путей. Обозначим через L - максимальное число ребер в пути из Р. Будем считать, что затраты на прохождениe ребра е е Е описываются неубывающей (и ограниченной в рассматриваемом диапазоне значений) функцией

0 < Те ( /е) < М,

где fe - поток по ребру е:

/е (х) = ^ £>ерхр, $ер = I о е / р реР 1 ' е

Положим М = ML. Введем Gp (х) - затраты на проезд по пути р:

GP (х) = Y1 Те (fe (х)) Sep.

ееЕ

Введем также множество (прямое произведение симплексов), на котором транспортная сеть «будет жить»:

X = < х ^ 0: ]Тхр = (1ш, ш е ОБ

{ реР™

и функцию, порождающую потенциальное векторное поле С (х):

М*)

Ф (х) = ^ / Те ( г) (г.

еее 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Основное свойство этой функции заключается в том, что

УФ (ж) = G (ж).

Будем считать, что число пользователей транспортной сети большое:

dw := dw • N, N » 1, w е OD, но в функциях затрат это учитывается:

Те (fe) := Ге (/e/N) .

Таким образом, далее под dw, х, f будем понимать соответствующие прошкалированные (по N) величины [4].

Выберем корреспонденцию w е OD и рассмотрим пользователя транспортной сетью, соответствующего этой корреспонденции. Стратегией пользователя является выбор одного из возможных путей следования р е Pw. Будем считать, что пользователь мало что знает об устройстве транспортной системы и о формировании своих затрат. Все, что доступно пользователю на шаге к + 1, — это история затрат на разных путях, соответствующих

его корреспонденции, на всех предыдущих шагах = {Gp (жг)}pep j . Для простоты рассуждений мы не зашумляем эту информацию, считая, что доступны точные значения имевших место затрат. Все последующие рассуждения (ввиду общности выбранной в разделе 2) можно обобщить и на случай зашумленных данных (детали мы вынуждены здесь опустить).

Допуская, что 0 ^ {lpj} ^ М могут выбираться враждебно, пользователь стремится действовать оптимальным образом, то есть так, как предписывает стратегия из примера 3 (с г = р, п = |Pw|). Заметим, что при некоторых дополнительных оговорках (см. п. 5.4 [1]) случайный выбор пути (согласно примеру 3) может быть осуществлен за время O (|Е|), что не зависит от п, которое может быть намного больше (например, для манхетенской сети, см. п. 5.4 [1]).

Представим себе, что остальные пользователи ведут себя аналогичным образом, но независимо (в вероятностном плане) друг от друга. Тогда в пределе N ^ ж такая стохастическая марковская динамика в дискретном времени вырождается в детерминированную динамику в дискретном времени [16], описываемую итерационным процессом из примера 2 с3=w, zj = {xp}pepw, П = lpwI

(Xj = М/2 lnn,-/N, N Regret w ^ max a-1 ( R2 + ^М 2N max a2) ,

V j=1,...,m J \ 2 j=1,...,m J

для задачи не онлайн оптимизации:

Ф (х) ^ min, (4)

х€Х 1 N

fk (х) = Ф (х), xN = , Ф* = Ф (х*),

к=1

м max 0n nj} ( ш \

Ф (xN) - Ф* < RegretN < М ]=f = ( Td2 + 1 1 .

Решение задачи (4) иногда называют равновесием Нэша(-Вардропа) в описанной по-пуляционной игре [4, 17], соответствующей модели Бэкмана равновесного распределения потоков по путям [2]. Для простоты формулировок будем далее считать, что решение единственно.

Введем теперь схожий процесс (совпадающий с описанным ранее в пределе N ^ те): дискретный аналог имитационной логит-динамики с произвольным параметром а > 0, популярной в эволюционной теории игр [4]. Пусть отрезок времени [0,Т] разбит на ТИ ^ 1 одинаковых отрезков, соответствующих шагам. На каждом шаге к = 1,...,ТИ каждый пользователь корреспонденции ] = и> € ОИ независимо от всех остальных пользователей с вероятностью N-1 принимает решение выбрать потенциально новую стратегию (маршрут следования) согласно распределению вероятностей г € Ру (в действительности, тут требуются некоторые оговорки на случай, когда хк = 0, мы опускаем здесь эти детали, за подробностями отсылаем к монографии [4]):

к+1

хк ехр (—аGi (хк)) £ exp(—аGl (хк))'

а с вероятностью 1 — N-1 — использовать стратегию предыдущего шага. Аналогично действуют пользователи, принадлежащие другим корреспонденциям: ] = 1,..., т. Тогда в пределе N ^ те эта динамика превратится на отрезке [0, Т] в имитационную логит-динамику в непрерывном времени [4, 16], в которой с каждым пользователем связан свой (независимый) пуассоновский процесс с интенсивностью 1. В моменты скачков процесса пользователь принимает решение о потенциальной смене маршрута следования согласно распределению вероятностей г € Ру, ] = 1,..., т:

Хг (¿) ехр (—— аGi (х (£))) Рг (Ъ ) = у у у

Е хг (¿) ехр (—аGl (х (£)))' 1еР,

При Т ^ те описанный эргодический марковский процесс выходит на стационарную вероятностную меру [4]:

~ ехр (-IV ■ (Ф(х) +о(1))) ,

которая при N ^ те экспоненциально концентрируется в окрестности решения задачи (4).

Если описанные предельные переходы выполнить в обратном порядке: сначала N ^ те, потом Т ^ те, то марковский процесс, отвечающий имитационной логит-динамике, выродится в СОДУ г € Ру, ] = 1,..., т:

(¿) = , хг (¿) ехр (—аGi (х (£))) _ (5)

М = ^ Е хг (¿) ехр (—аGl (х (*))) ^ (5)

Эта динамика (на внутренности инвариантного относительной данной динамики множества X) имеет глобальным аттрактором неподвижную точку, определяемую как решение задачи (4). Более того, СОДУ (5) имеет функцию Ляпунова Ф (х) [4] (это общий факт: функционал Санова является функционалом Больцмана [18]), причем [5]

Ф ^11 х — Ф* < .

Заметим также, что СОДУ (5) можно понимать как непрерывный аналог (см., например, [19]) примера 2.

Работа выполнена при финансовой поддержке РФФИ (коды проектов 13-01-12007-офи_м, 15-31-20571 мол_а_вед, 15-31-70001 мол_а_мос). Исследования первого автора, связанные с п. 2, выполнены в ИППИ РАН за счет гранта Российского научного фонда (проект № 14-50-00150).

Литература

1. Lugosi G., Cesa-Bianchi N. Prediction, learning and games. New York: Cambridge University Press, 2006.

2. Patriksson M. The traffic assignment problem. Models and methods. Utrecht, Netherlands: VSP, 1994.

3. Algorithmic game theory. Editors N. Nisan, T. Roughgarden, E. Trados, V.V. Vazirani. Cambridge University Press., 2007.

4. Sandholm W.H. Population games and Evolutionary dynamics. Economic Learning and Social Evolution. MIT Press; Cambridge, 2010.

5. Немировский А.С., Юдин Д.Б. Сложность задач и эффективность методов оптимизации. М.: Наука, 1979.

6. Sridharan K. Learning from an optimization viewpoint. PhD Thesis, Toyota Technological Institute at Chicago, 2011.

7. Bubeck S. Introduction to online optimization. Princeton University: Lecture Notes, 2011. http://www.princeton.edu/ sbubeck/BubeckLectureNotes.pdf

8. Shalev-Shwartz S. Online learning and online convex optimization // Foundation and Trends in Machine Learning. 2011. V. 4, N 2. P. 107-194.

9. Bubeck S., Cesa-Bianchi N. Regret analysis of stochastic and nonstochastic multi-armed bandit problems // Foundation and Trends in Machine Learning. 2012. V. 5, N 1. P. 1-122. http://www.princeton.edu/ sbubeck/SurveyBCB12.pdf

10. Hazan E. Introduction to online convex optimization. e-print, 2015. http://ocobook.cs.princeton.edu/OCObook.pdf

11. Гасников А.В., Нестеров Ю.Е., Спокойный В.Г. Об эффективности одного метода рандомизации зеркального спуска в задачах онлайн оптимизации // ЖВМ и МФ. 2015. Т. 55, № 4. С. 55-71.

12. Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013.

13. Allen-Zhu Z, Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent. e-print, 2014. arXiv:1407.1537

14. Nesterov Y. Primal-dual subgradient methods for convex problems // Math. Program. Ser. B. 2009. V. 120(1). P. 261-283.

15. Juditsky A., Nemirovski A. First order methods for nonsmooth convex large-scale optimization, I, II. In: Optimization for Machine Learning. Eds. S. Sra, S. Nowozin, S. Wright. MIT Press, 2012.

16. Ethier N.S., Kurtz T.G Markov processes. Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics. John Wiley & Sons Inc., New York, 1986.

17. Гасников А.В., Гасникова Е.В., Мендель М.А., Чепурченко К.В. Эволюционные выводы энтропийной модели расчета матрицы корреспонденций // Математическое моделирование. 2016. Т. 28. arXiv:1508.01077 (принята к печати).

18. Баймурзина Д.Р, Гасников А.В., Гасникова Е.В. Теория макросистем с точки зрения стохастической химической кинетики // Труды МФТИ. 2015. Т. 7, № 4. C. 95-103.

19. Wibisono A., Wilson A.C. On accelerated methods in optimization. e-print, 2015. arXiv:1509.03616

References

1. Lugosi G., Cesa-Bianchi N. Prediction, learning and games. New York: Cambridge University Press, 2006.

2. Patriksson M. The traffic assignment problem. Models and methods. Utrecht, Netherlands: VSP, 1994.

3. Algorithmic game theory. Editors N. Nisan, T. Roughgarden, E. Trados, V. V. Vazirani. Cambridge University Press, 2007.

4. Sandholm W.H. Population games and Evolutionary dynamics. Economic Learning and Social Evolution. MIT Press, Cambridge, 2010.

5. Nemirovsky A.S., Yudin D.B. Problem Complexity and Method Efficiency in Optimization. M.: Nauka, 1979.

6. Sridharan K. Learning from an optimization viewpoint. PhD Thesis, Toyota Technological Institute at Chicago, 2011.

7. Bubeck S. Introduction to online optimization. Princeton University: Lecture Notes, 2011.

8. Shalev-Shwartz S. Online learning and online convex optimization. Foundation and Trends in Machine Learning. 2011. V. 4, N 2. P. 107-194.

9. Bubeck S., Cesa-Bianchi N. Regret analysis of stochastic and nonstochastic multi-armed bandit problems. Foundation and Trends in Machine Learning. 2012. V. 5, N 1. P. 1-122. http://www.princeton.edu/ sbubeck/SurveyBCB12.pdf

10. Hazan E. Introduction to online convex optimization. e-print, 2015. http://ocobook.cs.princeton.edu/OCObook.pdf

11. Gasnikov A.V., Nesterov Yu.E., Spokoiny V.G. On the Efficiency of a Randomized Mirror Descent Algorithm in Online Optimization Problems. Computational Mathematics and Mathematical Physics. 2015. V. 55, N 4. P. 580-596.

12. Nemirovski A. Lectures on modern convex optimization analysis, algorithms, and engineering applications. Philadelphia: SIAM, 2013.

13. Allen-Zhu Z, Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent. e-print, 2014. arXiv:1407.1537

14. Nesterov Y. Primal-dual subgradient methods for convex problems. Math. Program. Ser. B. 2009. V. 120(1). P. 261-283.

15. Juditsky A., Nemirovski A. First order methods for nonsmooth convex large-scale optimization, I, II. In: Optimization for Machine Learning. Eds. S. Sra, S. Nowozin, S. Wright. MIT Press, 2012.

16. Ethier N.S., Kurtz T.G Markov processes. Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics. John Wiley & Sons Inc., New York, 1986.

17. Gasnikov A.V., Gasnikova E.V., Mendel M.A., Chepurchenko K.V. Evolutionary interpretations of entropy model for correspondence matrix calculation. Mathematical Modelling, 2016. T. 28. (In Russian). arXiv:1508.01077 (accepted for publication).

18. Baimurzina D.R., Gasnikov A.V., Gasnikova E.V. The theory of macrosystems in terms of stochastic chemical kinetics // Trudy MIPT. 2015. V. 7, N 4. P. 95-103. (in Russian).

19. Wibisono A., Wilson A.C. On accelerated methods in optimization. e-print, 2015. arXiv:1509.03616

Поступила в редакцию 08.11.2015.

i Надоели баннеры? Вы всегда можете отключить рекламу.