УДК 519.837.3
Е.В. Гасникова, Ю.В. Дорн
Московский физико-технический институт (государственный университет)
О стохастической марковской динамике, приводящей к равновесию Нэша—Вардропа в модели распределения потоков
Описывается возможная динамика, приводящая к равновесию Нэша-Вардропа в модели распределения потоков. Следует заметить, что сделанные выводы базируются в основном на результатах численных экспериментов, которые показали в ряде игр очень быструю сходимость предложенной стохастической (гиббсовской) марковской динамики наилучших ответов в соответствующей эволюционной игре к равновесию Нэша.
Ключевые слова: эволюционные игры, равновесие Нэша, парадокс Брайеса, принципы Дж. Г. Вардропа, эффективность по Парето, алгоритм Григориадиса-Хачияна.
Ориентированный граф Г = (У,Е) представляет собой транспортную сеть города (V- узлы сети (вершины), Е С VXV —дуги сети (рёбра графа)). Пусть Ш = {т = (%,]) : € V} — множество пар источник-сток; р = {«1, «2, ..., «т} — путь из VI в , если V€ Е, к = 1, ..., т — 1; Р- -множество путей, отвечающих корреспонденции т € Ш; Р = ише№ Р-ш — совокупность всех путей в сети Г; хр — величина потока по пути р, х = {хр : р € Р}; Ор (х) — удельные затраты на проезд по пути р, О(х) = {Ор(х) : р € Р}; уе — величина потока по дуге е:
Уе =
/ J хр$ре,
реР
где
&ре
1 ,е € р, 0,е €р,
те(уе) — удельные затраты на проезд по дуге е (как правило, возрастающие, выпуклые, гладкие функции), при этом естественно считать, что Ор(х) = ееЕ Те(Уе)дре. Если Те(уе) — возрастающие функции, то отображение О(х) — строго монотонное. Заметим, что в приложениях часто требуется учитывать и затраты на прохождения вершин графа (в свою очередь эти затраты могут зависеть, вообще говоря, от величин всех потоков, проходящих через каждую рассматриваемую вершину). Пусть также известны потоки корреспон-денций ¿ш, т € Ш. Тогда вектор х, характеризующий распределение потоков, должен лежать в допустимом множестве:
X = < х ^ 0 :
Е
реРт
= (1ш ,т € Ш
Это множество может иметь и другой вид, если дополнительно учитывать, например, конечность пропускных способностей рёбер (ограничения сверху на уе).
Рассмотрим игру, в которой каждому элементу т € Ш соответствует свой, достаточно большой (¿ш ^ 1), набор однотипных игроков (сидящих на корреспонденции т). Множеством чистых стратегий каждого такого игрока является Рш, а выигрыш (потери со знаком минус) определяются формулой -Ор(х) (игрок выбирает путь следования р € Рш , при этом он пренебрегает тем, что от его выбора также немного зависят \Рш \ компонент вектора х и, следовательно, сам выигрыш -Ор(х)). Тогда, считая отображение О(х) непрерывным и строго монотонным (этого достаточно), можно показать, что отыскание (единственного!) равновесия Нэша (1951) х* € X (макроописание равновесия) равносильно решению задачи дополнительности (принцип Дж. Г. Вардропа (1952)), что в свою очередь равносильно решению вариационного неравенства:
V т € Ш, р € Р-
(Ор(х*) — шт Од(х*
)) =
0 ^ V x£X
чеРш
О(х*),(х — х*)) > 0.
Вариационное неравенство можно переписать как проекционное уравнение
х* =ПХ(х* — ХО(х*)), X > 0,
где Пх(х* — ХО(х*)) — такая «точка» множества X, которая доставляет минимум функционалу расстояния от точки х € X до фиксированной точки х* — ХО(х*). Выписанное проекционное уравнение можно далее численно решать, например, с помощью метода простой итерации хп+1 = Пх(хп — ХО(хп)). Более того, в рассматриваемом случае задача отыскания равновесия Нэша-Вардропа сводится к решению следующей задачи выпуклого программирования [1]:
Е
ееЕ
те(х)йх —> шт .
еу ' хех
20 Например, шаг с периодом в день можно проинтерпретировать как выбор утром маршрута следования (пути) из дома на работу, исходя из опыта вчерашнего дня. Заметим, что информацию о Ор(х(п)) водители (игроки) черпают из открытых источников типа Яндекс-пробки, а множитель (Хр(п) + 1) определяется исходя из случайного опроса соседей, знакомых, коллег и т.п.
х
х
р
0
В данной заметке предлагается возможная динамика в этой игре, приводящая к равновесию Нэша-Вардропа. Свой путь на (п + 1)-м шаге20 игрок, сидящий на корреспонденции и>, выбирает согласно смешанной стратегии (в независимости от всех остальных): с вероятностью
РгаЪ^(п +1)=7п • (хр(п) + 1)х
х exp(-Gp(x(n))/Tn)/ZW, ™ € Ш,
выбрать путь р € (0 < ^ 1), а с вероятностью 1 — 7п действовать согласно стратегии, использованной на предыдущем п-м шаге. Здесь Хр(п) — количество игроков, сидящих на корреспонденции и> и выбравших на п-м шаге стратегию р € Рт, а
ZW ^п • (хр(п) + 1) exp(—Gp(x(n))/Tn)■
реР^
Множитель (хр(п) + 1) характеризует желание имитировать, а также надежность использования этой стратегии. Именно этот множитель подмечает специфику рассматриваемой задачи (без него сходимость будет в общем случае не к равновесию Нэша-Вардропа) и отличает предложенную в статье динамику от многих других (см. ниже краткий обзор). Параметр 7 характеризует «консерватизм» («ленивость»), чем меньше 7, тем более консервативный игрок; «температура» Т характеризует отношение к риску («горячность»), чем больше температура, тем более «горячий игрок», склонный к более рискованным действиям.
Как показали разнообразные численные эксперименты, часто вполне разумно выбирать 7п ~ 1/п. При таком выборе 7п наблюдается сходимость при наиболее общих условиях относительно Т (вне зависимости от точки старта). Строго говоря, наблюдается сходимость не к равновесию, а к некоторой его окрестности, уменьшающейся с уменьшением Т. Стоит обратить внимание на высокую эффективность предложенной процедуры «нащупывания равновесия» с точки зрения количества итераций. Иначе говоря, на предложенный итерационный процесс можно смотреть просто как на эффективный способ численного нахождения равновесия Нэша-Вардропа.
Введение в динамику стохастичности сближает предложенный подход с поиском так называемых «стохастических равновесий в транспортных сетях» [2], с другой стороны, подход данной статьи принципиально от них отличается тем, что предполагает знание транспортных расходов по маршрутам (используется достоверная информация вчерашнего дня), на основе которых производится рандомизированный выбор. В стохастическом же равновесии водитель узнает лишь случайную оценку времени проезда по каждому из маршрутов и затем выбирает маршрут с минимальным временем.
Предложенную схему можно трактовать скорее как стохастическую динамику наилучших ответов в эволюционной (популяционной) игре [3] — [5], при этом имеется много общего с концепциями quantal response equilibria [6] (используется похожая рандомизация) и minority games [7] (наблюдаются похожие колебания около равновесия). Также близким к предложенному итерационному процессу является концепция генетических алгоритмов [8] и предложенный на их основе эффективный вероятностный (с гиббсовским распределением) алгоритм Григориадиса-Хачияна (1995) [9] поиска е приближенного равновесия Нэ-ша в матричной игре п xn за O(n • (log2 п)/е2) операций с плавающей точкой. Стоит заметить, что в
классе детерминированных алгоритмов необходи-
2
мо осуществлять не менее ~ п таких операций.
В заключение рассмотрим пример, демонстрирующий, что в результате строительства новой дороги новое равновесие Нэша-Вардропа окажется не эффективным по Парето и будет строго хуже, чем то, которое было до строительства. Тем не менее предложенная выше марковская динамика наилучших ответов приводит именно к такому, не оптимальному по Парето, равновесию.
Пример (парадокс Брайеса, 1968).
Пусть корреспонденция Х14 = 6 (тысяч автомобилей/час). Вес ребра (удельные затраты на проезд по этому ребру) есть время движения по ребру (в минутах), если поток через ребро есть yij (тысяч автомобилей/час). Например, в случае 2: У24 = xi24 + Х1324 (рис. 1). Естественно считать, что время движения — возрастающая функция потока.
Рис. 1. Случай 1: х124 = х134 = 3 (полное время в пути Т = 83 мин). Случай 2: х124 = х1324 = х134 = 2 (полное время в пути Т = 92 мин)
Оба равновесия Нэша-Вардропа (в случае 1 и 2) являются притягивающими положениями равновесия описанной выше динамики (положили 7 ~ 1, Т ~ 15 — 35), рис. 2, 3 (для случая 2). Т=30
^ зооо •
э
а. v Е
. 1500
1000
500
2500 3000 3500 4000 4500 5000 Поток на маршруте 1-2-4
Т=30
СМ
с* ф
&
О. 3
2000
1300
£
S 1600
с 1700
1600
1500 1800
\ i
1Э50 1S00 1950 2000 2050 Поток на маршруте 1-2-4
Рис. 2
2100 2150 2300
15 20 25 30 Номер итерации
Рис. 3
Более подробно о моделях распределения потоков и связанных с ними задачах можно прочи-
тать, например, в книгах [1, 2, 10]. Значительно более подробные материалы, посвященные эффективным численным методам отыскания равновесий Нэша-Вардропа и решениям задач выпуклого программирования, содержатся в следующих электронных ресурсах [11].
Авторы выражают благодарность за ряд ценных замечаний А.В. Гасникову, И.С. Меньшикову, Е.А. Нурминскому, С.П. Тарасову, А.А. Шанани-ну, В.И. Швецову.
Работа поддержана грантами РФФИ № 10-07-00620-а, 10-01-00321-а, 11-01-00494-а. Работа проведена в рамках реализации ФЦП «Кадры инновационной России» на 2009-2013 годы (меропр. 1.3.1, НК-215П, П1490).
Литература
1. Гасников А.В., Кленов С.Л., Нурмин-ский Е.А., Холодов Я.А., Шамрай Н.Б. Введение в математическое моделирование транспортных потоков; учебное пособие / под ред. А.В. Гасни-кова c приложениями М.Л. Бланка, Е.В. Гаснико-вой, А.А. Замятина и В.А. Малышева, А.В. Колесникова, А.М. Райгородского. М.: МФТИ, 2010.
2. Sheffi Y. Urban transportation networks: Equilibrium analysis with mathematical programming methods. N.J.: Prentice-Hall Inc., Englewood Cliffs, 1985.
3. Foster D, Young P. Stochastic evolutionary game dynamics // Theoretical population biology. 1990. V. 38. № 2.
4. Cressman R. Evolutionary game theory and extensive form games. Cambridge: Mass. MIT Press, 2003.
5. Hofbauer J., Sigmund K. Evolutionary game dynamics // Bulletin of the AMS. 2003. V. 40, № 4. P. 479--519.
6. McKelvey R.D., Palfrey T.R. Quantal response equilibria for extensive form games // Experimental economics, 1998. V. 1. P. 9--41.
7. Marsili M. Toy models of markets with heterogeneous interacting agents // e-print. — www.unifr.ch/econophysics/
8. Fogel D.B. Evolutionary Computation: Towards a New Philosophy of Machine Intelligence. — New York: IEEE Press, 2000.
9. Хачиян Л.Г. Избранные труды. [сост. С.П. Тарасов] М.: МЦНМО, 2009.
10. Стенбринк П.А. Оптимизация транспортных сетей. М.: Транспорт, 1981.
11. http://www2.isye.gatech.edu/ ~ nemirovs / — http://www.core.ucl.ac.be/staff/biosketchNeste rov.html — http://elis.dvo.ru/ ~ nurmi /
Поступила в редакцию 15.10.2010.