Научная статья на тему 'О стохастической марковской динамике, приводящей к равновесию Нэша-Вардропа в модели распределения потоков'

О стохастической марковской динамике, приводящей к равновесию Нэша-Вардропа в модели распределения потоков Текст научной статьи по специальности «Математика»

CC BY
131
14
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Гасникова Е. В., Дорн Ю. В.

Описывается возможная динамика, приводящая к равновесию Нэша-Вардропа в модели распределения потоков. Следует заметить, что сделанные выводы базируются в основном на результатах численных экспериментов, которые показали в ряде игр очень быструю сходимость предложенной стохастической (гиббсовской) марковской динамики наилучших ответов в соответствующей эволюционной игре кр авновесию Нэша.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Гасникова Е. В., Дорн Ю. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О стохастической марковской динамике, приводящей к равновесию Нэша-Вардропа в модели распределения потоков»

УДК 519.837.3

Е.В. Гасникова, Ю.В. Дорн

Московский физико-технический институт (государственный университет)

О стохастической марковской динамике, приводящей к равновесию Нэша—Вардропа в модели распределения потоков

Описывается возможная динамика, приводящая к равновесию Нэша-Вардропа в модели распределения потоков. Следует заметить, что сделанные выводы базируются в основном на результатах численных экспериментов, которые показали в ряде игр очень быструю сходимость предложенной стохастической (гиббсовской) марковской динамики наилучших ответов в соответствующей эволюционной игре к равновесию Нэша.

Ключевые слова: эволюционные игры, равновесие Нэша, парадокс Брайеса, принципы Дж. Г. Вардропа, эффективность по Парето, алгоритм Григориадиса-Хачияна.

Ориентированный граф Г = (У,Е) представляет собой транспортную сеть города (V- узлы сети (вершины), Е С VXV —дуги сети (рёбра графа)). Пусть Ш = {т = (%,]) : € V} — множество пар источник-сток; р = {«1, «2, ..., «т} — путь из VI в , если V€ Е, к = 1, ..., т — 1; Р- -множество путей, отвечающих корреспонденции т € Ш; Р = ише№ Р-ш — совокупность всех путей в сети Г; хр — величина потока по пути р, х = {хр : р € Р}; Ор (х) — удельные затраты на проезд по пути р, О(х) = {Ор(х) : р € Р}; уе — величина потока по дуге е:

Уе =

/ J хр$ре,

реР

где

&ре

1 ,е € р, 0,е €р,

те(уе) — удельные затраты на проезд по дуге е (как правило, возрастающие, выпуклые, гладкие функции), при этом естественно считать, что Ор(х) = ееЕ Те(Уе)дре. Если Те(уе) — возрастающие функции, то отображение О(х) — строго монотонное. Заметим, что в приложениях часто требуется учитывать и затраты на прохождения вершин графа (в свою очередь эти затраты могут зависеть, вообще говоря, от величин всех потоков, проходящих через каждую рассматриваемую вершину). Пусть также известны потоки корреспон-денций ¿ш, т € Ш. Тогда вектор х, характеризующий распределение потоков, должен лежать в допустимом множестве:

X = < х ^ 0 :

Е

реРт

= (1ш ,т € Ш

Это множество может иметь и другой вид, если дополнительно учитывать, например, конечность пропускных способностей рёбер (ограничения сверху на уе).

Рассмотрим игру, в которой каждому элементу т € Ш соответствует свой, достаточно большой (¿ш ^ 1), набор однотипных игроков (сидящих на корреспонденции т). Множеством чистых стратегий каждого такого игрока является Рш, а выигрыш (потери со знаком минус) определяются формулой -Ор(х) (игрок выбирает путь следования р € Рш , при этом он пренебрегает тем, что от его выбора также немного зависят \Рш \ компонент вектора х и, следовательно, сам выигрыш -Ор(х)). Тогда, считая отображение О(х) непрерывным и строго монотонным (этого достаточно), можно показать, что отыскание (единственного!) равновесия Нэша (1951) х* € X (макроописание равновесия) равносильно решению задачи дополнительности (принцип Дж. Г. Вардропа (1952)), что в свою очередь равносильно решению вариационного неравенства:

V т € Ш, р € Р-

(Ор(х*) — шт Од(х*

)) =

0 ^ V x£X

чеРш

О(х*),(х — х*)) > 0.

Вариационное неравенство можно переписать как проекционное уравнение

х* =ПХ(х* — ХО(х*)), X > 0,

где Пх(х* — ХО(х*)) — такая «точка» множества X, которая доставляет минимум функционалу расстояния от точки х € X до фиксированной точки х* — ХО(х*). Выписанное проекционное уравнение можно далее численно решать, например, с помощью метода простой итерации хп+1 = Пх(хп — ХО(хп)). Более того, в рассматриваемом случае задача отыскания равновесия Нэша-Вардропа сводится к решению следующей задачи выпуклого программирования [1]:

Е

ееЕ

те(х)йх —> шт .

еу ' хех

20 Например, шаг с периодом в день можно проинтерпретировать как выбор утром маршрута следования (пути) из дома на работу, исходя из опыта вчерашнего дня. Заметим, что информацию о Ор(х(п)) водители (игроки) черпают из открытых источников типа Яндекс-пробки, а множитель (Хр(п) + 1) определяется исходя из случайного опроса соседей, знакомых, коллег и т.п.

х

х

р

0

В данной заметке предлагается возможная динамика в этой игре, приводящая к равновесию Нэша-Вардропа. Свой путь на (п + 1)-м шаге20 игрок, сидящий на корреспонденции и>, выбирает согласно смешанной стратегии (в независимости от всех остальных): с вероятностью

РгаЪ^(п +1)=7п • (хр(п) + 1)х

х exp(-Gp(x(n))/Tn)/ZW, ™ € Ш,

выбрать путь р € (0 < ^ 1), а с вероятностью 1 — 7п действовать согласно стратегии, использованной на предыдущем п-м шаге. Здесь Хр(п) — количество игроков, сидящих на корреспонденции и> и выбравших на п-м шаге стратегию р € Рт, а

ZW ^п • (хр(п) + 1) exp(—Gp(x(n))/Tn)■

реР^

Множитель (хр(п) + 1) характеризует желание имитировать, а также надежность использования этой стратегии. Именно этот множитель подмечает специфику рассматриваемой задачи (без него сходимость будет в общем случае не к равновесию Нэша-Вардропа) и отличает предложенную в статье динамику от многих других (см. ниже краткий обзор). Параметр 7 характеризует «консерватизм» («ленивость»), чем меньше 7, тем более консервативный игрок; «температура» Т характеризует отношение к риску («горячность»), чем больше температура, тем более «горячий игрок», склонный к более рискованным действиям.

Как показали разнообразные численные эксперименты, часто вполне разумно выбирать 7п ~ 1/п. При таком выборе 7п наблюдается сходимость при наиболее общих условиях относительно Т (вне зависимости от точки старта). Строго говоря, наблюдается сходимость не к равновесию, а к некоторой его окрестности, уменьшающейся с уменьшением Т. Стоит обратить внимание на высокую эффективность предложенной процедуры «нащупывания равновесия» с точки зрения количества итераций. Иначе говоря, на предложенный итерационный процесс можно смотреть просто как на эффективный способ численного нахождения равновесия Нэша-Вардропа.

Введение в динамику стохастичности сближает предложенный подход с поиском так называемых «стохастических равновесий в транспортных сетях» [2], с другой стороны, подход данной статьи принципиально от них отличается тем, что предполагает знание транспортных расходов по маршрутам (используется достоверная информация вчерашнего дня), на основе которых производится рандомизированный выбор. В стохастическом же равновесии водитель узнает лишь случайную оценку времени проезда по каждому из маршрутов и затем выбирает маршрут с минимальным временем.

Предложенную схему можно трактовать скорее как стохастическую динамику наилучших ответов в эволюционной (популяционной) игре [3] — [5], при этом имеется много общего с концепциями quantal response equilibria [6] (используется похожая рандомизация) и minority games [7] (наблюдаются похожие колебания около равновесия). Также близким к предложенному итерационному процессу является концепция генетических алгоритмов [8] и предложенный на их основе эффективный вероятностный (с гиббсовским распределением) алгоритм Григориадиса-Хачияна (1995) [9] поиска е приближенного равновесия Нэ-ша в матричной игре п xn за O(n • (log2 п)/е2) операций с плавающей точкой. Стоит заметить, что в

классе детерминированных алгоритмов необходи-

2

мо осуществлять не менее ~ п таких операций.

В заключение рассмотрим пример, демонстрирующий, что в результате строительства новой дороги новое равновесие Нэша-Вардропа окажется не эффективным по Парето и будет строго хуже, чем то, которое было до строительства. Тем не менее предложенная выше марковская динамика наилучших ответов приводит именно к такому, не оптимальному по Парето, равновесию.

Пример (парадокс Брайеса, 1968).

Пусть корреспонденция Х14 = 6 (тысяч автомобилей/час). Вес ребра (удельные затраты на проезд по этому ребру) есть время движения по ребру (в минутах), если поток через ребро есть yij (тысяч автомобилей/час). Например, в случае 2: У24 = xi24 + Х1324 (рис. 1). Естественно считать, что время движения — возрастающая функция потока.

Рис. 1. Случай 1: х124 = х134 = 3 (полное время в пути Т = 83 мин). Случай 2: х124 = х1324 = х134 = 2 (полное время в пути Т = 92 мин)

Оба равновесия Нэша-Вардропа (в случае 1 и 2) являются притягивающими положениями равновесия описанной выше динамики (положили 7 ~ 1, Т ~ 15 — 35), рис. 2, 3 (для случая 2). Т=30

^ зооо •

э

а. v Е

. 1500

1000

500

2500 3000 3500 4000 4500 5000 Поток на маршруте 1-2-4

Т=30

СМ

с* ф

&

О. 3

2000

1300

£

S 1600

с 1700

1600

1500 1800

\ i

1Э50 1S00 1950 2000 2050 Поток на маршруте 1-2-4

Рис. 2

2100 2150 2300

15 20 25 30 Номер итерации

Рис. 3

Более подробно о моделях распределения потоков и связанных с ними задачах можно прочи-

тать, например, в книгах [1, 2, 10]. Значительно более подробные материалы, посвященные эффективным численным методам отыскания равновесий Нэша-Вардропа и решениям задач выпуклого программирования, содержатся в следующих электронных ресурсах [11].

Авторы выражают благодарность за ряд ценных замечаний А.В. Гасникову, И.С. Меньшикову, Е.А. Нурминскому, С.П. Тарасову, А.А. Шанани-ну, В.И. Швецову.

Работа поддержана грантами РФФИ № 10-07-00620-а, 10-01-00321-а, 11-01-00494-а. Работа проведена в рамках реализации ФЦП «Кадры инновационной России» на 2009-2013 годы (меропр. 1.3.1, НК-215П, П1490).

Литература

1. Гасников А.В., Кленов С.Л., Нурмин-ский Е.А., Холодов Я.А., Шамрай Н.Б. Введение в математическое моделирование транспортных потоков; учебное пособие / под ред. А.В. Гасни-кова c приложениями М.Л. Бланка, Е.В. Гаснико-вой, А.А. Замятина и В.А. Малышева, А.В. Колесникова, А.М. Райгородского. М.: МФТИ, 2010.

2. Sheffi Y. Urban transportation networks: Equilibrium analysis with mathematical programming methods. N.J.: Prentice-Hall Inc., Englewood Cliffs, 1985.

3. Foster D, Young P. Stochastic evolutionary game dynamics // Theoretical population biology. 1990. V. 38. № 2.

4. Cressman R. Evolutionary game theory and extensive form games. Cambridge: Mass. MIT Press, 2003.

5. Hofbauer J., Sigmund K. Evolutionary game dynamics // Bulletin of the AMS. 2003. V. 40, № 4. P. 479--519.

6. McKelvey R.D., Palfrey T.R. Quantal response equilibria for extensive form games // Experimental economics, 1998. V. 1. P. 9--41.

7. Marsili M. Toy models of markets with heterogeneous interacting agents // e-print. — www.unifr.ch/econophysics/

8. Fogel D.B. Evolutionary Computation: Towards a New Philosophy of Machine Intelligence. — New York: IEEE Press, 2000.

9. Хачиян Л.Г. Избранные труды. [сост. С.П. Тарасов] М.: МЦНМО, 2009.

10. Стенбринк П.А. Оптимизация транспортных сетей. М.: Транспорт, 1981.

11. http://www2.isye.gatech.edu/ ~ nemirovs / — http://www.core.ucl.ac.be/staff/biosketchNeste rov.html — http://elis.dvo.ru/ ~ nurmi /

Поступила в редакцию 15.10.2010.

i Надоели баннеры? Вы всегда можете отключить рекламу.