Cloud of Science. 2015. T. 2. № 4 http:/ / cloudofscience.ru ISSN 2409-031X
Игры разбиений: экспериментальное исследование
П. С. Бочаров*, А. П. Горяшко**
*Компания Wheely
117105, Москва, Варшавское шоссе, 1, стр. 1
**Московский технологический институт 119334, Москва, Ленинский проспект, 38а
e-mail: [email protected], [email protected]
Аннотация. Класс игр разбиений, частным случаем которого являются известные модели игр, такие как игры полковника Блотто и игры полковника Лотто, изучается как экспериментальный объект. Математическое моделирование игр, в которых игроки обладают заранее заданными подмножествами чистых стратегий, позволяет оценить «способности к выигрышу» различных подклассов чистых стратегий. Изучены постановки игр разбиений, в которых целью игрока является гарантированный выигрыш. Приведены оценки информированности игрока, необходимой для гарантированного выигрыша. Рассмотрены варианты онлайн игр разбиений и предложены конкурентные алгоритмы для ряда постановок таких игр.
Ключевые слова: разбиения, композиции, игры Блотто, игры Лотто, матричные игры, конкурентные игры, гарантированный выигрыш, матрицы взаимодействий, потенциальный ресурс, классы разбиений, групповые турниры.
Введение
Первоначально основной целью представленной здесь работы было решение некоторого частного вопроса, относящегося к теории игр размещения ресурсов: возможности получения гарантированного выигрыша одним из игроков, когда он априори имеет определенную информация о ресурсах противника. По мере работы было осознано, что модель, предложенная Э. Борелем [1] и впоследствии названная «игрой полковника Блотто», а также последовавшие многочисленные разновидности этой модели — генерала Блотто, полковника Лотто, капитана Лотто — могут быть описаны на языке классической теории разбиений [2-4]. Обращение к этому языку не только открывало путь к установлению связей между алгоритмической теорией игр и общими результатами теории алгоритмов, но и позволяло под иным углом взглянуть на основания теории игр.
Фундамент математической теории стратегических игр, заложенный работами Дж. Неймана [5] и Дж. Нэша [6], условно говоря, можно представить как решение оптимизационной минимаксной проблемы: игроки, чьи интересы не совпадают, стремятся максимизировать свои выигрыши. Оказывается, единственное, на что
каждый игрок может рассчитывать, это получить не меньше того, что позволит ему наилучший способ игры противника. В результате каждый участник в лучшем случае (при условии, конечно, что его противник знает ровно столько же, сколько и он, может получить так называемую цену игры). Состояние, в котором каждый из игроков получает цену mps, называется равновесием в игре.
Для математической теории естественно стремление к получению максимально общих результатов (несмотря на то или, возможно, вследствие того, что для любого индивидуума жизнь есть лишь набор частных задач). Как известно, общий результат теории игр — в предположении, что известна платежная матрица — состоит в возможности получения цены игры (состояния равновесия), лишь для случая смешанных стратегий (когда каждая чистая стратегия играется с некоторой вероятностью, определяемой в процессе получения оптимального решения). Трудоемкость алгоритма нахождения равновесия долгое время не занимала исследователей, прежде всего потому, что традиционные модели игр, такие как дилемма узника, «камень, ножницы, бумага» и т. п. имели платежные матрицы очень небольшой размерности. Игры размещения ресурса по своей природе описываются платежными матрицами, размерность которых экспоненциально растет с размерностью задачи (ресурса и числа полей). Это делает проблематичным нахождение цены игры даже в случае, когда ресурс и число полей измеряется всего лишь десятками.
Было бы неверно думать, что теория игр вообще проходила мимо практических проблем, связанных с нахождением равновесия. Достаточно вспомнить, что относительно быстро после установления Дж. Нейманом факта существования равновесия в смешанных стратегиях для антагонистических матричных игр с постоянной суммой [5] был предложен конструктивный метод приближенного определения цены игры [7]. Этот метод основан на предположении о том, что на практике игроки обычно играют в «воображаемую» (fictitious) игру, т. е. ищут выигрышную стратегию, наблюдая в процессе игры за противником и строя модель его поведения. Более того, было показано, что такая «воображаемая» игра может достаточно быстро обеспечить противникам установление цены игры с практически достаточной точностью.
Безусловно идея равновесия играет одну из главных ролей в теории игр. Но это не исключает правомерности вопроса относительно практической полезности знания о существовании равновесия, особенно в случаях, когда модели теории игр используют при изучении прикладных проблем достаточно большой размерности. Причины возникновения подобных вопросов понятны — даже конструктивные варианты теорем существования мало что дают практику, стремящемуся, в первую очередь, понять стоит ли ему стремиться к результатам, гарантированным условиями теоремы существования и если «да», то во что это обойдется. Такой гипотети-
ческий практик прежде всего желает понять (с практически допустимой точностью), как долго будет длиться игра и как внешние факторы — неизменно присутствующие в реальной обстановке — могут повлиять на «качество» решения задачи.
Определенное продвижение в задаче нахождения цены игры для антагонистических матричных игр с нулевой суммой наметилось недавно. В [8] рассмотрена игра «Атака против Защиты», которая по сути дела является некоторой обобщенной версией игры полковника Блотто (каждому из полей приписаны положительные целые числа, неизвестные противнику). Для этой игры (а значит, и для игры Блотто) предложен аппроксимационный метод нахождения равновесия. Показано, что при некоторых условиях на параметры платежной матрицы, равновесие в смешанных стратегиях может быть получено с высокой точностью методом эллипсоидов, т. е. с полиномиальной трудоемкостью. Например, рассмотрена задача, платежная матрица которой N х N, где N = 97 082 021 465, что не помешало решить
задачу нахождения цены игры с точностью примерно 5 х10 9 всего лишь за 1 537 шагов эллипсоидального алгоритма (около 2 мин на среднем по производительности лэптопе). Однако для произвольных платежных матриц — даже в случае антагонистических игр с нулевой суммой — подобный результат пока недостижим.
Почему нам представляется, что модель теории разбиений может оказаться весьма полезной в теории игр? Конечно, разбиения интересный комбинаторный объект и совершенно не случайно алгоритмам генерации разбиений и смежным проблемам уделено так много места в томе 4а фундаментальной серии монографий Д. Кнута, а ряд выдающихся математиков до сих пор находят в этой области новые задачи [9]. Но, как нам представляется, основная причина гораздо глубже. Она в том, что этот, на первый взгляд незамысловатый математический объект — разбиение произвольного целого числа на заданное число целых слагаемых — таит в себе новые способы описания широкого класса природных явлений. Именно поэтому он уже оказался в сфере интересов таких разных областей знания, как, например, математическая статистика [10] и статистическая физика [11]. Есть основания полагать, что этими областями дело не ограничится и теория разбиений может быть полезна в теории игр и принятия решений. В частности, поможет созданию таких методов поиска свойства чистых стратегий — разбиений — в играх, которые позволят априори судить об «игровой эффективности» заданного подмножества чистых стратегий. Ясно, что подобная возможность была бы крайне полезна, особенно в практических задачах, где необходим эффективный поиск ограниченно рациональных решений.
В настоящей работе наши интересы были сосредоточены на создании вычислительных моделей, поведение которых позволяет делать предсказания о поведении почти всех разбиений изучаемого класса. Нам представляется, что теория раз-
биений может быть полезна не как инструмент нахождения цены игры, а как метод поиска тех свойства чистых стратегий (разбиений) в играх размещения ресурсов, которые позволят априори судить об «игровой эффективности» того или иного подмножества чистых стратегий. Такой подход в практических задачах может помочь в выборе «достаточно эффективных» (ограниченно рациональных) решений, отказавшись от рассмотрения громоздких платежных матриц.
Классические работы теории разбиений, в основном, нацелены на поиск производящих функций, подходящих для генерации того или иного класса разбиений. Наши интересы были сосредоточены на создании вычислительных моделей, поведение которых позволяет делать неочевидные вывод и предположения о поведении почти всех разбиений изучаемого класса. Такой подход, проигрывая формально математическим методам в общности результатов, часто позволяет не только найти параметры разбиений, существенные для решения игровых задач, но и обнаружить неожиданные эффекты, которые дают возможность по-новому оценить прикладные перспективы теории игр. Подобный подход может быть отнесен к так называемой экспериментальной теории игр, направлению, которое набирает силу в последние годы [12]. В рамках такого подхода авторы использовали язык программирования Haskell для анализа структуры множеств игровых стратегий (разбиений) [13]. Это помогает составить более подробное представление о наличии «сильных» и «слабых» стратегий, нежели представление о параметрах равновесных смешанных стратегий.
Еще одно направление, которому посвящена работа, это изучение возможности получения «гарантированного выигрыша» в играх разбиений и связи этого понятия, во-первых, с информированностью игроков и, во-вторых, с синтезом конкурентных онлайновых алгоритмов игр разбиений. Онлайн вычисления в настоящее время — это хорошо изученное направление теории комбинаторной оптимизации, одним из разделов которого являются «игры запросов-ответов» [14]. Основное содержание здесь — создание эффективных алгоритмов обработки данных при неполной информации, поскольку данные появляются последовательно во времени и неизвестен даже закон их распределения. (Эффективным в этом случае принято называть алгоритм, трудоемкость которого незначительно отличается от ситуации, когда все данные представлены одновременно — случай offline вычислений.)
Работа построена следующим образом. В первой главе даны основные определения понятиям разбиения и композиции, а также определяются платежные функции для этих классов разбиений. Затем вводятся новые понятия, которые помогают изучать «силу» отдельных чистых стратегий, т. е. их способность выигрывать, в зависимости от некоторых просто вычисляемых свойств самой стратегии. Доказано некоторое общее утверждение относительно качества приближенного вычисления
платежных функций для разбиений и композиций (игр полковника Блотто и игр полковника Лотто). Глава завершается описанием результатов компьютерного моделирования разбиений, прежде всего круговых турниров на множестве всех разбиений с фиксированными параметрами и командных турниров между парой заранее выбранных разбиений. Основные результаты здесь связаны с установлением распределений результатов игры специальных, небольших по мощности классов разбиений в командных турнирах со множеством всех разбиений. Эти специальные классы, характеризующиеся просто проверяемыми комбинаторными свойствами, выигрывают командные турниры с вероятностями, близкими к 1.
Во второй главе рассмотрен новый подход к представлению о том, к чему могут стремиться соперники в игре. Традиционный подход для матричных игр предполагает, в первую очередь, поиск оптимальных чистых стратегий, а при их отсутствии — нахождение цены игры в смешанных стратегиях. В предложенном подходе предполагается, что в матричной игре разбиений, где нет оптимальной чистой стратегии (или шансы ее найти малы), один из игроков — назовем его «атакующим» — желает оценить, каких ресурсов будет достаточно, чтобы при заданной информации о множестве стратегий, которые может играть соперник, он сможет обеспечить себе гарантированную победу. Понятно, что при такой постановке задачи могут иметь место два крайних случая: полное и точное знание стратегии, которую выбрал «обороняющийся» и отсутствие какой-либо информации о том множестве стратегий, которым он собирается играть. В последнем случае, очевидно, что гарантированный выигрыш «атакующему» может обеспечить только больший, чем у «обороняющегося» ресурс. Каков этот ресурс и чем подобный подход отличается от цены игры противников с различными ресурсами, играющими равновесие? Ответам на эти вопросы посвящены разделы 2.2 и 2.3. В последнем разделе главы рассмотрена проблема «конкурентных алгоритмов» для онлайн вычислений применительно к играм разбиений — так называемые игры «запроса-ответа». Основным содержанием этого раздела стало доказательство двух утверждений: об абсолютной конкурентности детерминированного онлайн алгоритма, обеспечивающего гарантированный выигрыш, и об отношении конкурентности детерминированного онлайн алгоритма «торговой игры» разбиений с участием одного покупателя и N продавцов.
В заключении рассмотрены направления дальнейших исследований.
1. Матричные антагонистические игры разбиений
1.1. Игры размещения ресурсов: обзор результатов
В 1921 г. Борель предложил игру размещения ресурса (allocation game), которую назвали впоследствии игрой полковника Блотто (Colonel Blotto game) и которая, вопреки кажущейся тривиальности, уже почти сто лет привлекает внимание. Среди известных математиков, опубликовавших свои результаты, связанные с полковником, можно упомянуть такие имена, как Savage [15], Tukey [16], Bellman [17]. И хотя после появления этих работ был заметен некоторый спад интереса, в начале текущего века интерес неожиданно вернулся. Скорее по причинам, уже не связанным с решением оптимизационных задач размещения ресурсов, а с предположениями о широкой применимости подобных моделей в таких областях, как политология, экономика и психология принятия решений.
В первоначальной формулировке Бореля предполагалось рассмотрение антагонистической игры двух игроков с постоянной суммой. Игрок A (полковник Блотто) и игрок B (его противник) должны распределить имеющиеся у них ресурсы ХА и Хв, причем ХА = Хв, между несколькими «полями боя» m. Каждый из игроков не знает распределения противника. Игру выигрывает тот, кто побеждает на большем числе участков («полей боя»), а выигрыш игрока на каждом поле определяется знаком величины lA (i) - 1В (i), где lA (i) и lB (i) — величины ресурса, размещенного на поле первым и вторым игроками соответственно (такое определение выигрыша принято называть «победитель получает все»1). Например, пусть участков боя в игре три, причем и Блотто, и его противник располагает тремя солдатами. Тогда множество стратегий у обоих участников сражения состоит из следующих элементов:
(3,0,0), (2,1,0), (2,0,1), <1,2,0), (1,1,1),
(1,0,2), (0,3,0), (0,2,1), (0,1,2), (0,0,3).
В результате у этой игры получается матрица, показанная в табл. 1.1. Здесь стратегии Блотто изображены слева, его противника — сверху; «1» означает, что победил Блотто, «-1» — победил противник, «0» — случилась ничья.
Игра Блотто напоминает усложненный вариант известной игры «Камень, ножницы, бумага» — в этих играх наверняка выигрывает тот, кто может узнать расположение ресурсов противника. При этом чистой выигрышной стратегии в игре Блотто нет — множество всех наборов размещения не транзитивно.
1 winner takes all (англ/)
Таблица 1.1. Платежная матрица игры Блотто при m = 3, n = 3. Для экономии места чистые стратегии (a, a, a) записаны в виде aaa
300 210 201 120 111 102 030 021 012 003
300 0 0 0 0 -1 0 0 -1 -1 0
210 0 0 0 0 0 1 0 -1 0 1
201 0 0 0 1 0 0 1 0 -1 0
120 0 0 -1 0 0 0 0 0 0 1
111 1 0 0 0 0 0 0 1 0 0
102 0 -1 0 0 0 0 1 1 0 0
030 0 0 -1 0 -1 -1 0 0 0 0
021 1 1 0 0 0 -1 0 0 0 0
012 1 0 1 -1 0 0 0 0 0 0
003 0 -1 0 -1 -1 0 0 0 0 0
Пусть, например, в игре имеется m = 5 участков и n = 10 солдат, и Блотто распределяет свои войска равномерно — по 2 солдата на каждом участке. Тогда выигрыш его противнику приносит распределение, при котором на трех участках находится по 3 солдата, на четвертом — один, а на пятом — ни одного (табл. 1.2).
Таблица 1.2. Результат игры полковника Блотто a
с его противником b
Игроки № 1 № 2 Участки № 3 № 4 № 5
А (Блотто), а 2 2 2 2 2
В (Противник), b 3 3 3 1 0
Победитель В В В А А
Пусть a = (ах,...,ат} и b = (b,bm) — чистые стратегии игроков A и B соответственно, и платеж в игре Блотто определяется как
1 т
Нв (a b) = — £sign(а, - bi ) (1.1)
т г=\
где sign z = 1, если z>0, sign z = -1, если z < 0, и sign 0 = 0.
Таким образом, для табл. 1.2 Нв (a, b) = (-3 + 2) / 5 = -1 / 5, т. е. Блотто проиграл своему противнику. Но стоит Блотто, например, передвинуть своих солдат с первого участка на второй, т. е. на первом участке поставить , а на втором , как он выиграет и его платеж будет равен 1/5. Нетрудно убедиться в том, что какую бы чистую стратегию не выбрал один игрок, его оппонент может найти другую чи-
стую стратегию, которая будет сильнее — в игре нет седловой точки. Зато, как известно [5], в антагонистической игре с нулевой суммой всегда существует оптимальная стратегия, которая доставляет цену игры. Рассмотрим предыдущий пример (т = 5, п = 10) с пятью чистыми стратегиями, каждая из которых получена циклическим сдвигом предыдущей стратегии на одно поле (табл. 1.3).
Таблица 1.3. Оптимальная смешанная стратегия C = {Cj } игры Блотто при m = 5, n = 3
Стратегия № 1 № 2 Участок № 3 № 4 № 5
Cl 4 3 2 1 0
С2 0 4 3 2 1
С3 1 0 4 3 2
с4 2 1 0 4 3
С5 3 2 1 0 4
Если каждый из игроков играет эти стратегии с вероятностями 1/5, будет реализована оптимальная смешанная стратегия с ожидаемым платежом каждого игрока, равным 0.
Вскоре после появления работы Э. Бореля был получен общий результат [18] для случая симметричной игры Блотто и m > 3. Впоследствии было установлено (см., например, [19]), что когда п, т и n / m — целые, существует равновесие по Нэшу, если оба игрока распределяют свои ресурсы в интервале [0, 2n / m] и играют равновероятное распределение получившихся чистых стратегий. (В теории игр размещений так называемых allocation game, начатой работой Э. Бореля, как правило, речь идет о более общем, чем у Дж. Неймана понятии равновесия, а именно равновесии по Нэшу, которое может быть установлено в принципе для игры лиц и в случае повторяющихся игр.)
Напрашивающимся обобщением первоначальной постановки было изучение ситуаций, при которых размещаемые ресурсы противников не равны (несимметрическая игра), причем сами ресурсы могут быть как безгранично делимы (непрерывный случай), так и принимать целочисленные значения. В [4] приведены окончательные результаты решения проблемы равновесия по Нэшу для смешанных стратегий в случае несимметрической игры полковника Блотто.
Рассматривались также более общие ситуации (general Blotto) [19], когда функция выигрыша поля отлична от правила «победитель получает все», когда поля зависимы или им можно приписать некоторые «веса», а платежная функция иг-
ры имеет вид, отличный от стандартного суммирования выигрышей по полям. Одно из подобных обобщений состоит в том, что для заданного подмножества фронтов s назначается функция платежа vs как однозначная функция s переменных, которая различным образом определяет величину ресурса, затраченного на этой комбинации фронтов: в виде суммы ресурсов, их произведения, максимума или минимума. Такая постановка задачи показывает, что возможны ситуации, при которых существует равновесие в чистых стратегиях. Например, при рассмотрении платежа на всех подмножествах фронтов чистое Нэш-равновесие существует и достигается равномерным размещением ресурса по всем m участкам (т. е. доля ресурса на каждом участке равна 1 / m). При других классах платежных функций, рассмотренных в [19], чистые равновесия оказываются недостижимы.
В стохастической интерпретации игры Блотто при условии, что победитель каждого поля определяется с помощью лотереи, в которой шансы выиграть пропорциональны перевесу в размещенных на этом поле ресурсов, существует единственное чистое равновесие по Нэшу [19].
Формальный результат состоит в следующем. Пусть два игрока x и у располагают ресурсом X и Y, соответственно, и должны одновременно разместить этот ресурс по m полям, причем каждое поле i для игроков имеет цену w и W = wi.
Пусть х и у — ресурсы, размещенные, соответственно, игроками x и у на поле i, и X = X, у = Y. Игрок x завоевывает поле i с вероятностью х/(х + у.),
а игрок у завоевывает поле i с вероятностью у/(х + у.). Как показано в [20], при этих условиях в игре будет единственное чистое Нэш-равновесие, при котором доля размещаемых на каждом поле ресурсов пропорциональна стоимости этого поля. Цена такой стохастической игры для игрока х и у будет равна, соответственно, X • W/(X + Y) и Y • W/(X + Y), т. е. при равенстве ресурсов цена игры для них одинакова, а игрок с большим бюджетом имеет шансы выиграть на всех полях. Однако если показатель качества меняется и цель игроков максимизировать вероятность выигрыша на большинстве полей, принцип размещения ресурсов может быть совершенно иным. В этом случае, существенным обстоятельством оказывается относительная важность каждого поля.
Теория игр, сразу после своего появления стремилась найти те области практической деятельности, для которой ее подходы оказались бы полезны не только методологически. Например, игра Блотто на первых порах была моделью процессов размещения ресурсов в теории исследования операций [17] и моделью построения военных оборонительных систем [21].
Модель игры Блотто неявно предполагает, что для игроков все поля различны (пронумерованы). Например, известно, какие поля будут сравниваться между собой, скажем, потому, что эти поля соответствуют определенным торгуемым товарам или предприятиям, выпускающим определенную продукцию. Но предположение о нумерованных полях не единственно возможное.
Пример 1.1. Пусть два кандидата на выборную должность должны получить голоса избирателей на т избирательных участках. Они собираются разместить ресурс, который поможет им завоевать голоса избирателей, по различным участкам. Предположим, что кандидаты выигрывают на том участке, на котором они разместили ресурс больший, чем у соперника, а количество избирателей на участках различно и известно обоим кандидатам. Если избирательную компанию выигрывает тот, кто выиграл на большем числе участков, то «правильной» моделью ситуации будет игра Блотто. Если выигрывает тот, за кого суммарно подано больше голосов, то «правильный» показатель будет такой, при котором ресурсы распределяются, прежде всего, по участкам с большим числом избирателей. Но как «правильно» распределять ресурсы, если кандидатам неизвестно распределение количества избирателей по участкам? В этом случае, независимо от того, какой показатель качества (условия выигрыша) существует — число участков или суммарное число голосов — более адекватной моделью будет модель разбиения с ненумерованными полями. В такой игре, как и в играх с нумерованными полями (Блотто), не будет чистой выигрышной стратегии, но, по крайней мере, возможное множество чистых стратегий в ней существенно меньше.
В последние годы модели игры Блотто дополнились играми, в которых поля не нумерованы. Они получили название игр Лотто. Был изучен ряд различных моделей под именами полковник Лотто, генерал Лотто [2], капитан Лотто [3]. В игре полковника Лотто игроки, как и в игре Блотто, располагают свои ресурсы по заданным полям, но определение выигрыша происходит недетерминированным образом: с вероятностью 1 /т равномерно выбирается поле каждого противника и сравниваются ресурсы в выбранных полях для определения победителя. Хотя в таком «симметризованном по урнам» варианте выигрыш будет случайной величиной, автор предлагает определять его детерминированным образом:
Основное утверждение [2] относительно игры Лотто, определенное такой платежной функцией, сводится к тому, что при одинаковых значениях ресурса и числа полей игры Блотто и Лотто имеют одинаковую цену и, более того, оптимальные смешанные стратегии в игре Лотто отображаются в оптимальные смешанные стратегии в игре Блотто. Таким образом, с точки зрения обеспечения равновесия в сме-
1
m m
(1.2)
шанных стратегиях, модель Лотто практически не вносит ничего существенного в теорию. В играх капитана Лотто рассматривается такая игра Лотто, в которой заданы ограничения на ресурсы в полях и показано, как определенные классы аукционов могут быть сведены к изучению такой игры.
При рассмотрении игровых задач размещения ресурсов исследователи не прибегают к аппарату комбинаторики размещений, тому разделу теории алгоритмов, в котором изучаются сложностные аспекты методов генерации разбиений и их алгоритмические свойства. Возможная причина в том, что получение общих закономерностей установления равновесия (доказательство теорем существования) не требует анализа скорости сходимости алгоритмов поиска равновесия или комбинаторной структуры различных подмножеств множества разбиений.
В теории игр множество стратегий, которое обеспечивает смешанное равновесие, т. е. множество таких чистых стратегий, которые в оптимальном решении играются с ненулевой вероятностью, называется support множеством. В общем случае нахождение support множества является вычислительно трудной (intractable) задачей [22]. По сути дела, вопрос сводится к следующему — является ли широко известный результат Нэша [6] только теоремой существования или можно рассчитывать на то, что в практически интересных случаях удастся эффективно найти support множества. Ведь основная посылка теории игр состоит в том, что равновесие в игре — результат рационального поведения всех игроков. Возникает вопрос — должно ли рациональное поведение требовать вычислений, сложность которых экспоненциально растет с размерностью задачи? На первый взгляд может показаться, что ответ однозначно отрицательный. Однако если вспомнить насколько идеализированные требования предъявляют принципы рациональности к принимаемым решениям — чего стоит только умение правильно оценивать последствия всех возможных действий — как возникает сомнение в принципиальной возможности вычислительно простой реализации формально рационального поведения. Более того, существуют свидетельства большей эффективности простых, эвристических процедур принятия решений по сравнению со сложными математическими методами, при создании которых использовалась модель рационального принятия решений [23].
Недавние результаты [24] показывают, что даже в случае матричных игр двух игроков, tractable алгоритмы могут рассчитывать только на нахождение аппроксимации равновесного состояния, т. е. получение значения цены игры не более чем на £ отличающегося от оптимального.
Кроме вопросов, связанных с трудоемкостью нахождения равновесия в играх, алгоритмически трудные проблемы возникают во многих других случаях, например, при поиске доминантных стратегий (s-доминантных), стратегий в игре [25]
или при необходимости поиска минимального множества чистых стратегий, обеспечивающих заданное свойство: смешанное равновесие, уровень доминирования. Эти и подобные комбинаторные задачи часто возникают в таких постановках игровых задач, как изучение транспортных сетей, сетей связи или общественных сетей (см. обзор [26]).
Два заметных тренда в теории игр последних лет — это алгоритмические методы изучения различных классов игр [27] и проведение разного рода экспериментальных исследований, например, эффективного поведения игроков в соревнованиях (contests) самого разного вида [12, 28]. Основное внимание в подобных работах уделяется построению полиномиально доступных алгоритмов ценой отказа от точных решений, т. е. поиск практически пригодных аппрокимационных алгоритмов. Исследования игр разбиений, о которых пойдет речь дальше, как раз и следуют этим трендам.
1.2. Комбинаторика разбиений в моделях игр
Начатое работой Э. Бореля изучение игр размещения ресурсов, несмотря на заметное количество публикаций, особенно в последние десятилетия, придерживалось того языка описания модели, который был предложен в самых первых постановках [20]. Возможно, необходимость в более гибком языке не возникала в связи с тем, что первоначально исследования были сконцентрированы на проблемах нахождения смешанных равновесий для случаев симметричных и несимметричных ресурсов противников и разных видов платежных функций.
Между тем в теории комбинаторных алгоритмов уже не одну сотню лет изучаются задачи теории разбиений (а значит, задачи, непосредственно относящиеся к играм типам игры полковника Блотто).
Дальнейший материал этого раздела основан на информации из четвертого тома «Искусство программирования» Д. Кнута [29]. На языке комбинаторных алгоритмов [29] все типы размещения заданного числа п в заданном количество мест т распадается на 12 классов задач. Четыре типа задач, которые обычно называют «разбиениями» — это два класса, связанных с разбиениями целых чисел (см. 1.2.1), и два класса, относящихся к разбиениям множеств целых чисел (см. 1.2.2).
1.2.1. Разбиения и композиции
Здесь будут рассмотрены два класса, названных в [29] размещениями п непомеченных шаров по урнам:
- (n, т)-разбиение — размещение n непомеченных шаров по m непоме-
ченным урнам — чистая стратегия игры полковника Лотто;
(1.3)
- (n, т)-композиция — размещение n непомеченных шаров по m поме-
ченным урнам — чистая стратегия игры полковника Блотто.
Приведем точные определения.
Определение 1.1. Разбиение целого числа п определяется как последовательность (al,a2,.. ,,ак} положительных целых чисела1>а2>--->ак> 0 такая, что п = ал +а2 ч-1-ак. Число к называется количеством частей или длиной этого раз-
биения. Множество всех возможных разбиений целого числа n будем обозначать
P .
Примеры разбиений небольших чисел для экономии места удобно записывать в виде aai •••ak. Например, одним из разбиений числа 8 может быть последовательность 422 = (4,2,2), другим — последовательность 53 = (5,3}. Все способы разбиений числа 8 в обратном лексикографическом порядке будут выглядеть как P = {8, 71, 62, 611, 53, 521, 5111, 44, 431, 422, 4211, 41111,
332, 3311, 3221, 32111, 311111, 2222, 22211, 221111, 2111111, 11111111}
Определение 1.2. Назовем (n, т)-разбиением (разбиением числа n на не более, чем m частей) такую последовательность {ax,а2,•••,am) неотрицательных2 целых чисел а, >а, >•••>а >0, что п = а, + ап +... + а . Множество всех возможных (n, т)-разбиений будем обозначать как Рпт.
Не трудно заметить, что все возможные разбиения целого числа n, чьи длины не превышают т, будучи дополненными до т нулями справа, составляют множество всех возможных (n, т)-разбиений. Так, например, множество всех возможных разбиений числа 8 с количеством частей, не превышающих m, состоит из элементов
(8,71,62,611,53,521,44,431,422,332}.
А множество всех ( 8, 3 ) -разбиений в обратном лексикографическом порядке:
рз =(800, 710, 620, 611, 530, 521, 440, 431, 422, 332}. (1.4)
Случай (n, т) -разбиений можно рассматривать как модель игры полковника Лотто, где n непомеченных шаров соответствуют величине ресурса распределяемого по т непомеченным полям. Например, распределения (1,2,3) и (3,1,2) суть одно и то же разбиение из множества разбиений Р6 3. Для определения победителя в игре, в которой игрок A выбрал, скажем, распределение (5,1,0) и игрок B, который выбрал распределение (3,2,1), необходимо и достаточно рассмотреть результат
В литературе по теории разбиений (в том числе в [29]), как правило, используется понятие разбиения числа п ровно на т частей. Для наших целей удобнее рассмотреть разбиения числа п на не более, чем т частей.
всех 3! перестановок одного из этих наборов. В данном примере просто убедиться, что победителем выйдет набор (3,2,1), который из 6 возможных перестановок в
двух выигрывает и в четырех играет вничью (предполагается антагонистическая игра с нулевой суммой, т. е. выигрыш равен 1, проигрыш равен -1 и ничья 0).
Определение 1.3. Назовем (п,т)-композицией такую последовательность (а1,а2,...,ат} неотрицательных целых чисел al,a2,...,am gN0, что n = a + a +••• + am.Множество всех возможных (n, m) -композиций будем обозначать как C .
n,m
Любое (n, т)-разбиение и любая перестановка его элементов являются (n, m)-композицией, т. е. множество всех разбиений является подмножеством множества всех композиций:
P с C . (1.5)
n,m n,m v '
Если элементы любой (n, т)-композиции а отсортировать в порядке убывания, то полученная последовательность будет являться (n, т)-разбиением а*. В этом случае будем говорить, что разбиение а и композиция а соответствуют друг другу.
Случай (n, т)-композиций можно рассматривать как модель игры полковника Блотто, где n непомеченных шаров соответствуют величине ресурса, распределяемого по т помеченным полям. Поэтому, если обратиться к предыдущему примеру, результат встречи игроков A и B будет определяться тем, как именно расставлены выбранные величины ресурсов (можно сказать, что с вероятностью 2/3 игроки сыграют вничью).
1.2.2. Некоторые оценки числа разбиений и композиций
Для оценки количества разбиений существует ряд приближенных формул, в частности, для (n, ^-разбиений, т. е. когда число частей разбиения п равно п:
ж^2п/Ъ
<16>
Формула (1.6) дает приближенную оценку, например, ^(100) «1.993 • 108 при точном значении ^(100) = 190 569 292 [29].
Многие численные эксперименты, которые описаны в работе, проводились для разбиений при п = 1 0 0 и т = 1 0. Точное значение количества всех ( 1 0 0 ,1 0 ) -разбиений (количества чистых стратегий для игры полковника Лотто) равно
|Р<х>,к>| = 6 292 069, (1.7)
а количество чистых стратегий для игры Блотто при тех же параметрах равно
|С100101 = 42 634 215 112 710. (1.8)
Очевидно, что количество (n, т)-композиций существенно больше, чем (n, m)-разбиений при тех же значениях n и m за счет различных перестановок. Для произвольных n и m общее число (n, т)-композиций равно числу мультисочетаний (multicombination) из m объектов [29]:
К
(( n М ( n + m -Л
W m J
m
(1.9)
Для ряда прикладных задач представляет интерес оценка мощности классов разбиений и композиций при некоторых дополнительных ограничениях, в первую очередь, на максимальный размер каждой части. Общий результат получен в [30]. Здесь, в частности, показано, что для числа разбиений n по m частям каждая из которых не превосходит r при условиях p = m + r +1 и v = yj(12 / mpr)(n - mr / 2) справедлива следующая приближенная оценка:
A( n, m, r )
(m + r ^
f
[ nmpr
1 - -L
20
1+1 -p)(3 4-6V+v4) . (110)
m
Известно [2], что support множества в играх полковника Блотто и полковника Лотто содержат все композиции (разбиения), для которых максимальный размер частей не превосходит 2n/m. В этом случае оценка (1.10) может быть представлена
v
e
следующим асимптотическим равенством
'( m + 2n! m\
A(n,m, 2nlm) = О
2 n! m
m
nm + 2n
(1.11)
1.2.3. Разбиения множеств
Здесь в виде примеров показаны еще два типа разбиений:
- разбиения множества {1, 2,..., n} на m упорядоченных частей (n помеченных шаров по m помеченным урнам3),
- разбиение множества {1, 2,..., n} на m неупорядоченных частей (n помеченных шаров по m непомеченным урнам ).
Разбиения множества {1, 2,..., n} на m частей (упорядоченных или неупорядоченных) представляют собой способы рассмотрения множества {1, 2, ., n} в ви-
3 Если условлено, что в каждой урне должен лежать хотя бы один шар.
4 Размещения п помеченных шаров по т непомеченным урнам эквивалентны разбиениям множества { 1 ,2 ,. . ,,п} на не более, чем т неупорядоченных частей.
де объединения в точности m непустых, непересекающихся подмножеств. Например, существует пять разбиений множества {1,2, 3} на не более, чем 3 части (вертикальная черта отделяет одну часть от другой):
123, 121 3, 131 2, 11 23, 1| 2| 3.
Очевидно, разбиения множества могут содержать от одной до п частей.
Если части будут упорядочены (нумерованы), то количество возможных разбиений множества станет намного больше. Например, в указанном выше примере последнее разбиение будет представлено шестью разбиениями (все перестановки частей в разбиении 11 21 3).
Общее число разбиений множества {1, 2,..., п} принято называть числами Белла тая. Известно асимптотическое равенство таи = ©( п/log п )п (см. подробности в [29]).
В случае разбиений множества с упорядоченными частями — перенумерованы и шары, и урны — общее число всех разбиений по порядку величин n и m не превосходит т!тая.
Пример 1.2. Разбиение множеств встречается в тех прикладных задачах, где так или иначе возникает понятие «коалиция». Возможно, наиболее известным примером является проблема голосования, которая может быть представлена в виде специального класса кооперативных игр, называемого «взвешенные мажоритарные игры» и впервые изученного в [5]. Рассмотрим этот класс, следуя [31].
Пусть N = {1, 2, ..., п} — множество игроков. Подмножество N будем называть коалицией. Взвешенная мажоритарная игра G определяется как последовательность неотрицательных чисел G= [q,wt,w2, ..., wn], где w — вес игрока (число голосов, которое он контролирует в задачах голосования), а q — величина порога или квота, требуемая эволюцией для победы. Пусть
2 п п
W — W >...> w и - Vw < q < Vw .
12 п ^ il г
2 i=1 i=1
Коалиция S с N называется выигрывающей коалицией, если выполняется неравенство V,eS W — q. Задача состоит в том, чтобы найти минимальную выигрывающую коалицию или множество всех выигрывающих коалиций. Очевидно, что подобные игры описываются моделями разбиений множеств — коалиция — это блок в разбиении множества игроков, когда сами блоки не нумерованы.
Пример 1.3. Пусть инвестор владеет четырьмя типами финансовых инструментов: 1 — акции, 2 — облигации, 3 — фьючерсы и 4 — кэш. Предположим, что этот инвестор имеет возможность торговать своими финансовыми инструментами на четырех финансовых рынках, причем эти рынки неразличимы для инвестора —
например, ликвидность на этих рынках и размер комиссионных зависит только от вида финансовых инструментов и от их денежного эквивалента. Предположим также, для определенности, что инвестор решает, что денежный эквивалент каждого торгуемого инструмента одинаков. Тогда инвестору необходимо выбрать один из 15 возможных способов разбиения множества {1, 2, 3, 4} не более чем по четырем рынкам:
1234, 1231 4, 1241 3, 121 34, 12|3|4, 1341 2, 131 24, 131 21 4, 14|23, 11 234, 1|23|4, 141 21 3, 11 241 3, 11 21 34, 1|2|3|4
Очевидно, если все рынки для инвестора различимы, количество вариантов становится существенно больше. Но даже если все рынки неразличимы, а инвестор обладает 10 типами финансовых инструментов (что абсолютно реально) перед ним уже возникает задача выбора из вариантов.
Пример 1.4. Пусть G(N,E) — произвольный граф с N перенумерованными вершинами и E ребрами. Представим множество всех вершин {1, 2, ..., п} в виде блоков, в каждом из которых содержатся вершины степени 5 = {1, 2, ..., N — 1}. Очевидно, мы имеем разбиение множества помеченных вершин N на не более чем m < N — 1 помеченных частей.
1.3. Матричная антагонистическая игра разбиений: способы описания
В разделе 1.1 были приведены выражения для платежных функций в игре Блотто (1.1) и в игре Лотто (1.2). Для наших целей платежной функции (1.2) явно недостаточно. Действительно, как следует из [2], найти множество стратегий, обеспечивающих получение равновесия в смешанных стратегиях, для разбиений (игры полковника Лотто) ничуть не сложнее, чем для композиций (игры полковника Блотто). Однако если нас интересует исход игры двух конкретных разбиений (двух чистых стратегий игры полковника Лотто), метод вычисления платежной функции (1.2) может оказаться недостаточным для получения точного результата. Необходимо рассматривать как ведет себя платежная функция (a, b) на множестве всех
перестановок 0 а разбиения а. Поэтому определим H*(a, b) как
Пример 1.5. Выберем из множества всех ( 8,3 ) -разбиений разбиения a = (5,3,0) и b = (4, 2, 2) и вычислим значения платежных функций для игры Блотто и Лотто (табл. 1.4).
Как видно из табл. 1.4, в четырех случаях из шести игру Блотто выигрывает b, но в двух случаях выигрыш остается за а. Таким образом, в игре Лотто всегда вы-
1
1
m
(1.12)
игрывает b, а в игре Блотто он выигрывает лишь с частотой 2/3 (в предположении, что все перестановки равновероятны).
Таблица 1.4. Результаты вычисления значений платежных функций HB (a,b) и H*(a,b)
а 530 503 035 053 305 350
b 422 422 422 422 422 422
Нв{ а, Ь) Щ{ а, Ь) -1 / 3 -1 / 3 -1 / 3 --1 /9 1/3 1/3 1/3
Изучение множества чистых стратегий в играх разбиений требует вычисления значений функций HB (a,b) и H*(a,b) для каждой пары чистых стратегий. Но если для игры Блотто (1.1) вычисление значения платежной функции для пары произвольных (п, я?)-разбисний можно вычислить с трудоемкостью не более 0(т log я ) битовых операций, то вычисление (1.12) «в лоб» требует уже 0(т\(тlog/?)) битовых операций. Такая трудоемкость делает задачи точного вычисления (1.12) практически недоступными (intractable) при сколько нибудь заметных значениях т даже при анализе множества чистых стратегий небольшой мощности. Поэтому поиск приближенных методов вычислений (1.12) с полиномиальной трудоемкостью оказывается необходимым. Прежде чем перейти к описанию одного такого метода, понадобятся некоторые вспомогательные построения.
Пусть задана (n, т) -композиция a = (a,..., aj) и (n2 ,m) -композиция
b = (hi,... ,bm). Построим квадратную матрицу m x m вида M =aT • b, заменив операцию алгебраического умножения любых a eaT и bj eb операцией sign(a - b ■).
Назовем такую матрицу матрицей взаимодействия или I-матрицей (interaction matrix). В общем случае I-матрица — тернарная матрица т x т, главная диагональ которой является результирующим вектором игры Блотто между композициями а и b, а ее след — численный результат игры Блотто, т. е. значение т • HB (a,b). Алгебраическая сумма всех элементов матрицы равна т2 • HL(a,b) = m2 • HL(a* ,b*) и определяет платежную функцию (1.2) для игры полковника Лотто между разбиениями a* и b*, соответствующими композициям а и b.
Пример 1.6. Пусть заданы две (64, 7)-композиции a = (3,5,7,10,11,13,15) и b = ( 1 8,0,2,8,9 ,12, l^. Матрица взаимодействия этих композиций показана в табл. 1.5. В последней строке и последнем столбце содержатся суммарные значения
по всем столбцам и строкам соответственно. Эти суммы, очевидно, одинаковы, и, как было указано выше, определяют платеж m2 -HL (a*, b) = 0, т. е. разбиения a = (15,13,11,10,7,5,3) и b = (18,15,12,9,8,2,0), соответствующие заданным композициям, играют вничью в игре полковника Лотто. Однако, в игре полковника Блот-то композиция а выигрывает у b с большим перевесом (след матрицы равен 4).
Если два разбиения при платежной функции (1.2) играют вничью (HL (a, b) =0), из этого не следует, что они будут играть вничью и в том случае, когда используется «исчерпывающая» платежная функция игры полковника Лотто (1.12), полученная вычислением результатов всех m! перестановок столбцов. Это следует из очевидных мощностных соображений: для представления значений функции Н ( а , b ) в случае двух разбиений размерности m достаточно m log m бит информации, но для вычисления функции H*( a, b) необходимо уже m!log3 бит.
Таблица 1.5. I-матрица композиций a = (3,5,7,10,11,13,15) иb = (18, 0,2,8,9,12,15)
Пример 1.7. Рассмотрим пару (8, 4)-разбиений a = (5,3, 0,0) и b = (4, 2, 2,0), для которых H(a, b) = 0 (табл. 1.6а). Но для этой же пары разбиений H*(a, b) ф 0 (табл. 1.6б).
Таким образом установлено, что HL(a,b) = 0 фН*(a,b) — в соответствии с первой мерой игра Лотто приходит к ничейному результату, в то время как вычисление всех 12 значений показывает, что разбиение а проигрывает 3 раза, а выигрывает 4 раза.
Для того чтобы оценить, как часто возникают ситуации, при которых HL{ a, b) = 0 ф НК a, b), был поставлен программный эксперимент exp-
contraryPairs.hs [13]. В табл. 1.7 показано количество всех пар разбиений (с указанными параметрами n и m), для которых HL (a, b) = 0, а также сколько таких пар на
самом деле не играют в точности ничью, т. е. для скольких пар Hj*(a, b) ф 0. Оказывается, количество таких «неверных» решений в среднем около 2% (от общего числа всех возможных пар) — это та цена, которую приходится платить за получение полиномиальной трудоемкости вычисления результата игры полковника Лотто.
Таблица 1.6. Вычисление HL(a,b) и H*(a,b) для разбиений a = ( 5,3,0,0} и b = ( 4,2,2,0)
a)
\ b а 4 2 2 0 Z
5 1 1 1 1 4
3 -1 1 1 1 2
0 -1 -1 -1 0 -3
0 -1 -1 -1 0 -3
Z -2 0 0 2 II О
а b HR( а, Ь)
5300 4200 1 /4
5030 4200 1/4
5003 4200 0
3500 4200 -1/4
3050 4200 -1/4
3005 4200 -1/4
0530 4200 1/4
0503 4200 0
0350 4200 1/4
0305 4200 0
0053 4200 0
0035 4200 0
Я,* (а, Ь) 1/48
Таблица 1.7. Количество пар разбиений (a, b) из множества (n, т)-разбиений, для которых HL (a, b) = 0, H*(a, b) ф 0
п ш Число пар (а, Ь)
Всех возможных Я,(а,Ь) = 0
Я, (а, Ь) = 0 Я, (а, Ь) Ф 0
4 2 3 3 0
6 3 21 7 0
9 3 66 21 0
8 4 105 27 1
12 4 561 118 12
16 4 2 016 386 50
10 5 435 52 3
15 5 3 486 308 70
25 5 70 876 4 672 2 209
12 6 1 653 179 25
18 6 19 701 1 535 360
24 6 141 246 9 687 2 789
30 6 726 615 47 648 14 483
36 6 2 956 096 191 735 59 393
Примечение: порядок разбиений в паре при подсчете количества пар не учитывается, т. е. (а, b ) и (Ь , а) — одна и та же пара.
Для разбиений можно привести еще один способ представления их взаимодействия.
Пусть задано (n, m) -разбиение a = (a,...,ajj и (n2, m)-разбиение
b = {bx,..., .
Определение 1.4. Назовем потенциальным ресурсомR(a,b) разбиения а по отношению к разбиению b величину
R (ab )= Z r = ZZsign +(a - bi) ,
Г e r(a,b) i=1 j=1
r(a b) = ( Zslgn + (ai - bi)’Zslgn + (am -bi)).
sign X = -
1, при X > 0,
(1.13)
(1.14)
(1.15)
[0, при X < 0.
Поскольку каждая компонента r вектора r(a, b) — это то суммарное количество компонент вектора b, которое строго меньше a, сумма R(a, b) характеризует «возможности» разбиения а выиграть в игру полковника Лотто у разбиения b.
Матрицу, показанную в табл. 1.8, будем называть 1*-матрицей (m х 4) двух разбиений.
Таблица 1.8. I*-матрица ( 6 3,7 ) -разбиений
a = (21,12,10, 8, 6, 4, 2) и b = (27,11, 9, 7, 5, 3, l)
а 21 12 10 8 6 4 2
г (а, Ь) 6 6 5 4 3 2 1 R (а, Ь) = 27
b 27 11 9 7 5 3 1
г(Ь, а) 7 5 4 3 2 1 0 R (Ь, а) = 22
1.4. Комбинаторные свойства разбиений и стратегии игр
Если исследование матричной игры ограничено проблемой синтеза подходящего support множества, т. е. установления условий, при которых чистая стратегия может принадлежать множеству стратегий, обеспечивающих смешанное равновесие, потребности в изучении всего множества чистых стратегий не возникает. Но если необходимо получить ответ на более частные вопросы — например, найти минимальное множество чистых стратегий, обеспечивающих смешанное равновесие или ранжировать подмножества чистых стратегий по «способности выигрывать» — без понимания того, как устроено все множество чистых стратегий, обойтись достаточно сложно. Например, возникает необходимость понять следующее:
какие стратегии должны содержаться в множествах Ф и Ч , чтобы любая стратегия ф 6 Ф выигрывала (не проигрывала) любой стратегии ф 6 Ч? Решение подобных вопросов невозможно без понимания алгоритмической природы возникающих при этом задач. Именно поэтому в последние годы заметным трендом в теории игр стал интерес к алгоритмическим методам изучения различных классов игр [27] и проведению разного рода экспериментальных исследований, например, эффективного поведения игроков в соревнованиях (contests) самого разного вида [12]. В частности, многие работы стали нацелеными на получение полиномиально доступных алгоритмов решения проблем с помощью отказа от точных решений и поиска практически пригодных аппрокимационных алгоритмов.
Многочисленные результаты теории разбиений [29] относятся, в первую очередь, к различным комбинаторным свойствам разбиений, позволяющим предложить эффективные алгоритмы построения множества всех разбиений. Некоторые из этих алгоритмов были использованы в численных экспериментах [13]. Но вопрос о взаимной «силе» разбиений из заданного множества не возникал до тех пор, пока разбиения не стали объектом изучения чистых стратегий для игры Лотто (или композиции для игры Блотто).
Внимание к числовым свойствам чистых стратегий в матричных антагонистических играх (подклассом которых являются различные модели игр размещения ресурсов) по сию пору ограничивались следующими свойствами:
- равномерностью размещения ресурсов (в комбинаторике это принято называть оптимально сбалансированным разбиением5);
- ограничением на максимальное значение ресурса в отдельных полях.
Первое свойство для некоторых моделей игр обеспечивает оптимальную чистую стратегию (выше уже упоминался результат [19]). Второе свойство лежит в основе утверждений о множестве, которое обеспечивает получение смешанного равновесия в игре. Например, в [4] показано, что для всех чистых стратегий a = (аг,...,ат), которые принадлежат support множеству, должно выполняться 0 < а < 2n/m для всех 1 < j < т.
Для более детального анализа множеств чистых стратегий игры Лотто, не только характеризующего равновесные стратегии, оказались необходимы дополнительные числовые характеристики чистых стратегий:
- характеристика разнообразия величин частей разбиений;
- характеристика уравновешенности (баланса) частей разбиения.
5 Оптимально сбалансированным (n, т)-разбиением называется такое разбиение, для которого \а, - а\ < 1 для всех 1 < i, j < m. В [27] показано, что имеется ровно одно оптимально сбалансированное (n, т)-разбиение, все части а . которого задаются как [(n+m - j)т = [(n + 1- j)/m] для 1 < j < m.
Для начала укажем два полезных свойства разбиений, которые легко установить по виду матриц взаимодействия:
1) Д(а,Ь) + R(b,o)=m2 - q, где q — число нулей в I-матрице. Нули в I-матрице появляются в том и только в том случае, когда для какой-то пары индексов (i, j) выполняется равенство a = bj.
2) -(1-1/m)<HL(a,b) <1-1/m. Здесь верхняя и нижняя границы справедливы, например, для разбиений вида а = (n,0,...,0) и Ь = (b,b2,...,bm), где b >0 для всех i е [1,m] и b = n.
Затем для определения разнообразия элементов (п,тп) -разбиения введем следующее.
Определение 1.5. Назовем собственным потенциальным ресурсом (или просто собственным ресурсом) потенциальный ресурс разбиения относительно самого себя, т. е. величину
m m
R(а а)= Е r =ЕЕ^ +(a -a). (116)
Г е r(a,a) i=1 j=1
Собственный потенциальный ресурс разбиения а характеризует число различных компонент в а и, как следствие, его способность «обыгрывать» себя же. Заметим, что
0 < R(а,а) < m(m-1)/2, (1.17)
где нижняя граница достигается на разбиениях из т одинаковых значений (если n/m — целое), а верхняя — на вполне упорядоченных последовательностях а. (Если разбиение а = {аг,... ,ат} упорядочено по возрастанию, то I-матрица для а и его
самого будет кососимметрической: элементы, расположенные симметрично относительно главной диагонали, имеют противоположные знаки, а все диагональные элементы равны нулю.)
Для дальнейшего нам понадобится информация о распределении значений собственного ресурса для всего множества (n, т)-разбиений. Здесь мы ограничимся экспериментально установленным видом распределения для тех конкретных значений и , которые были использованы в большинстве экспериментальных исследований (рис. 1.1).
х 105
Величина собственного ресурса
Рисунок 1.1. Распределение значений собственного ресурса для (100, Ю)-разбиений
Для характеристики уравновешенности или баланса введем следующее. Определение 1.6. Пусть задано произвольное (п,т)-разбиение a = (аг,...,ат). В этом случае уравновешенностью PB(a) разбиения а будем называть величину
PB (а) = - max
-Z а (i - т'г!2)
1
1=1
т +1, при нечетном т, т[ = \т + 2, при четном m и i < т /2, т, при четном т и i > т /2,
(1.18)
где максимум берется по всем перестановкам а.
В приведенном определении используется понятие положения центра масс системы из m материальных точек, если под массой точки понимать величину ресурса а , размещенного в i-м поле, а под радиус-вектором — номер этого поля i, считая от «середины» т'/2. Таким образом, уравновешенность PB(a) характеризует максимальное (по всем возможным перестановкам) абсолютное смещение «центра масс» разбиения а от его «середины»: чем больше значение уравновешенности PB(a), тем меньше «центр масс» разбиения а смещен от «середины».
На рис. 1.2 показано распределение значений уравновешенности для (100, 10)-разбиений.
Справедлива оценка
-т'/2 < PB(a)< 0, Va е Рп^,
Гт -1, при нечетном т,
т'г=\ , р , (1.19)
[т, при четном т,
где оценка снизу достигается на разбиении вида (и, 0, ..., 0) , а оценка сверху — на
равномерном разбиении (n/т,..., n/т), когда п/т — целое.
s 40 000
X
CD
S 30 000
CO
S. 20 000
о
“ 10 000
0
о
-5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5
Величина уравновешенности
Рисунок 1.2. Распределение всех (100, 10)-разбиений по значениям уравновешенности
Сложность алгоритма вычисления РВ(а) не превосходит 0{т2), поскольку максимум в (1.18) достигается на разбиениях упорядоченных по возрастанию или по убыванию, а такое упорядочение любой последовательности размерности т возможно за О (т2 ) операций сравнения.
1.5. Приближенное вычисление функции с полиномиальной трудоемкостью
В разделе 1.3 были показаны два способа представления взаимодействия пары разбиений в игре полковника Лотто: I-матрица и I*-матрица. Результат этой игры — платежные функции HL (a, b) и R( a, b) — вычисляются за полиномиальное по время и в экспериментах приняты в качестве приближенного значения функции H*( a, b). Рассмотрим основания для такого подхода.
Пусть задана пара (n, т)-разбиений a = (ах,...,ат), b = (bx,...,bm) и ©а — множество всех перестановок а. Обозначим через Aw (a, b) и A(a,b), соответственно, долю ожидаемых выигрышей и проигрышей разбиения а при реализации всех перестановок а. Заметим, что Aw (a,b) = Az(b,a), а Az(a,b) = A^(b a).
Утверждение 1.1. Пусть рассматривается симметричная игра полковника Лотто для пары (n, т)-разбиений (a, b) и функция платежа H*( a, b), задана в соответствии с (1.12). Тогда6:
1) если R(a, b) Ф R(b, a), то sign (Aw(a, b) - A (a, b)) = sign (R(a, b) - R(b, a)).
2) если R(a, b) = R(b,a), то могут существовать такие пары разбиений (a, b), для которых Aw(a, b) ф A(a,b).
6 Приведенное утверждение справедливо не только для потенциального ресурса , но и для значений платежной функции HL, поскольку s ign(R (а,Ь) — R(Ь,а) ) = s ign(HL(a,b ) — HL(b ,a) ).
Доказательство. Прежде всего воспользуемся замечанием в [2] о том, что в случае, когда смешанные стратегии в игре полковника Лотто реализуются с вероятностью 1 /т ! для каждой из т ! перестановок не только цены игры Лотто и игры Блотто совпадают, но и множество оптимальных стратегий игры Лотто отображаются в оптимальные стратегии игры Блотто. Это замечание дает нам основание использовать результаты, полученные в [4], для несимметричных игр Блотто.
Основным приемом, который позволяет это сделать, станет следующее. При построении I*-матрицы любой симметричной игры пары разбиений а и b, такой игре с одинаковым ресурсом n однозначно соответствует несимметричная игра композиций r(a, b) и r(b, а), которые определены в (1.14). При этом значения самих потенциальных ресурсов Л(а, b) и R(b, а) не зависят от перестановок значений в полях исходных разбиений а и b.
Для несимметричных игр разбиений известны оценки, полученные в [4], которые позволяют связать долю выигранных и проигранных полей как функцию величин ресурсов игроков при условии, что ресурс в каждом поле равномерно выбирается из целочисленного интервала [0,2 • (ресурсигрока)m]. При условии, что отношение ресурсов слабого (R) и сильного (R) игрока удовлетворяют неравенству 2/m < R/R А1, единственный равновесный по Нэшу платеж, т. е. математическое ожидание доли выигранных полей, будет задаваться для слабого игрока А = R /(2R ) и для сильного А = 1 - А .
Условие по максимальной величине ресурса в нашем случае выполняется всегда, поскольку максимальный потенциальный ресурс не превосходит (m — 1)2, а максимальный ресурс каждого поля не больше т.
Теперь рассмотрим два случая из [4]: а) когда 2/ m < R/Rs < 1 и б) когда 1/(m — 1) < Rw/Rs < 2/m. Пусть для величины потенциальных ресурсов R(a, b)>R(b, а). Тогда R(a, b) соответствуют тому, что в [4] обозначено как R, а R(b, а) — как R. Для потенциальных ресурсов справедливо R(a, b) + R(b, a) < m2. Таким образом, случай a) не будет выполняться только когда R(a,b) = m, R (b,a) = (m — 1)2, т. е. когда одно разбиение максимально неуравновешенно. Но для такой пары разбиений будет выполняться случай б).
В случае а) ожидаемая доля выигранных полей Aww для противника с меньшим ресурсом будет R(b, a)/(2R(a, b)), и для противника с большим ресурсом А = 1 — А .
ws ww
В случае б) ожидаемая доля выигранных полей Aww для противника с меньшим ресурсом будет 2/m-(2R(b,a})/(m2(a,b)), и для противника с большим ресурсом Aw. = 1-A^-
В обоих случаях, если R(a, b)>R(b, a), то Aw(a, b) > Aw(b,a). Иными словами, математическое ожидание доли выигранных полей в игре полковника Лотто будет строго больше (строго меньше) у того разбиения, чья величина потенциального ресурса относительно противника строго больше (строго меньше).
Для доказательства второго пункта из утверждения 1.1 достаточно обратиться к табл. 1.7 и сноске 6. ■
Замечание. Результаты многочисленных компьютерных экспериментов позволяют высказать предположение о том, что пункт 1) утверждения 1.1 может быть усилен, а именно, утверждение этого пункта, возможно, справедливо не только для величин математического ожидания доли выигрышей разбиения (проигрышей разбиения Ь) при реализации всех m ! перестановок а , но и для точных значений этих величин. Вопрос формального доказательства этого предположения остается открытым.
1.6. Экспериментальное изучение игр разбиений
В разделе показаны результаты компьютерного моделирования, которые (по крайней мере, частично) отвечают на следующий общий вопрос: как предложенные выше числовые характеристики чистых стратегий в играх разбиений могут помочь выбору подмножества «эффективных», т. е. обладающих высокой способностью побеждать, стратегий.
Однако на точный ответ можно претендовать лишь в том случае, когда будет формально определено понятие «эффективность» стратегии.
Определение 1.7. Рассмотрим некоторое множество несимметричных по ресурсам разбиений В(ф(п),m), где ф(п) = [пШп,птах]. Назовем выигрывающей способностью (winning ability) первого рода (n, га)-разбиения а относительно B величину
W4(a, В) = {{HL (a, b).
\В\ beB
Выигрывающую способность второго рода определим как
WAn (a B) = 1signHi (a b).
\B\ beB
(1.20)
(1.21)
Опираясь на эти определения выигрывающей способности, покажем, как выглядят экспериментальные результаты компьютерных турниров игры полковника Лотто двух классов:
1) круговые турниры на множестве всех (n, т)-разбиений;
2) командные турниры двух заранее выбранных подмножеств (n, m)-разбиений.
1.6.1. Круговые турниры
Пусть заданы числа n, m и множество всех (n, т)-разбиений мощностью N. Круговым турниром будем называть турнир из N2 поединков игры полковника Лотто, где каждое разбиение встречается с каждым по одному разу. В круговом турнире первого рода победитель выявляется по значению T (a), определяемому выигрывающей способностью разбиения а на классе всех (n, т)-разбиений:
T (a) = m2-21 •W, (a,Рп,) = m X 2(a,b), (L22)
ЪеРп ,т
а в круговом турнире второго рода по суммарному числу набранных очков Tu (a) (победа приносит одно очко, поражение — минус одно, а ничья — ноль очков):
T (a) = \Pnm\, (a, Рп,Ш )= X signH (a, b). (123)
bePn ,m
В табл. 1.9, 1.10 приведены результаты круговых турниров первого и второго рода для всех восьми (7, 3)-разбиений. Очевидно, в антагонистическая игре с нулевой суммой суммарный результат игры любого подмножества чистых стратегий с самим собой будет равен 0. Однако поведение функций результатов в последних столбцах табл. 1.9, 1.10 уже не столь очевидно. Если значения платежной функции HL (a,b) (табл. 1.9) монотонно растут с уменьшением номера разбиения в обратном лексикографическом порядке (когда разбиение приближается к равномерному), то для функции signH (a,b) (табл. 1.10) максимум смещается.
Таблица 1.9. Результаты кругового турнира первого рода для (7, 3)-разбиений
700 610 520 511 430 421 331 322 Т,(я)
700 0 -1 -1 -3 -1 -3 -3 -3 -15
610 1 0 0 -1 0 -2 -2 -3 -7
520 1 0 0 0 0 0 -1 -1 -1
511 3 1 0 0 1 -1 -1 -3 0
430 1 0 0 -1 0 0 1 2 3
421 3 2 0 1 0 0 0 -1 5
331 3 2 1 1 -1 0 0 1 7
322 3 3 1 3 -2 1 -1 0 8
Таблица 1.10. Результаты кругового турнира второго рода для (7, 3)-разбиений
700 610 520 511 430 421 331 322 Т„( а)
700 0 -1 -1 -1 -1 -1 -1 -1 -7
610 1 0 0 -1 0 -1 -1 -1 -3
520 1 0 0 0 0 0 -1 -1 -1
511 1 1 0 0 1 -1 -1 -1 0
430 1 0 0 -1 0 0 1 1 2
421 1 1 0 1 0 0 0 -1 2
331 1 1 1 1 -1 0 0 1 4
322 1 1 1 1 -1 1 -1 0 3
Чтобы убедиться в том, что замеченный эффект не простое следствие выбора разбиений с малыми параметрами, были проведены эксперименты с большими значениями параметров. Все они продемонстрировали те же закономерности. В качестве примера на рис. 1.3 и 1.4 показаны графические представления результатов моделирования турниров первого и второго рода для (36, 6)-разбиений.
«Пилообразный» характер поведения функций на рис. 1.3 и 1.4 обусловлен выбранной упорядоченностью аргументов (обратной лексикографической), в которой разбиения генерируются алгоритмом H из [29].
Е-Г
20 000 -| 10 000 -0
-10 000 -20 000 --30 000 --40 000 --50 000
yyYYYV'
1 201 401 601 801 1001 1201 1401 1601 1801 2001 2201 2401
Порядковый номер i разбиения а,- в множестве всех (36, 6)-разбиений, отсортированном в обратном лексикографическом порядке
Рисунок 1.3. Результаты кругового турнира первого рода для (36, 6)-разбиений
Порядковый номер i разбиения а, в множестве всех (36, 6)-... Рисунок 1.4. Результаты кругового турнира второго рода для ( 3 6,6) -разбиений
Можно заметить, что функции обладают некоторой «самоподобностью». Каждый «зубец» подобен всей функции целиком. При этом локальные экстремумы «зубцов» совпадают с уменьшением числа на единицу в соответствующем старшем члене разбиения i по сравнению с предыдущем разбиением i-1.
1.6.2. Командные турниры. Экспериментальная классификация подмножеств чистых стратегий по «выигрывающей способности»
Экспериментальные результаты, приведенные в 1.6.1, убеждают в том, что все множество чистых стратегий игры полковника Лотто достаточно просто упорядочить по выигрывающей способности. Как и следовало ожидать, минимум таких способностей проявляют максимально неуравновешенные стратегии. Растет эта способность, прежде всего, с ростом уравновешенности (по крайней мере, это в точности так, если упорядочиваются значения платежей HL (a,b)). Тем не менее знания этой зависимости недостаточны в том случае, когда игрок A знает, какое множество чистых стратегий предпочитает использовать его противник (игрок B), и хочет использовать эту информацию для выбора такого подмножества чистых стратегий РА, которое увеличит его шансы на выигрыш.
Конечно, в общем (идеальном) случае, когда B играет равновесие, знание этого обстоятельства не может помочь A. Во всяком случае до тех пор, пока A не обладает большим ресурсом. Однако в реальных состязаниях (не важно, спортивных или социальных) выбор стратегий в каждый данный момент есть результат множества «человеческих» факторов, но уж никак не случайный выбор из некоторого распределения. Анализ хода различных состязательных процессов позволяет предположить, что, как правило, игроки обладают предпочтительными подмножествами стратегий в игре и никакой опытный игрок не упускает возможностей предварительно изучить эти предпочтения. Иначе говоря, в реальных играх всем известно, что вопрос «с кем играть», обязательно предшествует вопросу «как играть». Именно поэтому было решено провести ряд экспериментов для лучшего понимания насколько важно представление о том «с кем играть» хотя бы и для такой идеализированной модели, как игра разбиений.
Для начала рассмотрим результаты экспериментов, которые позволяют сделать выводы о том, какие именно свойства разбиений предпочтительные при игре, в которой могут принимать участие любые разбиения заданного класса. Это, по сути дела, ситуация, в которой у игрока нет никакой дополнительной информации о противнике (даже гипотезы о том, что противник рационален).
Эксперименты проводились как командные турниры в каждом из которых участвуют две команды (подмножества заданных классов). В каждом i-м
(г =1,4) турнире первая команда Д является подмножеством некоторого множества разбиений (класса разбиений) С, а ее противником выступает команда Ц cz сформированная из игроков множества всех (100, 10)-разбиений.
Каждая команда Д и ее класс С характеризуется условием / (а) — определенными диапазонами значений собственного ресурса R(a, а) и уравновешенности PB(a) (приведены в табл. 1.11).
В каждом командном турнире определяется размер участвующих команд (допускаются несимметричные размеры), игроки команд выбираются случайно равномерно из соответствующих классов. После этого в каждом i-м командном турнире каждое разбиение из команды Д разыгрывает игру полковника Лотто с каждым разбиением из команды Д.
Результаты каждого турнира команды Д={а15...,аД против Д = {Ь,} приведены в виде распределения 0. значений доли «непроигрышей» 0. (a) — отношения непроигрышуых партий к их общему числу:
в, (а) = JT~ Z I1 “ si§п Нь (a,b)),
^1^2 be Д
Г (1.24)
\ 0, при х > 0, sign - х = (
[1, при х < 0.
На рис. 1.5—1.8 изображены гистограммы распределения долей «непроигрышей» для проведенных экспериментов, а в табл. 1.11 — подробные численные результаты: количество разбиений в командах, их характеристики (диапазоны уравновешенности и собственного ресурса), а также первые четыре момента численных распределений полученных результатов.
СС
н
о
н
и
ПЗ
У
0,8%
0,6%
0,4%
0,2%
0,0%
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0
Доля «непроигрышей» 01
Рисунок 1.1. Гистограмма доли «непроигрышей» 0 для команды класса Рг0 ^ г0
0,8%
0,6% аз
о 0,4% н
J 0,2%
0,0%
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Доля «непроигрышей» ©2
Рисунок 1.2. Гистограмма доли «непроигрышей» © для команды класса S
20,0%
15,0%
н
° 10,0%
U
5,0%
0,0% I------1-----1------1------1------1------1-----1------1-------------,
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Доля «непроигрышей» ©3
Рисунок 1.3. Гистограмма доли «непроигрышей» © для команды класса Е
40,0%
пз
о 20,0%---------------------------------------------------------------------
Ь
и
то
Т 0,0% I--------1-----1------1------1------1------1-----1------1------г-™----1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Доля «непроигрышей» ©4
Рисунок 1.4. Гистограмма доли «непроигрышей» © для команды класса S Е
Таблица 1.11. Результаты команд Д. в командных турнирах проти в В с©10
i ct Я (а, а) РВ(а) IQI IAI I®iI Моменты распределения 0, доли «непроигрышей» М[8,-1 DJWI MJ0J Д4[9,1
г Л.00,10 [0, 45] [-5, 0] 6292069 60000 60000 0.51444 0.07428 -0.14220 1.83737
2 S [43, 45] [-5, 0] 2290362 60000 60000 0.58334 0.05588 -0.28689 2.02625
3 Е [0, 45] [-1, 0] 9165 9165 1000000 0.92685 0.00016 -1.90790 9.06557
4 SE [43, 45] [-1, 0] 229 229 1000000 0.93716 0.00002 -1.20289 4.87540
Результаты цикла экспериментов, показанных выше, свидетельствуют: характеристики чистых стратегий — уравновешенность и собственный ресурс — безусловно влияют на выигрывающую способность этих стратегий. Точнее говоря, имея
возможность выбирать чистые стратегии с определенными параметрами уравновешенности и собственного ресурса, можно гарантированно7 избежать проигрыша, играя с противником, который случайно и равномерно выбирает свои чистые стратегии из всего множества разбиений.
Что будет происходить при условии, что противник выбирает стратегии из классов, ограниченных какими-либо заранее заданными условиями? Сколь важно иметь информацию о классе стратегий противника? Эти вопросы должны стать основой алгоритмической теории игр разбиений, основным содержанием которой будет теория игровых турниров — повторяющихся игр с неполной информацией, когда игрокам ничего не известно о виде распределения игровых стратегий, выбранных противником, и они вынуждены учиться в процессе игры. Отличием от классических подходов fictitious play [7] будет служить то обстоятельство, что игроки могут использовать априорную информацию о специальных классах чистых стратегий и их свойствах. Начать эту работу необходимо с проведения дополнительных экспериментов об играх различных классов стратегий между собой, а не только со множеством всех стратегий.
2. Принцип гарантированного выигрыша в играх разбиений
2.1. Предварительные замечания
Уровень информированности игрока о возможных действиях противника, пожалуй, наиболее существенный вопрос для выбора стратегии в любой математической модели игры. Поиск выигрышной стратегии в игре с полной и совершенной информацией хотя и может представлять существенные трудности, но эти трудности носят «мощностной», а не принципиальный характер, т. е. зависят лишь от размерности задачи.
Однако в реальной жизни, к какой бы области игрового взаимодействия мы не обратились, бросается в глаза, что игроки тем или иным способом стремятся восполнить дефицит информации о поведении противника. Часто не жалея на эти цели весьма значительных средств, считая, что «игра стоит свеч», а приобретенная информация окупится сторицей. Характерно, что даже в играх, математической моделью которых служит игра с полной и совершенной информацией — такие как шахматы, например, — по мере того, как полезность выигрыша растет, игроки все больше внимания уделяют не столько поискам новых стратегий игры, сколько попыткам угадать поведение конкретного противника или сформировать у него неверное представление о своих намерениях. Такое поведение профессионалов —
7 «Гарантированно» в данном случае означает, что вероятность проиграть не более 0.07 при стандартном отклонении 0.04%
свидетельство понимания (приходящего с опытом) важности «проблемы информированности», приблизительным аналогом которой в математической теории игр можно считать байесовские игры, когда информация о стратегиях и функциях выигрышей противников не полна. В этих случаях имеющаяся теория рассматривает возможности пополнения информации в процессе игры при условии задания некоторой вероятностной меры (распределения возможных типов — платежных матриц — других игроков).
Традиционные постановки игр Блотто и Лотто исключают динамику игры — это one shot игра, т. е. решения в ней принимаются однократно. Это, однако, не исключает принципиальной возможности модификации постановок этих игр, когда:
- игроки имеют априорную информацию о множестве стратегий противника (разделы 2.2 и 2.3);
- рассматривается игра, протекающая во времени, т. е. динамика игры (разделы 2.4 и 2.5).
Наличие априорной информации предполагает изучение того, какая информация будет получена и какова цена ее приобретения. Ответ на оба вопроса не очевиден.
Когда в теории игр возникают подобные вопросы, часто невозможно избежать некоторого порочного круга — один игрок играет равновесие (заданное множество стратегий) и знает, что второй также играет равновесие, а второй знает, что первый это знает и т. д. Без подобных договоренностей трудно построить общую теорию, но от этого они не становятся более правдоподобными во многих реальных приложениях. Наличие априорного «информационного неравенства» заведомо исключает равенство игроков и, соответственно, саму идею нахождения равновесия в игре.
В тех случаях, когда рассматривается «игра с природой» — будь это задачи оптимизации или принятия решений — затруднений не возникает. В таких задачах естественно вводится механизм (оракул), который для заданного поля задач может отвечать на вопросы определенного класса. Например, чему равно значение функции в заданной точке (оракул нулевого порядка) или чему равно значение функции в заданной точке и значение градиента в этой точке (оракул первого порядка) [32]. Для подобного оракула стоимость обращения к нему естественным образом определяется, во-первых, количеством заданных вопросов и, во-вторых, сложностью вопросов, измеряемой количеством вычислительных операций, необходимых для получения искомой информации (значения функции или вычисления градиента). Когда рассматривается взаимодействие двух сознательных игроков, вопрос «симметрии» возможностей этих игроков становится определяющим. Несимметрия в играх разбиений до сих пор изучалась лишь в случае несимметрии ресурсов: оба игрока играют равновесие, но ресурсы их могут быть сильно различны (см., напри-
мер, [4]). Здесь будут изучены случаи, когда допускается несимметрия по ресурсам, но стремление к равновесию обоих игроков заменяется стремлением к гарантированному выигрышу одного из них. Таким образом, игроки исходно различны по целям — один стремится выиграть наверняка (назовем его «атакующим»), другой («защитник») старается максимально усложнить ему эту задачу. Так как в играх разбиений обычно не бывает чистых выигрышных стратегий, «атакующий» может достичь гарантированной победы или за счет информации о том, какие чистые или смешанные стратегии будет играть «защитник», или за счет увеличения своего ресурса по сравнению с ресурсом «защитника». Но при этом будет стремиться победить наиболее эффективно. Таким образом, возникает, например, такая минимаксная задача: добиться выигрыша наверняка у противника с известным ресурсом, затратив при этом минимально возможный ресурс при заданной информированности о стратегиях противника.
Если стремление минимизировать ресурс, необходимый атакующему для победы, не вызывает вопросов, то определение «цена информированности» вопрос достаточно скользкий. В реальных условиях — в экономике, спорте, войне — добыча информации это дело специально обученных «игроков». Стоимость обучения и содержания таких агентов, будь то военный или промышленный шпионаж, очень велика, а эффективность порой ничтожна. В формальных моделях игр достаточно просто оценить полезность добытой информации, однако остается неясно, как оценить трудоемкость ее добычи. Это классическая проблема взаимосвязи количества и ценности информация — проблема, которая, по-видимому, не имеет конструктивного решения. (Достаточно вспомнить результат А. Н. Колмогорова [33] о том, что функция относительной алгоритмической сложности объекта у при заданном объекте х — иными словами, минимальная длина программы, которая по заданному х получает у — не является эффективно вычислимой).
Несложно оценить количество бит в сообщении, добытом шпионом. Совершенно не ясно, в общем случае, как оценить «полезность» этого сообщения. Приведем простые примеры на языке игр разбиений:
1) известно, что в поле j размещен ресурс f (поля нумерованные). Эти сведения дают игроку не менее log m + log n бит дополнительной информации;
2) известно, что в каком-то поле противника размещен ресурс f. В таком случае получено не более log n бит дополнительной информации, поскольку ресурс f с одинаковой вероятностью 1/m может находиться в любом из m полей.
В первом случае полученная информация позволяет или гарантированно выиграть поле j, затратив минимум ресурса на победу или, если /. = п, гарантированно
выиграть игру. Во втором случае ни о каком гарантированном выигрыше (даже и одного поля) говорить не приходится.
Таким образом, остается непонятно, как мера информированности игрока — в виде оценки числа полученных бит — может в общем случае прогнозировать шансы на выигрыш.
Тем не менее анализ 2.2 и 2.3 позволяет сделать ряд полезных (хотя и частных) заключений относительно связи между конкретным видом информированности о классе чистых стратегий, которые может выбрать «защитник», и величиной ресурса, достаточного (или необходимого и достаточного) для атакующего, чтобы обеспечить гарантированный выигрыш.
2.2. Основные определения
Определение 2.1. Пусть заданы (п ,т) -композиция a = .ax ,...,aj} и (n2 ,m) -композиция b =.b, . . ., bm). Обозначим через w(a,b) долю полей, выигранных композицией а у b в игре полковника Блотто:
1 т
w(ab) = — ^sign+ (a - ь, ) (2.1)
m i=1
где sign+x определено в (1.15).
Будем говорить, что композиция а гарантированно выигрывает у композиции b в игре полковника Блотто, если
w(a, b )> 1/2. (2.2)
Если а и b являются разбиениями, а ©а — множество всех перестановок а, то а гарантированно выигрывает у b в игре полковника Лотто, если
Va,e©aw(ai, b)> 1/2. (2.3)
Определение 2.2. Пусть С(ф(п),т) — множество несимметричных по ресурсам композиций, где ф(п) = [птп, птш. ]. Назовем ценой гарантированной победы (price of win for sure) над всеми композициями множества C в игре полковника Блотто функционал
PWSB (C)= mm (24)
^ a, е a
где A(C) — множество всех таких композиций, которые гарантированно выигрывают в игре полковника Блотто у всех композиций из C.
Аналогичным образом определим цену гарантированной победы над всеми разбиениями множества Р(ф(п),т) в игре полковника Лотто:
PWS (Р)= min У a , (2.5)
' aeA(P) ^ a(ea
где A(P) — множество всех таких разбиений, которые гарантированно выигрывают в игре полковника Лотто у всех разбиений из P.
Заметим, что, исходя из вышеуказанных определений 2.1 и 2.2, цены гарантированных побед в играх полковника Блотто и Лотто связаны равенством
PWSL (Р) = PWSB (C(Р)), (2.6)
где C(P) — множество всех перестановок всех разбиений множества P. Это, в частности, означает, что цена гарантированной победы в игре полковника Блотто над множеством всех (n, т)-композиций совпадает с ценой гарантированной победы в игре полковника Лотто над множеством всех (n, т)-разбиений:
PWSl (P, ) = PWSb (Cn m ). (2.7)
По сути дела, цена гарантированной победы представляет собой абсолютную величину ресурса, необходимого для гарантированной победы, который требуется для восполнения недостатка информации о стратегии, выбранной противником. В этом отношении введенное понятие аналогично понятию избыточности в теории информации или в теории синтеза надежных схем из ненадежных элементов. Конечно, с той существенной разницей, что рассматривается не игра с природой, а антагонистическая игра. Тем не менее уменьшить неопределенность (независимо от ее источника и вида решаемой проблемы), как правило, невозможно без затраты ресурсов того или иного вида. В рассматриваемом здесь случае это увеличение ресурса, который размещает игрок на заданном числе полей, превращая в общем случае симметричную игру Блотто в несимметричную.
При рассмотрении несимметричных игр обычно изучается ситуация равновесия [4], в которой больший ресурс позволяет игроку обеспечить большее математическое ожидание доли выигранных полей. Нас будет интересовать более частный, но и более определенный случай выигрыша, когда один из игроков побеждает в точности на более чем половине полей. Кроме того, этот выигрыш обеспечен независимо от действий противника, т. е. при любой чистой стратегии противника. Заметим, что задача получения гарантированного выигрыша, находится вне рамок постановки проблемы смешанного равновесия.
Определение 2.3. Пусть одному из игроков игры полковника Блотто или Лотто известно только количество участков т и множестно всех возможных чистых стратегий R, одной из которых является стратегия его противника8.
Назовем разведкой такой механизм Q = (R, Хп поставляющий информацию
о том, к какому множеству Ха с R принадлежит чистая стратегия противника.
Определим информационную стоимость разведки Q как
c(Q) = log2 \R\ - log2 |ХП|. (2.8)
Таким образом, если разведка Q ничего не знает о том, какое размещение использует противник (т. е. может указать лишь на все множество R), ее информационная стоимость равна нулю. Если же разведка может в точности указать на стратегию противника, то стоимость такого рода сведений (стоимость разведки) равна log2 |R|. Например, исходя из того, что игроку известно только количество участков
и суммарный ресурс противника, для игры полковника Блотто среди (100, 10)-композиций стоимость такой полностью информированной разведки равна приблизительно 42 бит, а для игры полковника Лотто среди (100, 10)-разбиений — около 23 бит. В общем случае разведка, обладающая информационной стоимостью в один бит, вдвое уменьшает мощность множества возможных чистых стратегий противника.
Пусть игроку в игре полковника Блотто или Лотто известно количество участков т и суммарная величина ресурса противника n с абсолютной точностью 8и е [0, п] (другими словами, известно множество R всех возможных чистых стратегий противника — всех (п ± 8п,т) -композиций или всех (п ± 8п,т) -разбиений). Обозначим чистую стратегию противника как b ={ргeR. Перечислим некоторые варианты разведки различной информационной стоимости, начиная от наличия полной совершенной информации о стратегии противника и заканчивая случаем, когда разведка ничем не может помочь.
Полностью информированная разведка Qmax сообщает в точности чистую стратегию противника, т. е.
Хп = {b}. (2.9)
Информационная стоимость такой разведки
с (Ц_ ) = log2 \R\. (2.10)
8 Мы намеренно избегаем предположений о знании вероятностного распределения на множестве возможных стратегий.
5-полностью информированная разведка Qgmax сообщает чистую стратегию противника с абсолютной точностью 5; для каждого участка A:
•А-ЛА ±Л-А ±«. еЩ. (2-4)
Информационная стоимость
m
с(Ц^) = log2 \R\ - log2 П(3, +1). (2.12)
i=1
Порядко-информированная разведка Qord сообщает чистую стратегию противника с точностью до порядка участков A по величине ресурса — точно известен номер i участка с наименьшим ресурсом, номер f участка со следующим по величине ресурсом и т. д.:
= {(Х1 xm) е ^ < Х2 <-< }• (213)
По определению 1.2, множество всех (n, т)-композиций с указанным порядком сортировки участков по величине ресурса эквивалентно множеству всех (n, m)-разбиений, отсюда следует, что информационная стоимость разведки Qord
С (&ord ) = log2 \R\ - log2 2 | • (2-14)
i=n-Sn
Порядко-информированная разведка не сможет помочь игроку в игре полковника Лотто, поскольку разбиения по определению есть упорядоченные композиции. В этом случае Qord эквивалентна минимально информированной разведке
Локально информированная разведка Qioc сообщает то, что k участков чи-
стой стратегии противника с номерами ^iu,...,суммарно имеют величину ресурса Zj с абсолютной точностью 5j,k2 участков с номерами (i21,...,i2k^ имеют величину ресурса /2 ± 52 и так до f ± 5г, причем ^ k = m:
XQioc = xm) eR\У] «ф,r\YfCj k e\lj -Sj ,lj + S ]! (2.15)
В случае, когда r = m, k =. = k = 1 и номера i1 k не пересекаются, разведка Qloc эквивалентна -полностью информированной разведке Qgmax , а при r = 1, k = m — минимально информированной разведке Qmi„, поэтому ее информационная стоимость
0 < с(ПЬс )< log2 |R|. (2.16)
Минимально информированная разведка Q указывает лишь на все изначально известное множество возможных разбиений противника
= R, (2.17)
поэтому ее информационная стоимость равна нулю:
c(^m,n ) = 0. (2.18)
2.3. Цены гарантированной победы
Задача выяснения связи между размером затрат ресурсов, необходимых для гарантированной победы над противником, о виде разбиений которого известна некоторая информация, сводится к тому, чтобы получить:
- верхнюю оценку величины ресурса для гарантированного выигрыша, т. е. то значение ресурса, которого будет достаточно для победы при любом разбиении (расстановке сил противника);
- нижнюю оценку, т. е. такую величину ресурса, что при любом значении ресурса строго меньшем этой величины невозможно гарантировать выигрыш, какова бы ни была расстановка сил противника.
Нахождение точных оценок опирается, прежде всего, на следующее утверждение.
Лемма 2.1. В произвольном (n, т)-разбиении а = {ахаи) количество ресурсов на i-м поле не превышает n/i.
Доказательство. Действительно, способ задания понятия «разбиение» (см. определение 1.2) позволяет заметить, что значение ресурса а достигает максимума
в том случае, когда справа от него стоят нули (т. е. ак = 0 для всех к = i +1, т), а на остальных полях, включая at, ресурсы размещены равномерно. Отсюда следует утверждение Леммы 2.1. ■
В табл. 2.1 приведены оценки цены гарантированной победы в играх полковника Блотто и Лотто, полученные на основании леммы 2.1, с учетом различных видов разведки, рассмотренных в разделе 2.2. В этой таблице для значений разведки Qmax, ^тах, указаны нижние и (через запятую) верхние оценки для значений
ресурса в случае гарантированного выигрыша. Нижняя оценка при этом получена при таком разбиении противника, при котором не меньше чем в (т/ 2) +1 поле ресурс равен нулю. Хотя такое решение может показаться нелепым, но в эксперименте, описанном в [34], всевозможные перестановки вида (120,0,0,0,0,0) (n = 120, т = 6) выбрало 4.7% участников из 6 тысяч.
Для двух оставшихся способов информированности (Qord и Qmin) в табл. 2.1 приведены точные оценки (нижняя совпадает с верхней), справедливые при любом разбиении противника.
Таблица 2.1. Цена гарантированной победы при различных видах разведки
Д
Д
Д
ord
д
1ос
д„
PWSB(Xn)
PWS, (Х0)
[®+ДЙ+1 )(М Ш+2.0+1 )(М
Smax
[gJ + i.m
П + 8n \m/2 J
^ n
Z 7+1
i=\ml2 \ 7
ГI m I / n + Sn
[h2J+1 .m([\mr72i
n + 5,
+ 1)] KJ-mO + 1)]
+ 1
(П + дп \
V[|m/2|J J
\m/2 JJ +1)
(l|m/2|J )
[[2+2 .m( (
\ / J
n + 8n
\ / J
n + 8,.
' +1]
+ 1
|m/ 2 J
В табл. 2.1, как обычно, \xJ — это ближайшее целое к х с недостатком.
Для того чтобы получить более ясное представление о поведении оценок, приведенных в табл. 2.1, приведем верхние асимптотические по n и m оценки.
Оказывается, что для всех случаев информированности, за исключением Qord, верхние асимптотические оценки для разбиений и композиций совпадают по порядку величины (табл. 2.2).
Таблица 2.2. Асимптотические верхние оценки цены гарантированной победы при различных видах разведки
д PWSR(X.o) = PWS,(X.o)
^max п/2 + 0(m)
^6 max 2 (n + 8n) + 0(m)
Д loc 2(n + 8n) + 0(m)
^m.i.n 2 (n + 8f) + 0 (m)
Для случая Qord справедливо
(2.19)
(2.20)
PWSL(x^) = 2(n + bn) + 0(m), и, для больших m9, справедливо
PWSB(Xnd)*\n2.(n + bn) + 0(m).
9 Для m = 1 0 относительная ошибка составляет менее 1,7%, а для m = 2 5 — менее 0,5%.
Оценка (2.20) основана на асимптотическом выражении для суммы гармонического ряда ^^1/ n = ln n + у + еи, где у = 0,5772... — постоянная Эйлера-Маскерони; ln n — натуральный логарифм п; еп — остаточный член (ея ^ 0 при m ^-<х>) [35].
2.4. Конкурентные алгоритмы: игры разбиений в режиме online
С 80-х гг. прошлого века в computer sciences появляется новый раздел, который можно назвать «теорией online алгоритмов» (см., например, [36, 37]).
Основной областью интересов этой теории стали такие известные компьютерные проблемы, как list searching и paging10, а отличие этого направления состояло в новом подходе к оценке производительности online алгоритмов. Впоследствии предлагаемый подход получил название «анализ конкурентности» (competitive analysis) [38]. Его основой можно считать изучение пессимистического (worth-case) случая при анализе производительности online алгоритмов: эти алгоритмы предполагаются достаточно эффективными только в том случае, когда их производительность на любой последовательности запросов, т. е. входных данных, «мало» отличается от оптимальных offline алгоритмов, а именно таких алгоритмов, которым достоверно известно будущее.
(Подобный подход представляется единственно возможным в тех ситуациях, когда цена неверного решения велика, а достоверной информации относительно распределения входных последовательностей не существует. В частности, online алгоритм должен «хорошо» работать и когда имеет дело с неизвестным распределением запросов.)
В [39] предложен общий подход к изучению online алгоритмов, получивший название «игра запроса-ответа» (the request-answer games). В таких играх игрок A — это online алгоритм, а его «соперник» R — это последовательность запросов, на которые по очереди (т. е. последовательно во времени) отвечает online алгоритм.
Определения/
1. Online алгоритм N называется С-конкурентным, если
Стоимость(К) < С ■ Стоимость (Соперника) + 0(1),
для всех возможных последовательностей запросов (стратегий R). Величина C обычно называется отношением конкурентности.
2. Алгоритм N называется строго-конкурентным, если аддитивная константа меньше либо равна 0. 10
10 Paging — обычно подкачка страниц памяти или страничный обмен.
3. Алгоритм N называется абсолютно конкурентным, если отношение конкурентности равно 1, а аддитивная константа меньше либо равна 0.
Вслед за рассмотрением приложений в области компьютерных наук понятие конкурентоспособности было распространено на другие проблемы принятия решений в режиме online. Так, в [14, 40] эта модель описывает класс финансовых задач, связанных с инвестиционной активностью и биржевыми играми, задач поиска работы или работников, задач замены оборудования.
Для большинства подобных задач — при условии, что известны минимальное и максимальное значения дискретных величин, характеризующих запрос или хотя бы отношение этих величин — удается следующее:
- находить С-конкурентные online алгоритмы;
- устанавливать преимущества рандомизированных алгоритмов перед детерминированными, когда показателем качества являются не точные значения производительности, как в случае детерминированных online алгоритмов, а математическое ожидание этой величины;
- сформулировать универсальные правила построения оптимальных online алгоритмов (политика минимизации угрозы), которые приблизительно можно сформулировать так:
- принимать решение об активной реакции (отвечать на запрос) только когда эта реакция приносит большую выгоду нежели ответ на запросы, поступившие ранее;
- величина активной реакции должна быть такой, чтобы известное до начала отношение конкурентности С не уменьшилось при самом неблагоприятном развитии дальнейших событий.
Во многих задачах, связанных с экономическими рынками, важнейшую роль играют задачи поиска, в частности поиска наиболее подходящей цены. Одной из разновидности таких поисковых задач можно считать односторонние торговые проблемы (one-way trading problem), когда онлайн игроком является трейдер, чьей целью является поиск наиболее выгодной цены для покупки/продажи валюты — операции на валютных рынках (foreign exchange market). Видя текущую цену, трейдер должен принять решение совершить ли трейд по текущей цене и, если «да», то какую долю всей суммы, которой он располагает, следует обменять. Аналогичные проблемы возникают при оптимизации инвестиционного портфеля, при покупке активов и во многих других ситуациях.
Существует две, казалось бы, различные стратегии: чисто поисковая, когда задача ограничивается поиском подходящей цены и собственно one-way trading, когда при появлении подходящей цены будет потрачена только часть имеющейся суммы в ожидании следующей, возможно более выгодной, текущей цены. Однако в
определенном смысле эти проблемы можно полагать эквивалентными. Это следует из того факта, что с позиций доходности процесса торговли, рандомизированный алгоритм торговли, который с некоторой вероятностью совершает сделку со всей имеющейся суммой сразу, эквивалентен некоторому детерминированному алгоритму, который торгует по частям (см. [14]).
Модели игр разбиений оказываются удобными для изучения задач конкурентной online торговли как для детерминированных, так и для рандомизированных алгоритмов. А те оценки гарантированных результатов, которые приведены в этой главе, позволяют достаточно просто сравнивать эффективность online и offline торговли.
Игра (n, т)-разбиений традиционно изучается как стандартная игра offline — каждый игрок имеет полную информацию о разбиении противника. Однако во многих практических приложениях, для которых имеет смысл рассматривать модель игры разбиений, ситуацию offline приходится признать слишком идеализированной. Обычно «противники» не имеют полной информации о разбиении, с которым приходится иметь дело и рассчитывать им приходится лишь на знание (не обязательно точное) величин п и т.
Модель игры разбиений, в которой на каждом шаге игры одному из игроков предоставляется возможность получить информацию о ресурсе одного поля противника, более подходит для изучения процессов торговли, напоминая общую модель one-way trading. Например, online игрок — покупатель — желает купить набор необходимых товаров, затратив минимально возможное суммарное количество средств. При этом, ему приходится иметь дело с некоторым количеством других игроков — продавцов — каждый из которых предлагает товары по своим ценам. В транзакционные издержки покупателя могут входить, в частности, затраты на поиск подходящего продавца и время, потраченное на выбор подходящей цены товара. Аналогичную структуру имеет задача поиска работы или поиска работника
нанимателем11.
Как уже было отмечено, задача поиска во времени оказывается в основании многих (если не большинства) экономических и финансовых приложений, а все такие модели можно представить, как частные случаи «игры запроса-ответа». Потому изучение игры «запроса-ответа» для разбиений, принимая во внимание простоту структуры игр разбиений, несомненно заслуживает внимания.
Рассмотрим вначале игру разбиений для двух игроков: игрока R, который каждую единицу времени осуществляет предложение (запрос) в виде величины ,
Упомянутые проблемы напоминают о «проблеме секретаря» [49], в которой наниматель должен, последовательно интервьюируя соискателей, остановиться на лучшем из них, не имея возможности вернуться к предыдущей кандидатуре.
т. е. значения ресурса на i-м поле R, и игрока А, который играет online, т. е., получив предложение, он должен принять решение «завоевать» это поле или ждать следующего значения. Если А отклоняет запрос, то пересмотр решения в следующие моменты времени исключен.
Пример 2.1. Игра разбиений по правилам игры Блотто есть, по определению, антагонистическая игра с нулевой суммой — сколько один игрок выигрывает, другой проигрывает. В модели игры Блотто этот принцип объясняется как «завоевание» поля (фронта). Игрок, завоевавший поле получает «+1», а потерявший его «-1». В стандартной модели игры «запроса-ответа» нет явного антагонизма, здесь соперника игрока online A можно полагать «природой», а поведение игрока A — это алгоритм нахождения наиболее выгодного решения при самых неблагоприятных «погодных условиях», т. е. сознательное поведение игрока R исключено. Однако возможны ситуации, когда интересы R и A в игре «запрос-ответ» антагонистичны, как и в игре Блотто. Например, пусть A пытается «захватить» поля R в динамическом процессе недружественного поглощения. На каждом шаге этого процесса R предъявляет одно поле, а A принимает решение: «поглотить» его или оставить в распоряжении R. Выигрыш каждого поля игроком A есть проигрыш игрока R, потому игра является антагонистической (хотя и необязательно с нулевой суммой). Пусть по условиям процесса поглощения, после поглощения (m/ 2)+1 поля процесс поглощения считается завершенным. Стараясь минимизировать ущерб, измеряемый числом захваченных полей, R может формировать свои «предложения» с учетом того, что A не готов на победу «любой ценой». В условиях, когда все поля имеют одну цену для A, R может, в первую очередь, предлагать свои самые ресурсоемкие поля, в то время как A должен избегать захватывать такие поля, если имеется шанс захватить поле, затратив меньший ресурс.
2.5. Конкурентный детерминированный PWS-алгоритм
Пусть 4OL (n, m) — симметрическая online игра разбиений R и A, которая происходит по следующим правилам. Игрок R реализует заранее выбранную чистую стратегию из множества Pnm. Это означает, что в каждый момент t (m — 1 > t > 1) он
предъявляет своему оппоненту величину l(t) — значение ресурса, которое он разместил в поле t.
Игрок A в каждый момент t «захватывает» поле l(t), если у него имеется ресурс l(t) + 1, тем самым увеличивая свой платеж (получив +1, а игрок R, соответственно, -1). Если A не «захватил» поле l(t), оно остается во владении R: A получает платеж «-1», а R — «+1». Игра продолжается до того момента, пока суммарный платеж A не будет (т/2)+1 или R — суммарный платеж т/2.
Нас, как и в предыдущих разделах этой главы, будут интересовать алгоритмы поведения online игрока A, которые обеспечивают ему гарантированный выигрыш. Будем называть подобные алгоритмы PWS-алгоритмами (price of win for sure).
Утверждение 2.1. Для игры WOL (n,m) в предположении, что n/m — целое, существует абсолютно конкурентный детерминированный алгоритм PWSA (n,m).
Доказательство. Пусть алгоритм PWSA (n,m) устроен следующим образом: если он в момент t получает от R значение l(t) < n/m, то захватывает это поле, затратив на это l(t) + 1 единиц ресурса. В противном случае, он отказывается от захвата. Тогда, если первые (m/2)+1 полей будут содержать п/т единиц ресурса, для победы ему понадобится ((n/m) + 1)((m/ 2) +1) = (n/2) + (m/ 2) + (n/m) +1 единиц ресурса. В любом другом случае захват (m/2)+1 полей будет стоить дешевле, чем при строго равномерном разбиении. Таким образом, отношение стоимости алгоритма PWSA (n,m) к стоимости (величине ресурса) игрока R не превосходит (12 + (m + 2)/2n +1/m). В соответствии с определением, детерминированный PWSA (n,m) алгоритм является абсолютно конкурентным. ■
Рассмотренный выше тип игрока R принято называть oblivious adversary (непомнящий противник), потому что он формирует последовательность запросов заранее, прежде чем сделан какой-либо ход, основываясь лишь на общих сведениях об игроке A (знании параметров m и n). В общей теории online алгоритмов [40] рассматриваются случаи, когда игрок R может обладать большими возможностями: адаптивный online противник и адаптивный offline противник. В нашей модели эти адаптивные возможности игрока не меняют полученной закономерности: игрок A всегда может гарантированно выиграть (m/2)+1 поле, затратив не более (п/2) + 0(т) ресурсов. Значит, право бесплатно отказаться от активного действия в игре с ограниченной и известной длительностью оказывается почти эквивалентно полной информированности о противнике. («Почти» потому, что при полной информированности offline выигрыш происходит в точности за (m/2)+1 шагов, а в online количество шагов может быть не менее m).
В реальных бизнес-процессах практически исключена возможность безболезненного отказа от некоторой услуги (действия). Например, на финансовых рынках игрок, конечно, может в принципе ждать появления устраивающей его цены, но лишь до тех пор, пока величина его потенциального проигрыша не превысит величину его рыночного счета. Если это произойдет, его позиция будет закрыта автоматически (margin call), а потенциальный проигрыш станет реальным.
Для игры 4OL (n, m) гарантированный выигрыш для A возможен при меньшем значении ресурса, чем у его противника. Этим игра разбиений принципиально отличается от большинства рассматриваемых ранее игр запроса-ответа, в которых даже достижение С-конкурентности (C > 1) не всегда возможно. Причина такого положения дел очевидна: игрок А обладает существенной информацией — знанием о точном значении величины ресурса противника. Этого знания, наряду с правом отказаться от захвата поля, оказывается достаточно для абсолютной конкурентности.
Рассмотрим теперь более сложную для активного игрока ситуацию, в которой он не обладает всей полнотой информации о возможностях противника.
Обозначим через 1(N +1, n, m) игровую модель торговли, в которой один игрок B — покупатель и N игроков S\,..., SN — продавцы.
Продавцы. Пусть каждый из N продавцов представляет собой некоторое (n, m)-разбиения. Каждое поле j = 1,m разбиения каждого продавца нумеровано и его номер соответствует виду торгуемого товара, а ресурс этого поля I. (j) — стоимость
товара j у продавца i = 1, N. Если l. (j) = 0, это означает, что у продавца i нет товара j.
Покупатель. Разбиение игрока B также имеет нумерованные поля — каждое поле j = 1, m содержит некое целое число b( j) > 1 — цену товара j, которую он готов заплатить, причем ^”Jb(j) = n. Предположим также, что для каждого товара у какого-нибудь из N продавцов найдется цена не выше b(j). Для каждого товара j = 1, m значение цены / (j), которое может получить игрок B от продавцов, лежит в интервале [1, n], поскольку продавцы не знают цену, которую покупатель готов заплатить, а покупатель допускает, что кто-либо может предложить цену меньше b(j).
Торговля offline. Покупатель Bopt (N +1, n, m) получает через равные промежутки времени AT все m N-мерных наборов значений цен L(1) = {lj(1), ...,lN(1)},., L(m) = {lfm),...,lN(m)} и за время AT = (D(mN2) для каждого товара j этот алгоритм может выбрать цену не выше b(j).
Предположим также, что Vj е[1, m] значение min L(j) = b(j) и maxL(j) = n, где минимум и максимум берутся по всем N продавцам.
Торговля online. Для такой торговли имеет место следующее.
Утверждение 2.1. Для игры 1OL (N +1, n, m), если (m2 - m)/n < 1, существует
fm -1 -конкурентный по суммарным затратам детерминированный online алгоритм Bol (I OL ).
Доказательство. Для каждого товара j е [1, m] выберем некоторое значение p (j) из интервала [1, n] (это так называемая reservation price в терминологии
[14]). Цена p (j) в условиях рассматриваемой игры может обеспечить наилучшее приближение к цене offline. Для любого товара j е [1, m] искомое значение p* (j) в рассматриваемом случае является решением уравнения баланса
n—M=£Ш. (2.21)
p (j) b( j)
Здесь n — максимальная цена любого товара и b(j) — цена покупателя. При выполнении этого условия проигрыш от превышения цены покупки над исходной ценой покупателя уравновешивается выигрышем от покупки по цене ниже исходной цены покупателя.
Из (2.21) получаем
p* (j) = д/(11 ~ b(j) ) b(j)- (222)
Алгоритм BOL (1OL), в первый же раз получив значение цены для товара у, которое не выше p (j), должен покупать этот товар. Такой алгоритм после покупки всех m товаров позволяет определить суммарные затраты SB покупателя B, как
m I
sb 4(n —b (j))b (j ^ (2.23)
j=i
при условии, что Z™ljb(j) = n и n > 2m.
Можно показать12, что SB максимально, когда b( j) = n/m для всех j е[1, m]. Следовательно,
SB <^jn2 (m -1)-n(m2 —m). (2.24)
Из (2.21) следует, что при условии (m2 — m)/n < 1, отношение конкурентности C(BOL (1OL )) для детерминированного online алгоритма BOL (3OL )
C(Bol (1ol))<y/m—l. (2.25)
■
Оценка (2.25) — это оценка худшего по стоимости случая (worst case) для покупателя. Как именно будет выглядеть распределение стоимости затрат для поку-
12 Здесь необходимо найти максимум вогнутой симметрической относительно перестановок аргументов функции в условиях ограничений, заданных выпуклой симметрической функции от того же множества трансформаций переменных. Из этих условий следует, что оптимальное решение будет симметрическим относительно всех перестановок переменных, т. е. все переменные в этом решении равны друг другу.
пателя зависит от множества факторов: распределения цен покупателя, распределения цен каждого из продавцов, стратегии опроса продавцов. В частности, время, необходимое игроку B для совершения всех покупок, вообще говоря, является случайной величиной, о которой априори можно утверждать только, что она не может быть меньше m. Потому только численные эксперименты игры 3OL (N +1, n, m) с конкретными значениями N, п и m позволят получить представление как о распределении стоимости затрат при различных стратегиях покупателя и продавцов, так и о распределении времени торгового цикла, т. е. приобретения покупателем необходимых товаров.
Модель игры 3OL (N +1, n, m), несмотря на кажущуюся искусственность, достаточно правдоподобно описывает ряд интересных и распространенных экономических ситуаций. Например, ситуацию, в которой оказывается покупатель на интернет-рынках или при обращении к сервисам-агрегаторам, таким как те, что предоставляют информацию по билетам, гостиницам и т. п. Конечно, в этих случаях модель рынка несколько сложнее, чем модель игры 3OL (N +1, n, m), в первую очередь, в связи с тем, что требование симметричности ресурсов игроков, является совершенно необязательным. Однако основные принципы поведения покупателя остаются неизменны, а рост всевозможных интернет-рынков делает актуальными вопросы оценки вычислительной трудоемкости online алгоритмов и поиски эффективных (не обязательно равновесных) стратегий.
Действительно, для таких рынков режим offline торговли практически неосуществим: покупатель, желающий приобрести товаров, должен обладать памятью, по крайней мере O(Nmlogn) бит, и, что еще важнее, производить порядка
0(mN2) операций принятия решений. Учитывая, что значение N для больших рынков, таких как eBay, может быть порядка 104... 106, offline торговля требует заметных вычислительных ресурсов даже в том случае, когда для принятия решения достаточно сравнивать пару log n-разрядных чисел (цен товаров). В реальности же принятие решения предполагает учет множества параметров, характеризующих товаров, да еще в условиях, когда эти параметры нелинейно связаны между собой и подвержены влиянию ряда случайных факторов. Поэтому разработка методов online торговли — это единственный путь достижения эффективности работы на рынке.
Полезно также отметить, что способ выбора reservation price, который рассмотрен в утверждении 2.2, может быть существенно улучшен, если показателем качества покупателя будут ожидаемые суммарные затраты, т. е. в случае применения рандомизированных алгоритмов торговли. Одна из идей реализации такого алгоритма принадлежит Л. Левину и подробно изложена в [40].
Заключение
Представляется, что одно из наиболее интересных направлений работы в области игр разбиений — эволюционные игры. Основанием для такого убеждения являются первые экспериментальные результаты, которые были получены [41]. Оказалось, что эксперименты с различными классами разбиений позволяют проще осуществлять наблюдение за эволюционным поведением «существ». (В нашем случае, «поведение» — это множество чистых стратегий, т. е. классов разбиений, из которых тем или иным способом выбирается чистая стратегия.)
Численные эксперименты над такими объектами обнаруживают и фиксируют различные типы динамики эволюционных процессов, например, наличие поглощающих состояний или колебаний в численности взаимодействующих коллективов. Следующим шагом в этом направлении может стать введение мер топологической близости различных разбиений и изучение влияния такой близости на приспособленность (fitness) моделируемых «существ» в процессе эволюционной борьбы.
Надо заметить, что изучение мер топологической близости и их связь с метрическими характеристиками дробной размерности (самоподобность и фракталы) в последние годы вызывает повышенный интерес специалистов в области поведения сложных искусственных (интернет) и биологических сетей [42-44]. Этот интерес легко объясним: современные технологии (как промышленные, так и социальные) все больше приобретают сетевой характер, причем число элементов в сетях, представляющих интерес, чрезвычайно велико. В этих условиях понимание законов, которые управляют ростом сетей и динамикой информационных процессов в этих сетях становится крайне важным. Можно предположить — на это указывают многие установленные факты — общность характера этих законов как для сетей физические размеры которых измеряются тысячами километров (интернет), так и для биологических сетей, где физические размеры элементов и связей измеряются нанометрами. Возможно, важнейшими из этих общих принципов является наличие топологической фрактальности и самоподобия в сетях, основным содержательным законом которых является «popularity is attractive»13 [45].
Еще одно направление, в котором изучение игр разбиений может оказаться полезным, это поведенческая теория принятия решений. Сегодня уже накопилось достаточно экспериментальных результатов о том, как люди принимают решения в различных играх. В целом, обязательного следования принципам рациональности эксперименты с людьми не показывают. Например, наиболее массовым из проведенных до сих пор турниров был тот, в котором около 6000 участников играли в игру полковника Блотто [34]. Его результаты, в частности, показали, что те из
13 «Популярность привлекает внимание» (прибл. пер.).
участников, кто выбрал равномерное распределение ресурса по полям (таких было около 11%), получили результат значительно хуже среднего по турниру и почти вдвое хуже результатов Top-10. Полученные результаты авторы объясняют психологическими теориями «глубины рассуждений», свойственной людям [46].
По нашему мнению (подкрепленному экспериментами со студентами московских университетов), более простое объяснение состоит в том, что численные результаты каждого участника, в первую очередь определяются составом тех, кто играл в турнире. Ибо «глубина рассуждений» не учитывает тех, кто и не пытался «рассуждать», а в ряде случаев таких может быть большинство. Потому что большинство часто руководствуется вовсе не «рассуждениями», а некоторыми априорными «сценариями» того, как «следует» действовать в тех или иных случаях. Как иначе объяснить, чем реализацией сценария «go to hell», то обстоятельство, что более 300 испытуемых поставили весь ресурс на одно поле.
Во множестве всех (100, 10) -разбиений доля равновесных разбиений около 8%, а c увеличением размерности эта доля быстро стремится к нулю. Конечно, в самых простых играх часто имеет смысл играть равновесие, особенно, если время игры не ограничено, а твой противник в той же мере рационален, что и ты. Но и в этом случае отклонение от равновесия в игре может быть достаточно рациональной стратегией. Стоит, например, рассмотреть возможность s-равновесия14 [47], как многие результаты теории равновесия оказываются несправедливы. Так, в широко известной игре «дилеммы узника» (в варианте, когда игра повторяется конечное число раз T, а где платежи усредняются за T раундов) Нэш-равновесие достижимо лишь при стратегии «обманывать» в каждом раунде. Однако, стоит допустить возможность s-равновесия, как s-равновесной стратегией становится «око-за-око» (tit-for-tat).
Литература
[1] Borel E. The theory of play and integral equations with skew symmetric kernels //
Econometrica journal of the Econometric Society. 1953. Vol. 21. P. 97-100.
[2] Hart S. Discrete Colonel Blotto and General Lotto games // International Journal of Game Theory. 2008. Vol. 36. P. 441-460.
[3] Hart S. Allocation Games with Caps: From Captain Lotto to All-Pay Auctions. — The Hebrew University of Jerusalem, The Federmann Center for the Study of Rationality, 2015.
[4] Roberson B. The Colonel Blotto Game // Economic Theory. 2006. Vol. 29, No. 1. P. 1-24.
14 Множество стратегий называется s -аппроксимацией равновесия по Нэшу (s > 0), если изменением стратегии игрок может увеличить свою платежную функцию не более, чем на s.
[5] von Neumann J. Zur Theorie der Gesellschaftsspiele // Mathematische Annalen. 1928. Vol. 100, No. 1. P. 295-320.
[6] Nash J. F. Equilibrium Points in N-Person Games // Proc. Nat. Acad. Sci. USA. 1950. Vol. 36, No. 1. P. 48-49.
[7] Brown G. W. Iterative Solution of Games by Fictitious Play // Activity Analysis of Production and Allocation / Ed. T. C. Koopmans. — New York : Wiley, 1951.
[8] Cox B., Juditsky A, Nemirovski A. Decomposition Techniques for Bilinear Saddle Point Problems and Variational Inequalities with Affine Monotone Operators on Domains Given by Linear Minimization Oracles // arXivpreprint arXiv:1506.02444, 2015.
[9] Andrews G. E. The Theory of Partitions. — Cambridge : Cambridge University Press, 1998.
[10] Mann H. B., Whitney D. R. On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other // The Annals of Mathematical Statistics. 1947. Vol. 18, No. 1. P. 50-60.
[11] Vershik A. M. Statistical mechanics of combinatorial partitions, and their limit shapes //
Functional Analysis and Its Applications. 1996. Vol. 30, No. 2, P. 90-105.
[12] Dechenaux E., Kovenock D., Sheremeta R. M. A Survey of Experimental Research on Contests, All-Pay Auctions and Tournaments // Experimental Economics. 2015. Vol. 18, No. 4. P. 609-669.
[13] Bocharov P. Partition Games Research Toolbox. 2015 [Электронный ресурс] https://github.com/pbo/partition-games.
[14] Borodin A., El-Yaniv R. Online Computation and Competitive Analysis. — Cambridge University Press, 2005.
[15] Savage L. J. The Foundations of Statistics. — New York : John Wiley & Sons Inc., 1954.
[16] Tukey J. W. A Problem of Strategy // Econometrica, 1949. Vol. 17, No. 1. P. 73.
[17] Bellman R. On “Colonel Blotto” and Analogous Games // Siam Review. 1969. Vol. 11, No. 1. P. 66-68.
[18] Blackett D. W. Some Blotto Games // Naval Research Logistics Quarterly. 1954. Vol. 1, No. 1. P. 55-60.
[19] Golman R., Page S. E. General Blotto: Games of Allocative Strategic Mismatch // Public Choice. 2009. Vol. 138, No. 3-4. P. 279-299.
[20] Friedman L. Game-Theory Models in The Allocation of Advertising Expenditures // Operations Research. 1958. Vol. 6, No. 5. P. 699-709.
[21] Shubik M., Weber R. J. Systems Defense Games: Colonel Blotto, Command and Control //
Naval Research Logistics Quarterly. 1981. Vol. 28, No. 2. P. 281-287.
[22] Papadimitriou C. H. The Complexity of Finding Nash Equilibria // Ch. 2 In Book: Algorithmic Game Theory / Eds. N. Nisan at al. — Cambridge : Cambridge University Press, 2007, p. 29-51.
[23] Gigerenzer G., Selten R. Bounded Rationality: The Adaptive Toolbox. — MIT Press, 2002.
[24] Daskalakis C. On The Complexity of Approximating a Nash Equilibrium // ACM
Transactions on Algorithms (TALG). Special issuare 2013. Vol. 9. No. 3. art. 23.
[25] Geller W., Hemphill R. Robust equilibria and e-dominance 2014 [Электронный рекурс] https://editorialexpress.com/cgi-bin/conference/download.cgi?db name=MWETSpring2014& paper id=114
[26] Горяшко А. П. Теория игр: от анализа к синтезу. Обзор результатов // Cloud of Science. 2014. Vol. 1, No. 1. P. 112-154.
[27] Nisan N., Roughgarden T., Tardos E., Vazirani V. V. Algorithmic Game Theory. — Cambridge : Cambridge University Press, 2007.
[28] Bocharov P., Goryashko A., Nikulchev E. V. Partition Games as Contests: Numerical Simulation Results // Applied Mathematical Sciences. 2015. Vol. 9, No. 104. P. 5149-5167.
[29] Кнут Д. Э. Искусство программирования, т. 4а. — М. : Вильямс, 2013.
[30] Almkvist G., Andrews G. E. A Hardy-Ramanujan formula for restricted partitions // Journal of Number Theory. 1991. Vol. 38. No. 2. P. 135-144.
[31] Matsui T., Matsui Y. A survey of algorithms for calculating power indices of weighted majority games // Journal of the Operations Research Society of Japan. 2000. Vol. 43. P. 7186.
[32] Немировский А. С., Юдин Д. Б. Сложность задач и эффективность методов оптимизации. — М. : Наука, 1979.
[33] Колмогоров А. Н. Три подхода к определению понятия «количество информации //
Проблемы передачи информации. 1965. Т. 1, № 1. С. 3-11.
[34] Arad A., Rubinstein A. Colonel Blotto’s Top Secret Files, 2009 [Электронный ресурс] http://philpapers.org/rec/RUBCBT
[35] Graham R. L., Knuth D., Patashnik O. Harmonic Numbers and Harmonic Summation // In Book: Concretete Mathematics: A Foundation for Computer Science. 2nd ed. — Addison-Wesley, 1994, p. 272-282.
[36] Sleator D. D., Tarjan R. E. Amortized efficiency of list update and paging rules // Communications of the ACM. 1985. Vol. 28, No. 2. P. 202-208.
[37] Raghavan P., Snir M. Memory versus randomization in on-line algorithms. — Springer, 1989.
[38] Manasse M., McGeoch L., Sleator D. Competitive algorithms for on-line problems // в
Proceedings of the twentieth annual ACM symposium on Theory of computing, 1988. P. 322333.
[39] Ben-David S., Borodin A., Karp R., Tardos G., Wigderson A. On the power of randomization in on-line algorithms // Algorithmica. 1994. Vol. 11, No. 1. P. 2-14.
[40] El-Yaniv R., Fiat A., Karp R. M., Turpin G. Optimal search and one-way trading online algorithms // Algorithmica. 2001. Vol. 30, No. 1. P. 101-139.
[41] Bocharov P., Goryashko A. Evolutionary Dynamics of Partition Games // 2015 International Conference Stability and Control Processes in memory of V.I. Zubov. — IEEE, 2015. P. 225228
[42] Palla G., Derenyi I., Farkas I., Vicsek T. Uncovering the overlapping community structure of complex networks in nature and society // Nature, 2005. Vol. 435, No. 7043. P. 814-818.
[43] Papadopoulos F., Kitsak M., Serrano M. A., Boguna M., Krioukov D. Popularity versus similarity in growing networks // Nature. 2012. Vol. 489. No. 7417. P. 537-540.
[44] Krioukov D., Ostilli M. Duality between equilibrium and growing networks // Physical Review E. 2013. Vol. 88, No. 2. P. 022808.
[45] Dorogovtsev S. N., Mendes J. F. F., Samukhin A. WWW and Internet models from 1955 till our days and the “popularity is attractive” principle, 2000 [Электронный документ] arXiv http://arxiv.org/abs/cond-mat/0009090
[46] Stahl D. O., Wilson P. W. On players' models of other players: Theory and experimental evidence // Games and Economic Behavior. 1995. Vol. 10, No. 1. P. 218-254.
[47] Tsaknakis H., Spirakis P. G. A graph spectral approach for computing approximate nash equilibria, 2009 [Электронный документ] arXiv http://arxiv.org/abs/0909.4686
[48] Vazirani V. V. Combinatorial algorithms for market equilibria // In Book: Algorithmic Game Theory. — Cambridge : Cambridge University Press, 2007. P. 103-134.
[49] Ajtai M., Megiddo N., Waarts O. Improved algorithms and analysis for secretary problems and generalizations // SIAM Journal on Discrete Mathematics. 2001. Vol. 14, No. 1. P. 1-27.
Авторы:
Павел Сергеевич Бочаров — руководитель отдела разработок, компания Wheely (Москва) Александр Петрович Горяшко — доктор технических наук, профессор, профессор кафедры программных систем, Московский технологический институт
Partition Games: Experimental Research
P. Bocharov*, A. Goryashko**
* Wheely
1, 1, Varshavskoe s., Moscow, 117105
**Moscow Technological Institute 38A, Leninskiy pr., Moscow, Russia, 119334
e-mail: [email protected], [email protected]
Abstract. Our focus is on investigation of combinatorial partitions as models for matrix games and computer modelling some classes' of the games. Analysis of the disjoint subsets of the strategies for the partition games to elucidate their "relative strength", i. e. to define which strategies to gain the wins account in the repeated games. The computing analysis of the subsets partitions enable one to choice the strategies with high "winning ability". Our focus is on a simulation of the elimination tournaments to check these results. Actors in such tournaments are the partitions and the games rule are identical to that for a Lotto game. Besides, in the paper the problems of the winning for sure are investigated. For this case, we show a direct relationship between information about opponents' strategies and recourses redundancy to win for sure.
We have study of the online partition games also and get some versions of the concurrent trading algorithms.
Key words: partitions, compositions, colonel Blotto games, colonel Lotto games, matrix games, concurrent games, win for sure, matrix interaction, balance, relative strength, coalition, tournaments, peculiar resource.
References
[1] Borel E. (1953) Econometrica journal of the Econometric Society, 21: 97-100.
[2] Hart S. (2008) International Journal of Game Theory, 36:441-460.
[3] Hart S. (2015) Allocation Games with Caps: From Captain Lotto to All-Pay Auctions, The Hebrew University of Jerusalem, The Federmann Center for the Study of Rationality, 2015.
[4] Roberson B. (2006) The Colonel Blotto Game, Economic Theory, 29(1):1-24.
[5] von Neumann J. (1928) Mathematische Annalen, 100(1):295-320.
[6] Nash J. F. (1950) Proc. Nat. Acad. Sci. USA, 36(1):48-49.
[7] Brown G. W. (1951) Iterative Solution of Games by Fictitious Play, In Activity Analysis of Production and Allocation, T. C. Koopmans (Ed.), New York, Wiley.
[8] Cox B., Juditsky A., Nemirovski A. (2015) Decomposition Techniques for Bilinear Saddle Point Problems and Variational Inequalities with Affine Monotone Operators on Domains Given by Linear Minimization Oracles. arXivpreprint arXiv:1506.02444, 2015.
[9] Andrews G. E. (1998) The Theory of Partitions, Cambridge: Cambridge University Press.
[10] Mann H. B., Whitney D. R. (1947) On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other, The Annals of Mathematical Statistics, pp. 50-60.
[11] Vershik A. M. (1996) Functional Analysis and Its Applications, 30(2): 90-105.
[12] Dechenaux E., Kovenock D., Sheremeta R. M. (2014) A Survey of Experimental Research on Contests, All-Pay Auctions and Tournaments, Experimental Economics, 1-61.
[13] Bocharov P. (2015) Partition Games Research Toolbox, Available: https://github.com/pbo/partition-games.
[14] Borodin A., El-Yaniv R. (2005) Online Computation and Competitive Analysis. Cambridge University Press.
[15] Savage L. J. (1954) The Foundations of Statistics, New York: John Wiley & Sons Inc..
[16] Tukey J. W. (1949) Econometrica, 17(1):73.
[17] Bellman R. (1969) Siam Review, 11(1):66-68.
[18] Blackett D. W. (1954) Naval Research Logistics Quarterly, 1(1):55-60.
[19] Golman R., Page S. E. (2009) General Blotto: Games of Allocative Strategic Mismatch,
Public Choice, pp. 1-21.
[20] Friedman L. (1958) Operations Research, 6(5):699-709.
[21] ShubikM., Weber R. J. (1981) Naval Research Logistics Quarterly, 28(2): 281-287.
[22] Papadimitriou C. H. (2007) The Complexity of Finding Nash Equilibria, In Algorithmic Game Theory, pp. 29-51.
[23] Gigerenzer G., Selten R. (2002) Bounded Rationality: The Adaptive Toolbox, Mit Press.
[24] Daskalakis C. (2013) ACM Transactions on Algorithms, 9(3).
[25] Geller W., Hemphill R. (2014) Robust equilibria and e-dominance.
[26] Goryashko A.P. (2014) Cloud of Science, 1(1):112-154. [In Rus]
[27] Nisan N., Roughgarden T., Tardos E., Vazirani V. V. (2007) Algorithmic Game Theory, Cambridge: Cambridge University Press, 2007.
[28] Bocharov P., Goryashko A., Nikulchev E. V. (2015) Applied Mathematical Sciences, 9(104): 5149-5167.
[29] Knuth D. E. (1998) The art of computer programming, Pearson Education.
[30] Almkvist G., Andrews G. E. (1991) Journal of Number Theory, 38(2):135-144.
[31] Matsui T., Matsui Y. (2000) Journal of the Operations Research Society of Japan, 43:71-86.
[32] Nemirovski A. S., Yudin D. B. (1979) Slozhnost’ zadach i jeffektivnost’ metodov optimizacii, Moskow, Nauka. [In Rus]
[33] Kolmogorov A. N.(1965) Problemy peredachi informacii, 1(1):3—11. [In Rus]
[34] Arad A., Rubinstein A. (2009) Colonel Blotto’s Top Secret Files, Levine’s Working Paper Archive, pp. 1-21.
[35] Graham R. L., Knuth D., Patashnik O. (1994) Harmonic Numbers and Harmonic Summation,
In Concretete Mathematics: A Foundation for Computer Science, 2nd ed., Addison-Wesley, 1994, p. 272-282.
[36] Sleator D. D., Tarjan R. E. (1985) Communications of the ACM, 28(2): 202-208.
[37] Raghavan P., Snir M. (1989) Memory versus randomization in on-line algorithms, Springer.
[38] Manasse M., McGeoch L., Sleator D. (1988) Competitive algorithms for on-line problems, In
Proceedings of the twentieth annual ACM symposium on Theory of computing, 1988.
[39] Ben-David S., Borodin A., Karp R., Tardos G., Wigderson A. (1994) Algorithmica, 11(1):2-14.
[40] El-Yaniv R., Fiat A., Karp R. M., Turpin G. (2001) Algorithmica, 30(1):101-139.
[41] Bocharov P., Goryashko A. (2015) Evolutionary Dynamics of Partition Games, In III International Conference in memory of V.I. Zubov Stability and Control Processes, St. Petersburg, 2015.
[42] Palla G., Derenyi I., FarkasI., Vicsek T. (2005) Nature, 435(7043):814-818.
[43] Papadopoulos F., Kitsak M., Serrano M. A., Boguna M., Krioukov D. (2012) Nature, 489(7417):537-540.
[44] Krioukov D., Ostilli M. (2013) Physical Review E, 88(2).
[45] Dorogovtsev S. N., Mendes J. F. F., Samukhin A. (2000) WWW and Internet models from 1955 till our days and the “popularity is attractive” principle, arXiv preprint cond-mat/0009090, 2000.
[46] Stahl D. O., Wilson P. W. (1995) Games and Economic Behavior, 10(1):218-254.
[47] Tsaknakis H., Spirakis P. G. (2009) A graph spectral approach for computing approximate nash equilibria, arXiv preprint arXiv:0909.4686, 2009.
[48] Vazirani V. V. (2007) Combinatorial algorithms for market equilibria, In Algorithmic Game Theory, Cambridge, Cambridge University Press, pp. 103-134.
[49] Ajtai M., Megiddo N., Waarts O. (2001) SIAM Journal on Discrete Mathematics, 14(1): 1-27.