Научная статья на тему 'О субоптимальных решениях антагонистических игр разбиений'

О субоптимальных решениях антагонистических игр разбиений Текст научной статьи по специальности «Математика»

CC BY
178
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАЗБИЕНИЕ ЦЕЛОГО ЧИСЛА / КОМПОЗИЦИЯ ЦЕЛОГО ЧИСЛА / ТЕОРИЯ ИГР / ИГРЫ БЛОТТО / ИГРЫ ЛОТТО / $\varepsilon$-ОПТИМАЛЬНОЕ РЕШЕНИЕ ИГРЫ / ЦЕНА ИГРЫ / СОБСТВЕННЫЙ РЕСУРС РАЗБИЕНИЯ / УРАВНОВЕШЕННОСТЬ РАЗБИЕНИЯ. / INTEGER PARTITION / COMPOSITION ON INTEGER / GAME THEORY / BLOTTO GAMES / $\varepsilon$-OPTIMAL SOLUTION / VALUE OF GAME / PECULIAR RESOURCE / PARTITION BALANCE

Аннотация научной статьи по математике, автор научной работы — Бочаров Павел Сергеевич, Горяшко Александр Петрович

Представлены экспериментальные результаты изучения субоптимальных решений в смешанных стратегиях антагонистических игр разбиений. Показано, что множество чистых стратегий $\varepsilon$-оптимального алгоритма обладает специальной структурой распределения ресурсов и эта структура может быть легко воспроизведена на базе ранее изученных свойств разбиений. Результаты подтверждены численным сравнением с поведением $\varepsilon$-оптимального алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Suboptimal solutions of antagonistic partition games

The paper examines $(n, m)$-partition games in order to develop tractable method of suboptimal decision of the resource allocation games such as colonel Blotto game or colonel Lotto game. The main goal is to develop tractable method for building suboptimal solution in mixed strategies for these games without solving the relevant optimization problem. The foundation of proposed method lies in the specific combinatorial properties of the $(n, m)$-partition games. It turned out that if for all game strategies the values of the balance and peculiar resource have the values from specific range it could be sufficient to get of suboptimal decisions of the games mentioned above. The proposed methods are based on both the analytical and numerical results, analytical partitions properties and numerical simulation results. The numerical simulation for the partition games $(120, 6)$ and $(100, 10)$ demonstrated that one could design of the $\varepsilon$-optimal decision where $\varepsilon\leqslant 0.02$. The support set of these decisions contain no more two hundred pure strategies and decisions complexity equals $const \cdot m^2 $for considered games. Results of the numerical simulation provide reasons to suppose that our approach is quite competitive with $\varepsilon$-optimal solution. The simplicity of our suboptimal solution method could be advantage in the behavioral game theory.

Текст научной работы на тему «О субоптимальных решениях антагонистических игр разбиений»

УДК 021.8 + 025.1 ББК 78.34

CУБОПТИМАЛЬНЫЕ РЕШЕНИЯ АНТАГОНИСТИЧЕСКИХ ИГР РАЗБИЕНИЙ1

Бочаров П. С.2

(ООО Вили Разработка, Москва) Горяшко А. П.3

(Московский технологический институт, Москва)

Представлены экспериментальные результаты изучения субоптимальных решений в смешанных стратегиях антагонистических игр разбиений. Показано, что множество чистых стратегий е-оптимального алгоритма обладает специальной структурой распределения ресурсов и эта структура может быть легко воспроизведена на базе ранее изученных свойств разбиений. Результаты подтверждены численным сравнением с поведением е-оптимального алгоритма.

Ключевые слова: разбиение целого числа, композиция целого числа, теория игр, игры Блотто, игры Лотто, е-оптимальное решение игры, цена игры, собственный ресурс разбиения, уравновешенность разбиения.

1. Введение

Изучение антагонистических игр размещения ресурсов, начало которому было положено классической работой Э. Боре-ля [4], в последние пару десятилетий велось достаточно интенсивно. Причиной явилось, в частности, то, что несмотря на

1 Авторы признательны А.С. Немировскому за многочисленные консультации и помощь в проведении экспериментов.

2 Павел Сергеевич Бочаров, технический директор (pavel@wheely. com).

3Александр Петрович Горяшко, доктор технических наук, профессор ([email protected]).

крайне простое описание этого класса антагонистических игр (называемых обычно играми Блотто и Лотто с добавлением различных воинских чинов), они ставят перед исследователями серьезные проблемы. Прежде всего в связи с астрономически большим числом возможных стратегий игры даже при относительно небольших значениях исходных параметров: целого числа возможных полей (т) и целого числа размещаемых по этим полям ресурсов (п). Из работ по теории разбиений (см., например, [2]) следует, что игры такого класса могут быть рассмотрены на языке комбинаторных алгоритмов как игры разбиений и игры композиций.

Ранее было установлено [8], что оптимальное решение игр Блотто возможно только в смешанных стратегиях4, а в [12] для Нэш-равновесия найдена функция распределения ресурсов (как для случая равных, так и для случая неравных ресурсов игроков) 5. В частности, для Нэш-равновесия и случая, когда для обоих игроков А и В ресурс п распределяется по т полям, одномерная функция распределения ресурсов для обоих игроков выглядит следующим образом: для каждого поля ] £ 1,... ,т ^(х) = хт/2п, где х £ [0, 2п/т]. Очевидно, указанный способ задания support-множества6 мало обозрим.

1.1. ИГРЫ РАЗМЕЩЕНИЯ РЕСУРСОВ

Из теоремы Каратеодори [7] следует, что существует оптимальное решение в смешанных стратегиях для задач того класса, к которым принадлежит игра полковника Блотто, с числом чистых стратегий не больше (п+1)т+1. Таким образом, например,

4 При п = т существует оптимальное решение в чистых стратегиях, а именно (1,1,. . . , 1). Однако уже при п > 2т решений в чистых стратегиях нет.

5 В [12] использована теория копул для нахождения смешанного равновесия игры при общих условиях на ресурсы игроков.

6 В теории игр support-множествами принято называть множества стратегий с ненулевой вероятностью для ситуаций равновесия в смешанных стратегиях.

для задачи полковника Блотто (120, 6)7 существует оптимальное решение, которое содержит не более 727 чистых стратегий.

Хотя результат К. Каратеодори известен уже 105 лет, до недавних пор, насколько нам известно, даже не предпринималось попыток представить оптимальное решение матричной антагонистической игры с постоянной суммой, в котором число стратегий было близким к оценке, установленной теоремой Каратеодори.

Только недавно в [6] предложен метод декомпозиций для линейных минимизационных оракулов, который позволяет находить е-оптимальные решения широкого класса матричных задач с так называемыми «хорошо организованными»8 матрицами. В частности, требуемой структурой обладает платежная матрица игры, названной в [6] attacker vs defender и являющейся по существу расширением матричной игры полковника Блотто (полям, в которых распределяются целые значения ресурсов, могут быть приписаны различные веса). Хотя платежная матрица таких игр даже при небольших значениях п и т содержит сотни миллионов столбцов и строк, предложенный метод гарантирует нахождение е-оптимального решения за полиномиальное время по п и т. Следует отметить, что алгоритм позволяет находить решение с полиномиальными оценками по п, т и 1/е или по п, т, log 1 /е, в зависимости от применяемого варианта алгоритма [6].

Например, программная реализация этого метода позволяет находить е-оптимальное решение (при е ^ 0,02) для игры Блотто (120, 6)) примерно за 20 минут машинного времени на среднем по производительности ноутбуке, причем количество стратегий в support-множествах в разы меньше верхней границы, установленной теоремой Каратеодори. При увеличении числа полей предлагаемый метод остается вполне доступным, хотя требуемое время

7Здесь и далее в тексте используется обозначение (п,т), где п -суммарное количество ресурсов, которое игрокам необходимо разместить по m участкам.

8 В [6] хорошо организованной называется такая К х L матрица В, что при любом х е Мк можно легко найти максимальное и минимальное значение скалярного произведения столбцов матрицы В[х].

решения может увеличиваться в разы.

Возможность численного анализа е-оптимальных решений, состоящих не более чем из нескольких сотен чистых стратегий, позволяет понять некоторые особенности структуры стратегий, входящих в support-множества класса дискретных игр полковника Блотто и полковника Лотто. А использование в виде эталона тех смешанных стратегий, которые предоставляет метод [6], позволяет оценить качество субоптимальных решений, полученных случайным выбором из подмножества разбиений с заранее выбранными параметрами уравновешенности и собственного ресурса [1]. Таким образом, центр тяжести решения задачи нахождения цены антагонистической матричной игры с постоянной суммой в смешанных стратегиях для класса игр полковника Блотто и полковника Лотто может быть перенесен на поиск таких свойств разбиений, которые позволяют эффективно отобрать относительно малое число стратегий для включения в support-множества. (Под «эффективностью» здесь следует понимать нахождение цены игры с точностью порядка процента.)

1.2. ИГРА ЛОТТО И ИГРА РАЗБИЕНИЙ

Большинство теоретических и экспериментальных исследования игр размещения ресурсов относятся к играм композиций (играм полковника Блотто). И хотя при фиксированных значениях п и т число композиций (а значит, и размерность платежной матрицы) примерно в т! раз больше, чем число разбиений, анализ структуры оптимальных решений в смешанных стратегиях достаточно прост, хотя и не претендует на конструктивность.

В [9] было введено понятие игры Лотто. В игре полковника Лотто т полей, на которых игроки распределяют ресурсы, для них неразличимые. Если в игре полковника Блотто В(п,т) платежная функция Нв) для игроков а = (а\,... ,ат) и Р = (Ъ\,..., Ът) вводится как

то платежная функция Н^(а, @) для игры Лотто Ь(п, т) вводится

т

(1)

в [9] как

т т

(2) HL(a, р) = 1/т2^ Y, sign(a^ - Ьз)•

г=1¿=1

Платежную функцию Нр (а, [3) игры разбиений Р(п,т) можно ввести как

где ©(a) - множество всех перестановок а вида 0 = (с\, • • •, ст).

В [9] показано, что игры полковника Блотто В (п, т) и полковника Лотто L(n, т) имеют одну и ту же цену, когда все перестановки берутся с равными вероятностями. Это замечание остается справедливым и при определении цены игры разбиений (3).

Для игры разбиений точный ответ на вопрос «какая из пары заданных стратегий выигрывает» требует вычислительных ресурсов, экспоненциально растущих с ростом числа полей. Потому можно было ожидать, что общее решение игры разбиений окажется более сложным, нежели игры композиций. Например, в диапазоне (п, т)-разбиений от (4, 2) до (64, 8) существует алгоритм сложностью не более const ■ т2, который позволяет определить победителя с погрешностью, не превосходящей 0,02.

Практический интерес к изучению игры Лотто связан с тем, что антагонистическая игра, результат которой не должен зависеть от перестановок по полям выбранного мно-

жества ресурсов, - случай столь же распространенный, как и ситуации с фиксированной нумерацией полей (игра полковника Блотто). В качестве примеров можно указать работы, в которых изучается проведение турниров [10] или аукционов (особенно в случаях приобретения набора предметов).

В то время как все известные нам методы решения общих случаев игр полковника Блотто и полковника Лотто носят характер доказательства «теорем существования», метод [6] примени-

(3)

тельно к игре полковника Блотто (точнее её расширенному варианту «attacker vs defender») позволяет получать приемлемые по затратам трудоемкости и точности численные решения - support-множества из небольшого числа чистых стратегий, которые обеспечивают точность нахождения цены игры в пределах 0,02. (Численно проверено для игр с параметрами т ^ 10, п ^ 120, для которых мощность support-множеств оказалась в разы ниже границы Каратеодори).

Однако метод [6], впрочем, как и любые другие вычислительные методы оптимизации, не позволяет априори выяснить, какие из чистых стратегий войдут в искомое support-множество. Целью настоящей работы является формулировка способа нахождения «достаточно хорошего» support-множества (близкого по параметрам к е-оптимальному решению [6]), без решения соответствующей оптимизационной проблемы.

Дальнейшее изложение построено следующим образом. В разделе 2 рассмотрены численные результаты, полученные при синтезе е-оптимальных решений игр полковника Блотто Б(120, 6) и В(100,10) методом [6]. В разделе 3 продемонстрированы результаты синтеза support-множеств для различных игр разбиений, полученные при выборе чистых стратегий из определенного класса разбиений. В заключении обсуждаются возможности предлагаемых субоптимальных методов и способы уточнения полученных результатов.

2. Анализ -оптимальных решений

Существовавшие до сих пор теоретические методы нахождения оптимальных решений игр типа игры полковника Блотто и полковника Лотто фактически не уделяли внимания конкретной структуре стратегий, входящих в support-множества. Оставались также неисследованными вопросы, относящиеся к зависимости «эффективности» чистых стратегий в игре разбиений от величины отношения п/т (за исключением асимптотических оценок в [13], которые вообще говоря никак не связаны с игровыми постановками).

Экспериментальные исследования (например, [3]) вообще не претендовали на исследование оптимальных решений, а лишь анализировали эвристические приемы «стратегических рассуждений», которые, по предположению, позволяли выбирать «конкурентоспособные» стратегии. Вопрос о том, насколько объективно хороши результаты подобных «стратегических рассуждений» оставался открытым.

В экспериментальной части нашей работы исследовалось четыре класса игр разбиений: (36, 6), (49, 7), (120, 6) и (100,10). Во всех классах п = т2. Далее, чтобы не загромождать изложение, приведены результаты только для классов (120, 6) и (100, 10).

Вначале для игры attacker vs defender были получены е-оптимальные решения в смешанных стратегиях. Количество чистых стратегий в support-множествах таких решений не превосходило 230, а гарантированная погрешность цены игры составляла около 2%. (В приложении 5.2 приведены первые десять смешанных стратегий для обоих игроков в порядке убывания их вероятностей в support-множестве для игр 5(120, 6) и 5(100,10).)

Представив все чистые стратегии е-оптимальных решений в виде разбиений, упорядоченных по убыванию, можно заметить, что ресурс, размещенный в первой половине разбиения, часто втрое больше ресурса второй половины. Естественно попытаться выяснить, является ли неравномерность размещения ресурсов в е-оптимальных support-множествах фактором, способствующим попаданию разбиения в е-оптимальное решение.

Пусть множество Фга,т содержит некоторое число (п,т)-разбиений вида а = (а1,..., ат), где aj ^ flj+i, j = 1,... ,т — 1 (везде далее т - четное).

Для любого разбиения а £ Фга,т вычислим значение функции Q(a):

(4) в(а) = *<">— =2ЁМ — 1,

п п

где Si(a) = Е™ 1 а?, S2(a) = Е™ m/2+i аз.

Для любого разбиения а £ Фга,т справедливы границы

(5) 0 < Q(a) 1, 12

где ф(а) =0 для разбиения а = (^, ^,..., ^) и ф(а) = 1 для разбиения (п, 0,..., 0).

При достаточно больших значениях параметров п и т для значений а,-, % = 1,... , ш, справедливо % п/т 1п(т/г) [13]. Пусть - множество (п, т)-разбиений, для которых спра-

ведлива эта оценка. Тогда для любого а € Ф

*

п,т

т/2 т/2 т

п, т*ч ът^ п 1 п ™ 1 тт т т2

(6) €= £™1п™ = ™ 1пП т = ^ 1пщ.

г=1 г=1 2

Используя приближение Стирлинга, из (6) получаем

(7) 5\(а € Ф*п>т) % ^(д1п2е - 11ппт^ =

п., 1п жт, = -(1п2 + 1--).

2К т

Из (4) и (7) следует

(8) Я(а € Ф*п,т) % 1п 2 -

Таким образом, при достаточно больших значениях п и т доля ресурсов, приходящихся на первую половину почти всех (п, т)-разбиений, близка к 1п 2.

На рис. 1 показано распределение величины ^(а € ^оодо), где П100)10 - это множество всех (100,10)-разбиений. Легко заметить, что максимум распределения приходится на величину, близкую к 1п2 % 0,693.

Как и следовало ожидать, при относительно небольших значениях п и т максимум распределения близок к 1п 2. В таблице 1 приведены значения этого максимума для различных величин отношения т2/п.

В таблице 1 последний столбец - свидетельство того, что в изученных случаях при п = т2 отклонение максимума распределения от 1п2 близко к нулю, но заметно увеличивается, если

22 п < т2, т.е. случай п = т2 дает оценку, практически совпадающую с асимптотической.

Отметим еще одну особенность, присущую всем разбиениям, входящим во множество рассмотренных в экспериментах

•105

о °

X Н

о 2 Ü 2

Я

£1

0.2 0.4 0.6

Q(a е Qioo,io)

0.8

Рис. 1. Число (100,10)-разбиений в зависимости от величины

Q(a е Qioo,io)

0

0

1

е-оптимальных решений. Она состоит в том, что среднее значение собственного ресурса (см. [1]) этих стратегий близко к максимальному, т.е. чаще всего в этих стратегиях мало повторяющихся значений (разбиение вполне упорядочено).

Таблица 1. Значение максимума распределения Q(a € ^юодо)

в зависимости от п, т

п гп т2 /п М[Q(a е oioo,iq)] |М - ln 2|

90 16 2,8 0,764 0,071

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

100 10 1 0,691 0,002

120 6 0,3 0,632 0,061

120 20 3,3 0,780 0,087

144 12 1 0,698 0,005

Пусть PRn,m С - множество вполне упорядоченных по убыванию разбиений, т.е. всех тех разбиений а = (а1,..., ат), для которых значение собственного ресурса максимально, причем п/т - целое, п, т - четные и ат > 0. Справедливо9

Утверждение 1. Для всех а е PRn,m выполняются следующие условия:

1) max Е™/2 аг < п - (f + 1)(f);

2) min Е™/2 ai ^ § + т(т - 2)/8.

9Доказательство утверждения приведено в приложении 5.1.

Пример 1. Для множества разбиений (120,6) единственными разбиениями с минимальным значением второй половины будет (39,38,37,3,2,1) и с максимальным -(23, 22, 21,19,18,17).

Таким образом, для разбиений из класса PRn,m величину функционала Q(PRn,m) можно оценить как

(9) ^ i Q(PRn,m) i 1 - f2 - f.

n An 2n

В случае когда п = т2, из (9) получаем

(10) 1/8 i Q(PRn,m) i 2/3,

т.е. диапазон возможных значений функционала Q(PRn,m) становится существенно меньше, чем в общем случае (5).

3. Синтез субоптимальных решений для игр разбиений: результаты экспериментов

Основной прием, использованный в экспериментальной части работы, состоял в следующем: вначале для заданного класса разбиений вычислялось е-оптимальных решение задачи attacker vs defender. Затем рассматривалось «синтетическое» решение -набор чистых стратегий, выбранных из всего множества допустимых стратегий по определенным правилам. Проверка качества такого решения состояла в вычислении результатов игры этих двух наборов стратегий. Близость к нулю цены игры предполагалась свидетельством в пользу «близости» е-оптимального и «синтетического» решений.

Назовем е-оптимальное решение игроком А и «синтетическое» - игроком С. Эксперимент (игра между А и С) состоял из следующих шагов.

1. Зададим одни и те же параметры п, т для А и С и обозначим через Na, Nc числа чистых стратегий А и С соответственно.

2. Из е-оптимального support-множества Еп,т, упорядоченного по вероятностям, для игрока А выбираем первые Na чистых стратегий.

3. Для игрока С выберем из множества разбиений c максимальным значением собственного ресурса PRn,m случайно и

15

равномерно подмножество мощности Ыс с некоторым значением уравновешенности рЬ.

4. Для игроков, полученных на шаге 2 и 3, находим значение цены, решая матричную подигру на этих стратегиях с помощью программы выпуклой оптимизации с использованием библиотеки СУХРУ [5].

5. Повторяем эксперимент I раз и вычисляем среднее значение цены игры.

Поскольку уже было обосновано решение выбирать чистые стратегии только среди разбиений с максимальным значением собственного ресурса РКп,т, в экспериментах, помимо числа итераций I, остается только три свободных параметра: N, М и рЬ. Эти значения выбирались в процессе компьютерного моделирования. Так, например, были получены наиболее эффективные значения уравновешенности рЬ в диапазоне [—0,85; 0] для множества разбиений (120, 6) и рЬ в диапазоне [—1,55; 0] для множества разбиений (100,10). В качестве примера на рис. 2 показаны результаты цены игры А и С для случая разбиений п = 100, т = 10 и п = 120, т = 6 в зависимости от числа стратегий (все результаты получены при значениях I = 200).

Число стратегий Ид в зиррой-множестве для (120, 6) было равно 100 (суммарная вероятность 0,8 для одного игрока и 0,76 для другого) и 200 (суммарная вероятность 0,99976 для одного и 0,99971 для другого) и в зирроЛ-множестве для (100, 10) - 100 (суммарная вероятность 0,849) и 194 (суммарная вероятность 1).

Таблица 2. Зависимость цены игры при различных значениях числа стратегий из е-оптимального решения А и синтетического решения С

(120,6) (100,10)

ЫА = 100 ЫА = 200 ЫА = 100 ЫА = 194

100 0,032 0,053 0,020 0,080

200 0,000 0,006 0,019 0,030

300 -0,003 - 0,012 0,000 0,011

400 -0,028 0,023 -0,001 0,004

Результаты проведенных экспериментов позволяют сделать следующий вывод.

При N<3/ЫА ^ 2 цена игры А против С находится в диапазоне [-0,03; 0,03], т.е. качество решения, которое обеспечивает «синтетический» игрок С в этих экспериментах, практически совпадает с качеством е-оптимального решения.

Тем не менее утверждать, что игрок С «равносилен» игроку А, только на основании того, что они - предположим, даже в любом эксперименте - играют между собой вничью, было бы преждевременно. Можно допустить, что при встречах с другими игроками С и А будут показывать различные результаты. Поэтому был проведен цикл экспериментов, в которых эти два игрока («е-оптимальный» и «синтетический») - с фиксированными параметрами уравновешенности и собственной силы - играют по очереди с произвольным игроком Т (тестовым).

Пусть игрок Т - это множество чистых стратегий Т С Пп,т, которые случайно выбираются из Пп,т с определенными значениями собственного ресурса и уравновешенности. В проведенных экспериментах рассматривались четыре тестовых игрока:

^200, T400, т100 и т200 (см. таблицу 3).

Таблица 3. Параметры тестовых игроков Т

Тестовый игрок Число стратегий Собственный ресурс Уравновешенность

Т1 1 200 Т400 200 400 Максимальный Максимальный [-0,85; 0] [-0,85; о]

грИ 1 100 п-,11 1 200 100 200 [Макс./2, Макс.] [Макс./2, Макс.] [-0,85; 0] [-0,85; о]

В таблице 4 показаны значения цены игры для параметров п = 120, т = 6 игроков А и С с различными тестовыми игроками Т (значение цены усреднялось по 200 экспериментам).

Полученные результаты позволяют сделать следующий вывод.

Наилучшие результаты синтетический игрок С показывает при числе стратегий, вдвое превышающих число стратегий е-оптимального решения. В этом случае среднее значение абсолютной разницы в ценах игры этих игроков не превосходит 0,03, а средняя разница по всем экспериментам составляет 0,00518.

Таблица 4. Усредненные результаты игры «е-оптимального» игрока А и «синтетического» игрока С с тестовыми

игроками Т

т Число стратегий Цена игры

А С А против Т С против Т Разница

100 0,020 0,052 0,030

100 200 0,059 0,054 0,005

^200 400 0,084 0,047 0,027

100 0,015 0,070 -0,058

200 200 0,059 0,054 0,005

400 0,057 0,076 -0,018

100 -0,034 0,009 -0,040

100 200 0,009 0,003 0,006

^400 400 0,033 0,002 0,030

100 -0,028 0,026 -0,055

200 200 0,009 0,029 -0,020

400 0,034 0,031 0,003

100 100 0,342 0,262 -0,080

грИ ^100 200 0,336 0,318 -0,018

200 200 0,410 0,325 -0,080

400 0,362 0,364 0,002

100 100 0,188 0,139 -0,048

200 0,177 0,176 -0,001

грИ ^ 200 200 200 0,228 0,182 -0,046

400 0,212 0,215 0,002

4. Заключение

Практическое использование моделей антагонистических матричных игр трудно осуществимо без наличия относительно простых методов получения решений в смешанных стратегиях небольшой мощности, пусть и за счет (заранее известной) потери в точности результата. Поэтому методы, предложенные в [6], представляются серьезным продвижением в этом направлении. В данной работе мы попытались сделать следующий шаг в направлении разработки простых субоптимальных методов решения антагонистических матричных игр. Несомненно, предлагаемый метод требует не только экспериментального подтверждения, но и теоретических доказательств его эффективности, что и является нашей ближайшей целью.

Безусловный интерес вызывает также получение приближенных оценок цены игры в случаях несимметричных ресурсов противников и сравнение этих результатов с известными.

Одна из интересных на наш взгляд возможностей применения рассмотренного метода - экспериментальное изучение игр размещения ресурсов в рамках поведенческой теории игр [3, 10]. Объяснение принципов принятия «стратегических решений» на основе психологических теорий типа «глубины рассуждений» [3] позволяет в основном отделить совсем тривиальные рассуждения лиц, принимающих решения, от чуть более сложных. Но когда дело доходит до поиска нетривиальных особенностей изучаемого объекта, оценка «глубины рассуждений» оказывается мало информативной. Необходимо оценивать качественные различия в содержании рассуждений.

Заметим, что участникам было бы логично рассматривать турнир игры полковника Блотто [3] именно как турнир разбиений, поскольку при большом числе участников, о возможных стратегиях которых нет никакой информации, естественно пытаться найти «сильное» решение для случая ненумерованных полей. Участник, пришедший к подобному выводу, сделал бы главный шаг к победе в турнире. Для этого ему было достаточно в

любом варианте, предложенном десятью победителями, исключить повторяющиеся значения полей с большими значениями ресурсов 10. Например, вместо (32, 32, 31) (первое место в турнире) играть (33, 32, 30) и уверенно выиграть у всех разбиений первой десятки. К сожалению, такого рода наблюдения - если испытуемые не обладают некоторыми (врожденными или благоприобретенными) способностями - требуют специального обучения (желательно с поощрением), что исключено в условиях one-shot игры. Представляется важным и интересным понять, можно ли обучить людей принятию нетривиальных решений и, если «да», то как.

Методы, рассмотренные в работе, могут быть, в частности, использованы в таких исследованиях, как [11], когда необходимо вычисление равновесных решений в игре полковника Блотто, поскольку их использование могло бы помочь изучить случаи гораздо большей размерности.

5. Приложение

5.1. ДОКАЗАТЕЛЬСТВО УТВЕРЖДЕНИЯ 1

1. Оценим величину второй половины разбиения. Очевидно, вторая половина разбиения минимальна, когда является убывающей последовательностью натуральных чисел (тг, -у — 1,..., 1). Отсюда несложно установить, что ma^i=1 ai = п— 1 4——.

2. Для того чтобы оценить снизу величину первой половины разбиения, достаточно рассмотреть такие разбиения, в первой половине которых значение каждой части а^ = ^ + — г (г = 1, 2,..., тг), т.е. минимально увеличивать каждую часть первой половины по сравнению с равномерным разбиением. В этом случае Е™/2 а, = £ ■ f+£l=/lV 1) = f + W2)W2-1) .Отсюда

Em/2 ^ n i m(m—2) i=1 ^ f +--g- .

10 Это замечание следует из того простого обстоятельства, что в игре разбиений любое подмножество полей, например, а,\, а2, а3, выигрывает у подмножества полей Ь\, Ъ2, Ь3 с таким же суммарным ресурсом, если ai = + 1, а2 = b2, а3 = b3 — 1.

Системный анализ 5.2. е-ОПТИМАЛЬНЫЕ РЕШЕНИЯ ИГРЫ БЛОТТО

Таблица 5. Игра Блотто В(120, 6), А против Б

# А, 227 стратегий Д, 229 стратегий

Вероятн. Разбиение Вероятн. Разбиение

1 0,0182 (22, 0, 39, 21, 29, 9) 0,0167 (2, 27, 20, 3, 39, 29)

2 0,0171 (9, 37, 20, 34, 7,13) 0,0165 (30, 28, 34, 7,11,10)

3 0,0170 (5,40, 25,40, 5, 5) 0,0165 (13, 8, 23, 28, 15, 33)

4 0,0149 (36, 30, 7,4,18, 25) 0,0153 (23, 15, 17, 15, 24, 26)

5 0,0135 (37,17, 32, 28, 3, 3) 0,0138 (14,10, 39, 39,13, 5)

6 0,0131 (14,16, 6,16, 37, 31) 0,0131 (5, 3, 24, 35, 21, 32)

7 0,0129 (25, 29, 5, 20,19, 22) 0,0128 (6, 21,40, 37, 3,13)

8 0,0126 (13,19, 39,14,15, 20) 0,0127 (8, 5,14,40, 34,19)

9 0,0126 (40,10, 8, 5, 39,18) 0,0124 (34, 32, 5, 6,40, 3)

10 0,0117 (17, 5, 16, 36, 40, 6) 0,0119 (35,10, 25,17,12, 21)

Гарантированный результат

-0,02587182 0,02040023

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 6. Игра Блотто В(100,10), А против Б

А, 185 стратегий

Д, 182 стратегий

| Вероятн.

Разбиение

| Вероятн.

Разбиение

1

2

3

4

5

6

7

8

9

10

0,0222 (5, 4, 12, 2, 15, 8, 15, 13, 11, 15) 0,0173 (3, 8, 8, 20, 10, 9, 9, 17, 4, 12)

0,0168 (16, 19, 14, 0, 14, 13, 3, 2, 0, 19)

0,0160 (0, 10, 19, 1, 1, 20, 10, 18, 1, 20)

0,0159 (20, 13, 7, 3, 2, 2, 13, 4, 18, 18)

0,0156 (15, 19, 11, 15, 13, 3, 7, 0, 15, 2) 0,0150 (1, 20, 2, 8, 12, 18, 8, 8, 8, 15) 0,0149 (9, 8, 3, 6, 13, 17, 19, 14, 5, б)

0,0148 (7, 20, 7, 11, 5, 7, 0, 15, 11, 17)

0,0148 (9, 15, 5, 5, 20, 19, 11, 10, 3, 3)

0,0232 (8, 18, 20, 15, 7, 4, 9, 15, 1, 3)

0,0211 (9 , 2, 15, 18 , 20 , 8 , 2 , 9, 13, 4)

0,0184 (7, 14, 18, 14, 3, 1, 12, 14, 10, 7)

0,0180 (17, 4, 4, 17, 10, 15, 6, 10, 15, 2)

0,0173 (15, 11, 3, 20, 10, 9, 4, 8, 7, 13)

0,0167 (1, 13, 7, 4, 17, 20, 8, 13, 12, 5)

0,0148 (3, 8, 16, 0, 20, 0, 18, 12, 8, 15)

0,0145 (10, 11, 17, 19, 0, 13, 18, 4, 0, 8)

0,0141 (13, 9, 6, 9, 11, 14, 17, 0, 2, 19)

0,0135 (19, 7, 17, 9, 18, 7, 0, 9, 3, 11)

Гарантированный результат

I

#

Благодарности

Авторы признательны рецензентам за чрезвычайно полезные замечания и комментарии.

Литература

1. БОЧАРОВ П.С., ГОРЯШКО А.П. О способах анализа игр разбиений // Управление большими системами. - 2016. -№61. - С. 6-40.

2. КНУТ Д.Э. Искусство программирования, том 4, А. Комбинаторные алгоритмы, часть 1: Пер. с англ. - М.: ООО «И.Д. Вильямс», 2013.

3. ARAD A., RUBINSTEIN A. Multi-dimensional iterative reasoning in action: The case of the Colonel Blotto game // J. of Economic Behavior & Organization. - 2012. - No. 84. -P. 571-585.

4. BOREL E. La theorie du jeu et les equations integralesa noyau symetrique // Comptes Rendus de l'Academie. - 1921. -No. 173. - P. 1304-1308. English: Transl. by L.J. Savage The theory of play and integral equations with skew symmetric kernels // Econometrica. - 1953. - No. 21. - P. 97-100.

5. DIAMOND S., BOYD S. CVXPY: A Python-Embedded Modeling Language for Convex Optimization // J. of Machine Learning Research. - 2016. - Vol. 17(83). - P. 1-5.

6. COX B., JUDITSKY A., NEMIROVSKI A. Decomposition Techniques for Bilinear Saddle Point Problems and Variational Inequalities with Affine Monotone Operators // J. of Optimization Theory and Applications. - 2015. - P. 1-34.

7. ECKHOFF J. Helly, Radon, and Caratheodory type theorems // Handbook of convex geometry. - 1993. - P. 389-448.

8. GROSS O., WAGNER R. A Continuous Colonel Blotto Game // RAND Corporation. - 1950.

9. HART S. Discrete Colonel Blotto and General Lotto Games // International J. of Game Theory. - 2008. - No. 36. - P. 441-460.

10. MOLDOVANU B., SELA A. Contest Architecture // J. of Economic Theory. - 2006. - No. 126(1). - P. 70-96.

11. MONTERO M., POSSAJENNIKOV A., SEFTON M., TUROCY T. Majoritarian Contests with Asymmetric Battlefields: An Experiment // Centre for decision Research & Experimental Economics Discussion. - Paper No. 2013-12.

12. ROBERSON B. The Colonel Blotto Game // Econ. Theory. -2006. - No. 29. - P. 1-24.

13. VERSHIK A.M., YAKUBOVICH Y. The Limit Shape and Fluctuations of Random Partitions of Naturals with Fixed Number of Summands // Mosc. Math. - 2001. - Vol. 1(3) -P. 457-468.

SUBOPTIMAL SOLUTIONS OF ANTAGONISTIC PARTITION GAMES

Pavel Bocharov, Wheely, Moscow, CTO ([email protected]). Alexander Goryashko, Moscow Technological Institute, Moscow, Doctor of Science, professor ([email protected]).

Abstract: The paper examines (n, m)-partition games in order to develop tractable method of suboptimal decision of the resource allocation games such as colonel Blotto game or colonel Lotto game. The main goal is to develop tractable method for building suboptimal solution in mixed strategies for these games without solving the relevant optimization problem. The foundation of proposed method lies in the specific combinatorial properties of the (n, m)-partition games. It turned out that if for all game strategies the values of the balance and peculiar resource have the values from specific range it could be sufficient to get of suboptimal decisions of the games mentioned above. The proposed methods are based on both the analytical and numerical results, analytical partitions properties and numerical simulation results. The numerical simulation for the partition games (120,6) and (100,10) demonstrated that one could design of the e-optimal decision where e ^ 0.02. The support set of these decisions contain no more two hundred pure strategies and decisions complexity equals const ■ m2 for considered games. Results of the numerical simulation provide reasons to suppose that our approach is quite competitive with e-optimal solution. The simplicity of our suboptimal solution method could be advantage in the behavioral game theory.

Keywords: integer partition, composition on integer, game theory, Blotto games, Lotto games, e-optimal solution, value of game, peculiar resource, partition balance.

Статья представлена к публикации членом редакционной коллегии Д.А. Новиковым.

Поступила в редакцию 27.02.2017.

Дата опубликования 30.11.2017.

i Надоели баннеры? Вы всегда можете отключить рекламу.