О СТРАТЕГИЧЕСКОЙ РЕФЛЕКСИИ В БИМАТРИЧНЫХ ИГРАХ
Губанов Д. А., Чхартишвили А. Г.
(Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН, Москва) dimagubanov@mail .гц, 8аМго_сЬ@таИ .гц
Исследуется стратегическая рефлексия агентов - участников биматричной игры. Показывается, что одним из способов выбора действия агентом является предварительный выбор ранга стратегической рефлексии. При этом множество возможных исходов может не совпадать с множеством равновесий Нэша исходной игры.
Ключевые слова: теория игр, рациональность, стратегическая рефлексия, ранг рефлексии.
Введение
Теория игр представляет собой математическую теорию конфликтных ситуаций, т.е. ситуаций, в которых сталкиваются различные интересы участников этих ситуаций [1, 5]. Цель теоретико-игровых исследований двояка: с одной стороны -описание существующих (наблюдаемых) феноменов, с другой -выработка рекомендаций по разумному поведению участников конфликта.
В данной работе мы будем основываться на обычной теоретико-игровой модели (игра в нормальной форме) взаимодействия между п0 субъектами (будем называть их агентами). /-й агент осуществляет выбор действия х/ е Х/, I е N = {1, ..., п0}. В результате одновременного и независимого выбора действия
агентами i-й агент получает выигрыш, описываемый действительнозначной целевой функцией f (Xj,...,x ), i e N.
Для выбора действия в описанной ситуации каждый агент должен, так или иначе, смоделировать действия других агентов, чтобы самому выбрать действие, максимизирующее целевую функцию (предположение о том, что агент, выбирая свое действие, пытается максимизировать целевую функцию с учетом всей имеющейся у него информации, называется гипотезой рационального поведения [1]). Это моделирование агентом хода мысли других агентов называется рефлексией.
При этом весьма существенную роль играет информированность агентов, под которой понимается совокупность той информации, которой обладает агент на момент принятия решения. Наиболее простым является предположение о том, что каждому агенту известен состав N участников игры, целевые функции {fi}, множества {X}, а также известно, что это известно остальным агентам, и им известно также о его информированности и т. д. В таких случаях говорят, что упомянутые составляющие игры являются общим знанием (common knowledge - см., например, [2, 4, 5]). Можно сказать так: все агенты знают, в какую игру они играют, т. е. условия игры (правила, возможности и интересы участников) являются общим знанием.
В данной работе мы предполагаем, что игра является общим знанием. Отказ от этого предположения порождает необходимость учета информационной рефлексии и возможность формирования различных структур информированности (см. [2, 4]). Однако мы ограничимся стратегической рефлексией (см. далее) и исследуем некоторые ее аспекты применительно к биматричным играм, т.е. играм с двумя участниками и конечным числом действий у каждого из них.
1. Стратегическая рефлексия агентов
Одним из основных вопросов теории игр является моделирование того, какие действия1 изберут агенты (или иначе -какие действия им надо избрать) в той или иной ситуации. «Устойчивый» в том или ином смысле набор действий агентов обычно называется решением игры, что подчеркивает важность данного аспекта.
Поскольку выигрыш (значение целевой функции) агента зависит от действий других агентов, постольку выбор агента в большой степени зависит от того, как он учитывает (или не учитывает) возможные рассуждения оппонентов о выборе ими своего действия, т.е. как он осуществляет стратегическую рефлексию. Агент может, например, при принятии решения вообще не учитывать действия оппонентов, основываясь лишь на своей целевой функции (нулевой ранг стратегической рефлексии). Если так действуют все агенты, то мы получаем концепцию максимального гарантированного результата решения игры - каждый агент максимизирует свой наихудший результат при всевозможных действиях оппонентов.
Если агент считает, что оппоненты обладают нулевым рангом, то сам он обладает первым рангом стратегической рефлексии. При этом он выбирает свое наилучшее (т.е. максимизирующее целевую функцию) действие, ожидая от оппонентов выбора гарантирующих действий.
Если агент считает, что оппоненты выбрали первый ранг стратегической рефлексии, то сам он обладает вторым рангом и т.д. Таким образом, обладая ^м рангом, агент считает, что оппоненты обладают ^ - 1)-м ([3]).
1 Еще раз отметим, что мы рассматриваем игры в нормальной форме, т.е. агенты выбирают действия однократно, одновременно и независимо друг от друга. В более сложных случаях (например, в многошаговых играх) следует различать действие агента и его стратегию.
В некотором смысле бесконечному рангу стратегической рефлексии соответствует наиболее распространенная на сегодняшний день концепция решения игры - равновесие Нэша. Равновесие Нэша - это ситуация, в которой каждый агент выбирает наилучшее для себя действие при фиксированных действиях остальных (или, иначе говоря, ситуация, в которой никто не может увеличить свой выигрыш, выбрав в одностороннем порядке другое действие). Более строго: вектор действий
(г/ , ..., х*) называется равновесным по Нэшу, если для любого I е N справедливо соотношение
х* е тах /■(х*,..., ^, хг, х*+1..., х*0).
ХгеХг 0
Ясно, что, выбирая любой ненулевой конечный ранг рефлексии, агент считает себя рефлексирующим иначе, чем оппоненты. Выбирая равновесие Нэша, агент считает всех участников игры рефлексирующими одинаковым образом.
Далее в настоящей работе равновесие Нэша будем для краткости называть равновесием.
2. Игра рангов
Рассмотрим игру двух участников, число действий каждого из которых конечно. Как известно, такие игры называются биматричными, и целевые функции первого и второго агентов в них обычно задаются матрицами А = (агу) и В = (6у), вместе составляющими «биматрицу» игры (А, В) =(Оу, 6у).
Обозначим I = {1, 2, .., т} - множество действий первого агента, J = {1, 2, ..., п} - множество действий второго агента. Введем следующие предположения. Пусть матрицы выигрышей таковы, что у каждого агента существует единственный наилучший ответ на любое действие оппонента:
(*) " 7 є 3 тах а7 = 1, V І є І Л^ тах Ьц = 1
ІЄІ 7є3
(здесь и далее через |М | обозначается количество элементов множества М).
Пусть, кроме того, максимальный гарантированный результат каждого агента достигается ровно на одном действии:
(ПП)
Arg max min a.
ієЛ j(=-J 1
Arg max min b.
є гєє 1
= 1.
Условия (*) и (**), обеспечивающие однозначное соответствие между рангом рефлексии агента и его действием, далее будем считать выполненными.
Как было сказано выше, каждый агент может выбрать конечный ранг свой рефлексии. Это приводит к выбору соответствующего действия: обладая нулевым рангом, первый агент выбирает гарантирующую стратегию - действие i0 = argmaxmin a..,
iel jeJ j
а обладая рангом к > 1 - действие 4 = argmax a i
IEI к 1
Аналогично для действий второго агента: j0 = argmaxminbjj - при нулевом ранге;
j&J iel j
jk = arg max bt . - при ранге к > 1.
jeJ k-1 j
Справедливо следующее утверждение.
Утверждение 1 [2]. В биматричных играх неограниченное увеличение ранга рефлексии заведомо нецелесообразно, т.е. существует ранг рефлексии, превышение которого не приводит к новым действиям агентов. Максимальный целесообразный ранг рефлексии не превышает max {min {n, m + 1}, min {m, n + 1}}.
Из утверждения 1 следует, что множество допустимых действий по выбору ранга конечно. Поэтому мы можем перейти из исходной игры к игре рангов стратегической рефлексии, в которой стратегией агента является выбор ранга стратегической рефлексии (см. табл. 1).
Таблица 1. Ранги рефлексии и действия агентов
Ранг к 0 1 Я
Действие первого агента І0 І1 ія
Действие второго агента Іо І1 1я
Верхняя оценка количества возможных попарно-различных пар стратегий составляет \1\х[Г\=тхп. Тогда исходную бимат-ричную игру можно преобразовать в биматричную игру ЯхЯ.
Ясно, что некоторые строки и столбцы этой новой матрицы могут совпадать (это означает, что выбор агентами разных рангов приводит к одному и тому же действию в исходной игре). Отождествив совпадающие строки и столбцы, мы получаем матрицу новой игры, которую будем называть игрой выбора ранга стратегической рефлексии, или для краткости игрой рангов.
В силу того, что гк е I, ]к е 3, все действия агентов в игре рангов соответствуют действиям в исходной игре. Следовательно, справедливым является следующее утверждение.
Утверждение 2. Матрица выигрышей в игре рангов является подматрицей матрицы исходной биматричной игры.
Утверждение 2 наводит на мысль о том, что при переходе к игре рангов равновесия могут исчезать (т.е. отсутствовать в матрице игры рангов). Действительно, приведем пример биматричной игры (пример 1):
'(2, 3) (0, 0) (3, 2)^
(0,0) (4,4) (0,1) .
ч (3,2) (1,0) (2,3),
Чтобы построить матрицу игры рангов, проанализируем выбор агентов при том или ином ранге рефлексии - см. табл. 2.
Математическая теория управления Таблица 2. Ранги рефлексии и действия агентов в примере 1
Ранг к 0 1 2 3 4
Действие первого агента 3 1 1 3 3
Действие второго агента 3 3 1 1 3
Таким образом, матрица игры рангов выглядит следующим образом:
((2, 3) (3, 2)^
V(3,2) (2,3), .
Нетрудно видеть, что равновесная пара выигрышей исходной игры (4, 4) исчезла при переходе к игре рангов.
Возникает вопрос: могут ли при переходе к игре рангов появляться новые равновесия (которых не было в исходной игре)? Оказывается, что это невозможно.
Утверждение 3. Для произвольной биматричной игры переход к игре рангов не приводит к появлению новых равновесий.
Доказательство. Пусть, как и ранее, I - множество действий первого агента, 3 - множество действий второго агента. Пусть, далее, I' с I и 3 ' с 3 - множества действий первого и второго агентов соответственно в игре рангов.
Рассмотрим пару действий (/„, у'„), 1и е I ', е 3 ', являющуюся равновесием игры рангов.
Покажем сначала, что наилучшим ответом второго игрока на действие первого 1и в исходной игре является Действительно, наилучший ответ на множестве 3 входит в 3 ' (по правилу построения игры рангов), поэтому наилучший ответ на множестве 3 ' такой же, как наилучший ответ на множестве 3. Но, по определению равновесия, наилучший ответ на множестве 3 ' -это как раз
Аналогично, наилучшим ответом первого игрока на стратегию второго } в исходной игре является 1и. Поэтому пара действий (/и,}) является равновесием исходной игры.
В силу произвольности выбора равновесной пары получаем, что любое равновесие игры рангов является равновесием исходной игры, т.е. новых равновесий не появится. Утверждение 3 доказано.
Итак, при переходе к игре рангов новые равновесия не появляются (утверждение 3), а существующие могут исчезать (пример 1). Относительно количества равновесий в игре рангов справедливо следующее утверждение (которое существенно использует условия (*) и (**)).
Утверждение 4. В игре рангов существует не более двух равновесий.
Доказательство. Пусть в игре рангов существует три различных равновесия: (7и,}), (/и,,}у.) и (/и„,уу„). По утверждению 3 они являются равновесиями и в исходной игре. Тогда в силу (*) Ф /и, Ф /и„. Без ограничения общности предположим, что и = тах[и;и';и'']. Поскольку в равновесии действие агента является наилучшим ответом на действие оппонента, справедливы соотношения: 1и = /^1 = iu+2 = 7^3 = 4+4 = • • • ; } = }и+\ = }+2 = • • • Аналогичные соотношения верны для , /и„. Следовательно, /и+1 = ,
/и+1 = /и". Но тогда /и' = /и„. Полученное противоречие доказывает утверждение 4.
Следует отметить, что в некоторых случаях любой исход игры рангов дает обоим игрокам лучший результат, чем равновесие. Приведем пример такой биматричной игры (пример 2):
' (6,10) (0, 0) (10, 6)^
(0,0) (5, 5) (0,1)
, (10,6) (1,0) (6,10),
Равновесие приводит к паре выигрышей (5, 5), что хуже (для обоих агентов) любого из исходов игры рангов, в которой удалены дублирующиеся стратегии:
( (6,10) (10,6) ^ v(10,6) (6,10), ■
Заключение
В настоящей работе рассмотрена стратегическая рефлексия агентов в биматричных играх. Введено понятие игры рангов, которая строится на базе исходной игры. Показано, что в некоторых случаях (см. пример 2) переход к игре рангов дает обоим игрокам лучшие результаты, чем равновесие Нэша исходной игры. Перспективным представляется исследование игр рангов, «надстроенных» над биматричными играми, в которых отсутствует равновесие Нэша в чистых стратегиях.
Литература
1. ГУБКО МВ., НОВИКОВ Д А. Теория игр в управлении организационными системами. М.: СИНТЕГ, 2002. - 148 с.
2. НОВИКОВ Д А., ЧХАРТИШВИЛИ АГ Рефлексивные игры. М.: СИНТЕГ, 2003. - 158 с.
3. ПОСПЕЛОВ Д.А. Игры рефлексивные / Энциклопедия кибернетики. Т. 1. Киев: Гл. редакция УСЭ, 1974. С. 343.
4. ЧХАРТИШВИЛИ АГ. Теоретико-игровые модели информационного управления. М.: ПМСОФТ, 2004. - 227 с.
5. MYERSON RB. Game theory: analysis of conflict. London: Harvard Univ. Press, 1991. - 568 p.
Статья представлена к публикации членом редколлегии Д. А. Новиковым