УДК 519.83 ББК 22.173
СТОХАСТИЧЕСКАЯ ДВУХШАГОВАЯ ИГРА е-НАИЛУЧШИХ ОТВЕТОВ РАЗМЕРНОСТИ 2 х 21
Райгородская А.В.2
(Московский государственный университет им.
М.В.Ломоносова, Москва)
Изучается повторяющаяся 2 х 2 игра е-наилучших ответов, в которой каждый игрок в каждом последующем раунде назначает свою чистую стратегию, основываясь на результате случайного эксперимента; последний генерируется произвольной смешанной стратегией игрока, которая с большой, но, вообще говоря, отличной от 1 вероятностью предписывает этому игроку выбор его наилучшего ответа на чистую стратегию партнера, реализованную в предшествующем раунде. Описанные способы принятия решений (называемые в работе функциями е-наилучшего ответа) интерпретируются как поведенческие стратегии игроков. Данные стратегии определяют стохастическую игру, в которой выигрышами игроков выступают их ожидаемые средние выигрыши, получаемые на протяжении всех раундов. Игра анализируется для случая двух раундов: дается классификация равновесий по Нэшу и проводится сравнение равновесных значений со средними выигрышами, получаемыми игроками в ходе детерминированного применения чистых стратегий наилучшего ответа в каждом раунде.
Ключевые слова: повторяющиеся игры, биматричные игры, наилучший ответ.
1 Текст приводится в соответствии с изданием «Математическая теория игр и ее приложения. - 2010. - Т. 2. № 4. - С. 80-101».
2 Анастасия Викторовна Райгородская, аспирант
Введение
В теории повторяющихся (эволюционных) игр, изучающей модели принятия рациональных решений в процессах многократного взаимодействия игроков (см., напр., [3]-[6], [9], [11]), сравнение различных режимов взаимодействия производится, как правило, с позиции динамических систем: оценивается, каким образом столкновение различных поведенческих стратегий влияет на последовательность принимаемых решений. Основы теоретикоигрового подхода к анализу альтернативных способов принятия решений были заложены в [8], где введены в рассмотрение игры на классах ограниченно рациональных поведенческих стратегий игроков и определено понятие равновесных наборов поведенческих стратегий. Подход к оптимизации траекторий повторяющихся игр на классах поведенческих стратегий игроков, основанный на методах математической теории управления, был предложен в
[7].
Данная работа следует в русле подхода [8]. Рассматривается повторяющаяся биматричная игра размерности 2 х 2, в которой выбор стратегии каждым игроком в каждом последующем раунде диктуется желанием данного игрока наилучшим для себя образом ответить на последнее действие партнера. Отправной моделью служит, таким образом, повторяющаяся игра наилучших ответов, в которой данное правило принятия решений применяется без каких-либо отклонений. Затем классы поведенческих стратегий игроков расширяются: каждому игроку разрешается принимать решение о выборе своей чистой стратегии на следующем раунде, основываясь на результате случайного эксперимента. Последний генерируется произвольной смешанной стратегией игрока, которая предписывает большую, но, вообще говоря, отличную от
1, вероятность наилучшему ответу на чистую стратегию партнера, реализованную в предшествующем раунде; при этом в каждом последующем раунде допускается, вообще говоря, ненулевая вероятность выбора игроком своего наихудшего ответа на последнюю из реализованных чистых стратегий партнера. Такие
поведенческие стратегии игроков названы в работе функциями е-наилучшего ответа.
В разделе 2 вводится в рассмотрение стохастическая игра на классах функций е-наилучшего ответа (игра е-наилучших ответов), выигрышами игроков выступают математические ожидания их средних выигрышей, получаемых на протяжении всех раундов.
В разделе 3 игра е-наилучших ответов исследуется для случая двух раундов. Дается классификация равновесий по Нэшу и проводится сравнение равновесных значений со средними выигрышами, получаемыми игроками в исходной детерминированной игре наилучших ответов.
Раздел 4 содержит доказательства основных утверждений.
1. Определения. Постановка задачи
Рассмотрим биматричную игру размерности 2 х 2 с матрицами выигрышей А = (а^)г^=1,2 и В = (6^)г^=1,2 соответственно первого и второго игроков. Как обычно, строки матриц выигрыша соответствуют номерам чистых стратегий первого игрока, столбцы - номерам стратегий второго игрока. Под смешанной стратегией первого игрока понимаем, как обычно, произвольное вероятностное распределение (а, 1 — а) на множестве стратегий этого игрока; здесь а - вероятность выбора игроком своей чистой стратегии 1, а 1 — а - вероятность выбора игроком своей чистой стратегии 2. В соответствии с принятым стандартом, смешанную стратегию (а, 1 — а) первого игрока отождествляем с ее первой компонентой а € [0,1]. Аналогично, смешанную стратегию второго игрока отождествляем с числом в € [0,1], имеющим смысл вероятности выбора вторым игроком своей чистой стратегии 1; при этом 1 — в есть вероятность выбора им своей чистой стратегии 2. Всякая пара (а, в), где а и в - смешанные стратегии первого и второго игроков соответственно, естественным образом превращает множество всех пар чистых стратегий игроков в вероятностное пространство, а выигрыши первого и второго игроков - в случайные величины на этом вероятностном пространстве; математические ожидания данных случайных величин 118
трактуются как выигрыши игроков, отвечающие паре (а, в).
Будем предполагать, что в рассматриваемой биматричной игре не существует точек равновесия по Нэшу с компонентами в чистых стратегиях. Тогда, в соответствии с известной классификацией 2 х 2-игр (см. [1]), в данной биматричной игре существует единственная точка равновесия по Нэшу в смешанных стратегиях; при этом, согласно [1], не нарушая общности (при необходимости изменяя нумерацию игроков), можно считать, что
(1) bi2 > bll, b21 > b22, ail > 021, «22 > 012.
Далее предполагаем, что неравенства (1) имеют место. Тогда, обозначая через i+ наилучший ответ первого игрока в классе чистых стратегий этого игрока на чистую стратегию j второго игрока и через j+ наилучший ответ второго игрока в классе чистых стратегий этого игрока на чистую стратегию i первого игрока, имеем
(2) i+ = 1, i+ = 2, j+ = 2, j+ = 1.
Зафиксируем какую-либо пару (io, jo) чистых стратегий игроков.
Под повторяющейся игрой наилучших ответов длины n понимаем процесс повторения биматричной игры, состоящий из раундов 0,1,..., n, такой, что в каждом последующем раунде к + 1 каждый игрок выбирает чистую стратегию наилучшего ответа на чистую стратегию партнера, реализованную в раунде к; априорно заданная пара (io, jo) чистых стратегий реализуется в раунде 0. По окончании каждого раунда игроки получают очки согласно своим матрицам выигрышей. Данный процесс представляет собой модель «близорукого» поведения неоднократно взаимодействующих игроков, в котором каждый из них стремится максимизировать свой выигрыш в каждом последующем взаимодействии, исходя из гипотезы о том, что в этом взаимодействии партнер повторит свой предшествующий выбор. Повторяющаяся игра наилучших ответов описывается дискретной динамической системой вида
(3) (ifc+i,jfc+i) = (i+ ,j+) (к = 0,...,n - 1)
в произведении
(4) X = {1,2} х {1, 2}
множеств чистых стратегий первого и второго игроков. Для средних выигрышей первого и второго игроков в повторяющейся игре наилучших ответов (нулевой раунд из подсчета исключаем) имеем, соответственно, выражения
Введем в рассмотрение процесс, аналогичный повторяющейся игре наилучших ответов, в котором, однако, игроки назначают свои действия на последующих раундах не детерминированным образом, отдавая вероятностные предпочтения своим чистым стратегиям наилучшего ответа. В этом процессе для каждого игрока инструментом генерирования решений выступает та или иная функция е-наилучшего ответа. Приведем соответствующее определение.
Фиксируем е € [0,1/2). Функцией е-наилучшего ответа первого игрока назовем любую пару (а^а2) смешанных стратегий первого игрока такую, что
Ввиду (2) данное определение подразумевает, что первый игрок, выбирая смешанную стратегию а^ в ответ на реализацию вторым игроком его чистой стртегии (] = 1, 2) задает большую вероятность своей чистой стратегии наилучшего ответа на эту чистую стратегию второго игрока. Аналогично, функцией е-наилучшего ответа второго игрока назовем любую пару (въ в2) смешанных стратегий второго игрока такую, что
Заметим, что при е = 0 для указанных выше смешанных стратегий игроков имеем а1 = 1, а2 = 0, в1 =0, в2 = 1; таким образом, 0-наилучшие стратегии первого и второго игроков предписывают каждому из них, при реализации той или иной чистой стратегии партнера, с вероятностью 1 применять соответствующую чистую стратегию наилучшего ответа.
Каждую пару
(5)
(6)
(7)
(8)
где (а1, а2) - функция е-наилучшего ответа первого игрока и (в1,в2) - функция е-наилучшего ответа второго игрока, будем называть парой функций е-наилучших ответов игроков.
Для произвольной пары 5 (8) функций е-наилучших ответов игроков рассмотрим случайный процесс, который назовем повторяющейся игрой е-наилучших ответов длины п, соответствующей 5. Процесс состоит из раундов 0,1,..., п, в каждом из которых игроки разыгрывают биматричную игру. Процесс развивается по следующей схеме. В раунде 0 реализуется начальная пара (го,;'о) чистых стратегий игроков. Если в раунде к реализуется пара (г&, ) чистых стратегий игроков, то первый игрок для
выбора своей чистой стратегии г^+1 в раунде к + 1 производит статистический эксперимент на множестве своих чистых стратегий, применяя смешанную стратегию а^к; аналогично, второй игрок для выбора своей чистой стратегии ^^+1 в раунде к + 1 производит статистический эксперимент на множестве своих чистых стратегий, применяя смешанную стратегию вгк. По окончании каждого раунда игроки получают очки согласно своим матрицам выигрышей. Данный процесс представляет собой модель «близорукого» поведения взаимодействующих игроков, которая, однако, в случае е > 0, допускает большую гибкость в выборе действий по сравнению с повторяющейся игрой наилучших ответов: в каждом последующем раунде каждый игрок выбирает свою будущую чистую стратегию из условия вероятностного предпочтения своей чистой стратегии наилучшего ответа на реализующуюся чистую стратегию противника. При е = 0 повторяющаяся игра е-наилучших ответов, очевидно, переходит в (детерминированную) повторяющуюся игру наилучших ответов.
Далее считаем е > 0. Уточним определение обозначенного выше случайного процесса. Пространством его состояний служит произведение X (4) множеств чистых стратегий первого и второго игроков, его временной шкалой - индексы 0,1,..., п раундов повторяющейся игры. Пространство X понимаем как измеримое пространство, снабженное алгеброй всех его подмножеств. Для
каждого момента к = 0,1,..., п — 1 функция на X вида
Ря(-|(^,Зк)) = азк х /Згк = (о:^, 1 — ) х ^, 1 — /Згк)
(см. (8)) задает переходную вероятность между двумя экземплярами измеримого пространства X, отвечающим моментам времени к и к + 1. Очевидно,
Ря
(9)
((¿к ,3к )!(ік-і ,3к-і)) =
аІк-1 вік-1,
(1 - аІк-1 )вік-1,
а
^-1 (1 - Рік-1),
(1 - аІк-1)(1 - вік-1 ),
если (¿к,Зк) = (1,1); если (¿к,Зк) = (2,1); если (¿к,Зк) = (1,2); если (¿к,Зк) = (2, 2).
В соответствии со стандартным определением случайного процесса (см., например, теорему Ионеску-Тулча [2]), указанные переходные вероятности и начальное состояние (¿о,Зо) определяют случайный процесс, траекториями которого выступают последовательности
(10) * = (((¿1, л),..., (¿п,Зп)) е Xй.
Множество Xn+1 всех траекторий данного случайного процесса имеет структуру вероятностного пространства с вероятностью ря, определенной на множестве всех подмножеств Xп+1. Последняя вероятность характеризуется своими значениями на всех одноэлементных подмножествах Xп+1, которые мы далее отождествляем с траекториями. Именно, для всякой траектории * (10)
(11) Рп,я(*) = Ря((¿п,Зп)|(гп-1,Зп-1)) ...ря((¿1,31)I(¿о,Зо)).
Так определенный случайный процесс будем рассматривать как формальную модель повторяющейся игры е-наилучших ответов длины п, соответствующей паре 5 (8) функций е-наилучшего ответа игроков.
Для каждой траектории * (10) введем значения средних выигрышей, соответственно, первого и второго игроков, реализуемых на данной траектории:
(12)
1 X
ага(^) = ~^2аік,3к , к=1
1
6(І) =
к=1
Для каждой пары 5 функций е-наилучших ответов игроков функции ап( ) и Ьп( ) представляют собой случайные величины на вероятностном пространстве (Xп+1,ря). Математические ожидания случайных величин (12), задаваемые выражениями
назовем ожидаемыми средними выигрышами, соответственно, первого и второго игроков в повторяющейся игре е-наилучшего ответа длины п, соответствующей паре 5 функций е-наилучших ответов игроков.
Пару 5* = ((а*,а2), (в*, в*)) функций е-наилучших ответов игроков назовем равновесной (по Нэшу) в повторяющейся игре е-наилучших ответов длины п, если для любого е-наилучшего ответа (а1, а2) первого игрока верно ап[£*] ^ ап[£*], где 5* = ((а1,а2), (в*,в2)), и для любого е-наилучшего ответа (в1 ,в2) второго игрока верно Ьп[5|] ^ Ьп[5*], где 5* = ((а*, а*), (в1, в2)). Пару (ап[5*], Ьп[5*]) ожидаемых средних выигрышей первого и второго игроков, соответствующую паре 5* функций е-наилучших ответов игроков в повторяющейся игре е-наилучшего ответа длины п, будем называть равновесной в данной повторяющейся игре.
Возникает вопрос о существовании равновесной пары функций е-наилучших ответов игроков. При условии существования такой пары представляет интерес выяснение ее структуры и сравнение равновесной пары ожидаемых средних выигрышей в (стохастической) повторяющейся игре е-наилучших ответов с парой (ап, Ьп) (5), (3) средних выигрышей в детерминированной повторяющейся игре наилучших ответов. Цель данной работы - дать ответы на указанные вопросы для простейшего случая двухшаговой повторяющейся игры, т. е. для случая п = 2, при достаточно малом е. Отметим, что случай п = 1 тривиален: в этом случае равновесная пара функций е-наилучших ответов игроков с очевидностью состоит из детерминированных функций наилучшего ответа (см. (2)), т.е имеет вид ((1, 0)(0,1)).
(13)
2. Формулировки результатов
Ниже п = 2.
Две приводимые ниже леммы составляют основу исследования. Их содержательный смысл состоит в следующем. В двухшаговой повторяющейся игре е-наилучших ответов при достаточно малом е каждый игрок имеет оптимальную функцию е-наилучшего ответа, которая максимизирует его ожидаемый средний выигрыш вне зависимости от выбора партнером своей функции е-наилучшего ответа. Структура оптимальной функции е-наилучшего ответа игрока зависит от некоторых соотношений между элементами матрицы выигрышей этого игрока и не зависит от матрицы выигрышей его партнера. В ряде случаев оптимальная функция И,а2) е-наилучшего ответа первого игрока имеет вид (1, 0), т. е. определяет детерминированную реакцию наилучшего ответа первого игрока на выбор чистой стратегии второго игрока; в этих случаях для первого игрока малая рандомизация его ответного выбора нецелесообразна. В остальных типичных случаях пара (а^, а2) имеет вид (1 — е, 0) либо (1, е), т. е. одна из ее компонент остается чистой стратегией наилучшего ответа, другая же максимально рандомизируется. В этих случаях для первого игрока малая рандомизация его ответного выбора является целесообразной. Аналогичные наблюдения справедливы в отношении оптимальной функции (в*,в*) е-наилучшего ответа второго игрока.
Через и (е) и V (е) будем обозначать множества всех функций е-наилучшего ответа первого и второго игроков, соответственно; также введем множества
и 1(е) = {(а1,а2) е и(е) : а1 < 1},
(14) и2(е) = {(а1,а2) е и(е) : а2 > 0},
V1 (е) = {(в1,в2) е V(е) : в1 > 0},
(15) V2(е) = {(в1,в2) е V(е): в2 < 1}.
Положим
( и (є) при (¿0,І0) є{(1, 2), (2,1)}
(16) иі0,І0 (є) = < и 1(є) при (і0,30) = (1,1)
1 и 2 (є) при (*0,30) = (2, 2)
( V(є) при (¿0,30) є{(1,1), (2, 2)}
(17) ^І0,І0(є) = ^ V 1(є) при (¿0,30) = (1, 2)
1 V2 (є) при (¿0,30) = (2,1)
Лемма 1. Существует є1 є (0,1/2) такое, что при є ^ є1 справедливы следующие утверждения.
1) Существует единственная функция (а1, а2) є-наилучшего ответа первого игрока такая, что
(i) для всяких (а1,а2) є и(є)\{(а1, а2)} и (във2) є Уіоао (є) выполняется
(18) а2[((а1,а2), (във2))] > а2[((аь а2), (във2))],
(ii) в случае (¿0,30) = (1,2) при всяком (в1 ,в2) є V(є) \ ^¿0,і0 (є) для любого (а1,а2) є и (є) такого, что а2 = а2, выполняется (18), а для любого (а1,а2) є и (є) такого, что а2 = а2, выполняется
(19) а2[((а1,а2), (във2))] = а2[((аь а2), (във2))].
(iii) в случае (¿0,30) = (2,1) при всяком (във2) є V(є) \ V'i0,j0 (є) для любого (а1,а2) є и (є) такого, что а1 = а1, выполняется (18), а для любого (а1,а2) є и (є) такого, что а1 = а1, выполняется (19).
2) Значения а1 и а2 задаются следующей таблицей.
Лемма 2. Существует є2 є (0,1/2) такое, что при є ^ є2
справедливы следующие утверждения.
1) Существует единственная функция (в1, в2) є-наилучшего ответа второго игрока такая, что
(i) для всяких (във2) є V(є)\{(ві,в2)} и («1,0:2) є и^(є) выполняется
(20) Ь2[((а1,а2), (віТ, в!))] > Ы((аь а2), (в1,в2))],
(ii) в случае (¿0,30) = (1,1) при всяком (а1 , а2) є и (є) \ иі0,^0 (є) для любого (във2) є V(є) такого, что в1 = вТ, выполняется (20), а для любого (във2) є V(є) такого, что в1 = в1, выполняется
(21) Ь2[((а1,а2), (ві*,в2))] = Ь2[((а1,а2), (в1,в2))].
Таблица 1.
случай условие («1,«2)
1.1 (1,1) а12 > а21 (1,0)
1.2 (1,1) а12 < а21 (1 - є, 0)
1.3 (2, 2) а12 > а21 (1,є)
1.4 (2, 2) а12 < а21 (1, 0)
1.5 (1, 2) а12 > а21 (1,є)
1.6 (1, 2) а12 < а21, а21 < (ац + а12)/2 (1,є)
1.7 (1, 2) а12 < а21, а21 > (ац + а12)/2 (1,0)
1.8 (2,1) а12 < а21 (1 - є, 0)
1.9 (2,1) а12 > а21, а12 < (а22 + а21)/2 (1 - є, 0)
1.10 (2,1) а12 > а21, а12 > (а22 + а21)/2 (1, 0)
(ііі) в случае (¿о,з’о) = (2,2) при всяком (а1,а2) є и (є) \ иі0,^0 (є) для любого (във2) є V(є) такого, что в2 = в2, выполняется (20), а для любого (в1,в2) є V(є) такого, что в2 = в2, выполняется (21).
2) Значения в1 и в2 задаются следующей таблицей.
Таблица 2.
случай условие (в 2 ,в2)
2.1 (1, 2) Ь11 > Ь22 (є1)
2.2 (1, 2) Ь11 < Ь22 (0,1)
2.3 (2,1) Ь11 > Ь22 (0,1)
2.4 (2,1) Ь11 < Ь22 (0,1 - є)
2.5 (1,1) Ьц > Ь22 (є1)
2.6 (1,1) Ь11 < Ь22, Ь22 < (Ь11 + Ь21)/2 (є, 1)
2.7 (1,1) Ьц < Ь22, Ь22 > (Ьц + Ь21)/2 (0,1)
2.8 (2, 2) Ь11 < Ь22 (0,1 - є)
2.9 (2, 2) Ь11 > Ь22, Ь11 < (Ь12 + Ь22)/2 (0,1 - є)
2.10 (2, 2) Ьц > Ь22, Ьц > (Ь12 + Ь22)/2 (0,1)
Из лемм 1 и 2 с очевидностью вытекает утверждение о существовании и структуре равновесной пары функций е-наилучшего ответа.
Теорема 1. Пусть е1, е2 > 0 определены согласно леммам 1 и 2, е ^ ш1п{е1, е2}, функции (а1, а2) и (в*, в*) е-наилучшего ответа, соответственно, первого и второго игроков заданы таблицами 1 и 2, и Б * = ((а1,а2), (в*, в* ))• Тогда
1) Б * есть равновесная пара функций е-наилучшего ответа в двухшаговой повторяющейся игре е-наилучших ответов•
2) Равновесная пара Б * единственна во всех случаях кроме
11 и 14 из таблицы 1 и 22 и 23 из таблицы 2•
3) В случае 11 из таблицы 1 равновесной является всякая пара Б * = ((а1,а2), (в!, в2)), где в2 е [1 — е, 1], а а\, а2 и в* заданы таблицами 1 и 2^
4) В случае 14 из таблицы 1 равновесной является всякая пара Б * = ((а1, а2), (в1, в2)), где в1 е [0, е], а а\, а2 и в* заданы таблицами 1 и 2^
5) В случае 22 из таблицы 2 равновесной является всякая пара Б * = ((а1,а2), (в1 , в2)), где а£ е [1 — е, 1], а а2, в* и в* заданы таблицами 1 и 2^
6) В случае 23 из таблицы 2 равновесной является всякая пара Б * = ((а1, а2), (в1, в2)), где а2 е [0, е], а\, а в1 и в* заданы таблицами 1 и 2^
Следующая теорема утверждает, что, в условиях теоремы 1, в тех случаях, когда оптимальная функция е-наилучшего ответа игрока (см. таблицы 1 и 2) имеет компоненту, не являющейся чистой стратегией, ожидаемый равновесный выигрыш этого игрока в двухшаговой игре е-наилучших ответов строго больше его среднего выигрыша в (детеминированной) игре наилучших ответов. Таким образом, в этих случаях для рассматриваемого игрока малая рандомизация при выборе стратегии выгодна с точки зрения его ожидаемого среднего выигрыша.
Теорема 2. Пусть выполнены условия теоремы 1
1) В случаях 12, 13, 15, 16, 18, 19 из таблицы 1 ожидаемый равновесный выигрыш первого игрока в двухшаговой игре е-наилучших ответов строго больше его среднего выигрыша в (детеминированной) двухшаговой игре наилучших ответов: а2[Б * ] > й2 (см• (13), (5))
2) В случаях 2.1, 2.4, 2.З, 2.б, 2.S, 2.9 из таблицы 2 ожидаемый равновесный выигрыш второго игрока в двухшаговой игре є-наилучших ответов строго больше его среднего выигрыша в (детеминированной) двухшаговой игре наилучших ответов: b2[S *] > b2 (см. (13), (5)).
Теорема 2 очевидно следует из лемм 1 и 2 и теоремы 1.
Следствие 1. Пусть выполнены условия теоремы 1. Если одновременно имеют место какой-либо из случаев 1.2, 1.3, 1.З,
1.6, 1.S, 1.9 из таблицы 1 и какой-либо из случаев 2.1, 2.4, 2.З,
2.6, 2.S, 2.9 из таблицы 2, то для каждого из игроков его ожидаемый равновесный выигрыш в двухшаговой игре є-наилучших ответов строго больше его среднего выигрыша в (детеминиро-ванной) двухшаговой игре наилучших ответов, т. е. имеют место неравенства a2[S+] > a2 и b2[S+] > b2.
3. Доказательства лемм 1 и 2
Доказательство леммы І.
Пусть S - произвольная пара функций є-наилучших ответов игроков вида (8). Согласно (11) для любой траектории t = ((il,jl), (i2,j2)) Є X2 двухшаговой игры є-наилучших ответов, соответствующих паре S, имеем
P2,S(t) = PS((i2, j2) I (il, jl))PS((il, jl) I (io, jo)).
Для ожидаемого среднего выигрыша первого игрока, в соответ-
ю
-1^
"ьЗ го "ьЗ
to и> 1—1 о ю
о ч—'^ о Н ч—'^
«<*. о о «<*. о о ^3 р to
я
о
л
р
а
ta
о
I—1
ю
+
I
Р
о
о
ю
to
I
р
о
i°
to
о
I
р
о
р
о
о
+
+
р
о
3?>
о
+
^ I ё- + хл р
+
і
р
р
to
Со
о
+
ы
40
((*Ç‘*x)\(Ç‘i)p)sd,(C‘iyv / = (*f‘*i)o‘zv
Из (23) имеем
а1,0(1, 1) — а1,0(1, 2) = [(Й11 — Й12) — (а21 — а22)](а1 — а2)в1 + (а1 — а2)(а12 — а22), а1,0(2, 1) — а1,0(2, 2) = [(а11 — а12) — (а21 — а22)](а1 — а2)в2 + (а1 — а2)(а12 — а22),
«1,0(1,2) = (ац — а12)а2в1 + («21 — «22)(1 — а2)в1+ а2й12 + (1 — а2)а22, а1,0(2, 2) = (а11 — а12)а2в2 + (а21 — а22)(1 — а2)в2 +
а2а12 + (1 — а2)а22.
Подставляя в (24) и перегруппировывая слагаемые, получаем:
(25) а2,0(*0,30) = с1°а^ + С20а2а^0 + сза^ + С0а1 + сг5°а2 + Сб, где
(26) с10 = (ап — а12 — а21 + а22)(в1 — в2)вад,
(27) С20 = (ап — а12 — а21 + а22)(в1 — в2)(1 — вад),
(28) С3 = (а21 — а22)(в1 — в2),
(29) с40 = [(а11 — а12 — а21 + а22)в2 + а12 — а22]вг0,
(30) с50 = [(а11 — а12 — а21 + а22)в2 + а12 — а22](1 — вад),
(31) сб = (а21 — а22)в2 + а22.
Придавая начальной паре (¿0,30) все возможные значения в пределах множества X и применяя (23), запишем:
а1,0(1, 1) = аіві ац + аі(1 — ві)аі2
+ (1 — аі)вій2і + (1 — аі)(1 — ві)й22,
&1,о(1, 2) = ®2^і аіі + 0:2(1 — ві)аі2
+ (1 — а2)вій2і + (1 — а2)(1 — в1)а22,
а1,0(2, 1) = аів2 аіі + аі(1 — в2)аі2
+ (1 — аі)в2а2і + (1 — аі)(1 в2)а22,
а1,0(2, 2) = «2^2 аіі + «2(1 — в2)аі2
+ (1 — а2)в2й2і + (1 — «2)(1 в2)а22.
Расфиксируем пару 5 (8) и рассмотрим указанные выше значения как функции от переменных а1, а2, въ в2, меняющихся в пределах ограничений (6), (7); для краткости обозначения аргументов будем опускать. Имеем:
д
а1,0(1, 1) = в1а11 + (1 — в1)а12 — в1а21 — (1 — в1)а22,
да1
д
да2
д
да
д
а1,0(1,1) = 0, а1,0(1,2) = 0,
да2
д
а1,0(1, 2) = в1а11 + (1 — в1)а12 — в1а21 — (1 — в1)a22, а1,0(2,1) = в2ац + (1 — в2)а12 — в2а21 — (1 — в2)а22, «1,0(2,1) = 0,
«1,0(2,2) = 0,
да1
д да2 д да1 д
т; а1,0(2, 2) = в2а 11 + (1 — в2)а12 — в2а21 — (1 — в2)а22.
да2
Для значений в1 = 0, в2 = 1, отвечающим чистым стратегиям наилучшего ответа второго игрока, с учетом (1) получаем:
дд
(32) Д-а1,0(1, 1) = а12 — а22 < ^ д----а1,0(1, 1) = 0,
да1 да2
дд
(33) о а1,0(1, 2) = ° о а1,0(1, 2) = а12 — а22 < °
да1 да2
дд
(34) о—а1,0(2,1) = а11 — а21 > ^ т;—а1,0(2,1) = 0,
да1 да2
дд
(35) о а1,0(2, 2) = ^ ^ а1,0(2, 2) = а11 — а21 > 0.
да1 да2
1
Далее, из (25)
а2,0(*0,1) = с1-2 а2 + с^-2 а2«1 + (сз + с^-2 )а1 + с5к-2 а2 + Сб, а2,0(*0,2) = с1-2 а1а2 + с^-2 а2 + с^-2 а1 + (сз + с5к-2 )а2 + Сб.
Рассматривая указанные выше значения как функции от переменных а1, а2, в1, в2, меняющихся в пределах ограничений (6), (7) и опуская для краткости обозначения аргументов, имеем:
с) '
а2,0(*0,1) = с1-2 а1 + с2-2 а2 + сз + с^-2,
да_
Л
т^а2,о(го, 1) = с?-2 аі + с5к-2 да2
■а2,о(*о, 2) = сі-2 а2 + с4-2
да
<9 ■
-а2,о(*о, 2) = сі-2 аі + с^-2 а2 + сз + с5к-2.
да2
Подстановкой в эти выражения и в (26) - (31) значений
(36) а1 = 1, а2 = 0, в1 = 0, в2 = 1,
отвечающих чистым стратегиям наилучшего ответа первого и второго игроков, получаем:
д
а2,0(1, 1) = а22 — а21 = (а12 — а22) + (а21 — а22),
да
д
да2
й2,о(1, 1) = аі2 — Й22,
д , . д ——а2,о(1, 2) = 0, ——а2,о(1,2) = аіі — 2а2і + а22,
даі да2
9 д
а2,о(2, 1) = а12 — а21, т; а2,о (2, 1) = 0,
даі да2
д д
а2,о(2, 2) = аіі — а21, д—а2,о(2,2) = аі2 — ац.
да1 , да
2
Объединяя с (32)-(35), при всех значениях начальной пары (¿0,30) чистых стратегий для удвоенных частных производных ожидаемого среднего выигрыша (22) как функции от а1, а2, в1, в2, вычисленных в точке (36), получаем следующие выражения (обозначения аргументов для краткости опускаем):
д д
(37) 2-—а2[5](1,1) = а12 — а21,2-—а2[5](1,1)= а12 — а22 < 0,
да1 да2
д
(38) 2—а2[5](1, 2) = 0,
да1
д
2~ а2[5](1, 2) = (а11 — а21) + (а12 — а21),
да2
д
(39) 2 Я а2[5](2, 1) = (а12 — а21) + (а12 — а22),
да1
д
2—«2^(2,1) = 0,
да2
д д
(40) 2—а2[5](2,2) = аи — «21 > 0, 2—«2^(2, 2) = «12 — «21.
да1 да2
Пусть (¿0,3о) = (1, 1). Поскольку в точке (36) имеет место
(37), то в окрестности точки (36) ожидаемый средний выигрыш «2[5](1,1) (а) возрастает по а1 при «12 > «21, (б) убывает по а1 при «12 < «21, (в) убывает по а2. Поэтому при достаточно малом е ожидаемый средний выигрыш «2[5](1,1) как функция от (а1,а2), независимо от выбора пары (в1,в2), удовлетворяющей (7), достигает в пределах ограничений (6) максимума в единственной точке (а1, а2) = (1, 0) при «12 > «21 и в единственной точке (а1,а2) = (1 — е, 0) при «12 < «21. Этим закончено доказательство утверждения 1 леммы для случая (¿0,3о) = (1, 1) (см. пункт (1) и случаи 1.1 и 1.2 из таблицы 1).
Пусть (¿0,30) = (1, 2). Поскольку в точке (36) имеет место
(38), то в окрестности точки (36) ожидаемый средний выигрыш «2[5](1, 2) (а) возрастает по а2 при «12 > «21 и при одновременном выполнении «12 < «21 и 2«21 < «и + «12, (б) убывает по а2 при одновременном выполнении «12 < «21 и 2«21 > «11 + «12,
Рассмотрим зависимость «2[5](1, 2) от а1 при ограничениях (6), (7) (в соответствии с (38) в точке (36) д«2[5](1, 2)/да1 = 0).
Согласно (25) (28), (30), (1) и (7) для произвольных а1, а2, въ в2, удовлетворяющих (6), (7), имеем
(41) 2 ](1,2) = [Г1(в1 — в2)а2 + (Г1в2 — Г2)]в1,
да1
где
Г1 = «11 — «12 — «21 + «22 > 0, Г2 = «22 — «12 > 0,
при этом функция «2[5](1, 2), очевидно, линейна по а1. В силу (1) и (7) г2/г1 < 1. Пусть е < е* где е* > 0 таково, что
Г2
— < 1 — е*, ^е* < (1 — е*)Г1 — Г2.
Г1
Тогда для произвольных а1, а2, въ в2, удовлетворяющих (6), (7), выполняется
Ыв1 — в2)а2 + (Г1в2 — Г2) > — Г1е + (1 — е)Г1 — Г2 > 0.
Следовательно, в соответствии с (41), в области (6), (7) функция «2[5](1, 2) строго возрастает по а1 при в1 > 0 и постоянна по а1 при в1 = 0.
Принимая во внимание установленные выше свойства монотонности функции «2[5](1, 2) по переменным а1 и а2, заключаем, что, при достаточно малом е, независимо от выбора пары (в1, в2), удовлетворяющей (7), «2[5](1, 2) достигает, в пределах ограничений (6), максимума в следующих точках: (а) в случае в1 > 0 - в единственной точке (а1,а2) = (1,е) при «12 > «21 и при одновременном выполнении неравенств «12 < «21 и 2«21 < «11 + «12 и в единственной точке (а1, а2) = (1, 0) при одновременном выполнении неравенств «12 < «21 и 2«21 > «11 + «12; (б) в случае в1 = 0 - во всех точках вида (а1, а2) = (а1, е), где а1 е [1 — е, 1], при «12 > «21 и при одновременном выполнении «12 < «21 и 2«21 < «11 + «12 и во всех точках вида (а^,а2) = (а^, 0), где а1 е [1 — е, 1], при одновременном выполнении неравенств «12 < «21 и 2«21 > «11 + «12. Этим закончено рассмотрение случаев 1.5, 1.6 и 1.7 из таблицы 1.
Пусть (¿0,30) = (2, 1). Поскольку в точке (36) имеет место
(39), то в окрестности точки (36) ожидаемый средний выигрыш «2[5](2,1) (а) убывает по а1 при «12 < «21 и при одновременном выполнении «12 > «21 и 2«12 < «22 + «21, (б) возрастает по а1 при одновременном выполнении «12 > «21 и 2«12 > «22 + «21.
Рассмотрим зависимость «2[5](2,1) от а2 при ограничениях
(6), (7) (в соответствии с (39) в точке (36) д«2[5](2,1)/да2 = 0). Согласно (25) (28), (31), (1) и (7) для произвольных а1, а2, в1, в2, удовлетворяющих (6), (7), имеем
(42) 2 да2[,f](2,1) = [г 1 (в1 — в2)а1 + (Г1в2 — Г2)](1 — в2),
да2
где
Г1 = «11 — «12 — «21 + «22 > 0, Г2 = «22 — «12 > 0,
при этом функция «2[5](2,1), очевидно, линейна по а2. В силу (1) и (7) г2/г1 > 0. Пусть е < е* где е* > 0 таково, что
г2
— > е*, Э^е* < Г1 + Г2.
Г1
Тогда для произвольных а1, а2, в1, в2, удовлетворяющих (6), (7), выполняется
Г1 (в1 — в2)а1 + (Г1 в2 — Г2) < 3Г1е — Г1 — Г2 < 0.
Следовательно, в соответствии с (42), в области (6), (7) функция «2[5](2,1) строго убывает по а2 при в2 < 1 и постоянна по а2 при в2 = 1.
Принимая во внимание установленные выше свойства монотонности функции «2[5](2,1) по переменным а1 и а2, заключаем, что, при достаточно малом е, независимо от выбора пары (в1, в2), удовлетворяющей (7), «2[5](2,1) достигает, в пределах ограничений (6), максимума в следующих точках: (а) в случае в2 < 1 -в единственной точке (а1,а2) = (1 — е, 0) при «12 < «21 и при одновременном выполнении «12 > «21 и 2«12 < «22 + «21 и в единственной точке (а1,а2) = (1, 0) при одновременном выполнении «12 > «21 и 2«12 > «22 + «21. (б) в случае в2 = 1 - во всех
135
точках вида (а^, а2) = (1 — е, а2), где а2 е [0, е], при «12 < «21 и при одновременном выполнении «12 > «21 и 2«12 < «22 + «21 и во всех точках вида (а^,а2) = (1,а2), где а2 е [0, е], при одновременном выполнении неравенств «12 > «21 и 2«12 > «22 + «21. Этим закончено рассмотрение случаев 1.8, 1.9 и 1.10 из табл. 1.
Пусть (¿0,30) = (2, 2). Поскольку в точке (36) имеет место
(40), то в окрестности точки (36) ожидаемый средний выигрыш «2[5](2,2) (а) возрастает по а1, (б) убывает по а2 при «12 > «21,
(в) возрастает по а2 при «12 < «21. Поэтому при достаточно малом е ожидаемый средний выигрыш «2[5](2, 2) как функция от (а1,а2), независимо от выбора пары (в1,в2), удовлетворяющей
(7), достигает в пределах ограничений (6) максимума в единственной точке (а1, а2) = (1, 0) при «12 > «21 и в единственной точке (а1,а2) = (1,е) при «12 < «21. Этим закончено рассмотрение случаев 1.3 и 1.4 из таблицы 1.
Лемма 1 доказана.
Доказательство леммы 2. Проведем преобразование игры. Имея исходные матрицы выигрышей
введем новые матрицы А и В, поменяв игроков местами и перенумеровав элементы матриц следующим образом:
Используя соотношения (1) между элементами исходных матриц А и В, приходим к следующим соотношениям между элементами матриц А и В:
(г,;) ^ (г,]) : (2,1) ^ (1,1), (1,1) ^ (1, 2),
(43)
(2, 2) ^ (2,1),
(1, 2) ^ (2, 2).
Ьі2 > Ьіі, ¿>2і > ^22, аіі > а2і, а22 > аі2.
Эти соотношения имеют вид (1). Рассмотрим повторяющуюся игру е-наилучших ответов с заменой матриц выигрышей А и В на А и В соответственно. Обозначим через (аца2) = (в^А) и (въвг) = (а2,а1) функции е-наилучшего ответа первого и второго игроков в новой игре. По доказанной выше лемме 1 существует е1 е (0,1/2) такое, что при е ^ е1 справедливы следующие утверждения.
1) Существует единственная функция (а? ,«2) е-наилучшего ответа первого игрока такая, что
(1) для всяких (а1, а2) е и(е) \ {(а1,а2)} и (/?1,/?2) е Уго,,о (е) выполняется
(45) а2[((а1,а2), (в?1, /З2))] > «2[((аь Й2), (ДьДз))],
(и) в случае (¿о, З’о) = (1, 2) при всяком (/?1,/?2) е У(е) \ Р^0,^0 (е) для любого (а1,а2) е и(е) такого, что а2 = а2, выполняется (45), а для любого (а1,а2) е и(е) такого, что а2 = а2, выполняется
(46) а2[((а1,а2), (/?1,/?2))] = Й2[((а1,а2), (в,/%))].
(Ш) в случае (¿0,з’0) = (2,1) при всяком (/?ъ/?2) е У(е) \ У^0^0(е) для любого (а1,а2) е и(е) такого, что а1 = а1, выполняется (45), а для любого (а1,а2) е и(е) такого, что а1 = а1, выполняется (46).
2) При этом значения а1 и а2 задаются следующей таблицей.
Таблица 3.___________________________________________
(*о,Зо) условие (а1,а2)
(1,1) «12 > «21 (1, 0)
(1,1) «12 < «21 (1 - е, 0)
(2, 2) «12 > «21 (1,е)
(2, 2) «12 < «21 (1,0)
(1, 2) «12 > «21 (1,е)
(1, 2) «12 < «21, «21 < («11 + «12)/2 (1,е)
(1, 2) «12 < «21, «21 > («11 + «12)/2 (1,0)
(2,1) «12 < «21 (1 - е, 0)
(2,1) «12 > «21, «12 < («22 + «21)/2 (1 - е, 0)
(2,1) «12 > «21, «12 > («22 + «21)/2 (1, 0)
Переходя обратно к старым обозначениям и используя (43) и (44), получаем следующую таблицу.
Таблица 4.
(ioj'o) условие (вї ,вї)
(2,1) b11 > b22 (0,1)
(2,1) b11 < b22 (0,1 - є)
(1, 2) b11 > b22 (є 1)
(1, 2) b11 < b22 (0,1)
(1,1) b11 > b22 (є1)
(1,1) b11 < b22, b22 < (b11 + b21)/2 (є 1)
(1,1) b11 < b22, b22 > (b11 + b21)/2 (0,1)
(2, 2) b11 < b22 (0,1 - є)
(2, 2) b11 > b22, &11 < (b12 + b22)/2 (0,1 - є)
(2, 2) b11 > b22, b11 > (b12 + b22)/2 (0,1)
Таблица 4 совпадает с таблицей 2, что завершает доказательство леммы 2.
Благодарности
Автор выражает признательность своему научному руководителю акад. А.В. Кряжимскому за постановку задачи и руководство в процессе её решения.
Литература
1. ВОРОБЬЕВ Н.Н. Теория игр для экономистов-кибернетиков. - Москва: Наука, 1985.
2. НЕВЕ Ж. Математические основы теории вероятностей. - Москва: Мир, 1969.
3. AXELROD R. The Evolution of Cooperation. - Basic Books, 1984. ISBN 0-465-02122-2.
4. FUDENBERG D., KREPS D.M. Learning mixed equilibria // Games and Econ. Behavior. - 1993. - Vol. 5. - P. 320-367.
5. HOFBAUER J., SIGMUND K. The Theory of Evolution and Dynamical Systems. - Cambridge University Press, Cambridge, 1988.
6. KANIOVSKI YU.M., KRYAZHIMSKIY A.V., YOUNG H.P. Learning equilibria in games played by heterogeneous populations // Games and Economic Behavior. - 2000. - Vol. 31. - P. 50-96.
7. KLEIMENOV A.F., KRYAZHIMSKIY A.V. Minimum-noncooperative trajectories in repeated games, Complex Dynamical Systems with Incomplete Information // (E. Reithmeier and G. Leitmann, eds.). - Shaker Verlag, Aachen, 1999. - P. 94-107.
8. KRYAZHIMSKIY A.V., OSIPOV YU.S. On evolutionary-differential games // Proc. of Steklov Math. Inst. - 1995. -Vol. 211. - P. 257-287.
9. NOWAK M., SIGMUND K. The Alternating Prisoner’s Dilemma // J. Theor. Biol. - 1994. - Vol. 168. - P. 219-226.
10. VAN DER LAAN G., TIEMAN X. Evolutionary Game Theory and the Modeling of Economic Behavior // De Economist. -1998. - Vol. 146, № 1. - P. 59-89.
11. WEIBULL J. Evolutionary Game Theory. - Cambridge: The M.I.T. Press, 1995.
A 2 x 2 e-BEST RESPONSE STOCHASTIC TWO-STEP GAME
Anastasia Raygorodskaya, Lomonosov Moscow State University, Moscow, post-graduate student ([email protected]).
Abstract: A 2 х 2 є-best response repeated game, in which each player in each subsequent round chooses a pure strategy based on the result of a random test, is analyzed. The random test is generated by the player’s arbitrary mixed strategy prescribing the player to choose his/her best response to his/her partner’s previously chosen pure strategy with a high probability. The so defined decision making patterns (called є-best response functions) are interpreted as the players' behavioral strategies. These strategies define a stochastic game, in which the expected benefits averaged over all the rounds act as the players' benefits. The game is analyzed in the two-step case. A classification of the Nash equilibrium points is provided, and the equilibrium values are compared with the average benefits gained through the deterministic usage of the players' best response pure strategies.
Keywords: repeated games, bimatrix games, best response.
Статья представлена к публикации членом редакционной коллегии М. В. Губко