П.В.Голубцов, В.А.Любецкий
ИНФОРМАЦИОННАЯ СТРУКТУРА ДИНАМИЧЕСКИХ ИГР И ОБЪЕМ ДОСТУПНОЙ ИГРОКАМ ИНФОРМАЦИИ
Abstract. Here the dynamic game with discrete time is generalized to a stochastic environment, in order to examine the implications of incomplete and asymmetric information. In this game the next state of a system and players' payoffs depend not only on its current state and players controls, but also on Markov stochastic elements. At each step of the game, the players both know current state of the system, and also have some (generally incomplete or delayed, and even asymmetric) knowledge of the current values of stochastic elements. The knowledge structure of each specific game version is held in common by the competitors. In the dynamic game each player sets its strategy, with the objective of maximizing the expected discounted sum of seasonal payoffs, and conditional on the extent of its current knowledge, and of the anticipated policy of its competitor. The implications of alternative knowledge structures are explored, through dynamic programming and simulation. Both information structures and various game parameters are varied continuously, to explore their interplay. Particular focus is on demonstrating the often unexpected, and sometimes counter-intuitive, effects that knowledge enrichment may have, in these incomplete information games.
Ключевые слова: динамическая игра, оптимальная стратегия, равновесие по Нэшу, информационная структура игры, алгоритм, зависимость от информации.
1. Постановка задачи
Можно привести много примеров сложных информационных взаимодействий в различных системах - экономических, социальных, политических, технических, биологических. Последние, например, подробно обсуждаются в [1]. Информационное взаимодействие в системах может описываться разными математическими средствами и, в частности, такими, как стохастические динамические игры с равновесием по Нэшу. Выбор игроком на каждом шаге игры управляющего решения основан, прежде всего, на информации, доступной ему на тот момент. Характер и объем этой информации для каждого из участников игры называется информационной структурой игры.
Авторы предложили новые алгоритмы для нахождения равновесия по Нэшу. На примере хорошо известной задачи морского
рыболовства [2,3] авторы приводят имеющие общее значение и, как кажется, неожиданные выводы о зависимости результатов игры от доступной игрокам информации.
По необходимости мы начнем с краткого описания самой этой частной задачи, а затем перейдем к упомянутым выводам. В общей форме они будут представлены в другой публикации авторов.
Общий ресурс R (в этом примере - рыбы) в соответствии со значениями в и вв случайного фактора в делится на две части Ra и Re, доступные для лова соответственно игроками а и Д После лова каждым из игроков в пределах его части ресурса остатки S) и Se рыбы соединяются в общий остаток S = Sa + Se для воспроизводства из него на следующий год нового значения общего ресурса R+ = F(S). Решения игроков состоят в определении размера той части ресурса, которая не будет ими выловлена (в текущем году), т.е. Sa = ра • Ra, Se=pe-Re. Тогда уловы игроков в текущем году соответственно равны На = (1 - ра) • Ra и Нв = (1-рв) • Re. В нашей модели учитывается зависимость себестоимости лова от объема доступного игроку ресурса а именно себестоимость лова у игрока а при данном объеме x ресурса в его части обратно пропорциональна этому объему и равна са/x, где са - коэффициент стоимости лова. Этот коэффициент можно представить себе как некоторую интегральную оценку качества и характеристики обслуживания рыболовного флота игрока а; если не указано иное, то принимается с = 0.2. Таким образом, себестоимость лова (за один год) игрока а равна costa = -са • log(p)). Тогда его выигрыш (годовой доход) равен уа = На - costa. При величине На подразумевается коэффициент, переводящий объем улова в стоимость (у нас он равен 1). Аналогично для второго игрока Д Используется функция воспроизводства ресурса, которая учитывает возможность его полного уничтожения, если его объем упадет ниже некоторого критического уровня, т.е. должно выполняться F(S)<S при достаточно малых S. После некоторых обоснований естественно выбрать F(S) = 0.6 •S + 1.8 •S2 - 1.6 •S3. Кроме того, у нас значения случайного фактора в равны 6i = 0.1 или в2 = 0.9, они независимы по времени, одинаково распределены и наступают с равными вероятностями 0.5; все коэффициенты, понижающие со временем годовые доходы, равны 0.9 (для обоих игроков); коэффициенты кооперации игроков составляют единичную матрицу (для чистого соперничества) и равны все 0.5 (для полной кооперации); выбирался достаточно длинный промежуток усреднения, равный 2000 лет. Чтобы плавно менять точность поступающей к игрокам информации о случайном параметре в, использовались так называемые неточные измерения и менялся параметр точности измере-
ния п, который определяет матрицу M переходного распределения наблюдаемой величины % для различных значений в, следующим образом: по главной и вспомогательной диагоналям находится соответственно (1 + п) / 2 и (1 - п) / 2. Таким образом, если п = 1 (максимальная точность), то M - единичная матрица, что отвечает тождественному измерению. Если п = 0 (минимальная точность), то M - матрица из чисел 0.5, что отвечает независимости результатов измерения от состояния в. Детали, относящиеся к этой модели, в части задачи рыболовства можно найти в [2,3], а в математической части - в [4]. Но все эти подробности мало существенны для выводов, которые составляют основное содержание настоящей статьи и приводятся ниже в параграфе 2.
Нами были выделены и рассматривались в компьютерных экспериментах, в частности, следующие информационные структуры игры (в скобках приводится название структуры и ее обозначение).
1. Игроки в равной мере имеют в каждый текущий момент t времени (как и во все предыдущие моменты) реализацию случайного фактора в («текущая информация», обозначаемая Cur).
2. Игроки в равной мере знают только само вероятностное распределение случайного дискретного фактора в («минимальная информация», обозначаемая Min).
3. Игроки имеют асимметричную информацию: первый имеет текущую информацию по пункту 1, а второй - лишь минимальную по пункту 2 («асимметричная информация», обозначаемая Cur-Min). Здесь определяется понятие точности поступающей игрокам информации.
4. Игроки имеют в равной мере неполную информацию: они получают реализацию случайной величины % измерения случайного фактора в («неполная информация, полученная из измерений», обозначаемая Meas).
5. Игроки имеют асимметричную информацию: первый получает неполную информацию по пункту 4, а второй - лишь минимальную по пункту 2 («асимметричная неполная информация», обозначаемая Meas-Min).
6. Игроки ведут себя кооперативно в условиях одной из симметричных информационных структур 1, 2 или 4 (так как при кооперативном поведении представляется естественным, что игроки полностью обмениваются всей доступной им информацией).
Структуры из пунктов 1-5 соответствуют соперничеству игроков, а структуры из пункта 6 соответствуют их сотрудничеству.
2. Результаты компьютерного моделирования
1. Влияние коэффициента стоимости лова для различных информационных структур. Для простоты представления наших результатов будем считать здесь, что ca = Cß обозначая далее этот общий коэффициент стоимости лова как с. Графики на рис.1 показывают средние (по всем годам лова) доходы в зависимости от коэффициента стоимости с лова для указанных там пяти информационных структур игры. Наиболее интересным в случаях, когда игроки соперничают, является резкое сокращение среднего дохода при снижении коэффициента стоимости с лова. Это связано с тем, что при низком значении с конкуренция носит весьма острый характер, что приводит к резкому снижению объема ресурса. Такой эффект не наблюдается, когда игроки сотрудничают и, таким образом, оказываются в состоянии поддерживать объем рыбы на достаточно высоком уровне. Кроме того, на рис. 1 видно, что информационное преимущество в случае информационно-асимметричной игры чрезвычайно выгодно первому игроку (Cur-Min 1). Более того, ему не выгодно делиться информацией с соперником и, таким образом, перейти к игре с полной симметричной информацией (Cur). Что касается второго игрока в асимметричном случае (Cur-Min 2), то он, как правило, предпочел бы получить дополнительную информацию, но не для низкого значения с коэффициента стоимости лова (<0.3), когда односторонний недостаток информации более выгоден даже для него, чем полная симметричная информация (Cur). Заметим, что при достаточно низких значениях коэффициента стоимости с лова (<0.35) симметричная минимальная информация (Min) становится предпочтительнее полной информации (Cur). Это, по-видимому, связано с тем, что при недостатке информации возрастает риск случайного уничтожения ресурса и, как следствие этого, поведение игроков становится более «осторожным». Как отмечалось, соперничество становится особенно разрушительным при низком коэффициенте стоимости с лова, когда можно легко уничтожить ресурс. Однако если игроки сотрудничают, то их доход становится заметно выше, особенно когда себестоимость лова мала. При этом они в состоянии поддерживать объем возобновляемого ресурса на довольно высоком уровне.
Коэффициент стоимости с лова у игрока
Рис. 1. Используются сокращения: Cur - оба игрока имеют одну и ту же текущую информацию (включая все предшествующие моменты времени), и показан выигрыш 1-го игрока, 2-й игрок имеет такой же выигрыш; Cur-Min i - игроки имеют асимметричную информацию: игрок 1 обладает текущей информацией, а игрок 2 минимальной (i=1 или i=2, показаны выигрыши обоих игроков); Cur-Coop - совместная текущая информация и кооперативное поведение игроков; Min - оба игрока имеют в равной мере минимальную информацию; Min-Coop -совместная минимальная информация и кооперативное поведение игроков.
2. Информация доступна игрокам с некоторой точностью. В этом наборе численных экспериментов (рис. 2) информация о текущем значении в получается из неточных измерений случайного параметра в. Точность измерения (точность информации) является параметром, изменяющимся от 0 (отсутствие информации) до 1 (полная информация). Когда игроки сотрудничают (Meas-Coop), ситуация вполне естественная: чем точнее информация, тем выше доход. Суммарный доход в такой кооперативной игре всегда выше, чем суммарные доходы в некооперативных играх. Как видно на рис. 2, в некооперативных играх с симметричной (Meas) и асимметричной (Meas-Min) информационными структурами, повышение точности информации до определенного уровня выгодно обоим игрокам и даже игроку, которому вовсе не доступны результаты измерений (Meas-Min 2). Однако дальнейшее повышение точности информации приводит к значительному снижению доходов. По-видимому, это объясняется тем, что
стратегии игроков становятся более агрессивными. При низкой точности измерений ситуация, когда второй игрок также имеет доступ к результатам измерений (Meas), более выгодна для него, чем одностороннее полное отсутствие у него этой информации (Meas-Min 2). Однако начиная с определенного уровня точности измерений (>0.38), такая дополнительная информация становится невыгодной для него.
0.045
01-1-1-1-1-1-51-1-1-1-
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Точность информации
Рис. 2. Влияние точности поступающей информации. Здесь Meas означает, что оба игрока имеют одинаковую неполную информацию; Meas-Min i - первый игрок получает неполную информацию, а второй лишь минимальную, i=1 или i=2; Meas-Coop - кооперация в случае одинаковой неполной информации у игроков.
3. Информационная асимметрия при наличии асимметрии в природных условиях. В этом эксперименте (рис. 3) природные условия несколько благоприятствуют второму игроку. А именно в принимает значения 0.1 и 0.8 с равными вероятностями (так что доступный ресурс первого игрока составляет 0.1 или 0.8 от общего ресурса, в то время как второй игрок получает, соответственно 0.9 или 0.2 от всего ресурса). Таким образом, в среднем ресурс у первого игрока ниже, чем у второго. Как и следовало ожидать, если игроки обладают одинаковой информацией, доход второго игрока (Meas 2) всегда будет выше дохода первого игрока (Meas 1). Однако когда первый игрок (Meas-Min 1) обладает серьезным
информационным преимуществом и точность информации >0.3, то это перевесит природное преимущество второго игрока (Meas-Min 2). С другой стороны, сумма доходов игроков будет максимальной при условии кооперации, когда игроки обмениваются информацией и максимизируют их суммарный доход. Но и в этом случае вследствие природной асимметрии их непосредственные доходы не будут равны (Coop 1 и Coop 2). Такого рода сотрудничество можно рассматривать как «проявление доброй воли». Конечно, игроки могут договориться о перераспределении их суммарного дохода, что приведет к «побочным платежам» одного игрока другому. Случай равного распределения доходов также показан на рис. 3 (Coop).
0.05
Точность информации Рис. 3. Влияние точности поступающей информации при асимметричных природных условиях. Здесь Meas i означает, что оба игрока получают одинаковую неполную информацию; Meas-Min i - первый игрок получает неполную информацию, а второй лишь минимальную; Coop i -кооперация при наличии одинаковой неполной информации (кроме реальных доходов игроков в Coop 1 и Coop 2 указан и их усредненный доход Coop); i=1 или i=2.
4. Влияние самой природной изменчивости. Теперь (рис. 4) мы меняем степень природной изменчивости <6¡, в2> коэффициента в. Точнее, в принимает одно из двух значений: в1 или в2 = 1 - в1, где в1 может быть любым числом от 0 до 0.5. При в1=0.5 изменчи-
вость отсутствует (6=0.5 и постоянно), при в1=0 изменчивость максимальна (6 принимает значения 0 или 1). Возрастание дохода в кооперативной игре с полной информацией (Cur-Coop), а также при возрастании изменчивости 6 (и убывании 61) вполне естественно. Действительно, при высокой вариабельности 6 практически весь ресурс направляется в один из двух потоков, и это приводит к снижению средней себестоимости лова. Поскольку эта кооперативная игра полностью симметрична, средние годовые доходы игроков одинаковы. Похоже, что возрастание дохода в некооперативной игре при уменьшении 6i от 0.5 до 0.4 может иметь такое же объяснение. Однако при малых 6i роль соперничества (особенно при полной информации Cur) становится доминирующей. Действительно, если весь ресурс попадает в один поток, то соответствующий флот может практически полностью выловить его при сравнительно низких затратах.
СЗ И
О &
S
ч о
X
о «
к я
ч <ц
а
и
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Степень природной изменчивости 01
Рис. 4. Cur означает текущую информацию; Cur-Min i - асимметричную информацию, когда игрок 1 обладает текущей информацией, а игрок 2 минимальной, i=1 или i=2; Cur-Coop - кооперацию с текущей информацией; Min - минимальную информацию; Min-Coop - кооперацию с минимальной информацией.
5. Переход игроков от соперничества к сотрудничеству. Наконец, опишем простой способ включения «кооперации» в модель игры.
На рис. 5 представлена зависимость среднего дохода игрока от «степени сотрудничества» игроков для случаев текущей или минимальной информации. Нулевая степень кооперации й игроков соответствует поведению чистого соперничества, когда каждый игрок максимизирует только свой доход, в то время как степень кооперации 1 означает, что оба игрока максимизируют полный доход. При промежуточных степенях кооперации каждый игрок максимизирует выпуклую комбинацию своего дохода и дохода соперника. Точнее, коэффициенты кооперации определяются через степень кооперации, обозначаемую й, следующим образом: по главной и вспомогательной диагоналям находятся соответственно значения 1 - (й / 2) и й / 2. Таким образом, когда й меняется от 0 до 1, коэффициенты кооперации меняются от «отсутствия кооперации» до «полной кооперации». На рис. 5 хорошо видно, что дополнительная информация выгодна для игроков только в том случае, когда уровень их кооперации достаточно высок. При низком уровне их кооперации и особенно в ситуации соперничества дополнительная информация приводит к критическому сокращению ресурса и нулевому доходу.
Степень сотрудничества игроков
Рис. 5. Влияние степени сотрудничества при текущей и минимальной информациях. Cur - текущая, Min - минимальная информации.
3. Описание идеи алгоритмов. Здесь используются некоторые стандартные обозначения из теории дискретных марковских процессов управления (см. например, [4]). Для случая Cur авторы предлагают по аналогии с динамическим программированием ввести функцию
V# = Vх, (Rt, vt, < Pat, Qat+i >, < Pßt, Qßt+i>),
описывающую выигрыш игрока а, который соответствует произвольным стратегиям Pat и Pßt в момент t и оптимальным «хвостовым» последовательностям Qat и Qßt. А также аналогичную функцию для игрока ß. Тогда оптимальные стратегии в момент t могут быть получены путем нахождения точек равновесия по Нэшу при всех возможных значениях Rt и vt для функций V # игроков а и ß относительно переменных <pat, pßt>. Таким образом, равновесные по Нэшу стратегии могут быть построены рекурсивно.
В случае неточной информации авторы предлагают следующую поточечную конструкцию для получения стратегий, обеспечивающих равновесие по Нэшу в функциональных пространствах. Иными словами, авторы предлагают способ перехода от задачи построения равновесия по Нэшу в функциональном пространстве к такой же задаче в конечномерном арифметическом пространстве. Определим
Wat = vat (R, v, Pa(R, ф), Pß(R, ф)) + YaU*\i(Pt(R, v, Pa(R, ф), Pß(R, ф)))
и аналогичную функцию для игрока ß. Предположим, что для некоторого фиксированного ф стратегии P а и P ß обеспечивают равновесие по Нэшу для функций
V~a(R, ф Pa, Pß) = E(v\gWat(R, v, ф Pa, Pß)
и аналогично для ß. Это означает, что для всех R и фи произвольных стратегий Pa и Pß выполняется
V ~a(R, ф ?а, Pß >V ~a(R, ф Pa, Pß
и аналогично для ß. Отсюда получаем
U ~a(R, P^a, Pß = ЕфУ ~a(R, ф P^a, Pß >EV ~a(R, ф Pa, Pß) = U ~a(R, Pa, Pß
и аналогично для ß. Таким образом, исходная задача построения стратегий, обеспечивающих равновесие по Нэшу, сводится к аналогичной задаче для функций V'a и а для этой второй задачи стратегии, обеспечивающие равновесие по Нэшу, вычисляются «поточечно». Подробно наши алгоритмы изложены в [5].
ЛИТЕРАТУРА
1. Кузнецов Н.А., Любецкий В.А., Чернавский А.В. Информационные взаимодействия, 1: допсихический уровень // Информационные процессы. 2003. №1 (Электронная версия: http://www.jip.ru/).
2. Clark C.W. (1980). Restricted access to common-property fishery resources: a game-theoretic analysis // Dynamic Optimization and Mathematical. Economics. New York: Plenum. P. 117-132.
3. Levhari, D., Mirman L.J. The great fish war: an example using a dynamic Cournot-Nash solution // Bell Journal of Economics, 1980. V. 11, P. 322344.
4. Hernandez-Lerma O., Lasserre J.B. Discrete-Time Markov Control Processes. Basic Optimality Criteria. New York: Springer, 1996.
5. Голубцов П.В., Любецкий В.А. (2003). Стохастические динамические игры с информацией различного типа // Проблемы передачи информации. РАН, том 39, вып. 3, С. 40-71.