Модели рефлексивного принятия решений

Новиков Д. А.; Чхартишвили А. Г.

роблемно ориентированные системы управления

УДК 519

МОДЕЛИ РЕФЛЕКСИВНОГО ПРИНЯТИЯ РЕШЕНИЙ

Д. А. Новиков1, А. Г. Чхартишвили2

1Институт проблем управления им. В. А. Трапезникова, г. Москва,

2Московский государственный университет им. М. В. Ломоносова

Дан обзор современного состояния теоретико-игровых моделей рефлексивного принятия решений. Отмечено, что большинство концепций равновесия в теории игр основаны на том, что параметры игры являются общим знанием, т. е. известны всем игрокам (агентам), всем агентам известно, что это всем известно и так далее до бесконечности. Рассмотрен общий случай, когда агенты могут иметь различные представления о представлениях друг друга, что приводит к бесконечной (рефлексивной) структуре информированности. Показано, что в этом случае целесообразно применение концепции информационного равновесия. Описана рефлексивная модель, дано определение информационного равновесия, приведены результаты исследования его свойств (существование, стабильность и др.) и решения для ряда случаев задачи о максимальном ранге рефлексии, а также некоторые примеры.

ВВЕДЕНИЕ

Теоретико-игровые модели широко применяются для описания социально-экономических систем (см., например, книги [1—3]). Многообразие экономических и социальных отношений обусловливает и многообразие постановок игровых задач. В настоящей работе обсуждается информационный аспект принятия решений в конфликтной ситуации и, в частности, влияние взаимной информированности.

Как известно [2, 3], игра Г0 в нормальной форме описывается, во-первых, кортежем Г0 = {N, (X) £ N, (f( •)). £ N}, включающим в себя множество игроков (агентов) N = {1, 2, ..., и}, множества их допустимых действий (X). £ N и совокупность целевых функций (f( •)). £ N, :

— Xj о ЭТ1, i £ N (здесь и далее ЭТ1 — множество веще-

J £ N

ственных чисел), и, во-вторых, — информированностью агентов, т. е. той информацией, которой они обладают на момент выбора своих действий. Традиционно в теории некооперативных игр предполагается, что агенты выбирают свои действия одновременно и независимо, а информация об игре Г0 является общим знанием (common knowledge — см., например, работы [2—7]), т. е. каждому агенту известен набор участников игры, все целевые функции и допустимые множества, а также известно, что это известно остальным агентам и им известно также о его информированности и так далее до бесконечности. Можно сказать так: все агенты знают, в

какую игру они играют, т. е. условия игры (правила, возможности и интересы участников) являются общим знанием.

Для выбора действия в описанной ситуации каждый агент должен смоделировать действия других агентов, чтобы самому выбрать действие, максимизирующее целевую функцию (предположение о том, что агент, выбирая свое действие, пытается максимизировать целевую функцию с учетом всей имеющейся у него информации, называется гипотезой рационального поведения [2]). Это моделирование агентом хода мысли других агентов называется рефлексией [4—6]. И здесь, опять же, весьма существенную роль играет информированность агентов.

Размышления агента о выборе свое го действия включают в себя стратегическую рефлексию — какие действия выберут остальные? Размышления такого рода можно проводить различным образом, и исход игры, соответственно, будет разный. В настоящей работе мы будем исходить из наиболее распространенной сегодня концепции решения игры — равновесия Нэша. Равновесие Нэша — это ситуация, в которой каждый агент выбирает наилучшее для себя действие при фиксированных действиях остальных (или, иначе говоря, ситуация, в которой никто не может увеличить свой выигрыш, выбрав в одностороннем порядке другое действие). Более строго: вектор действий ([]_, ..., х*п) называется равновесным по Нэшу,

если V/ е N х* е А^тах Дх\,..., х*_х, , х*+ х, ..., х*п)

Х1 е

Существенно следующее: чтобы вычислить свое равновесное по Нэшу действие, /-й агент должен знать все це-

62

CONTROL SCIENCES № 4 • 2DD4

левые функции и допустимые множества и быть уверенным, что и остальные игроки их знают, и что они знают, что все остальные их знают и т. д. Таким образом, концепция равновесия Нэша существенно опирается на то обстоятельство, что условия игры являются общим знанием.

Отметим, что существует ряд моделей, в которых стратегическая рефлексия более сложная, чем в игре в нормальной форме Г0 (в том числе стратегическая рефлексия в биматричных играх, рассмотренная в работе [5]). Среди них: иерархические игры [8], информационные расширения игр [9, 10], концепции связанного равновесия (correlated equilibrium) [3] и решения в угрозах-контругрозах [11]. Тем не менее, во всех этих моделях условия игры являются общим знанием.

В отличие от кратко перечисленных выше моделей стратегической рефлексии в настоящей работе рассматривается модель, в которой не все параметры игры являются общим знанием. Для описания этой модели предположим, что выигрыши агентов зависят не только от их действий, но и от некоторого параметра 0 £ : (“состояния природы”), значение которого не является общим знанием, т. е. целевая функция L-го агента имеет вид fi(0, х1, ..., хи), i £ N. Тогда стратегической рефлексии логически предшествует информационная рефлексия — размышления агента о том, что каждый агент знает (предполагает) о параметре 0, а также о предположениях (представлениях) других агентов и пр. Тем самым мы приходим к понятию структуры информированности агента, отражающей его информированность о неизвестном параметре, о представлениях других агентов и т. д.

В работе [12] в рамках вероятностной информированности (представления агентов включают в себя следующие компоненты: вероятностное распределение на множестве состояний природы; вероятностное распределение на множестве состояний природы и распределениях на множестве состояний природы, характеризующих представления остальных агентов, и т. д.) было построено универсальное пространство возможных взаимных представлений (universal beliefs space). При этом игра формально сводится к некоей байесовой игре [2—5], решением которой является равновесие Байеса—Нэша, введенное Дж. Харшаньи [13].

В байесовых играх, во-первых, как правило, предполагается, что представления агентов (априорное распределение вероятностей состояний природы) являются общим знанием (возможность отказа от предположения об общем знании априорных вероятностей в байесовой игре обсуждается в работе [14]). Во-вторых, предложенная в работе [12] конструкция настолько громоздка, что найти решение “универсальной” байесовой игры в общем случае, по-видимому, невозможно (см. также работу [15]).

Поэтому целесообразно рассматривать частный случай представлений агентов — точечную структуру информированности (у агентов имеются вполне определенные представления о значении неопределенного параметра; о том, каковы представления (также вполне определенные) остальных агентов, и т. д. [16]). Для нее можно формулировать определение конечной сложности, позволяющее, в свою очередь, конструктивно определить информационное равновесие [16], являющееся обобщением равновесия Нэша, и исследовать его свойства: существование [16, 17], стабильность [18] и др., а также решить ряд прикладных задач [5, 6, 19].

1. СТРУКТУРА ИНФОРМИРОВАННОСТИ

Рассмотрим множество N = {1, 2, ..., п} агентов. Если в ситуации присутствует неопределенный параметр 0 е О (будем считать, что множество О является общим знанием), то структура информированности I /-го агента включает в себя следующие элементы: представление /-го агента о параметре 0 — обозначим его 0;, 0; е О; представления /-го агента о представлениях других агентов о параметре 0 — обозначим их 0^., 0/. е О, . е 1; представления /-го агента о представлении у-го агента о представлении к-го агента — обозначим их 0^к, 0.к е О, ], к е N. И так далее. В результате мы получаем иерархию представлений /-го агента.

Иначе говоря, структура информированности , /-го агента задается набором всевозможных значений вида 0у ] , где I пробегает множество целых неотрицательных чисел, М1, ..., ]1 е 1, а 0/.1 ^.1 е О.

Аналогично задается структура информированности I игры в целом — набором значений 0^ {, где I пробе-

гает множество целых неотрицательных чисел,.1, ...,]1 е N а 0у ] е О. Подчеркнем, что структура информированности I “недоступна” наблюдению агентов, каждому из которых известна лишь некоторая ее часть.

Таким образом, структура информированности — бесконечное п-дерево (т. е. тип структуры постоянен и является п-деревом), вершинам которого соответствует конкретная информированность реал ьных и фантомных (см. ниже) агентов.

Рефлексивной игрой Г, назовем игру, описываемую следующим кортежем:

Г, = N (;),■ е N, (//■(•)), е N1ь где N — множество агентов, — множество допустимых действий /-го агента, //.(•): О х Х1 х ... х Хп о ЭТ1 — его целевая функция, / е N, I — структура информированности.

Отметим, что термин “рефлексивные игры” был введен В.А. Лефевром в 1965 г. (см. систематическое изложение предложенного им подхода в работе [4]). Однако в упомянутой работе содержится, в основном, качественное обсуждение эффектов рефлексии во взаимодействии субъектов, и никакой общей концепции решения для этого класса игр не предлагается.

Таким образом, рефлексивная игра является обобщением понятия игры Г0 в нормальной форме на случай, когда информированность агентов отражена иерархией их представлений (структурой информированности I) о состоянии природы (остальные параметры игры являются общим знанием). В рамках принятого определения “классическая” игра в нормальной форме является частным случаем рефлексивной игры — игры с общим знанием. В “предельном” случае — когда состояние природы является общим знанием — предлагаемая в настоящей работе концепция решения рефлексивной игры (информационное равновесие — см. § 2) переходит в равновесие Нэша.

ПРОБЛЕМЫ УПРАВЛЕНИЯ № 4 • 2DD4

из

Сделаем важное замечание: в настоящей работе мы ограничимся рассмотрением точечной структуры информированности, компоненты которой состоят лишь из элементов множества О. Более общим случаем является, например, интервальная или вероятностная информированность (о последней см. Введение).

Для формулировки некоторых определений и свойств нам понадобятся следующие обозначения: 6+ — множество всевозможных конечных последовательностей индексов из N 6 — объединение множества 6+ с пустой последовательностью; |а| — число индексов в последовательности а (для пустой последовательности принимается равным нулю).

Если 0; — представления /-го агента о неопределенном параметре, а 0// — представления /-го агента о собственном представлении, то естественно считать, что

0/7= 0;. Иными словами, /-й агент правильно информирован о собственных представлениях, а также считает, что таковы и другие агенты и т. д. Формально это означает, что выполнена аксиома автоинформированности, которую далее будем предполагать имеющей место: V/ е N VI, а е 6 0 ..а= 0. .

7 тиа т/а

Эта аксиома означает, в частности, что, зная 0т для всех т е 6+, таких что |т | = у, можно однозначно найти

0т для всех т е 6+, таких что |т | < у.

Наряду со структурами информированности I, / е N, можно рассматривать структуры информированности I. (структура информированности у-го агента в представлении /-го агента), 1.к и т. д. Отождествляя структуру информированности с характеризуемым ею агентом, можно сказать, что, наряду с п реальными агентами (/-агентами, где / е N со структурами информированности I, в игре участвуют фантомные агенты (т -агенты, где т е 6+,

| т | > 2) со структурами информированности 1т = {0та}, а е 6. Фантомные агенты, существуя в сознании реальных агентов, влияют на их действия, о чем пойдет речь далее.

Определим существенное для дальнейших рассмотрений понятие тождественности структур информированности.

Структуры информированности 10 и I (0, р е 6+) называются тождественными, если выполнены условия:

• 00а= 0ра для любого а е 6;

• последние индексы в последовательностях 0 и р совпадают.

Будем обозначать тождественность структур информированности следующим образом: ^ = I.

Первое из этих условий в определении тождественности структур прозрачно, второе же требует некоторых пояснений. Дело в том, что далее мы будем обсуждать действие т-агента в зависимости от его структуры информированности I и целевой функции //., которая как раз определяется последним индексом последовательности т. Поэтому удобно считать, что тождественность структур информированности означает в том числе и тождественность целевых функций.

Утверждение 1. I = I о Vа е 6 I. = I

г ^ 0 р 0а ра

Доказательства утверждений 1—6 (см. далее) можно найти в работах [5, 16, 17].

Содержательный смысл утверждения 1 состоит в том, что тождественность двух структур информированности в точности означает тождественность всех их подструктур.

Следующее утверждение представляет собой, по сути, иную формулировку аксиомы автоинформированности.

Утверждение 2. V/ е N V!, а е 6 /йа =

Определение тождественности структур информированности (как и последующие, приводимые в настоящем параграфе) можно переформулировать так, чтобы соответствующее свойство структуры информированности выполнялось не объективно, а т-субъективно — в представлении т-агента (т е 6+): структуры информированности I, и I (0, р е 8+) называются т-субъективно тождественными, если 10 = I .

’ т0 тр

В дальнейшем будем формулировать определения и утверждения сразу т-субъективно для т е 6, имея в виду, что если т — пустая последовательность индексов, то “т-субъективно” означает “объективно”.

0-агент называется т-субъективно адекватно информированным о представлениях р-агента (или, короче, о р-агенте), если = I (0, р е 6+, т е 6). Будем обозначать т-субъективную адекватную информированность 0-агента о р-агенте следующим образом:

Утверждение 3. Каждый реальный агент т-субъектив-но считает себя адекватно информированным о любом агенте, т. е. V/ е N Vт е 6 Va е 6, I. > I.

7 т I XI а

Содержательно утверждение 3 отражает тот факт, что рассматриваемая точечная структура информированности подразумевает наличие у каждого агента уверенности в своей адекватной информированности о всех элементах этой структуры.

0-агент и р-агент называются т-субъективно взаимно информированными, если одновременно выполнены тождества ^р = ^ ^0 = 4(0, р е 6, т е 6).

Будем обозначать т-субъективную взаимную информированность 0-агента и р-агента следующим образом:

I, >< I.

0 т р

0-агент и р-агент называются т-субъективно одинаково информированными о а-агенте, если /0а = I (а, 0, р е 6+, т е 6).

Будем обозначать т-субъективную одинаковую информированность 0-агента и р-агента о а-агенте следующим образом: ^ >а< т I.

0-агент и р-агент называются т-субъективно одинаково информированными, если V/ е N /0; = I . (0, р е 6+, т е 6).

Будем обозначать т-субъективную одинаковую информированность 0-агента и р-агента следующим образом: I, ~ I .

0 т р

Отметим, что отношения одинаковой информированности о каком-либо агенте и одинаковой информированности являются отношениями эквивалентности (т. е. рефлексивны, симметричны и транзитивны на множестве агентов). Покажем, что одинаковая информированность равносильна одинаковой информированности о любом агенте.

Утверждение 4. 4 ~ О Va е 6+ ^ >а< т7.

Приведенные определения показывают, что описание ситуации в содержательных терминах адекватной,

взаимной и одинаковой информированности могут быть описаны через тождество соответствующих структур информированности. Следующее утверждение касается связи введенных понятий друг с другом.

Утверждение 5. Для любого т е 6 следующие условия равносильны:

• любые два реальных агента т-субъективно являются взаимно информированными;

• все реальные агенты т-субъективно являются одинаково информированными;

• для любого / е N структура I. т-субъективно зависит только от /.

То есть для любого т е 6 выполнено: (V/, . е N

I. >< I) о (I, а ... а I) о (V/ е N Va е 6 I . = I).

/ т . 1 т т п та/ т/

Понятие тождественности структур информированности позволяет определить их важное свойство — сложность. Заметим, что наряду со структурой I имеется счетное множество структур I, т е 6+, среди которых можно при помощи отношения тождественности выделить классы попарно нетождественных структур. Число этих классов естественно считать сложностью структуры информированности.

Будем говорить, что структура информированности I имеет конечную сложность V = у(!), если существует такой конечный набор попарно нетождественных структур {, ..., }, т 1 е 6+, I е {1, ..., п}, что для любой

структуры I, а е 6+ найдется тождественная ей структура I из этого набора. Если такого конечного набора

не существует, будем говорить, что структура I имеет бесконечную сложность: v(I) = да.

Структуру информированности, имеющею конечную сложность, будем называть конечной. В противном случае структуру информированности будем называть бесконечной.

Ясно, что минимально возможная сложность структуры информированности в точности равна числу участвующих в игре реальных агентов (напомним, что по определению тождественности структур информированности они попарно различаются у реальных агентов).

Любой набор (конечный или счетный) попарно нетождественных структур I, т е 6+, такой, что любая структура I, а е 6+, тождественна одной из них, назовем базисом структуры информированности I.

Если структура информированности I имеет конечную сложность, то можно определить максимальную длину последовательности индексов у такую, что, зная все структуры I, т е 6+, |т| = у, можно найти и все остальные структуры. Эта длина в определенном смысле характеризует ранг рефлексии, необходимый для описания структуры информированности.

Будем говорить, что структура информированности

I, v(I) < да, имеет конечную глубину у = у (I), если:

• для любой структуры I, а е 6+, найдется тождественная ей структура I, т е 6+, |т| < у;

• для любого целого положительного числа [, [ < у, существует структура I, а е 6+, не тождественная никакой из структур I, т е 6+, |т| = [.

Если v(I) = да, то и глубину будем считать бесконечной: уЦ) = да.

Введенный “язык” описания структур информированности является удобным средством анализа их

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

свойств — одинаковой, адекватной, взаимной и другой информированности агентов. Имея описание структуры информированности, можно рассматривать процесс совместного принятия решений реальными и фантомными агентами, что приводит к понятию информационного равновесия.

2. ИНФОРМАЦИОННОЕ РАВНОВЕСИЕ

Если задана структура I информированности игры, то тем самым задана и структура информированности каждого из агентов (как реальных, так и фантомных). Выбор т-агентом своего действия х в рамках гипотезы рационального поведения определяется его структурой информированности /, поэтому, имея перед собой эту структуру, можно смоделировать его рассуждения и определить это его действие. Выбирая свое действие, агент моделирует действия других агентов (осуществляет рефлексию). Поэтому при определении исхода игры необходимо учитывать действия как реальных, так и фантомных агентов.

Набор действий х*, т е 6+, назовем информационным равновесием, если выполнены следующие условия:

1) структура информированности I имеет конечную сложность V;

2) УХ, р е 6+ ]^0 = ^ ^ х0 = хр

3) V/ е N, Va е 6

ха/ е Агётах 4/1 ..., 4;, /-1, х,

Х/ е X/

хы, / +1 ..., 4;, п) (1)

Первое условие означает, что в рефлексивной игре участвует конечное число реальных и фантомных агентов. Второе условие отражает требование того, что одинаково информированные агенты выбирают одинаковые действия. И, наконец, третье условие отражает рациональное поведение агентов — каждый из них стремится выбором собственного действия максимизировать свою целевую функцию, подставляя в нее действия других агентов, которые оказыва ются рациональными с точки зрения рассматриваемого агента в рамках имеющихся у него представлений о других агентах.

В соответствии с условием 2 для определения информационного равновесия требуется решить, казалось бы, бесконечное (счетное) число уравнений и получить столько же значений х*. Однако оказывается, что на самом деле число уравнений и значений конечно.

Утверждение 6. Если информационное равновесие х*, т е 6+, существует, то оно состоит из не более чем V попарно различных действий, а в системе (1) содержится не более, чем V попарно различных соотношений.

Таким образом, для нахождения информационного равновесия х*, т е 6+, достаточно записать V условий (1)

для каждого из V попарно различных значений х*, отвечающих попарно различным структурам информированности I.

т

Если все агенты одинаково информированы, то сложность структуры информированности минимальна и равна числу агентов. В этом случае система (1) пере-

Рис. 1. Граф рефлексивной игры в примере 1 (все агенты одинаково информированы)

Рис. 2. Граф рефлексивной игры в примере 1 (первые два агента — одинаково информированные оптимисты, а третий — пессимист, который считает всех трех агентов одинаково информированными пессимистами; первые два агента адекватно информированы о третьем агенте)

ходит в определение равновесия Нэша, а информационное равновесие — в равновесие Нэша.

Удобным инструментом исследования информационного равновесия служит граф рефлексивной игры [5], в котором вершины соответствуют реальным и фантомным агентам (т. е. число вершин равно V — сложности структуры информированности), и в каждую верши-ну-агента входят дуги (их число на единицу меньше числа реальных агентов), идущие из вершин-агентов, от действий которых в субъективном равновесии зависит выигрыш данного агента. Граф рефлексивной игры может быть построен и без конкретизации целевых функций агентов. При этом он отражает если не количественное соотношение интересов, то качественное соотношение информированности рефлексирующих агентов, и служит удобным и выразительным средством описания эффектов рефлексии.

Пример 1 (олигополия Курно). Пусть имеются три агента с целевыми функциями следующего вида:

У/(0, х1, х2, х3) = (0 — х1 — х2 — х3) х. — х1 /2, где х. О О, / е N = {1, 2, 3}; 0 е О = {1, 2}.

Содержательно, х/ — объем выпуска продукции /-м агентом, 0 — спрос на произво димую про дукцию. Тогда первое слагаемое в целевой функции может интерпретироваться как выручка от продаж (произведение цены на объем продаж), а второе слагаемое — как затраты на

производство. Для краткости будем называть агента, считающего, что спрос низкий (0 = 1), пессимистом, а считающего, что спрос высокий (0 = 2), — оптимистом.

Пусть первые два агента — оптимисты, а третий — пессимист, причем все трое одинаково информированы. Тогда в соответствии с утверждением 5 для любого а е 6 выполняются тождества = Il, !а2 = /2, Ia3 = /3 (соглас-

но условию 2 определения информационного равновесия, аналогичные соотношения выполняются для равновесных действий х*). Видно, что любая структура информированности тождественна одной из трех, образующих базис: {^ !2, !3}. Поэтому сложность данной структуры информированности равна трем, а глубина равна единице. Граф рассматриваемой рефлексивной игры приведен на рис. 1.

Действия агентов в ситуации информационного равновесия (являющегося параметрическим равновесием

Нэша) будут следующими: х\ = х2 = 1/2, х3 = О.

Рассмотрим другой вариант информированности: пусть первые два агента — оптимисты, а третий — пессимист, который считает всех трех агентов одинаково информированными пессимистами. Первые два агента одинаково информированы, причем оба они адекватно информированы о третьем агенте. Имеем: а !2, ^ ^

!2 > !3, а 3!2 а ^ Эти условия можно записать в виде следующих тождеств, имеющих место для любого а е 6 (воспользуемся соответствующими определениями и утверждениями 1, 2, и 5):

I12а ^ а, I13a I3a, ^10 I1a, ^3а I3a,

I3a1 = ^2 = ^2, I3a3 = Ь'

(Аналогичные соотношения выполняются для равновесных действий х0 ). Левые части этих тождеств показывают, что любая структура ^ при |а| > 2 тождественна некоторой структуре !т, |т| < |а|. Поэтому глубина структуры I не превосходит двух и, следовательно, она имеет конечную сложность. Правые части показывают, что базис образуют следующие структуры: {^ !2, !3, ^ !32} (нетрудно убедиться, что они попарно различны). Таким образом, сложность данной структуры информированности равна пяти, а глубина равна двум. Граф рассматриваемой рефлексивной игры приведен на рис. 2.

Действия реальных агентов в ситуации информационного равновесия будут следующими: х\ = х2 = 9/2О,

х3 = 1/5. Видно, что, изменив лишь представления агентов о представлениях друг друга, можно повлиять на выбираемые ими действия.

3. РЕГУЛЯРНЫЕ СТРУКТУРЫ ИНФОРМИРОВАННОСТИ И РЕФЛЕКСИВНЫЕ ОТОБРАЖЕНИЯ

Будем рассматривать регулярные структуры информированности [5], для задания которых введем вспомогательное понятие регулярного конечного дерева (РКД), которое определим рекуррентно. Пусть в и гре участвуют п агентов. Если (в простейшем случае) все агенты одинаково информированы [5], то структура информированности имеет сложность п и единичную глубину. Бу-

дем представлять эту ситуацию в виде дерева, состоящего из корневой вершины, п ребер и п висячих вершин. Далее РКД может “расти” следующим образом: к каждой висячей вершине т/, т е 6, присоединяется ровно (п — 1) ребер, при этом возникает (п — 1) висячая вершина ту,. = 1, ..., / — 1, / + 1, ..., п. Построенное РКД будем интерпретировать так: если имеется висячая вершина т/, т е 6, то т/-агент одинаково информирован с т-агентом (если т — пустая последовательность, то т/-агент — реальный, и его субъективные представления совпадают с объективными).

Обозначим множество параметрических (параметр — вектор 0 = (01, 02, ..., 0п) е Оп) равновесий Нэша

^(0) = {{х/}/ е N е х'\ v/ е ^ vУi е

//.(0/, хр ..., хп) >/(0, хр ..., х/ — 1, у, х1 + 1, ..., хи)}, (2)

где X' = — х,

/ е N

а объединение этих множеств по всевозможным представлениям о значении состояния природы обозначим

EN = 8 пEN(01, 02, ..., 0п).

(01,02, ..., 0п)еОп

Предположим, что на нижнем уровне {0т//}у- е N конечной регулярной структуры информированности имеет место субъективное общее знание фантомных агентов. Тогда с точки зрения т/-агента возможными являются равновесия их игры из множества Еы-е ы). Введем множество наилучших ответов /-го агента на выбор оппонентами действий из множества Х_{ (индекс “—/” обозначает множество N\{/} оппонентов /-го агента) при множестве О возможных состояний природы:

В5;(О, Х_) = и Аrgmах /(0, х,, х ), / е N,

х_/ е Х_/, 0 е О х/ е х

а также следующие величины и множества: EN = = 8 Ен(0), ХО = Рго]1Еы, / е N, Хк; = - Хк, / е N,

0 е Оп у * /

к = О, 1, 2, ..., где

Хк = ВЩ(О, ХкГ1), к = 1, 2, ..., / е N. (3)

Отображение ВЩ(•, •): О х Х_{ о Х называется рефлексивным отображением /-го агента, / е N.

Утверждение 7. Хк с Хк +1, к = О, 1, ..., / е N, т. е. с ростом ранга рефлексии множества (3) возможных наилучших ответов агентов не сужаются.

Доказательства утверждений 7 и 8 можно найти в работе [5].

Таким образом, информационное равновесие может быть вычислено следующим образом. Если на нижнем уровне конечной регулярной структуры информированности имеет место субъективное общее знание, то исходом игры соответствующих фантомных агентов будет параметрическое равновесие Нэша (2). Обозначим это равновесие #, # = (#1, ..., #п) е ХТогда агенты следующего (более высокого) уровня выберут действия, являющиеся в рамках их информированности наилучшими ответами на обстановку, соответствующую этому равно-

весию. Аналогичным образом поступят агенты следующего уровня и т. д., вплоть до реальных агентов. Поясним описанную конструкцию на примере двух агентов. Если на нижнем уровне РКД имеется равновесие #, то с точки зрения, например, первого — реального — агента он должен выбрать действие х1 = В51(01, В52(012, ..., ВЩ(01т/, #_/))) (/ = 1 или 2 в зависимости от четности глубины РКД). В общем же случае действия реальных и фантомных агентов будут описываться системой итерированных отображений (3), начальной точкой для которых будет параметрическое равновесие Нэша #, “сложившееся” на нижнем уровне РКД.

Рассуждения о свойствах рефлексивных отображений оказываются существенными при рассмотрении задачи о максимальном целесообразном ранге рефлексии (ранг рефлексии агента на единицу меньше глубины структуры его информированности), в рамках которой для каждого реального агента требуется определить минимальный ранг рефлексии, при котором множество его равновесных действий охватывает все многообразие равновесных действий своих в рефлексивной игре (при различных вариантах структуры информированности). Данная задача является математической формулировкой вопроса о том, насколько сложную структуру информированности требуется сформировать управляющему органу — центру — при осуществлении информационного управления [5, 19] — воздействия на структуры информированности управляемых субъектов с целью добиться выбора ими требуемых действий как компонентов информационного равновесия.

Рефлексивное отображение /-го агента называется к к + 1

стационарным, если Х/ = Х/ , к = О, 1, ...

Утверждение 8. Если рефлексивные отображения агентов стационарны, то максимальный целесообразный ранг рефлексии равен двум и множество действий /-го агента, которые могут быть реализованы как компоненты информационного равновесия, составляет ХО, / е N. При этом множество информационных равновесий составляет Е = — ХО .

/ е N

Таким образом, если рефлексивные отображения стационарны, то при осуществлении информационного управления увеличивать ранг рефлексии, свыше второго, не имеет смысла.

4. СТАБИЛЬНОЕ ИНФОРМАЦИОННОЕ РАВНОВЕСИЕ

Одна из основных особенностей “классического” равновесия Нэша состоит в его самоподдерживающемся характере — если игра повторяется несколько раз, и все игроки, кроме /-го, выбирают одни и те же равновесные действия, то и /-му нет резона отклоняться от своего равновесного действия. Это обстоятельство очевидным образом связано с тем, что представления всех игроков о реальности адекватны.

В случае информационного равновесия ситуация, вообще говоря, может быть иной. Действительно, в результате однократного разыгрывания игры может оказаться, что какие-то из игроков (или даже все) наблюдают не тот результат, на который они рассчитывали.

Рис. 3. Матрицы выигрышей в примере 2

Это может быть связано как с неверным представлением о состоянии природы, так и с неадекватной информированностью о представлениях оппонентов. В любом случае, самоподдерживающийся характер равновесия нарушается — если игра повторяется во второй раз, действия игроков могут измениться.

Однако в некоторых случаях самоподдерживающий-ся характер равновесия может иметь место и при различных (и, вообще говоря, неверных) представлениях агентов. Говоря неформально, это происходит тогда, когда каждый агент (как реальный, так и фантомный) наблюдает тот результат игры, которого ожидает. Для формального описания нам понадобится дополнить описание рефлексивной игры.

Дополним определение рефлексивной игры (см. ранее), набором функций (•): О х Хо , / е N, каждая из которых отображает вектор (0, х) в элемент некоторого множества . Этот элемент и есть то, что /-й

агент наблюдает в результате разыгрывания игры.

Функцию (•) будем называть функцией наблюдения /-го агента. Будем считать, что функции наблюдения являются общим знанием среди агентов.

Если (0, х) = (0, х), т. е. = О х Х\ то /-й агент наблюдает как состояние природы, так и действия всех агентов. Если, напротив, множество состоит из одного элемента, то /-й агент ничего не наблюдает.

Пусть в рефлексивной игре существует информационное равновесие хт, т е 6+. Зафиксируем / е N и рассмотрим /-го агента. Он ожидает в результате игры пронаблюдать величину

иДОр ДСд, I _ Р X,, Хи і + !, Хіп).

(4)

На самом же деле он наблюдает величину

и>/е, х1, ..., х1 — 1, х, х1 + 1, ..., хп). (5)

Поэтому требование стабильности для /-агента означает совпадение величин (4) и (5) (напомним, что эти величины — элементы некоторого множества ).

Пусть величины (4) и (5) равны, т. е. /-агент и после разыгрывания игры не сомневается в истинности своих представлений. Однако является ли это достаточным основанием для того, чтобы он и в следующий раз выбрал то же действие х?? Ясно, ответ отрицательный, что и продемонстрируем на следующем примере.

Пример 2. Пусть в рефлексивной биматричной игре, где О = {1, 2}, выигрыши заданы биматрицами (агент 1 выбирает строку, агент 2 — столбец) на рис. 3, и при этом второй агент считает общим знанием 0 = 2, а первый агент знает реальное состояние природы 0 = 1 и адекватно информирован о втором. Иными словами,

0 = 01 = 1, 02 = 021 = 2.

Пусть, далее, каждый агент наблюдает свой выигрыш (и это является общим знанием). Для рассматриваемого примера граф рефлексивной игры имеет следующий вид: 1т 2 1 21.

Ясно, что информационным равновесием является набор х1 = х2 = х21 = 2, т. е. первый и второй агенты, а также 21-агент (первый агент в представлении второго) выбирают вторые действия. Однако реальное состояние природы 0 = 1 становится известным второму агенту после розыгрыша игры (и получения им выигрыша О вместо ожидаемого 2). Поэтому в следующий раз второй агент выберет действие х2 = 1, что побуждает и первого агента изменить свое действие (выбрать х1 = 1).

Таким образом, для стабильности равновесия необходимо, чтобы и //-агент, /, у е N, наблюдал “нужную” величину. Он ожидает в результате игры пронаблюдать

И (0іУ’ ХіА’ Хі/, У _ і’ ХІМ ’ Ха, / + і’ V»-

(6)

На самом же деле (т. е. /-субъективно, ведь /.-агент существует в сознании /-агента) он наблюдает величину

И(ЄІ’ Хіі’ •••’ Хі,і _ і’ Хі/’ Хі,/ + і’ •••’ Хіп)-

(7)

Поэтому требование стабильности для /у-агента означает совпадение величин (6) и (7).

В общем случае, т. е. для т/-агента, т/ е 6+, условие стабильности определим следующим образом.

Определение. Информационное равновесие хт/, т/ е 6+, будем называть стабильным при заданной структуре информированности I, если для любого т/ е 6+ выполняется

(»* хт1 ..., хт/, I — 1, хт/, хт/, / + Р ..., хт/«) =

= W|(Tт, хт1, .■■, хт, I — 1, хт/, хт, I + 1, ..., хтп). (8)

Информационное равновесие, не являющееся стабильным, будем называть нестабильным. В частности, информационное равновесие в примере 2 — нестабильное.

Утверждение 9. Пусть структура информированности

I имеет сложность V и существует информационное равновесие хт/, т/ е 6+. Тогда система соотношений (8) со держит не более чем V попарно различных условий.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Доказательства утверждений 9 и 1О (см. далее) можно найти в работах [18, 19].

5. ИСТИННЫЕ И ЛОЖНЫЕ РАВНОВЕСИЯ

Стабильные информационные равновесия будем разделять на два класса — истинные и ложные равновесия. Определение предварим примером.

П ример 3. Рассмотрим игру, в которой участвуют три агента с целевыми функциями //.(г,, х1, х2, х3) = = Х1 — Х1 (х1 + х2 + х3)/г/, где X' О О, / е N = {1, 2, 3}. Целевые функции являются общим знанием с точностью до типов агентов — параметров г/ > О. Пусть г2 = г3 = г, г21 = г23 = г31 = г32 = с, при этом первый агент адекватно информирован о втором и третьем, а второй и третий считают всех трех одинаково информированными. Общим знанием является также следующее: каждый игрок знает свой тип и наблюдает сумму действий оппонентов.

Рис. 4. Граф рефлексивной игры в примере 3

Рис. 5. Матрицы выигрышей в примере 4

Граф соответствующей рефлексивной игры приведен на рис. 4.

Нетрудно вычислить единственное информационное равновесие этой игры:

: х3 = (Зг — 2с)/4’

(9)

(2с — г)/4’

х1 = (2г1 — 3г + 2с)/4.

Условия стабильности (8) в данном случае выглядят следующим образом:

2і

+ Х2з = Хі + Х3’

Х3і + Х32 = Хі + х2-

(Ю)

В них входят только условия для 2- и 3-агентов, поскольку для 1-, 21-, 23-, 31-, 32-агентов они тривиальны.

Подставляя выражение (9) в условия (1О), получаем, что необходимым и достаточным условием стабильности является выполнение равенства

2с = г*і + г.

(іі)

Пусть условие (11) выполнено. Тогда равновесные действия реальных агентов таковы:

х2 = х3 = (3г — г1)/4, х1 = (3г1 — 2г)/4. (12)

Предположим теперь, что типы агентов стали общим знанием. Нетрудно убедиться, что в случае общего знания единственным равновесием будут действия (12).

Таким образом, при выполнении условия (11) имеет место несколько парадоксальная ситуация. Представления второго и третьего агентов не соответствуют действительности, однако их равновесные действия (12) в точности такие, как были бы в случае общего знания. Назовем такое стабильное информационное равновесие истинным.

Определение. Пусть набор действий хт/, т/ е 6+, является стабильным информационным равновесием. Будем называть его истинным равновесием, если набор

(х1, ..., хп) является равновесием в условиях общего знания о состоянии природы 0 (или о наборе типов (гР ..., гп,»).

Из приведенного определения, в частности, следует, что в условиях общего знания любое информационное равновесие является истинным. Рассмотрим еще один случай, когда этот факт имеет место.

Утверждение 10. Пусть целевые функции агентов имеют следующий вид:

/,(Гр хр ..., х„) = ф/(Г,, х/, )),

где — функция наблюдения (содержательно это означает следующее: выигрыш каждого агента зависит от его типа, его действия и функции наблюдения, зависящей от действий остальных агентов, но не от их типов). Тогда любое стабильное равновесие является истинным.

Опред еление. Стабильное информационное равновесие, не являющееся истинным, назовем ложным.

Таким образом, ложное равновесие — это такое стабильное информационное равновесие, которое не является равновесием в условиях общего знания.

П ример 4. Пусть в рефлексивной биматричной игре, где О = {1, 2}, выигрыши заданы биматрицами (агент 1 выбирает строку, агент 2 — столбец) на рис. 5.

Пусть, далее, в реальности 0 = 2, однако оба агента считают общим знанием 0 = 1. Граф соответствующей рефлексивной игры (точнее — игры в нормальной форме, так как имеет место общее знание среди реальных агентов) имеет вид 1 1 2. Каждый агент наблюдает пару (х1, х2), которая и есть функция наблюдения.

Информационным равновесием является выбор каждым агентом действия 1. Если бы общим знанием было реальное состояние природы, то равновесным был бы выбор каждым агентом действия 2. Таким образом, выигрыши агентов в информационном равновесии оказываются большими, чем если бы общим знанием было реальное состояние природы.

7. ЗАКЛЮЧЕНИЕ

Таким образом, рефлексивные игры позволяют описывать интерактивное взаимодействие агентов, принимающих решения на основе иерархии своих представлений о существенных параметрах, представлений других агентов и т. д. Ключевыми понятиями являются следующие (корректные определения см. ранее):

• фантомный агент — агент, существующий в представлении реального или другого фантомного агента и наделяемый в рамках этих представлений определенной информированностью;

• информационная структура — бесконечное дерево, отражающее взаимную информированность агентов (реальных и фантомных);

• информационное равновесие — равновесие рефлексивной игры (т. е. обобщение равновесия Нэша на случай некооперативной игры реальных и фантомных агентов при заданной структуре информированности);

• стабильное информационное равновесие, в котором каждый агент (как реальный, так и фантомный) наблюдает тот результат игры, которого ожидает;

• ложное равновесие — такое стабильное информационное равновесие, которое не является равновесием в условиях общего знания;

• граф рефлексивной игры — удобный инструмент исследования свойств последней и выразительное средство описания информационной структуры и взаимодействия агентов.

В рамках описанных моделей появляется возможность исследования зависимости информационного равновесия и выигрышей агентов от их информированности (в том числе — рангов рефлексии) и, в частности, определения максимального целесообразного в той или иной ситуации ранга рефлексии.

Кроме того, имея зависимость информационного равновесия от структуры информированности, можно ставить и решать задачи рефлексивного (информационного) управления — определения той структуры информированности, при которой управляемые субъекты оказываются в требуемом равновесии.

Перечисленное относится к уже полученным результатам, которые отнюдь не следует считать исчерпывающими. В качестве перспективных направлений дальнейших исследований следует, в первую очередь, выделить изучение динамических (в том числе — в развернутой форме) и иерархических рефлексивных игр, а также рассмотрение структур информированности, в которых информация описывается или множеством возможных значений неопределенного параметра, или распределением вероятностей, или функцией принадлежности и существуют ограничения на непротиворечивые комбинации информированности агентов.

В заключение отметим, что имеющиеся на сегодня результаты теоретического исследования моделей рефлексивного принятия решений уже находят широкое применение для разработки прикладных моделей [5, 6, 19].

ЛИТЕРАТУРА

1. Mas-Colell A., Whinston M.D., Green J.R. Microeconomic theory. — N.-Y.: Oxford Univ. Press, 1995.

2. Губко M.B., Новиков Д.А. Теория игр в управлении организационными системами. — М.: СИНТЕГ, 2002.

3. Myerson R.B. Game theory: analysis of conflict. — London: Harvard Univ. Press, 1991.

4. Лефевр B.A. Конфликтующие структуры. — М.: Радио и связь, 1967.

5. Новиков Д.А., Чхартишвили А.Г. Рефлексивные игры. — М.: СИНТЕГ, 2003.

6. Новиков Д.А., Чхартишвили А.Г. Активный прогноз. — М.: ИПУ РАН, 2002.

7. Aumann R.J., Heifetz A. Incomplete information: Handbook of Game Theory. Vol. III, ch. 43. — Amsterdam: Elseiver (forthcoming).

8. Гермейер Ю.Б. Игры с непротивоположными интересами. — М.: Наука, 1976.

9. Кукушкин Н.С., Морозов B.B. Теория неантагонистических игр. — М.: МГУ, 1984.

10. Howard N. Theory of meta-games // General systems. — 1966. — № 11. — P. 187—200.

11. Aumann R.J., Mashler M. The bargaining set for cooperative games. Eds. M. Dresher, L.S. Shapley, and A.W. Tucker. Advances in Game Theory. — Princeton: Princeton University Press, 1964. — P. 443—447.

12. Mertens J.-F., Zamir S. Formulation of Bayesian analysis for games with incomplete information // Int. J. Game Theory. — 1985. — № 14. — P. 1—29.

13. Harsanyi J. Games with incomplete information played by “Bayesian” players // Management Sci. — Part I: 1967. — Vol. 14, № 3. — P. 159—182. — Part II: 1968. — Vol. 14, № 5. — P. 320 — 334. — Part III: 1968. — Vol. 14, — № 7. — P. 486—502.

14. Sakovics J. Games of incomplete information without common knowledge priors // Theory and Decision. — 2001. — № 50. — P. 347—366.

15. Chkhartishvili A.G. Bayes-Nash equilibrium: infinite-depth point belief structures // Automation and Remote Control. — 2003. — № 12. — P. 105—111.

16. Чхартишвили А.Г. Информационное равновесие // Управление большими системами: Сб. тр. / ИПУ РАН. — 2003. — Вып. 3. — С. 94—109.

17. Novikov D.A., Chkhartishvili A.G. Informational equilibrium: point belief structures // Automation and Remote Control. — 2003. — № 10. — P. 111—122.

18. Novikov D.A., Chkhartishvili A.G. Informational equilibrium stability in reflexive games // Automation and Remote Control. — 2004 (forthcoming).

19. Новиков Д.А., Чхартишвили А.Г. Прикладные модели информационного управления. — М.: ИПУ РАН, 2004.

в (095) 334-90-51

E-mail: [email protected] □

ВНИМАНИЮ ЧИТАТЕАЕИ!

Журнал "ПРОБЛЕМЫ УПРАВЛЕНИЯ" входит в Перечень периодических научных изданий, рекомендуемых ВАК для публикации научных работ, отражающих основное научное содержание докторских диссертаций.

70

control SCIENCES № а • 2oo4

Модели рефлексивного принятия решений Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Новиков Д. А., Чхартишвили А. Г.

Похожие темы научных работ по математике , автор научной работы — Новиков Д. А., Чхартишвили А. Г.

REFLEXIVE MODELS OF DECISION-MAKING

Текст научной работы на тему «Модели рефлексивного принятия решений»