Максимальный гарантированный результат в иерархических играх

Горелов Михаил Александрович

УДК 519.865 + 519.95 ББК 22.165

МАКСИМАЛЬНЫЙ ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ В ИЕРАРХИЧЕСКИХ ИГРАХ

Горелов М. А.1

(Вычислительный центр им. А.А. Дородницына ФИЦ ИУ РАН, Москва)

Обсуждается новый метод исследования иерархических игр. Вычисляется максимальный гарантированный результат игрока верхнего уровня в иерархической игре двух лиц. Анализируется устойчивость этой задачи по отношению к изменениям функции выигрыша второго игрока.

Ключевые слова: информационная теория иерархических систем, иерархические игры, максимальный гарантированный результат.

1. Введение

В данной статье обсуждается новый метод исследования иерархических игр. Он уже показал свою эффективность при исследовании нескольких трудных задач [6-13]. Но именно потому, что исследовались сложные модели, простые основные идеи метода «обрастали» сложными техническими деталями. Ниже делается попытка продемонстрировать метод на простой задаче, но более подробно. Метод основан на альтернативном способе определения максимального гарантированного результата.

Традиционное определение максимального гарантированного результата было, видимо, впервые дано Ю.Б. Гермейе-ром [3] и затем многократно использовалось в теории иерархи-

1 Михаил Александрович Горелов, кандидат физико-математических наук ([email protected]).

ческих игр [4-5], теории активных систем [1-2], теории контрактов [15-16].

Для вычисления максимального гарантированного результата в играх со сложными информационными обменами Ю.Б. Гермейером был предложен метод, основанный на угадывании структуры оптимальных решений. Этот метод оказался весьма плодотворным, но почему-то плохо воспринимается представителями других научных школ.

Новое определение позволяет решать аналогичные задачи, используя, главным образом, тождественные преобразования формул исчисления предикатов. Возможно, для кого-то такой подход будет более понятным. И, как показывает опыт, в некоторых задачах, где угадать структуру решения трудно, этот метод оказывается работоспособным.

Статья построена следующим образом. В разделе 2 приводятся два определения максимального гарантированного результата и обсуждается связь между ними. В разделе 3 новый метод демонстрируется на примере классической задачи вычисления максимального гарантированного результата в игре Г2. Следующий раздел посвящен неформальному обсуждению некоторых особенностей метода и полученных результатов. В пятом разделе показано, как модифицируется новое определение и, соответственно, метод для игр с доброжелательным или ограниченно рациональным вторым игроком. Последний раздел посвящен демонстрации того, что новое определение удобно и для исследования устойчивости задачи вычисления максимального гарантированного результата по отношению к изменениям параметров игры.

2. Определения

Рассмотрим конфликт, в котором принимают участие два игрока. Первый из них выбирает свои управления (стратегии) из множества и, второй - из множества V. Интересы первого игрока описываются стремлением к максимизации функции g, отображающей декартово произведение и х V в множество действительных чисел Я. Второй игрок стремится максимизи-

ровать значение функции h: U х V ^ R. Таким образом задается игра Г = (U, V, g, h).

Результат, полученный в данной ситуации каждым из участников конфликта, зависит не только от его выбора, но и от выбора его партнера. Этот выбор, вообще говоря, может быть неизвестен рассматриваемому игроку в момент принятия решений. Поэтому, чтобы получить замкнутую модель конфликта, нужно задать отношение игроков к такого рода неопределенности. Традиционно это делается заданием принципа оптимальности. В данной статье в качестве такового будет использоваться принцип максимального гарантированного результата. Классическое определение, идущее от Ю.Б. Гермейера, выглядит следующим образом.

Определение 1. Множество рациональных ответов второго игрока на стратегию u е U первого определяется равенством

(1) BR (u) = (v eV :h(u, v) = max h(u, w)),

weV )

если максимум в этой формуле достигается, и формулой

(2) BR (u) = \v eV :h(u, v) > sup h(u, w) - к)

l weV )

в противном случае (здесь к- заранее заданное положительное число). Максимальный гарантированный результат первого игрока в игре Г равен

RK(T) = sup inf g(u,v) .

ueU veBRK(u)

Содержательный смысл этих конструкций таков. Предполагается, что игрок номер 1 первым выбирает свою стратегию u е U и этот выбор становится известным его партнеру. В этом случае результат второго игрока уже зависит только от его собственного выбора. А поскольку его цель состоит в максимизации функции h, естественно предположить, что он выберет стратегию из множества, определенного формулой (1). Проблема возникает в том случае, когда это множество оказывается пустым из-за того, что максимум не достигается. В этом случае нужна «заплатка». Довольно естественно использовать в таком

качестве формулу (2). Зная функцию выигрыша партнера, первый игрок может просчитать такую логику его действий. Поэтому игрок 1 может рассчитывать на получение выигрыша, не меньшего шГ g(и,V) в случае выбора стратегии и. А при

уеБЯк (и)

оптимальных действиях он может получить выигрыш, сколь угодно близкий к ЛДГ).

Дадим альтернативное определение максимального гарантированного результата. Теперь начнем с мотивации.

Предположим, первый игрок выбрал свою стратегию и е и и этот выбор стал известен его партнеру. В таком случае второй игрок может разделить все множество своих стратегий на две части: выгодные стратегии и невыгодные. Вполне естественно предположить, что это разделение производится с помощью некоторого порогового значения Л его функции выигрыша: стратегии, для которых выигрыш больше или равен этому пороговому значению, являются выгодными, а все прочие - невыгодными. При такой логике поведения партнера первый игрок может рассчитывать на гарантированное получение выигрыша у, если для любой выгодной стратегии V второго игрока выполняется неравенство g(u, V) > у. В данном случае не предполагается возможности отказа второго игрока от игры, поэтому множество его выгодных стратегий при любой стратегии и должно быть непустым.

Таким образом, приходим к следующему определению.

Определение 2. Число у называется гарантированным результатом первого игрока в игре Г, если существуют такие стратегия и е и и число Л, что выполняются условия

1°. Существует стратегия ^ е V, для которой Н(и, w) > Л. 2°. Для любой стратегии V е V либо g(u, V) > у, либо И(и, V) < Л.

Точная верхняя грань ^(Г) гарантированных результатов называется максимальным гарантированным результатом первого игрока в игре Г.

Естественно возникает вопрос о соотношении этих двух определений. Начнем со следующего простого результата.

Лемма 1. Для любой игры Г и любого числа к> 0 справедливо неравенство R(r) > RJT).

Доказательство. Достаточно доказать, что любое число y< R*(r) является гарантированным результатом в смысле определения 2. Если последнее неравенство выполнено, то существует стратегия u е U, для которой inf g(u, v) >y .

veBRк (u)

Фиксируем одну из таких стратегий.

Если эта стратегия такова, что максимум max h(u, w) до-

weV

стигается, то положим Л = max h(u, w) . При таком выборе мно-

weV

жество тех стратегий v, для которых h(u, w) > Л, будет непустым. Следовательно, пункт 1° определения 2 выполнен. Далее, если v е BRKu), то g(u, v) > inf g(u, v) >y . А в противном

veBRK(u)

случае h(u, w) < Л, т.е. выполняется и второй пункт определения 2.

Если для стратегии u максимум max h(u, w) не достигается,

weV

то положим Л = sup h(u, w) -к. Тогда для любого w е BR^u)

weV

неравенство h(u, w) > Л будет справедливым, поэтому пункт 1° определения 2 выполнен. И вновь, если v е BRKu), то g(u,v) > inf g(u, v) >y, а если v i BRJ^u), то h(u, w) < Л, зна-

veBR(u )

чит, выполнен и пункт 2°. Лемма доказана.

Равенство R(r) = RK(r), вообще говоря, неверно, как показывает следующий пример.

Пример 1. Пусть U = [0, 1], V = (0, 1), g(u,v) = h(u, v) = u - v. Для любой стратегии u максимум max h(u, w) не достигает-

weV

ся, поэтому BRJu) = (0,к]. Следовательно, inf g(u,v) = u -к и

veBRK(u)

RJF) = 1 - к.

С другой стороны, при любом y< 1, u = 1 и Л = y множество {v е V: h(u, v) > Л} не пусто, а при совпадающих интересах игроков и Л = y условие 2° определения 2 выполняется автома-

тически. Значит, любое у< 1 является гарантированным результатом и Л(Г) = 1.

В приведенном примере результаты R(0 и ^ДГ) мало отличаются при небольших значениях к. Этот факт имеет общую природу, как показывает следующее утверждение.

Лемма 2. Для любой игры Г справедливо равенство R(Г) = lim ДДГ) .

Доказательство. Из леммы 1 немедленно следует неравенство R(Г) > lim Rr (Г) . Чтобы доказать обратное неравенство, заметим, что множество BR^u) не может расшириться при уменьшении к. Поэтому величина R^O с уменьшением к может только возрасти. Следовательно, достаточно доказать, что для любого гарантированного (в смысле определения 2) результата у найдется такое значение к, что R^O > у.

Итак, пусть у - гарантированный результат, а u е U, w е V и Л - стратегии и число, существование которых предусмотрено определением 2.

Если стратегия u такова, что максимум max h(u, v) достига-

veV

ется, то для любой стратегии v е BR^u) имеем h(u, v) = max h(u, v) > h(u, w) > Л,

veV

следовательно, g(u, v) > у. Значит, Inf g(u, v) > у, и тем более

veBRJu)

RJT) > у (независимо от к).

Если же max h(u, v) не достигается, то sup h(u, v) > h(u, w) .

veV veV

Положим к = sup h(u, v) - h(u, w) . Тогда для любой стратегии

veV

v е BR(u) выполняются условия

h(u, v) = sup h(u, v) - к > h(u, w) > Л .

veV

Поэтому Inf g(u, v) >у и, следовательно, R^O > у.

veBRк (u)

Пример 1 указывает основную причину, по которой R(0 > R^O. Это в свою очередь позволяет выделить важный

класс «хороших1» игр, для которых верно равенство Д(Г) = ДДГ).

Определение 3. Игру Г назовем хорошей, если для любой стратегии те U найдется такая стратегия u е U, что inf g(u, v) > inf g(и, v)

ve BRK(u ) veBRK(m)

и максимум maxh(u, v) достигается.

veV

Хорошими являются, например, игры, у которых множества V наделены топологиями и компактны, и при любой фиксированной стратегии u функция (p(v) = h(u, v) непрерывна. Но на самом деле класс хороших игр гораздо шире. Об этом речь пойдет в следующем параграфе. Пока же констатируем следующий простой факт.

Лемма 3. Для любой хорошей игры Г и любого к> 0 справедливо равенство Л(Г) = RJT).

Доказательство. Фиксируем произвольное S> 0. Пусть у- произвольное число, меньшее R^T), а стратегия и такова, что inf g (и, v) >у. Фиксируем стратегию u, существование

veBRg(и)

которой предусмотрено определением 3. Тогда inf g(u, v) >у.

veBRs (u)

Но стратегия u выбрана так, что BR£(u) = BRJu)- Следовательно, inf g (u, v) > у, а тогда RJT) > у. Так как у произвольно, полу-

veBRK (u)

чим неравенство RJT) > R^T). Значит, Rr (Г) > lim R^ (Г) . Из

этого неравенства и леммы 2 следует, что R(0 < R^F). А в силу леммы 1 R(0 > R^O, что и доказывает нужное утверждение.

Замечание 1. Практически теми же рассуждениями можно доказать обратное неравенство RK (Г) < lim Rs (Г) (это неравенство можно получить и как непосредственное следствие

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 Возможно, более уместными были бы термины «регулярная» или «согласованная», но эти и похожие термины уже перегружены другими значениями.

лемм 1 и 2). Таким образом, для хороших игр результат R^r) от к на самом деле не зависит.

3. Игра Г2

Теперь можно продемонстрировать новое определение в действии. Рассмотрим модификацию игры Г, в которой первый игрок до выбора своего управления получает достоверную информацию об управлении, выбранном партнером. Таким образом, он может выбрать сове управление u в зависимости от выбранного вторым игроком управления v, и стратегиями первого игрока становятся функции u*: V ^ U. Множество всех таких функций обозначим через U*.

Получим новую игру Г* = (U*, V, g*, h*), в которой функции выигрыша g* и h* определяются условиями g*(u*, v) = g(u*(v), v) и h*(u*, v) = h(u*(v), v) соответственно. Прежде всего отметим, что два определения максимального гарантированного результата в этой игре при стандартных предположениях совпадают. Это вытекает из следующего утверждения.

Лемма 4. Если множества U и V наделены топологиями и компактны, а функции g и h непрерывны на U х V, то игра Г* является хорошей.

Доказательство. Начнем с объяснения основной идеи доказательства. Если стратегия со* такова, что верхняя грань suph(с,v) = suph(c(v),v) достигается, то все очевидно. Это

veV veV

может быть не так, если функция со*: V ^ U разрывна, и соответственно, разрывной в какой-то точке v0 будет функция (fv) = h(f*(v), v). Ее график будет выглядеть, например, как на рис. 1. Множество BRK(c) на этом рисунке показано жирной линией. Если мы поменяем значение функции с * так, чтобы этот график стал выглядеть как на рис. 2, то интересующая нас верхняя грань будет достигаться в одной точке v0, и, соответственно, из одной этой точки будет состоять множество рациональных ответов второго игрока на полученную стратегию. Точка v0 не принадлежит множеству BRK(c*), но принадлежит

его замыканию, а поэтому выигрыш первого игрока в этой точке будет достаточно большим. Формальные рассуждения могут выглядеть следующим образом.

Рис. 1.

Рис. 2.

Если стратегия о* такова, что верхняя грань sup h (о, v)

veV

достигается, то можно положить u* = о* и утверждение будет доказано.

В противном случае рассмотрим произвольную последовательность vi, v2, ..., для которой limh(о,vk) = suph(о,v) .

veV

Множество V компактно, следовательно, из этой последовательности можно выделить сходящуюся подпоследовательность. Поэтому, не ограничивая общности, можно считать, что сама эта последовательность сходится к точке v0. Поскольку верхняя грань sup h (о, v) не достигается, можно считать, что

veV

vk Ф v0 при k = 1, 2, ... Последовательность o*(v1), o*(v2), ... принадлежит компактному множеству U, значит, перейдя еще раз к подпоследовательности, можно добиться того, что и последовательность o*(v1), o*(v2), ... будет сходиться к некоторой точке u0. Определим функцию u* условием

u* (v) = •

р (v) в противном случае.

u0, если v = v0,

В силу непрерывности функции h

h*(u*, v0) = h(u* (v0), v0) = h(M0, v0) = lim h(u* (vt), vt) =

= limh(a(vk),vt) = suph(a(v),v) .

k^lX) veV

А при v Ф v0 имеем

h (u„, v) = h(u„ (v), v) = h(a, (v), v) < sup h(a, (v), v)

veV

(поскольку верхняя грань suph(a,v) не достигается).

veV

Поэтому верхняя грань sup h (u,, v) достигается в единственной

veV

точке v0 и, значит, BR^u*) = {v0}.

Тогда в силу непрерывности функции g inf g* (u*, v) = g (u* v ), v0) = lim g (u* (vt), vk ) =

veBRK (u*) к ^ад

= lim g(®*(vk ), vk ) .

к ^ад

Но поскольку верхняя грань sup h (a, v) не достигается и

veV

lim h (a, vk ) = sup h (a, v) , для достаточно больших значений к

к^ад veV

имеем vk e BR^(®*). Следовательно, для этих значений к выполняются неравенства g(a(vk),vk) > inf g*(a,v) а, значит,

veBRk (a*)

верно неравенство limg(a(vk),vk) > inf g*(a, v) . Итак,

veBRk (a*)

inf g (u, v) > inf g (a, v).

ve BRK (u*) veBRc(o*)

Лемма доказана.

Теперь можно продемонстрировать эффективность нового определения.

По определению число у является гарантированным результатом первого игрока в игре Г*, если 3u, e U3^,[3w e V: h (u,, w) >X\ &

&[Vve V g(u,,v)>у vh(u,,v) <X\.

В этом условии фигурирует функциональное пространство U*. Ближайшая цель состоит в том, чтобы переформулировать это условие в терминах исходной игры Г.

Условие (3) равносильно условию

Зи е и З Л[Зы е V: к (и,, м>) > Л & g, (и,, м>) > у\&

&[Уу е V g, (и,, V) >у V к (и,, V) < Л\.

В самом деле, достаточность условия (4) для выполнения условия (3) очевидна. Необходимость следует из того, что для управления w, существование которого предусмотрена первой частью условия (3), в силу второй части того же условия должно выполняться неравенство h*(u*, w) > у.

В условии (4) поменяем порядок кванторов существования ЗЛЗи е и \Зм> еV: к (и,, м>) > Л & g, (и,, м>) >у\ &

&[Vv е V g, (и,, V) >у V к (и,, V) <Л\ и перепишем его в виде

ЗЛ[З®, еи Зы еV: к (а,, м>) >Л& g, (а,, м>) >у\&

&[Зш, еи Vv е V ^ (ш,, V) >у V к (ш,, V) <Л\

(здесь важно «разделить» один квантор существования на два).

Условие (5) равносильно условию (4). В самом деле, необходимость условия (5) для выполнения условия (4) очевидна. Для доказательства достаточности придется использовать функциональную структуру множества и. Если функции а* и ш* удовлетворяют условию

[За е иЗы еV: к (а,м>) > Л & ^ (а,м>) >у\&

& [З ш, е и V V е Vg (ш,, V) >уv к (ш,, V) < Л \, то функция

удовлетворяет условию

Зи е и [Зы еV: к (и, ы) > Л & g (и, ы) > у\ &

&[Vv еV g (и, V) > у V к (и, V) < Л\.

Теперь можно приступать к упрощению формулы (5). Условие

За еи Зые V: к (а, ы) > Л& g (а, м/) >у

а, (V), если g (а (V), V) > у, ш, (V) в противном случае,

или

За е иЗwеV: к(а*(м),м>) > Л &g(а(м),м>) > у , очевидно, эквивалентно условию

За еиЗм е V: Ъ(а,м) > Л &g(а,м) > у. А условие

Зет, еиуу еV ^ (ш„, V) > у V К (ш„, V) <Л или, что то же самое,

Зет е и Vv е V g (ет (V), V) >уv к(ш„ (V), V) < Л, равносильно условию1

Vv еVЗетеU g(ш, V) >уv Ъ(ш, V) <Л.

Таким образом, условие (5) может быть заменено условием

ЗЛ[За е иЗм е V: к(а,м) > Л & g(а,м) >у] &

&[Vv еVЗетеU g(ет, V) >уv к(ш, V) <Л],

или более простым условием

ЗЛ[За е иЗм е V: Н(а,м) >Л] &

&[Vv еVЗетеU g(w, V) >уv к(ш, V) <Л].

Итак, справедливо следующее утверждение.

Теорема 1. Число у является гарантированным результатом в игре Г* тогда и только тогда, когда выполнено условие (6).

Основная цель достигнута. Можно переписать полученный результат в более привычных терминах, заменив кванторы общности и существования операторами максимума и минимума.

Теорема 2. Пусть множества и и V наделены топологиями и компактны, а функции g и И непрерывны на и х V. Обозначим

1 Это центральный момент доказательства теоремы 1. Именно здесь мы избавляемся от функционального пространства и*. Данный прием появился в теории игр, пожалуй, первым (еще до работ фон Неймана). Но до сих пор он эффективно работает.

Л(у) = {v eV: maxg(u,v) < y),

(, ueU )

Д(у) = {(u, v) e U x V: g(u, v) > y) .

Число y является максимальным гарантированным результатом в игре Г* тогда и только тогда, когда либо max h(u, v) > sup inf h(u, v),

(u,v)<ед(y) veЛ(y) ueU

либо

max h(u,v) = sup inf h(u, v)

О,v)еД(y) уеЛ(y) ueU

и верхняя грань в правой части этого равенства не достигается.

Доказательство. Докажем достаточность. Можно взять Л = max h(u, v) и в качестве со и w - одну из точек максимума

(u, v )еД (y)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

в последней формуле. Тогда первая часть условия (6) будет выполнена. Кроме того, для v е Л(у) будем иметь inf h(u, v) < Л,

ueU

значит, найдется u, для которого h(u, v) < Л. А для v <i Л(у) выполнено неравенство max g(u, v) > y, следовательно, найдется

ueU

такое u, что g(u, v) > y. Таким образом, выполнена и вторая часть условия (6).

Для доказательства необходимости заметим, что условие Vv eV3m eU g(rn, v) >yv h(m, v) <Л

выполнить тем легче, чем больше Л. Единственным препятствием для увеличения Л является условие

Зс eU3w eV: h(c, w) >Л . Поэтому, не ограничивая общности, можно считать, что Л= max h(u,v), а тогда заключение теоремы немедленно

(u, v )eД (y)

следует из условия (6).

Впрочем, из теоремы 1 нетрудно получить и классическую формулу для максимального гарантированного результата в игре Г2. Будем считать, что множества U и V наделены топологиями и компактны, а функции g и h непрерывны на U x V.

Пусть у - гарантированный результат. Фиксируем X так, чтобы выполнялось условие

[За е U3w е V: h(a, w) > X & g(a, w) >у] &

&[Vv eVB^eU g (rn, v) >уv h(rn, v) <X].

Как уже отмечалось, можно считать, что точки а и w выбраны так, что h(a, w) = max h(u, v) . А в таком случае, не ограничи-

(u ,v )еД (у)

вая общности, можно считать, что X = h(®, w). Но в таком случае X < L, где

L = max min h(u, v).

veV ueU

В самом деле, для любого v е V найдется u е U, для которого h(u, v) < X (для v е Л(у) это следует из второй части условия (7), а для остальных v из соглашения о выборе X). Но это и есть нужное утверждение.

Если X = L, то для любого v из множества

E = jv е V: min h(u, v) = max min h(u, w)>

ue U weV ue U )

и любого u е U выполнено неравенство h(u, v) > X, а потому в силу условия (7) для любого v е E должно существовать u е U, для которого g(u, v) > у, т.е. у не превосходит величины M = min max g(u, v) .

veE ueU

Обратно, если у< M, то у - гарантированный результат, поскольку для v е E найдется u е U, для которого g(u, v) > M > у, а для v <t E существует такое u е U, что h(u, v) < L = X.

Если же X > L, то автоматически выполняется условие Vv е V 3u е U: h(u, v) < X. Поэтому единственным ограничением на величину у будет условие

За е U3w е V: h(a, w) > X & g(a, w) > у. Следовательно, любое число у, меньшее чем sup max g(a, w)

X>L (а^)еО(X)

где

D(X) = {(a, w) е U x V: h(a, w) > X}.

Но если обозначить

D = {(с, w) e U x V: h(o, w) > L},

то

sup max g(c, w) = sup g(c, w) = K .

Л>Ь (c,w)eD(Л) (cw)ED

Таким образом, справедливо следующее утверждение. Теорема 3 (Ю.Б. Гермейер). Если множества U и V наделены топологиями и компактны, а функции g и h непрерывны на U x V, то Д(Г*) = max{K, M}.

4. Неформальное обсуждение полученных результатов

Приведем еще несколько аргументов в пользу нового определения максимального гарантированного результата.

Обычно исследование иерархической игры проводится в интересах игрока, обладающего правом первого хода. Таким образом, функция выигрыша второго игрока h отражает представления оперирующей стороны о целях партнера. Максимальный гарантированный результат в смысле определения 2 не меняется при любом монотонном преобразовании функции h, т.е. эта функция задает лишь порядок на множестве U x V, описывающий предпочтения второго игрока. Если пользоваться определением 1, то величина к вводит уже некоторую количественную меру на «шкале ценностей» второго игрока, т.е. в данном случае необходимо предполагать гораздо лучшую информированность оперирующей стороны о противнике.

Попробуем выписать определение гарантированного результата в смысле определения 1 «в кванторах». Число уявляет-ся гарантированным результатом тогда и только тогда, когда выполняется условие

3u e U: {[3v e V: Vw e Vh(u, v) > h(u, w)] ^ ^ [Vv e Vg(u, v) < y^ 3w e V: h(u, w) > h(u, v)] & & [Vv e V: 3w e V h(u, v) < h(u, w)] ^ ^ [Vv e Vg(u, v) < y^ 3w e V: h(u, w) > h(u, v) + к]}.

Эта формула гораздо сложнее формулы (3). Если измерять сложность формулы количеством использованных кванторов, то сложность увеличивается более чем вдвое. В значительной степени с этим и связана большая эффективность определения 2 при исследовании сложных задач.

Наконец, чисто эстетически «заплатка» в определении множества BR^u) выглядит не слишком привлекательно, а красота при построении теории - не последнее дело.

Из леммы 3, в частности, следует, что если множество V конечно, то два определения максимального гарантированного результата совпадают. Предположение о бесконечности множества V - это, конечно же, идеализация. Но во многих случаях замена большого конечного множества континуумом бывает очень удобна. В этой связи стоит отметить следующее. Если два определения дают разные результаты, то выбор одного из них должен решаться в каждом случае на основе анализа моделируемой системы. Но нужно понимать, что вопрос о предпочтительности одного из определений, это вопрос о том, какое из определений лучше согласуется с идеализацией бесконечности.

К этому добавим еще, что различие двух определений свидетельствует о том, что получившаяся задача не устойчива по отношению к аппроксимации конечными сетками. А потому постановка задачи требует существенного уточнения. Обратимся к анализу полученных результатов. Если у является гарантированным результатом в игре Г*, то анализ формулы (6) позволяет построить стратегию, гарантирующую получение такого результата. Для простоты1 предположим, что множества U и V наделены топологиями и компактны, а функции g и h непрерывны на U х V.

Определим стратегии и* и и, условиями g(u* (v), v) = max g(w, v) , h(u* (v), v) = min h(w, v)

weU weU

(для любого v e V). Тогда непосредственно проверяется, что искомой является стратегия

1 В данном случае это действительно не принципиально.

о I и*+ (V), если g(и.+ (V), V) > у,

и* (V) = <

[и, (V) в противном случае.

Стратегию иI можно естественным образом интерпретировать как стратегию наказания второго игрока. Ее появление в структуре оптимальной стратегии естественным образом объясняется наличием квантора общности в сочетании с неравенством «<» в формуле (6). А они, в свою очередь, присутствуют уже в определении 2, т.е. появление «наказания» в данном случае немедленно вытекает из постановки задачи.

Отметим, что такая структура оптимальной стратегии была изначально угадана Ю.Б. Гермейером. Справедливости ради отметим, что его стратегия была даже более «кровожадной», чем построенная только что.

Наконец, отметим, что классическая теорема 3 и теорема 1 предполагают два разных подхода к численному поиску максимального гарантированного результата в игре Г*. Теорема 3 предполагает вычисление относительно простого максимина Ь, решение оптимизационной задачи, и, самое главное, вычисление минимакса М со сложно определяемым множеством Е. Если же исходить из теоремы 1, то нужно найти корень функции, для вычисления одного значения которой необходимо решить задачу оптимизации и потом вычислить максимин на множестве и х V. Какой из подходов проще, наверное, зависит от конкретной задачи. Но наличие двух подходов само по себе приятно.

Сказанное в предыдущем абзаце даже в еще большей степени относится к вычислению максимального гарантированного результата в игре Г, не наделенной дополнительной структурой информационного расширения.

5. Другие определения

Часто рассматривают игры с доброжелательным вторым игроком, т.е. считают, что, принимая свое решение, второй игрок стремится максимизировать собственный выигрыш, а если вариантов получить максимальный выигрыш несколько, то будет выбран тот, который более выгоден первому игроку.

Классическое определение максимального гарантированного результата в этом случае дает величину

(8) R'(Г) = sup sup g(u, v) ,

ueU veBR(u)

где множество BR(u) задается условием

(9) BR(u) = {veV:h(u,v) = maxh(u,w)) .

(. weV )

Во многих случаях предположение о доброжелательности упрощает рассматриваемую задачу, но есть и подводные камни.

Во-первых, предположение о доброжелательности - это дополнительная гипотеза, которую на практике проверить достаточно сложно. Поэтому ее широкое применение за пределами чисто академических исследований вызывает вопросы. Подробнее обсуждать эту проблему вряд ли стоит.

Во-вторых, вновь возникает вопрос: а что делать, если максимум в формуле (9) не достигается? И в данном случае, как ни странно, проблема оказывается более острой, чем в рассмотренном выше. Дело в следующем. Из рассуждений двух предыдущих параграфов видно, что при отсутствии гипотезы о доброжелательности в большинстве интересных игр среди оптимальных стратегий первого игрока непременно найдется такая, что максимум в формуле (1) достигается. Поэтому «заплатка», даваемая формулой (2), делает постановку задачи логически корректной, но ничего не меняет по существу. В предположении доброжелательности второго игрока это не так. Если мы дополним определение аналогичным образом, то в такой модели первому игроку будет выгодно выбирать стратегию, так, чтобы максимум в формуле (9) не достигался. В этом случае максимальный гарантированный результат будет существенно зависеть от «порога чувствительности» второго игрока, что приведет к усложнению решаемой задачи и т.д.

Альтернативный вариант определения снимает вторую из указанных проблем. Выглядит он так.

Определение 4. Число y называется гарантированным результатом первого игрока в игре Г с доброжелательным вторым игроком, если существуют такие стратегия и e U и число Л, что выполняются условия

1°. Существует стратегия w е V, для которой h(u, w) > X и g(u,v) > у.

2°. Для любой стратегии v е V либо g(u, v) > у либо h(u, v) < X.

Точная верхняя грань Л(Г) гарантированных результатов называется максимальным гарантированным результатом первого игрока в игре Г с доброжелательным вторым игроком.

Если игра такова, что при любой стратегии u максимум в формуле (9) достигается, то формула (8) дает выражение для максимального гарантированного результата в смысле определения 4.

Определение 4 отличается от определения 2 лишь заменой знака «<» знаком «<» в пункте 2°. Поэтому и работать с новым определение можно практически так же. Например, аналоги теорем 1-3 выглядят следующим образом.

Теорема 4. Число у является гарантированным результатом в игре Г* тогда и только тогда, когда выполнено условие

3X[3® е U3w е V: h(a, w) > X & g(a, w) >у] &

&[Vv eV3meU g (ш, v) > у v h(m, v) < X].

Теорема 5. Пусть множества U и V наделены топологиями и компактны, а функции g и h непрерывны на U х V. Обозначим

Л(у) = Iv е V: maxg(u,v) < у},

(, иеи )

Д(у) = |(u, v) е U х V: g(u, v) > у} .

Число у является максимальным гарантированным результатом в игре Г* тогда и только тогда, когда max h(u, v) > sup inf h(u, v) .

(u,у)еД(у) уеЛ(у) u£U

Теорема 6. Если множества U и V наделены топологиями и компактны, а функции g и h непрерывны на U х V, то максимальный гарантированный результат первого игрока в игре Г с доброжелательным вторым игроком равен

max g(u,v),

(u,v)eD'

где

L = max min h(u, v).

veV ueU

Доказательство теоремы 4 практически дословно повторяет доказательство теоремы 1. Доказательства теорем 5 и 6 следуют схемам доказательства теорем 2 и 3 соответственно, с некоторыми упрощениями.

Еще один вариант модели возникает, когда предполагают второго игрока ограниченно рациональным, т.е. считают, что он может пойти на небольшие потери своего выигрыша, не считая их принципиальными. По-видимому, во многих случаях такое предположение даже лучше описывает реальность, чем предположение абсолютной рациональности, сделанное в параграфе 2. Классический вариант определения в этом случае выглядит следующим образом.

Определение 5. Максимальный гарантированный результат первого игрока в игре с ограниченно рациональным игроком нижнего уровня равен

RK (Г) = sup inf g(u,v),

ueU veBR*(u)

где множество рациональных ответов второго игрока определяется равенством

BR(u) = <v e V :h(u,v) > suph(u,w) -к

} ■

а к- заданное положительное число.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Альтернативное определение может быть сформулировано следующим образом.

Определение 6. Число у называется гарантированным результатом первого игрока в игре в игре с ограниченно рациональным игроком нижнего уровня Г, если существуют такие стратегия и е и и число Л, что выполняются условия

1°. Существует стратегия ^ е V, для которой Н(и, w) > Л; 2°. Для любой стратегии V е V либо g(u, V) > у либо И(и, V) < Л - к.

Точная верхняя грань Лк(Г) гарантированных результатов называется максимальным гарантированным результатом

первого игрока в игре в игре с ограниченно рациональным игроком нижнего уровня.

В данном случае эти два определяют одно и то же число ЯК(Г) для произвольной игры Г. Доказательство в целом повторяет доказательства лемм 1 и 3.

Аналогами теорем 1-2 являются следующие утверждения. Теорема 7. Число у является гарантированным результатом в игре с ограниченно рациональным игроком нижнего уровня Г* тогда и только тогда, когда выполнено условие 3X[3a е U3w е V: h(a, w) > X] &

&[Vv еV3шеU g(m, v) >уv h(m, v) <X-k].

Теорема 8. Пусть множества U и V наделены топологиями и компактны, а функции g и h непрерывны на U х V. Обозначим

Л(у) = I v еV: max g(u, v) < у},

(, uеU )

Д(у) = |(u,v) еUxV: g(u,v) > у} .

Число у является максимальным гарантированным результатом в игре с ограниченно рациональным игроком нижнего уровня Г* тогда и только тогда, когда либо max h(u, v) > sup inf h(u, v) + к,

(u,v)еД(у) vеЛ(у) ^

либо

max h(u,v) = sup inf h(u,v) + к

(u,v)еД(у) vеЛ(у) ^

и верхняя грань в правой части этого равенства не достигается.

Аналог теоремы 3 тоже может быть сформулирован [14], правда, выглядит он заметно сложнее. Поэтому в данном случае больше оснований предпочесть теорему 8 теореме из [14].

6. Устойчивость и регуляризация

При исследовании любой модели встает вопрос об устойчивости решения задачи по отношению к изменениям параметров модели. В данном параграфе будет показано, как новое

определение максимального гарантированного результата работает при анализе устойчивости по отношению к изменениям функции выигрыша второго игрока. Такой выбор постановки обусловлен, во-первых, тем, что такая задача нетривиальна, но и не приводит к слишком сложным формулам. Во-вторых, обычно исследование иерархических игр обычно производится в интересах игрока, обладающего правом первого хода. А в таком случае интересы партнера - это элемент модели, известный исследователю операции хуже всего.

В общем случае задача вычисления максимального гарантированного результата неустойчива, что показывает следующий пример.

Пример 2. Рассмотрим игру Г = (U, V, g, к), в которой U = V = [0, 1], g(u, v) = v, к(и, v) = u.

В этой игре второму игроку безразлично, какую стратегию выбрать. Поэтому в наихудшем для первого игрока случае он выберет v =0, следовательно, Л(Г) = 0.

Рассмотрим «возмущенную» игру Г = (U, V, g, кs), где ке(и, v) = и + sv. Если s > 0, то при любой стратегии v второму игроку выгодно выбирать v = 1, значит, Л(Г) = 1.

Таким образом, при сколь угодно малом положительном s разница между Л(Г) и ^(rs) остается большой.

На самом деле, данный простой пример демонстрирует типичную причину появления неустойчивости в рассматриваемой задаче.

Для постановки задачи в общем случае нужна мера близости игр с разными критериями второго игрока. Будем использовать в качестве такой меры величину

р(Г,Г') = sup |h(u, v) - f (u, v) ,

(u,v)eU xV

где Г = (U, V, g, к), Г = (U, V, g, f).

Предположим, исследователю операции не известна «точная» модель Г, а известно лишь, что построенная им модель Г' мало отличается от Г. Тогда возникает необходимость в получении оценки величины Л(Г) в терминах параметров модели Г '.

Рассмотренные выше конструкции подсказывают нижнюю оценку.

Лемма 5. Если ДГ,Г') < е, то R2s(Y') < R(T).

Доказательство. Пусть у - произвольное число, меньшее R2e(P). Фиксируем стратегию u и число Л, существование которых предусмотрено определением 6. Тогда

[3w е V: fu, w) > Л] & [Vv е V g(u, v) > у v f u, v) < Л- 2е].

В силу условия ДГ, Г') < е справедливы неравенства h(u, w) > fu, w) - е и h(u, v) < fu, v) + е. Поэтому выполняется условие

[3w е V: h(u, w) > Л'] & [Vv е Vg(u, v) > у v h(u, v) < Л'], где Л' = Л - е.

Непосредственно в силу определения 2 отсюда следует, что у - гарантированный результат в игре Г и, значит, R(0 > у В силу произвольности у отсюда получается нужная оценка. Лемма доказана.

Полученная оценка является неулучшаемой. Чтобы избежать излишних технических деталей, докажем это при некотором дополнительном предположении. А именно, будем считать, что игра Г' такова, что множество

{(х, y) | 3(u, v) е U х V : x = g(u, v), y = fu, v)} компактно.

Заметим, что если в игре Г' множества U и V наделены топологиями и компактны, а функции g и f непрерывны на U x V, то и сама игра Г', и любое ее квазиинформационное расширение удовлетворяют сформулированному условию.

Пусть число у является гарантированным результатом для любой игры Г, удовлетворяющей условию р(Г, Г') < е. Покажем, что тогда у< R2ff(P).

Итак, фиксируем число у, удовлетворяющее сформулированному условию. Пусть Л(у) = {(u, v) е U xV : g(u, v) >у} и

Л0 = max f (u, v)

(u ,v )еЛ (у)

(максимум достигается в силу сделанного предположения об игре Г'). Рассмотрим игру Г = (U, V, g, h), в которой

[minif(u,v)-s,Л -s], если f(u,v)>Л -s, h(u, v) = 1

[ max {f (u, v) + s, Л -s) в противном случае.

Очевидно, тогда ДГ, Г ') < s. Поэтому у является гарантированным результатом в игре Г.

Следовательно, найдутся стратегия u и число Л, для которых выполняется условие

(10) [3w е V: h(u, w) > Л] & [Vv е V g(u, v) > у v h(u, v) < Л]. В этой формуле должно быть Л < Л - s. В самом деле, если Л > Л0 - s, то h(u, w) > Л > Л0 - s, а тогда f(u, w) > Л0 и, в силу выбора числа Л0, имеем g(u, w) < у. Следовательно, условие g(u,w) > у v h(u, w) < Л неверно, что противоречит условию (10).

Но тогда не ограничивая общности можно считать, что Л = Л0 - s. Действительно, при таком выборе Л первая часть условия (10) выполняется в точке максимума функции fin, v) на множестве А(Г), а вторая часть условия (10) выполняется при этом значении Л, если она выполняется при каком-то значении Л< Л° - s.

Но при таком выборе Л из условия (10) и способа построения функции h следует, что

[3w е V: f(u, w) > Л0] & [Vv е V g(u, v) > yv fu, v) < Л0 - 2s]. Следовательно, y< RZ£(r'), что и требовалось доказать.

Эти результаты получены в самом общем виде. Если игра наделена какой-то дополнительной структурой, то и результат может быть детализирован. Например, если мы рассматриваем задачу вычисления максимального гарантированного результата в информационном расширении Г* игры Г, то лемма 5 в сочетании с теоремой 7 или 8 дают «конечномерную» регуляризиру-ющую оценку для R(^). При традиционном подходе соответствующую задачу приходилось решать отдельно.

Верхняя регуляризирующая оценка, видимо, представляет меньший практический интерес. Но и она может быть получена аналогично нижней оценке.

Пусть число R**(T) - точная верхняя грань чисел у, для которых существуют такие стратегия u е U и число Л, что выполняются условия

1°. Существует стратегия w е V, для которой w) > Л;

2°. Для любой стратегии V е V либо g(u, v) > у либо h(u, v) < Л + к.

Справедлива

Лемма 6. Если ДГ, Г') < е, то Я*2е(Г') > ^(Г).

Доказательство этой леммы мало отличается от доказательства леммы 5.

Содержательную интерпретацию величины приду-

мать не удается, но работать с ней можно так же, как с величиной Rк(Г). Например, для вычисления величины R*к(Г*) можно доказать аналоги теорем 7 и 8, причем доказательства аналогов повторяют доказательства этих теорем практически дословно.

Оценка леммы 6 тоже неулучшаема. Доказательство этого факта в целом следует доказательству неулучшаемости нижней оценки, но в данном случае удобно использовать следующую конструкцию:

Эта конструкция делает доказательство даже попроще. Но здесь есть одна тонкость. Рассматриваемые игры могут удовлетворять некоторым топологическим условиям. Например, множества U и V могут быть наделены такими топологиями, что U и V компактны, а функции g и h непрерывны на U х V. Или игра является информационным расширением другой игры, которая обладает таким топологическим свойством. Конструкция формулы (11), очевидно, нарушает это свойство. Поэтому если такое топологическое свойство следует из природы моделируемого конфликта, придется повозиться со «сглаживанием» формулы (11). Впрочем, эти детали выходят за рамки данной статьи.

7. Заключение

В настоящее время нет точного определения термина «теория иерархических игр». Но значительная часть результатов, традиционно относящихся к этой области науки, имеет следу-

/(и, V) + е, если g(и, V) > у, /(и, V) — е в противном случае.

ющий вид. Имеется игра Г и ее информационное расширение Г#. Тем или иным способом задается понятие оптимального решения игры Г#, а затем оно описывается в терминах более простой игры Г. Возникло понимание того, что соответствующую часть теории можно рассматривать как прикладной раздел исчисления предикатов. Относительно решений типа равновесия по Нэшу это стало ясно довольно давно [5]. Теперь стало понятно, что то же относится и к вычислению максимального гарантированного результата.

Возможно, такой способ построения теории является более предпочтительным, чем традиционный. И уж во всяком случае наличие двух способов будет полезно.

Литература

1. БУРКОВ В.Н. Основы математической теории активных систем. - М.: Наука, 1977. -255 с.

2. БУРКОВ В Н., НОВИКОВ Д А. Теория активных систем: состояние и перспективы. - М.: Синтег, 1999. - 128 с.

3. ГЕРМЕЙЕР Ю.Б. Об играх двух лиц с фиксированной последовательностью ходов // ДАН. - 1971. - Т. 198, №5. -С. 1001-1004.

4. ГЕРМЕЙЕР Ю.Б. Игры с непротивоположными интересами. - М.: Наука, 1976. - 327 с.

5. ГОРЕЛИК В.А., ГОРЕЛОВ М.А., КОНОНЕНКО А.Ф. Анализ конфликтных ситуаций в системах управления. - М.: Радио и связь, 1991. -288 с.

6. ГОРЕЛОВ М.А. Максимальный гарантированный результат при ограниченном объеме передаваемой информации // Автоматика и телемеханика. - 2011. - №3. - С. 124-144.

7. ГОРЕЛОВ М.А. Игра с ошибками при передаче информации // Автоматика и телемеханика. - 2012. - №12. -С. 137-152.

8. ГОРЕЛОВ М.А. Игры с обменом недостоверной информацией // Управление большими системами. - 2013. -Вып. 41. - С. 5-27.

9. ГОРЕЛОВ М.А. Игры с дорогими информационными обменами // Управление большими системами. - 2014. -Вып. 49. - С. 37-56.

10. ГОРЕЛОВ М.А. Игры со случайными ошибками при передаче информации // Автоматика и телемеханика. - 2015. -№12. - С. 135-153.

11. ГОРЕЛОВ М.А. Иерархические игры с неопределенными факторами // Управление большими системами. - 2016. -Вып. 59. - С. 6-22.

12. ГОРЕЛОВ М.А. Иерархическая игра с умышленно искажаемой информацией // Автоматика и телемеханика. - 2016. -№4. - С. 99-113.

13. ГОРЕЛОВ М.А. Иерархические игры со случайными факторами // Управление большими системами. - 2016. -Вып. 63. - С. 87-105.

14. ГОРЕЛОВ М.А. Об одной гипотезе в основаниях теории иерархических игр // Управление большими системами. -2010. - Вып. 28. - С. 5-23.

15. BOLTON P., DEWATRIPONT M. Contract Theory. - Mass.: MIT Press, 2005. - 740 p.

16. LAFFONT J.-J., MARTIMORT D. The Theory of Incentives: The Principal-Agent Model. - Princeton: Princeton University Press, 2002. - 440 pp.

MAXIMAL GUARANTEED RESULT IN HIERARCHICAL GAMES

Mikhail Gorelov, Computer Center of RAS, Moscow, Cand.Sc., ([email protected]).

Abstract: A new method of investigation of hierarchical two-player games is discussed. This method consists of solving games with complex information exchanges using, for the most part, identical transformation of predicate calculus formulas. We introduce the notion of maximal guaranteed result in a game, give two definitions and discuss the relationship between them. The new method is illustrated on a classical example for which a maximal guaranteed result of a high level player in hierarchical game of two players is calculated. Some particular cases are discussed. Stability of this problem according to variation of the payoff function of the second player is analyzed. We also demonstrate how the definition, and, accordingly, the method are modfied for a benevolent or a bounded-rational second player. Also, we show that the new definiton is convenient for the investigation of stability of maximal guaranteed result calculation procedure with respect to the parameters of the game.

Keywords: informational theory of hierarchical systems, hierarchical games, maximal guaranteed result.

Статья представлена к публикации членом редакционной коллегии А.Г. Чхартишвили.

Поступила в редакцию 13.11.2016.

Опубликована 31.05.2017.

Максимальный гарантированный результат в иерархических играх Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Горелов Михаил Александрович

Похожие темы научных работ по математике , автор научной работы — Горелов Михаил Александрович

Maximal guaranteed result in hierarchical games

Текст научной работы на тему «Максимальный гарантированный результат в иерархических играх»