Научная статья на тему 'Об отсутствии максиминных стратегий в одной дифференциальной игре'

Об отсутствии максиминных стратегий в одной дифференциальной игре Текст научной статьи по специальности «Математика»

CC BY
133
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ / КООПЕРАТИВНЫЕ ИГРЫ / НЕОПРЕДЕЛЕННОСТЬ / РИСК / DIFFERENTIAL GAMES / COOPERATIVE GAMES / UNCERTAINLY / RISK

Аннотация научной статьи по математике, автор научной работы — Кудрявцев Константин Николаевич

Рассмотрен аналог леммы о мажоранте из [1], с помощью которого для дифференциальной позиционной кооперативной линейно-квадратичной игры двух лиц при неопределенности найдены ограничения на функции выигрыша, при которых у игроков не существует «индивидуальных» максиминных стратегий.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

About absence maximin strategy in to one differential game

In this article, we consider cooperative games with side payments under uncertainly. We formalize and prove existence of such game solution, guaranteed for winnings and risk

Текст научной работы на тему «Об отсутствии максиминных стратегий в одной дифференциальной игре»

УДК 517.977

ОБ ОТСУТСТВИИ МАКСИМИННЫХ СТРАТЕГИЙ В ОДНОЙ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЕ

К.Н. Кудрявцев

Рассмотрен аналог леммы о мажоранте из [1], с помощью которого для дифференциальной позиционной кооперативной линейно-квадратичной игры двух лиц при неопределенности найдены ограничения на функции выигрыша, при которых у игроков не существует «индивидуальных» мак-симинных стратегий.

Ключевые слова: дифференциальные игры, кооперативные игры, неопределенность, риск.

1. Формализация игры

Рассматривается дифференциальная позиционная кооперативная линейно-квадратичная игра двух лиц с побочными платежами и при неопределенности, которая отождествляется с упорядоченной пятеркой

({1,2},2, (1)

В (1) участвуют два игрока с порядковыми номерами 1 и 2. Изменение (во времени ?) управляемой системы £ описывается линейным дифференциальным уравнением

х = А(^)х + щ +и2 + А1{1)г + а{{), х(%) = х0. (2)

Здесь время Ге^о,#], постоянные 3 >^о - О ; фазовый вектор хеК", (/,*) - позиция игры, (?0,х0) - начальная позиция; неопределенный фактор геЖт; матрицы соответствующих размерностей А{1), А] (/) и и-вектор а(/) непрерывны на [0,19] (этот факт в дальнейшем обозначается А()&Спхп[0,3], Ах (■) е Спхт [0, .9], а() е Сп [0,$]); м,- е 1" - управляющее воздействие/-го игрока (/ = 1,2) .

Стратегии /-го игрока 111 отождествляем с линейными функциями вида щ (/, х, г) = % (*)х + 0г. (/) г + qi (/), где Р1 (■) е Спхп [0,19], б, (•) е Спхт [0,3], $ (•) е С„ [0,3], и тогда выбор г-ым игроком своей стратегии сводится к выбору конкретных непрерывных на [0,5] матриц Р, (/) , <2( (/) и вектора </, (/); поэтому множество стратегий /-го игрока (/ = 1,2) имеет вид:

2Ц = {Ц + щ(/, х, г) | щ (/, х,г) = Р^)х + £> (/) г+ qi{t),

V/; (•) е Спхп [0,3], а (•) е Спхт [0,3],9( (•) е Сп [0,3]}.

Заметим, что стратегии указанного вида впервые использовались в минимаксной дифференциальной антагонистической игре академиком Н.Н. Красовским в [4] и названы там контрстратегиями.

Наконец, управляемая система Е, как правило, подвергается неожиданным, трудно прогнозируемым возмущениям как извне (появление конкурентов, изменение спроса на товары, банкротство поставщика и т.п.), так и изнутри (поломка и замена оборудования, болезни и забастовки персонала, несовпадение планируемых сроков пуска нового оборудования с реальными сроками и т.д.). Для системы Б данный факт будет выражаться в реализациях в каждый момент

времени £ е[уо,.9] численных значений некоторого векторного параметра ге!т. Будем предполагать (см., например, модель Эванса [5]), что игрокам известна динамика (изменение во времени I) вектора г\{\ на отрезке [/0,.9]. Пусть это изменение описывается векторным линейным неоднородным дифференциальным уравнением

г = В^)г + Ъ{{), г[/0] = г0, (4)

где тхт-матрица 5()еСтхт[0,|9] ит-вектор £(•) £Ст[ о, а].

Итак, неопределенность 2 будем отождествлять с т-вектор-функцией (обозначаем I -ьг[-]), являющейся решением (4) с начальным условием 2[?0] = х0 е кт .

Множество Я неопределенностей Z получаем, когда ?() «пробегает» все значения из промежутка [0,3), а г0 - точки из Мт.

Таким образом, для построения конкретной неопределенности достаточно знать ее начальное значение г[?0] = г0 е Шт, а затем найти решение уравнения (4). Здесь фактически неопределенностью является начальное значение г0 е Кш, а возможные скачки неопределенности (например, скачки цены товара на рынке сбыта) происходят до момента времени ?0 . Начиная же с ?0 до момента |9 изменение неопределенности 2 происходит в соответствии с уравнением (4). Если промежуток [?0, $] достаточно мал, то такой факт полностью соответствует математической модели Эванса изменения на рынке цены товара в зависимости от спроса и предложения [5].

«Партия» дифференциальной игры (1) «развивается» следующим образом. Игроки, действуя сообща, обмениваясь информацией, согласованно договариваются о выборе своих стратегий II* е 21(, II* ■*- и* ((, х,г) = Р* (?) х + <2* (?) г + д* (/) (/ = 1,2). В результате образуется ситуация

Независимо от этого выбора реализуется конкретная неопределенность 2* е Z, 2* ч- 2* [?]. Тогда система (2) при и1 = и* (?,х,г) (/ = 1,2) и г = г*[/] превращается в векторное линейное неоднородное дифференциальное уравнение с непрерывными (по ? е [?0,<9]) коэффициентами

Такое уравнение имеет [6, с.29] единственное, непрерывно дифференцируемое решение х* (?),

По найденному решению х*(?) и неопределенности £*[?], ?е[?0,<9] строится реализация выбранных игроками стратегий и* -ьи*(?,х,г) (г = 1,2), а именно, определенная при каждом ?е[?0,19] суперпозиция

где использованы априори заданные постоянные симметричные пхп матрицы С,, В1/. О, и

Следуя подходу принципа минимаксного сожаления [7], для функции выигрыша (5) строится [2] функционал риска Ф, (С/, 2', /0, лг0 ).

На втором этапе игроки перераспределяют между собой полученные суммарный выигрыш

и* =(^,с^)еа=а1ха2.

продолжимое на весь интервал игры [?0,<9].

На четверках непрерывных вектор-функций

определена функция выигрыша /-го игрока, заданная квадратичным функционалом

(5)

тх т матрицы Ь1, С'Р; штрих сверху означает операцию транспонирования. Значение функции выигрыша 3{ 1и*,2*,(0,х0) называется предварительным выигрышем /-го игрока.

и суммарный риск

,2 ,ґ^,х^ +^[2{хі ,2 фх[и* Х,Ц,хй) + Ф2(и*Х^х0).

Итак, согласно описанному процессу «протекания» кооперативной дифференциальной игры с побочными платежами, каждый игрок согласованно с партнером формирует свое решение -стратегию и, е 21, (г = 1,2), а затем перераспределяет свой суммарный выигрыш так, чтобы его

окончательный выигрыш был по возможности большим, а перераспределенный риск (значение функции риска) по возможности меньше. При этом игроки должны учитывать возможность реализации любой неопределенности 2 6 2.

Для рассмотренной игры (1) в [3] определено следующее понятие гарантированного по выигрышам и рискам решения (ГВРР).

Определение. В дифференциальной позиционной кооперативной игре двух лиц с побочными платежами при неопределенности (1.1) тройку (и*,^*[?0,х0],Ф*[?0,л0]| назовем гарантированным по выигрышам и рискам решением (ГВРР) игры с начальной позицией (?0,х0)е[0,5)хК",

если существует неопределенность 2* , при которой выполнены следующие три условия:

1 °) условие коллективной рациональности

2°) условие «неухудшаемости» суммарного суммарного выигрыша и риска

г=1

3°) условие индивидуальной рациональности

для всех 2 е 2 и (/0,л'0) е [0,$)х М" справедлива система из четырех неравенств

^[г,10,х0]>тах шт 3^их,и2,2,^,х0),

(6)

где

ы

при этом пару

назовем гарантированным векторным дележом, пару

* { * * \

- гарантированным векторным риском, а С/ =1 их ,172 ) - ситуацией, гарантирующей эти дележи и риски в ДКИН (1) с побочными платежами и начальной позицией (/0,х0).

Замечание 1. Требование 1 определения ГВРР выделяет для каждой неопределенности I к

2

каждой начальной позиции (?0,х0)е[0,.9)хМ” ту сумму выигрышей ,2,10,х0) и сумму

1=1

рисков ^Ф;^£/*,2,?0,х0^, которые делятся между игроками так, что первому распределяется

/=1

часть суммарного выигрыша Зх

2 , ?0 5 -^0

и часть суммарного риска Ф1

, второму

соответственно 37

2 , ?д , Хр

и Ф-

. При этом распределении условия индивидуальной рациональности обеспечивают обоим игрокам выигрыши не меньшие, и риски не большие тех, которые они могли бы «обеспечить себе», действуя самостоятельно и используя свои макси-минные и минимаксные стратегии.

2. Лемма о мажоранте

Ниже определены условия, при которых не существуют максимины и минимаксы из (6). При выполнении данных условий между игроками допустимо любое распределение суммарного гарантированного дележа 3,2* ,10,х0^ + 32(и* ,2* ,10,х0^ и суммарного гарантированного

риска Ф, (и*, 2*,*0,х01 + Ф2 (и*,2* ,?0,х0).

Рассмотрим квадратичный функционал, определенный в (5), а именно

Зх (и,2,і0,х0) = Х'(3)С1Х(0) + ф]СІі)г[$]

+

+ ЦМ1 МАі»1 М + и2 И АгМ2 [*]+ 2 [?] А 2 И + л'(?)С,х(?)| Л

(7)

при рассмотренных в (2)-(4) ограничениях.

Лемма. Если в (7) матрица 1)12 < 0 (т.е. соответствующая квадратичная форма определенно отрицательная), то при любом выборе стратегий £/, е 21, (/ = 1,2) и начальной позиции

(?0,х0) е[0,5)х{к"\0„}, 2[/0] = 20 е Мт существует «своя» стратегия й2 е 212 , при которой

> 2’^’^о,Хд). (8)

Доказательство разобьем на три этапа. На первом - для задачи (8), (2) - (4) при [/,■ -ь (/, х, г) = Р: (1)х + (){{1)г + (?) (г = 1,2) построим функцию Беллмана V* (/,х, г), на втором -установим равенство

А(^]’^2’2^о,х0)-У^0,х0,г0), (9)

на третьем - докажем строгое неравенство (8).

Первый этап. Для задачи (8), (2) - (4) найдем функцию Беллмана. Пусть фиксированы (£/*, и'2) -г (и* (?, х, г), и2 (?, х,г)) = ^Р* (?)х + ()* (?)г + </* (?), Р2* (?)х + (?2 (?)2 + #2 (?)^ - какая-либо ситуация из 211 х 212 и (?0,х0) е [0, .9) х |м" 10п|, г[?0] = г0е Ж7” - произвольная начальная позиция. Введем функцию

д¥

Ж(і,х,щ,и2,г,У) = — +

9?

дГ

дх

[А(ґ)х + иг+и2 + Ах (?)г + а(?)] +

(10)

+

дУ_

&

[В(і)г + 6(?)] + щО\\Щ + и2 Д 2и2 + х'0{х + г'Ц г.

Функцию Беллмана К*(?,х,г) определим из условий:

Ж (?, х, и* (?, х, г), и*2 (?, х, г), г, У(1,х,г)^ = 0 V (/, х, г) е [0, &):

^,х,г) = х'С^х + г'С,а)г Ух 6 М",г е Кт.

(И)

(12)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ищем решение (11), (12) в виде

V(t, х, z) = x'&(t)x + 2х'Е (t)z + z'£(t)z + 2 x'%(t) + 2 z'rj(t) + co(t\ (13)

где соответствующих размерностей матрицы 0(0, Н(0, С(0> вектора £(0, ?/(0 и скалярная функция (o{t) подлежат определению; предполагаем лишь пока, что ©(0 и C,{t) симметричны. Подставив (13) в (11) — (12), с учетом вида U* (/ = 1,2) получаем

W (t, X, Щ (t, X, z), и2 (t, X, z), Z, V(t, X, z) j = W\t, x, z] =

= x'©x + 2 x"Ez + z’C, z + 2 x'g + 2 z'fj + d> +

+2 [x'0 + z'H' + £']^A(t)x +P* (t)x + Q* (t)z + q* (t)+P2* U)x + 02 (0Z + Чг (0 + A (0Z + a(l) +

+2[x'E + zX + rj'][B(t)z + b(t)] +

x'{P*{t))' + z'{Ql{t))' + Dn P*(t)x + Q*(t)z + q*(t)

+

+

x'(Pi (0У + z'(Qi (0У + (<?2 )У

Д2 ^2* (0*+ 62 (0г + Ч2 (0 + х'^х + г'Цг = 0. Тождества (И), (12) имеют место, если 0(0; Щ0> С(0> £(0> 7(0» ®(0 является решением системы

©+®[л(о+^*(о+яГ(о]

+

л'(0 + А'(0

+

^*(о1

0 +

+[р; (0]'А ,Л* (0+(0Г Аг^2 (0+^ = °„х„;

Ё+©[еГ(/)+а*(о+4(о]+[жо+^*(о+^(о]з+

+ Е5(0+[^Г (ОТ А16Г (0 + [^2* (ОТАг02 (0 = °тх«;

<Г + 3' [й* (0 + 02 (0 + А (0] + £В( 0 +

+[0* (ОТ А1 0* (0+[02 (ОТА202 (0+А - отхт;

# + ©[^(0 + 92(0 + «(О] + [до+(ОТ+Ш от]# +

+ 36(0+[^(ОГА,^ (0+[^(ОТАг^ (0 =

1)+Н'[^*(0 + <й(0 + *(0] + [[0Г(О]'+[02* (ОТ + Л'КО]# +

+ £6(0 +5'(07 + [0* (ОТ А 1?Г (0 + [02 (ОТ А292 (0=<>т ;

®+Ч’ я* (0+?2 (0+«(0 + 2»7'б(0+[?* (ОТА1?* (0+[02(ОТА202 (0 =

0(5) = с,, Щ5) = ояхя, С(-9) = с,(1),

да = 0„, 77а(3) = 0т, ®Д5) = 0.

Система (14) линейная неоднородная с непрерывными по I е [0,5] коэффициентами. Поэтому, согласно [6, с. 29], (14) имеет единственное непрерывное решение ©*(/), Е*(0, С*(0 > #*(0 • ц*(I), со* (0, продолжимое на [0, .9].

Таким образом, доказано существование функции

V* (/, х, г) = х'©* (0х + 2х'Е* (0г + (/)г + 2х'£* (0 + 2г'г}* (() + со* (0,

определенной при всех (I,х,г) е [0, .9) х Шп+т и удовлетворяющей равенствам:

Ж^,х, и* (?, х, г), и*2 (/, х, 2), 2, V* (/, х, г)^ = 0 У(*, х, г) е [0,5) х Ж"+т, (15)

У*(3,х,г) = х'Схх + г'С\х)г УхеМ",2еКт. (16)

Второй этап. Установим равенство

^1(^1 ^0’''"О) = У (г0,х0,г0), (17)

(14)

где ситуация

(I}* ,и*г) + (и* (1,х, г), и2 (*,х, г)) = ^Р* (/)х + £>* (0^ + Ч\ (О. А* (О* + 62 (О* + Ч2 (О) та же, что применялась на первом этапе доказательства, а функция У*(1,х,г) была построена выше. Пусть х({), 0 < ? < 3 - решение (2) при м, = и* (?, х, 2) = Р* (1)х + (У* {1)г + д* (?), (г = 1,2), а 4?], ?0<?<>9 - решение (4). Подставляя х = х(?) и 2 = г[1\ в (15), получим, что при всех ? е [?0„9]

дУ*^,х,г)

О = W[t] = -

+

dt

dV*(t,x,z) дх

dV*(t,x,z) dz

[Д?)х + м* (?, х, z) + иг (t, х, z) + 4 (?)z + a(?)] + [i?(?)z+ &(?)] +

(18)

x=x(t),z=z[t\

+ |[m* (?, X, z)]'D| [M* (?,X, z) + \u*2 (?,X, z j\D]2U*2(t,X, z) + X'G[X + Z'Z]Z j.

Найдем полную производную от найденной на первом этапе функции Беллмана V* (?, х, z) в силу (2), (4) при ы, = и* (?, х, z) = Р* (?)х + Q* (t)z + q*(t), (г = 1,2), т.е. в силу системы

I х = Д?)х + и* (?, х, z) + г*2 (/, х, г) + Ах {t)z + a(t), х(?0 ) = х0,

|г = Я(?)г + 6(?), *l>o] = zo-

Тогда имеет место цепочка равенств

(19)

dV*(t,x, z)

dt

+

dt

(19)

dV(t,x(t),z[t]))

+

dz

dz\t\

dt

dv{t,X(t\m))

dx

(dV*(t,x,z)

dx(t)

dt

+

(19)

(19)

dt

dV*{t,x,z)

dx

\A(t)x + u* (t, x,z) + u*2 (?, x, z) + Ax (t)z + a(t)\ -dV*(t,x, z)

(20)

dz

[B(t)z + b(t)]

x=x(t)

z=z[(]

Используя (20) и тождество (18), представим РГ[?] в виде

те=+(«,* м)' а 1 «Гм+

(*/*[?])' А 21^2 И + *Ч0ад0 + V? е [/0,,9],

где и* [?] = и* (/, х(?), г[?]) (г = 1,2). Наконец, согласно (16)

¥*(3,х(3),г[3]) = х'^С^З) +

Интегрируя обе части (18) в пределах от ?0 до 9 и учитывая (21), (7) и (22), получаем

о =11Г*№=ми;,и*2, г, ?0,Х0)-Г(?0,Х0,20).

(21)

(22)

(23)

Кудрявцев К.Н. Об отсутствии максиминных стратегий

__________________________________________________________ в одной дифференциальной игре

Отсюда следует (17).

Третий этап. Возьмем теперь стратегию й2-^и2(1,х) = [Зе, где /7 = const >0 определим ниже, а все компоненты и-вектора е равны единице. Тогда

W(t,х, щ (t, х, z),u2(t,х), z, V(/,x,z)j =

= x'S(t)x + 2x'E(t)z + z'£ (t)z + 2x'i;(t) + 2 z'fj{t) + ri>(t) +

+2 [x'0(/) + z'E'(t) + £'(0] + P\ (/)x + Q* (t)z + q* (/) +

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+/3e + Ax(t)z + a(/)] + 2|VS(0 + z'£(t) + Tj'(t)][B(t)z + b(t)] +

+[x\P:(t)) + z\Ql{t)) + [q^^Dn[px{t)x + Ql{t)z + ql{t)\ +

+01a'Dne + x'Gxx + z’l^z.

Обозначим через x{t) и z[l] - решение системы (2), (4) при щ =u*(t,x,z), и2= /Зе. Тогда W[t,P\ = W(/,x(t),щ 0,x(t),z[t]),u2((,x(t)),z[t], V(t,x(t),z[t])) =

= <P\ (0 + M № + P2e'Dne, где (Pj(t) (j = 1,2) - непрерывные на [0,$] функции.

Так как DX2 < 0, то e'DX2e < -/лее, где -/л = const < 0 - наибольший корень характеристического уравнения det\pxl - ЛЕп] = 0. Так как все функции (t) непрерывны на [0, #], то существует постоянная М такая, что max(</?.(/)) = М. Поэтому существует /3* = const > 0 такая, что

7=1,2V 1 >

М + 0*М<-[0*^мп,

откуда

W[t,/3*]< 0 У?е[0,,9].

Наконец, отсюда

8

§mt,0*]dt = Jx(Ux,u2,Z,to,xo)-V(to,xo,zo)<O

^\(Р\ >£/2’^’^)’Хо) < V(*0’х0’20)-

Тогда согласно (23),

*Л(^1 ->112^^О’^ь) <’^\(^\ 1^2’1 х0)’

т.е. удалось найти стратегию ц2 е 212 второго игрока такую, что имеет место неравенство (8), что и требовалось доказать.

Замечание 2. Как следует из доказанной выше леммы, если матрица В[2 < 0, то не существует минимума тт ,/1 (17х,и2,1,10,х0),& следовательно, и применяемого в (6) максимина

£/2еЯ2

тах тт J,(UX,U7,Z*,/п,хп).

г7,еа,!У2еа2

Полностью аналогично доказывается, что при £>21 < 0 не существует применяемого в (6) максимина

Миии2Х,{0,х0).

Таким образом, при выполнении ограничений Д2 < 0 и 02Х < 0 в функции выигрыша (5) у игроков в бескоалиционном варианте игры (1) не существует «индивидуальных» максиминных стратегий. А для ГВРР кооперативного варианта (1) с возможностью побочных платежей при выполнении данных условий допустимо любое перераспределение суммарного гарантированного

дележа JX\U* ,Z* ,t0,x0j +J2\U* ,Z* ,t0,x0j и суммарного гарантированного риска

Ф](и*Х,10,х0) + Ф2(и*Х,{0,х0).

Литература

1. Жуковский, В.И. Кооперативные игры при неопределенности и их приложения /

B.И. Жуковский. - М.: Эдиториал УРСС, 1999. - 340 с.

2. Кудрявцев, К.Н. Функции риска в одной кооперативной дифференциальной игре / К.Н. Кудрявцев // Информационные технологии моделирования и управления. - Воронеж: «Научная книга», 2008. - В. 6 (49). - С. 665-674.

3. Кудрявцев, К.Н. О гарантированных по выигрышам и рискам решениях в некоторых кооперативных играх / К.Н. Кудрявцев // Наука ЮУрГУ: материалы 61-й научной конференции. Секция естественно-научных и гуманитарных наук. - Челябинск: Изд-во ЮУрГУ, 2009. - Т. 2. -

C. 149-153.

4. Красовский, Н.Н. Позиционные дифференциальные игры / Н.Н. Красовский, А.И. Субботин. - М.: Наука, 1974. - 455 с.

5. Колемаев, В.А. Математическая экономика / В.А. Колемаев. - М.: ЮНИТИ, 2002.

6. Понтрягин, Л.С. Обыкновенные дифференциальные уравнения / Л.С. Понтрягин. -М.: ГИФМЛ, 1961.-212 с.

7. Savage, L.Y. The theory of statistical decusion / L.Y. Savage // J. American Statistic Association.- 1951.-№46.-P. 55-67.

ABOUT ABSENCE MAXIMIN STRATEGY IN TO ONE DIFFERENTIAL GAME

In this article, we consider cooperative games with side payments under uncertainly. We formalize and prove existence of such game solution, guaranteed for winnings and risk.

Keywords: differential games, cooperative games, uncertainly, risk.

Kudryavtsev Konstantin Nicolaevich is Senior Teacher of the Mathematical Analysis Department, the Mechanical-Technological Faculty, South Ural State University.

Кудрявцев Константин Николаевич - старший преподаватель, кафедра математического анализа, механико-математический факультет, Южно-Уральский государственный университет.

e-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.