УДК 517.934
© С.В. Лутманов
ПОСТРОЕНИЕ КОМПРОМИССНЫХ ПОЗИЦИОННЫХ СТРАТЕГИЙ В НЕЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ НЕСКОЛЬКИХ ЛИЦ
Ключевые слова: дифференциальная игра, компромиссный набор стратегий, равновесие по Нэшу, позиционное управление.
Abstract. A compromise set of positional strategies in a differential game of several persons is constructed.
1. Игра в нормальной форме
В игре участвуют к ^ 2 игроков. Множество стратегий i -го игрока обозначим символом Ui, i £ К = {1 ,...к}. В процессе конфликта каждый игрок выбирает стратегию из своего множества стратегий, в результате чего складывается набор стратегий
w = (щ,... ,ик),
который называется ситуацией. Множество всех ситуаций является декартовым произведением множеств Ui, i £ К и обозначается символом
W = U х---х Uk.
Заинтересованность игроков в ситуациях проявляется в том, что каждому игроку i £ К в любой ситуации w £ W приписывается число, выражающее степень удовлетворения его интересов в этой ситуации (чем оно меньше, тем степень удовлетворения выше). Это число обозначим символом /Дw).
Число /г(-ш) называется платой игрока г в ситуации и>, а функция /г ■. Ш ^ Я — функцией платы этого игрока.
Таким образом, описанный конфликт представляется тройкой
Г = {К, {иг,г е К}, {/г, г е К}}.
Дополнительно принимается, что каждый из игроков не заинтересован в значительном выигрыше какого-либо из своих противников, т.е. в том, чтобы функция платы какого-либо игрока оказалось весьма малой. Указанное предположение, например, действует при выборах в представительный орган власти. Каждый игрок (политическая партия) заинтересован получить максимальное число выборных мест, но при этом он опасается, что какая-либо другая партия наберет абсолютное большинство в органе власти и сможет диктовать свою волю остальным партиям. В этом примере за функцию платы игрока следует принять число выигранных соответствующей партией мест со знаком г'минусб.
Для игры Г введем понятие компромиссного набора стратегий.
Определение 1.1. Пусть & = Б*,...,БЫ), Б* = (Б**,...,Б*к), Бг* < Б*, г е К. Ситуация
ад = (^п, ..., п*0МП, . . . ик°МП) е Ш
называется компромиссной относительно векторов Б*,Б* е Як, геК
Бг* < гш п Ь( <° мп, ...,иг,... и^“) <
иг^
Т /„.комп комп компч ^ о*
^ Ми1 ,... ,иг ,...ик ) ^ Бг .
Из приведенного определения следует, что для компромиссно-
г
жутке [Бг*, Бг*], г е К, и никакое единоличное уклонение игрока
от стратегии, предписываемой компромиссным набором, не позволяет ему получить значение платы лучше (меньше) нижней компромиссной оценки.
Заметим, что при = £ * определение компромиссного набо-
ра стратегий переходит в определение равновесия по Нэшу. Компромиссный набор стратегий сохраняет свойство устойчивости по отношению к игроку уклонисту (в ослабленном варианте). При этом среди компромиссных наборов стратегий можно ожидать существование такого набора, для которого справедливы неравенства (для всех г € К)
кигт,...,иТып,..< 1г{4,...,и°г,...,и°к), (1.2)
где и®,..., и_г, и, и+1, ...,ик — равновесный по Нэшу набор стратегий.
2. Дифференциальная игра
Построение компромиссного управления в классе позиционных стратегий осуществим для дифференциальной игры следующего вида. Динамика игры описывается обыкновенным векторным нелинейным дифференциальным уравнением
к
х =/0(г,х) + А(г,х) -^2иг. (2.1)
г=1
Здесь г € К — текущее время, х € Кп — фазовый вектор игры, щ € Кт — вектор управляющих параметров г -го игрока, г € К, А(г,х) —матрица размера т х п.
Функция / : Кп+1 х Ккт ^ Кп вида
к
/(г,х,щ, ...,щ) = Ш,х) + А{г,х)^иг,
г=1
г € К,х € кп, иг € кт, г € к
при каждом фиксированном г € К непрерывна по совокупности переменных х,щ,...,ик, а при фиксированных значениях х € Кп,иг € Кт, г € К, измерима то Борелю по переменной г.
/
удовлетворяет условию Липшица по переменной и условию продолжимости решения.
На векторы управляющих параметров игроков наложены геометрические ограничения в форме включений и г € Рг, где Рг с Кт, г € К компактные множества. Момент Т € К окончания игры фиксирован, а функции платы игроков содержат только терминальные слагаемые,
1г(и, ...,щ) = <£{х{Т)), г € К, (2.2)
где ^г '■ Кп ^ К,г € К — непрерывные функции. Дополнительно предполагается, что для любого вектора в € Кт и любых г€К
тт < в,щ > + ••• + пнп < в, ик 0. (2 3)
и\еР1 икеРк ' ' '
Свои управляющие параметры каждый игрок формирует, основываясь на информации о текущем времени и реализовавшемся фазовом векторе объекта, при этом он не осведомлен о выборе управляющих параметров остальных игроков в этот момент времени. Понятия позиционной стратегии игрока и движения объекта, отвечающего набору позиционных стратегий, определяются аналогично работе [1].
Пусть функция д : Кп+1 К является непрерывно диффе-
ренцируемой функцией своих аргументов, для которой выполняется неравенство
0, (£, ж) е пп+1,г ^ Т. (2.4)
Предположим также, что для некоторого числа с € К множество
Мс = {х € Кп\д{Т,х) < с}
ограничено. Полагаем
Бг* = илп рг(х), Б* = шах рг(х), г € К,
х£Ыс х£Ыс
шс = {(г,х € кп+1 \д(г,х) ^ с}.
Определим набор позиционных стратегий и\омп,...,ик°мп всех игроков из условия
щКОмп __ / иг(г,х), {г,х) € ^с (2 5)
г [произвольный вектор ИЗ Рг, (г,х) € Шс,
где
/(А(і,х))тЩ^,иег(і,х))= тіїї/(А(і,х))тЩ^,иг), і є К.
\ ох / иі єРі\ дх /
Теорема 2.1. Набор позиционных стратегий (2.5) всех игроков является компромиссным относительно векторов
п /п с \ с* / с*
О* V °1 *, ..., Ок*), О \О1 ,...,Ок )
для любой начальной позиции (£о,Хо) Є Шс, іо ^ Т.
Доказательство. Достаточно показать, что х{Т) Є Мс для всех движений
\ Ґ- х^[> .V, Т-ГКОМП Т 7КОМП Т 7КОМП 7-7КОМІП
щ•) Є ,...,иі-і +і ,...,ик і
и всех номеров і Є К . От противного приходим к существованию номера і Є К и движения
*
х у) Є ,...,иі — ,иі+і ,...,ик і
таких, что
д(Т,х*( Т))>е. (2.6)
Неравенство (2.6) невозможно. Действительно, в силу g(xo) < с должен существовать промежуток времени (t ,t ) С [to,T] не нулевой длины, на котором функция g(t,x*(t) монотонно возрастает и при этом выполняется условие
(t,x*(t)) /Wc,t Е (t ,t).
Вычислим полную производную по времени от этой функции вдоль движения. В силу (2.3), (2.4) имеем
d
—g(t,x*(t)) =
x=x*( t) \dx
A(t, х*(t))ue(t, x*(t)) + A(t, x*(t))ui(t)
j eK(i)
dg
(^(t,x*(t)), ^ A(t,x*(t))uej(t,x*(t)) + A(t,x*(t)),Ui(t)^
jeK(i)
j€K(i)
(A(t,x*(t))T^(t,x*(t)),Ui(t)j^
€ ,{(A(t,x*(t))T^(t,x*(t)),ujy
j £K(i)
max < (A(t, x*(t))TT^~(t, x*(t)),Ui W 0, t G (t ,t). u^Pi dx /
Полученное неравенство противоречит монотонному возрастанию функции д(г, х*(г)) па промежутке времени (г',г”). Теорема доказана.
3. Модельный пример
Рассмотрим дифференциальную игру трех лиц, динамика которой описывается следующей системой нелинейных дифференциальных уравнений:
х = —х — 3 у + 4ху + 4у2 + щ + щ + ^, У =
Здесь т = п = 2
у = 2х — Зу — 2х2 — 2ху + иг + ^2 + ЭД2.
(3.1)
= (2х —5—5) • А^ху=С 1
На векторы управляющих параметров наложены геометрические ограничения
и,ь,^ Е Р =
К й) 1р5+й <5}'
.
Мг г
,,,
П = 1 I , г2 = , Г3 = , т
0\ _ -Ь\ _ &
^ 1 Го = Го = I I
относительно начала координат. Эти точки в дальнейшем будем называть целевыми множествами игроков. На рис. 1 показано расположение целевых множеств игроков относительно принятой системы координат.
Т
.
<Рг(х(Т),у(Т)) = у/(х(Т) - хгу + (у(Т) - уг)2, / 1.2.3.
Рис. 1. Расположение целевых точек
Таким образом, платой игрока служит расстояние от фазового вектора управляемого объекта в момент окончания игры до целевого множества этого игрока. Полагаем
д(х,у) = х2 + 2у2, (х,у) € К. д
х —х — у ху у .
\у) 2х — Зу — 2х2 — 2ху ) .
Имеем
=—2 х— —у (х) )<0
для всех (х,у) € К2,(х,у) ф 0. Условие (2.4) выполнено. Множества
Мс = Кх,у) € К\д(х,у) < с} = Кх,у) € К\х + 2у2 < с}
ограничены при любых значениях константы с € К. Нижние и верхние компромиссные оценки для игроков вычисляются по формулам (г €{1,2,3})
с) = тт \ (х — х^2 + (у — у^2,
(х,у,г)еМс *
^г*(с) = тах «/(ж - Ж;)2 + (у - Уг)2.
(х,у,г)еМс *
Полагаем с = 1,2. Тогда
$* = 0,227482, $2* = 0,167777, £3* = 0,0208233,
$* = 1,7453, ^ = 1,91574, 1,7727.
д.
вид
йд_
(М
(ЗД)
\дх / \дх \и2 + У2 + У1)2
— х ху — у хи уи
+2(х-и! + 2ууъ) + 2(х-шх + 2у^).
Тогда компромиссные стратегии игроков в соответствии с соот-.
икома(х, у)= укома(х, у)= ■шкома(х, у) =
-Ь\у/^), 9(х,у)>с (3.2)
л/х2+4у2 ,
произвольный вектор из Р, д(х, у) ^ с.
Рассмотрим несколько (пять) начальных позиций (£о, ( ^
х
в игре. Например, позиции (£о = 0)
А = © .^=(„°75
*=
Легко проверяется, что для каждой из них выполнено условие *о < Т, € Шс={ € К | д(х,у) < ^.
Для произвольного движения из пучка, выходящего из начально-х
го положения (£о, у о ) и порожденного компромиссным набо-\*>/
..
их в табл. 1. По теореме 2.1 эти значения должны находиться в пределах компромиссных оценок, полученных выше.
Таблица 1
х0 Ь к к
Аг 0,2 < 1,0 < 1,8 0,2 < 0,9 < 1 9 0,0 < 1 1 < 1 8
Ас1 0,2 < 0,8 < 1,7 0,1 < 0,8 < 1 9 0,0 < 1 0 < 1 7
Аз 0,2 < 1,2 < 1,7 0,2 < 1,2 < 1 9 0,0 < 1 1 < 1 8
а4 0,2 < 0,8 < 1,7 0,2 < 1,0 < 1 9 0,0 < 0 6 < 1 8
Аь 0,2 < 1,0 < 1,7 0,2 < 1,0 < 1 9 0,0 < 0 9 < 1 8
Из данных табл. 1 видно, что указанный факт действительно имеет место.
Допустим, что какой-либо из игроков уклоняется от стратегии, предписываемой ему компромиссным набором. Стратегию
уклонения і -й игрок, і Є {1,2,3} выбирает, например, в виде
17
у/ (хі-х)'2 + (уі-х)'2 Уі-У
у/(хі-х)2 + (уі-х)2 г
(Х,у)ф (Хі,Уі
\ \/(хі-х)2 + (уі-х)2 /
произвольный вектор ИЗ Р,(х,у) = (Хі,Уі).
Рассмотрим две ситуации.
В первой ситуации остальные игроки назначают свои управляющие воздействия случайным образом.
Во второй ситуации — в соответствии с компромиссными стратегиями (3.2). В качестве начального положения возьмем '0^
,
.
несем в табл. 2.
Таблица 2
Номер Случайное управление Компромиссное управление
игрока- нижняя плата нижняя плата
уклониста компро- игрока компро- игрока
миссная уклониста миссная уклониста
оценка оценка
1 0,13 0,9 1,4 0,3
2 0,566 1,129 1,698 0,28
3 0,57 1,131 1,71 0,28
Таким образом, игрок-уклонист в состоянии преодолеть свою нижнюю компромиссную оценку при случайном управлении остальных игроков, и он не может этого сделать, когда остальные игроки придерживаются компромиссных стратегий. Траектории управляемой точки для второй ситуации показаны на рис. 2.
Можно показать, что для начальной позиции
набор стратегий
ь°(х, у) = ь°(х, у) = 'Ш°(х, у) = (х,у)фО
у/х2+4у2
~2у
у/х2+4у2
произвольный вектор из Р, {х, у) = О
удерживает текущую позицию игры в начале координат на всем промежутке времени [Ьо,Т] при любых действиях игрока-укло-
ниста. Следовательно, этот набор стратегий является равновесным по Нэшу. При этом
/^и°,у°, ад0) = ^(0,0,0) = 1, г = 1, 2, 3.
Покажем, что в рамках компромиссных стратегий каждый игрок может строго улучшить этот результат. Полагаем
и
(х, у)= укома(х, у)= ткома(х, у) =
у/х2+4:у2
~2у
,у/х2+Ау2 ,
д(х,у,г) > с
Здесь
ч \л/(х-х*)2+(у-у*)2,
Хі + Х2 + X - 1 + лД
х
у* =
з 6
2/1 + 2/2 + Уз 3 + УЗ
6
Заметим, что стратегии
'■'КОМИ -ЧКОМП ЛКОМП
(и , V ,
определены корректно, т. к.
д{х*,у*,г*) = 1,2589 > с = 1,2.
Для данного набора стратегий значения плат игроков следующие:
/і(икомп, фКОМП ^КОМП ^ = 0, 845485 < 1 іи V0, т0'
12{икома, фКОМП ^КОМП ^ = 0,547274 < 1 О и і II V т0'
і3(икома, ^комп ^КОМП ^ ,< іи V
Таким образом, каждый из игроков действительно получил результат, лучший, чем при равновесном наборе стратегий.
— X
X* —х
Список литературы
1. Красовский Н. Н., Субботин А. И. Позиционные дифференциальные игры. М.: Наука, 1973. 455 с.
2. Лутманов С. В. Компромиссное управление в дифференциальных играх нескольких лиц// Известия Института математики и информатики. Вып. 2 (32). Ижевск, 2005. С.83-102.
3. Кулагин Е. В., Лутманов С. В., Петухов И. Построение гарантирующих стратегий в одной нелинейной дифференциальной игре наведения-уклонения// Проблемы механики и управления: Межвуз. сб. науч. трудов. Пермь. 2004. С.34-45
4. Лутманов С. В. Об одном способе построения стабильного моста в нелинейной дифференциальной игре/ / Проблемы механики и управления: Межвуз. сб. науч. трудов. Пермь. 2003. С.41-48
5. Лутманов С. В., Пальянова Е. В. Построение стабильных мостов в нелинейных антагонистических дифференциальных играх// Вестн. Перм. госун-та. Сер. Математика, информатика, механика. Пермь, 2003. Вып.5. С.41-46.