Научная статья на тему 'Построение компромиссных позиционных стратегий в нелинейных дифференциальных играх нескольких лиц'

Построение компромиссных позиционных стратегий в нелинейных дифференциальных играх нескольких лиц Текст научной статьи по специальности «Математика»

CC BY
73
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА / КОМПРОМИССНЫЙ НАБОР СТРАТЕГИЙ / РАВНОВЕСИЕ ПО НЭШУ / ПОЗИЦИОННОЕ УПРАВЛЕНИЕ

Аннотация научной статьи по математике, автор научной работы — Лутманов Сергей Викторович

Вводится понятие компромиссного набора стратегий игроков. Обосновывается способ его построения для одного класса нелинейных позиционных дифференциальных нескольких лиц. Рассмотрен модельный пример.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Construction of compromise positional strategies in nonlinear multi-player differential games

A compromise set of positional strategies in a differential game of several persons is constructed.

Текст научной работы на тему «Построение компромиссных позиционных стратегий в нелинейных дифференциальных играх нескольких лиц»

УДК 517.934

© С.В. Лутманов

[email protected]

ПОСТРОЕНИЕ КОМПРОМИССНЫХ ПОЗИЦИОННЫХ СТРАТЕГИЙ В НЕЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ НЕСКОЛЬКИХ ЛИЦ

Ключевые слова: дифференциальная игра, компромиссный набор стратегий, равновесие по Нэшу, позиционное управление.

Abstract. A compromise set of positional strategies in a differential game of several persons is constructed.

1. Игра в нормальной форме

В игре участвуют к ^ 2 игроков. Множество стратегий i -го игрока обозначим символом Ui, i £ К = {1 ,...к}. В процессе конфликта каждый игрок выбирает стратегию из своего множества стратегий, в результате чего складывается набор стратегий

w = (щ,... ,ик),

который называется ситуацией. Множество всех ситуаций является декартовым произведением множеств Ui, i £ К и обозначается символом

W = U х---х Uk.

Заинтересованность игроков в ситуациях проявляется в том, что каждому игроку i £ К в любой ситуации w £ W приписывается число, выражающее степень удовлетворения его интересов в этой ситуации (чем оно меньше, тем степень удовлетворения выше). Это число обозначим символом /Дw).

Число /г(-ш) называется платой игрока г в ситуации и>, а функция /г ■. Ш ^ Я — функцией платы этого игрока.

Таким образом, описанный конфликт представляется тройкой

Г = {К, {иг,г е К}, {/г, г е К}}.

Дополнительно принимается, что каждый из игроков не заинтересован в значительном выигрыше какого-либо из своих противников, т.е. в том, чтобы функция платы какого-либо игрока оказалось весьма малой. Указанное предположение, например, действует при выборах в представительный орган власти. Каждый игрок (политическая партия) заинтересован получить максимальное число выборных мест, но при этом он опасается, что какая-либо другая партия наберет абсолютное большинство в органе власти и сможет диктовать свою волю остальным партиям. В этом примере за функцию платы игрока следует принять число выигранных соответствующей партией мест со знаком г'минусб.

Для игры Г введем понятие компромиссного набора стратегий.

Определение 1.1. Пусть & = Б*,...,БЫ), Б* = (Б**,...,Б*к), Бг* < Б*, г е К. Ситуация

ад = (^п, ..., п*0МП, . . . ик°МП) е Ш

называется компромиссной относительно векторов Б*,Б* е Як, геК

Бг* < гш п Ь( <° мп, ...,иг,... и^“) <

иг^

Т /„.комп комп компч ^ о*

^ Ми1 ,... ,иг ,...ик ) ^ Бг .

Из приведенного определения следует, что для компромиссно-

г

жутке [Бг*, Бг*], г е К, и никакое единоличное уклонение игрока

от стратегии, предписываемой компромиссным набором, не позволяет ему получить значение платы лучше (меньше) нижней компромиссной оценки.

Заметим, что при = £ * определение компромиссного набо-

ра стратегий переходит в определение равновесия по Нэшу. Компромиссный набор стратегий сохраняет свойство устойчивости по отношению к игроку уклонисту (в ослабленном варианте). При этом среди компромиссных наборов стратегий можно ожидать существование такого набора, для которого справедливы неравенства (для всех г € К)

кигт,...,иТып,..< 1г{4,...,и°г,...,и°к), (1.2)

где и®,..., и_г, и, и+1, ...,ик — равновесный по Нэшу набор стратегий.

2. Дифференциальная игра

Построение компромиссного управления в классе позиционных стратегий осуществим для дифференциальной игры следующего вида. Динамика игры описывается обыкновенным векторным нелинейным дифференциальным уравнением

к

х =/0(г,х) + А(г,х) -^2иг. (2.1)

г=1

Здесь г € К — текущее время, х € Кп — фазовый вектор игры, щ € Кт — вектор управляющих параметров г -го игрока, г € К, А(г,х) —матрица размера т х п.

Функция / : Кп+1 х Ккт ^ Кп вида

к

/(г,х,щ, ...,щ) = Ш,х) + А{г,х)^иг,

г=1

г € К,х € кп, иг € кт, г € к

при каждом фиксированном г € К непрерывна по совокупности переменных х,щ,...,ик, а при фиксированных значениях х € Кп,иг € Кт, г € К, измерима то Борелю по переменной г.

/

удовлетворяет условию Липшица по переменной и условию продолжимости решения.

На векторы управляющих параметров игроков наложены геометрические ограничения в форме включений и г € Рг, где Рг с Кт, г € К компактные множества. Момент Т € К окончания игры фиксирован, а функции платы игроков содержат только терминальные слагаемые,

1г(и, ...,щ) = <£{х{Т)), г € К, (2.2)

где ^г '■ Кп ^ К,г € К — непрерывные функции. Дополнительно предполагается, что для любого вектора в € Кт и любых г€К

тт < в,щ > + ••• + пнп < в, ик 0. (2 3)

и\еР1 икеРк ' ' '

Свои управляющие параметры каждый игрок формирует, основываясь на информации о текущем времени и реализовавшемся фазовом векторе объекта, при этом он не осведомлен о выборе управляющих параметров остальных игроков в этот момент времени. Понятия позиционной стратегии игрока и движения объекта, отвечающего набору позиционных стратегий, определяются аналогично работе [1].

Пусть функция д : Кп+1 К является непрерывно диффе-

ренцируемой функцией своих аргументов, для которой выполняется неравенство

0, (£, ж) е пп+1,г ^ Т. (2.4)

Предположим также, что для некоторого числа с € К множество

Мс = {х € Кп\д{Т,х) < с}

ограничено. Полагаем

Бг* = илп рг(х), Б* = шах рг(х), г € К,

х£Ыс х£Ыс

шс = {(г,х € кп+1 \д(г,х) ^ с}.

Определим набор позиционных стратегий и\омп,...,ик°мп всех игроков из условия

щКОмп __ / иг(г,х), {г,х) € ^с (2 5)

г [произвольный вектор ИЗ Рг, (г,х) € Шс,

где

/(А(і,х))тЩ^,иег(і,х))= тіїї/(А(і,х))тЩ^,иг), і є К.

\ ох / иі єРі\ дх /

Теорема 2.1. Набор позиционных стратегий (2.5) всех игроков является компромиссным относительно векторов

п /п с \ с* / с*

О* V °1 *, ..., Ок*), О \О1 ,...,Ок )

для любой начальной позиции (£о,Хо) Є Шс, іо ^ Т.

Доказательство. Достаточно показать, что х{Т) Є Мс для всех движений

\ Ґ- х^[> .V, Т-ГКОМП Т 7КОМП Т 7КОМП 7-7КОМІП

щ•) Є ,...,иі-і +і ,...,ик і

и всех номеров і Є К . От противного приходим к существованию номера і Є К и движения

*

х у) Є ,...,иі — ,иі+і ,...,ик і

таких, что

д(Т,х*( Т))>е. (2.6)

Неравенство (2.6) невозможно. Действительно, в силу g(xo) < с должен существовать промежуток времени (t ,t ) С [to,T] не нулевой длины, на котором функция g(t,x*(t) монотонно возрастает и при этом выполняется условие

(t,x*(t)) /Wc,t Е (t ,t).

Вычислим полную производную по времени от этой функции вдоль движения. В силу (2.3), (2.4) имеем

d

—g(t,x*(t)) =

x=x*( t) \dx

A(t, х*(t))ue(t, x*(t)) + A(t, x*(t))ui(t)

j eK(i)

dg

(^(t,x*(t)), ^ A(t,x*(t))uej(t,x*(t)) + A(t,x*(t)),Ui(t)^

jeK(i)

j€K(i)

(A(t,x*(t))T^(t,x*(t)),Ui(t)j^

€ ,{(A(t,x*(t))T^(t,x*(t)),ujy

j £K(i)

max < (A(t, x*(t))TT^~(t, x*(t)),Ui W 0, t G (t ,t). u^Pi dx /

Полученное неравенство противоречит монотонному возрастанию функции д(г, х*(г)) па промежутке времени (г',г”). Теорема доказана.

3. Модельный пример

Рассмотрим дифференциальную игру трех лиц, динамика которой описывается следующей системой нелинейных дифференциальных уравнений:

х = —х — 3 у + 4ху + 4у2 + щ + щ + ^, У =

Здесь т = п = 2

у = 2х — Зу — 2х2 — 2ху + иг + ^2 + ЭД2.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(3.1)

= (2х —5—5) • А^ху=С 1

На векторы управляющих параметров наложены геометрические ограничения

и,ь,^ Е Р =

К й) 1р5+й <5}'

.

Мг г

,,,

П = 1 I , г2 = , Г3 = , т

0\ _ -Ь\ _ &

^ 1 Го = Го = I I

относительно начала координат. Эти точки в дальнейшем будем называть целевыми множествами игроков. На рис. 1 показано расположение целевых множеств игроков относительно принятой системы координат.

Т

.

<Рг(х(Т),у(Т)) = у/(х(Т) - хгу + (у(Т) - уг)2, / 1.2.3.

Рис. 1. Расположение целевых точек

Таким образом, платой игрока служит расстояние от фазового вектора управляемого объекта в момент окончания игры до целевого множества этого игрока. Полагаем

д(х,у) = х2 + 2у2, (х,у) € К. д

х —х — у ху у .

\у) 2х — Зу — 2х2 — 2ху ) .

Имеем

=—2 х— —у (х) )<0

для всех (х,у) € К2,(х,у) ф 0. Условие (2.4) выполнено. Множества

Мс = Кх,у) € К\д(х,у) < с} = Кх,у) € К\х + 2у2 < с}

ограничены при любых значениях константы с € К. Нижние и верхние компромиссные оценки для игроков вычисляются по формулам (г €{1,2,3})

с) = тт \ (х — х^2 + (у — у^2,

(х,у,г)еМс *

^г*(с) = тах «/(ж - Ж;)2 + (у - Уг)2.

(х,у,г)еМс *

Полагаем с = 1,2. Тогда

$* = 0,227482, $2* = 0,167777, £3* = 0,0208233,

$* = 1,7453, ^ = 1,91574, 1,7727.

д.

вид

йд_

(ЗД)

\дх / \дх \и2 + У2 + У1)2

— х ху — у хи уи

+2(х-и! + 2ууъ) + 2(х-шх + 2у^).

Тогда компромиссные стратегии игроков в соответствии с соот-.

икома(х, у)= укома(х, у)= ■шкома(х, у) =

-Ь\у/^), 9(х,у)>с (3.2)

л/х2+4у2 ,

произвольный вектор из Р, д(х, у) ^ с.

Рассмотрим несколько (пять) начальных позиций (£о, ( ^

х

в игре. Например, позиции (£о = 0)

А = © .^=(„°75

*=

Легко проверяется, что для каждой из них выполнено условие *о < Т, € Шс={ € К | д(х,у) < ^.

Для произвольного движения из пучка, выходящего из начально-х

го положения (£о, у о ) и порожденного компромиссным набо-\*>/

..

их в табл. 1. По теореме 2.1 эти значения должны находиться в пределах компромиссных оценок, полученных выше.

Таблица 1

х0 Ь к к

Аг 0,2 < 1,0 < 1,8 0,2 < 0,9 < 1 9 0,0 < 1 1 < 1 8

Ас1 0,2 < 0,8 < 1,7 0,1 < 0,8 < 1 9 0,0 < 1 0 < 1 7

Аз 0,2 < 1,2 < 1,7 0,2 < 1,2 < 1 9 0,0 < 1 1 < 1 8

а4 0,2 < 0,8 < 1,7 0,2 < 1,0 < 1 9 0,0 < 0 6 < 1 8

Аь 0,2 < 1,0 < 1,7 0,2 < 1,0 < 1 9 0,0 < 0 9 < 1 8

Из данных табл. 1 видно, что указанный факт действительно имеет место.

Допустим, что какой-либо из игроков уклоняется от стратегии, предписываемой ему компромиссным набором. Стратегию

уклонения і -й игрок, і Є {1,2,3} выбирает, например, в виде

17

у/ (хі-х)'2 + (уі-х)'2 Уі-У

у/(хі-х)2 + (уі-х)2 г

(Х,у)ф (Хі,Уі

\ \/(хі-х)2 + (уі-х)2 /

произвольный вектор ИЗ Р,(х,у) = (Хі,Уі).

Рассмотрим две ситуации.

В первой ситуации остальные игроки назначают свои управляющие воздействия случайным образом.

Во второй ситуации — в соответствии с компромиссными стратегиями (3.2). В качестве начального положения возьмем '0^

,

.

несем в табл. 2.

Таблица 2

Номер Случайное управление Компромиссное управление

игрока- нижняя плата нижняя плата

уклониста компро- игрока компро- игрока

миссная уклониста миссная уклониста

оценка оценка

1 0,13 0,9 1,4 0,3

2 0,566 1,129 1,698 0,28

3 0,57 1,131 1,71 0,28

Таким образом, игрок-уклонист в состоянии преодолеть свою нижнюю компромиссную оценку при случайном управлении остальных игроков, и он не может этого сделать, когда остальные игроки придерживаются компромиссных стратегий. Траектории управляемой точки для второй ситуации показаны на рис. 2.

Можно показать, что для начальной позиции

набор стратегий

ь°(х, у) = ь°(х, у) = 'Ш°(х, у) = (х,у)фО

у/х2+4у2

~2у

у/х2+4у2

произвольный вектор из Р, {х, у) = О

удерживает текущую позицию игры в начале координат на всем промежутке времени [Ьо,Т] при любых действиях игрока-укло-

ниста. Следовательно, этот набор стратегий является равновесным по Нэшу. При этом

/^и°,у°, ад0) = ^(0,0,0) = 1, г = 1, 2, 3.

Покажем, что в рамках компромиссных стратегий каждый игрок может строго улучшить этот результат. Полагаем

и

(х, у)= укома(х, у)= ткома(х, у) =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

у/х2+4:у2

~2у

,у/х2+Ау2 ,

д(х,у,г) > с

Здесь

ч \л/(х-х*)2+(у-у*)2,

Хі + Х2 + X - 1 + лД

х

у* =

з 6

2/1 + 2/2 + Уз 3 + УЗ

6

Заметим, что стратегии

'■'КОМИ -ЧКОМП ЛКОМП

(и , V ,

определены корректно, т. к.

д{х*,у*,г*) = 1,2589 > с = 1,2.

Для данного набора стратегий значения плат игроков следующие:

/і(икомп, фКОМП ^КОМП ^ = 0, 845485 < 1 іи V0, т0'

12{икома, фКОМП ^КОМП ^ = 0,547274 < 1 О и і II V т0'

і3(икома, ^комп ^КОМП ^ ,< іи V

Таким образом, каждый из игроков действительно получил результат, лучший, чем при равновесном наборе стратегий.

— X

X* —х

Список литературы

1. Красовский Н. Н., Субботин А. И. Позиционные дифференциальные игры. М.: Наука, 1973. 455 с.

2. Лутманов С. В. Компромиссное управление в дифференциальных играх нескольких лиц// Известия Института математики и информатики. Вып. 2 (32). Ижевск, 2005. С.83-102.

3. Кулагин Е. В., Лутманов С. В., Петухов И. Построение гарантирующих стратегий в одной нелинейной дифференциальной игре наведения-уклонения// Проблемы механики и управления: Межвуз. сб. науч. трудов. Пермь. 2004. С.34-45

4. Лутманов С. В. Об одном способе построения стабильного моста в нелинейной дифференциальной игре/ / Проблемы механики и управления: Межвуз. сб. науч. трудов. Пермь. 2003. С.41-48

5. Лутманов С. В., Пальянова Е. В. Построение стабильных мостов в нелинейных антагонистических дифференциальных играх// Вестн. Перм. госун-та. Сер. Математика, информатика, механика. Пермь, 2003. Вып.5. С.41-46.

i Надоели баннеры? Вы всегда можете отключить рекламу.