Научная статья на тему 'Об одном численном методе решения позиционных дифференциальных игр в смешанных стратегиях'

Об одном численном методе решения позиционных дифференциальных игр в смешанных стратегиях Текст научной статьи по специальности «Математика»

CC BY
104
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОЗИЦИОННЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ / СМЕШАННЫЕ СТРАТЕГИИ / POSITIONAL DIFFERENTIAL GAMES / MIXED STRATEGIES

Аннотация научной статьи по математике, автор научной работы — Корнев Дмитрий Васильевич

Развивается численный метод решения позиционных дифференциальных игр в смешанных стратегиях, основанный на попятном построении выпуклых сверху оболочек вспомогательных функций из стохастического программного синтеза.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON ONE NUMERICAL METHOD OF SOLVING POSITIONAL DIFFERENTIAL GAMES IN MIXED STRATEGIES

In this research a numerical method of solving positional differential games in mixed strategies based on recurrent constructions of upper convex hulls of auxiliary functions from the stochastic program synthesis is elaborated.

Текст научной работы на тему «Об одном численном методе решения позиционных дифференциальных игр в смешанных стратегиях»

УДК 517.977

ОБ ОДНОМ ЧИСЛЕННОМ МЕТОДЕ РЕШЕНИЯ ПОЗИЦИОННЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГР В СМЕШАННЫХ СТРАТЕГИЯХ

© Д.В. Корнев

Ключевые слова: позиционные дифференциальные игры; смешанные стратегии. Развивается численный метод решения позиционных дифференциальных игр в смешанных стратегиях, основанный на попятном построении выпуклых сверху оболочек вспомогательных функций из стохастического программного синтеза.

Рассмотрим дифференциальную игру [1, 2], описываемую уравнением движения х = Л(Ь)х + /(1,п,у), Ь0 ^ Ь<$, х(Ь0) = х0 € М™,

и € и = {и[Г € М™“, г = 1,Ь}, V € V = € М™^, в = 1,М},

(1)

и л € М ", I — 1, ^ }, V € V — {V и € М ~ , в — 1, ±У± } ,

и показателем качества

7 = (А (х(§г) — а) (х($м) - см)^.

Здесь t — время; х € М™ — фазовый вектор; Л(Ь) и /(Ь, и, V) непрерывны; и и V — управления первого и второго игроков; to, $, $г € (Ь0,$]: $г+1 >$г, г =1, N — 1, =

= $, заданы; Бг — ёг х п -матрицы; сг € М™ — целевые векторы; ц1(д1,..., д^) — норма в пространстве векторов-наборов (д1,..., д^), дг € М^, г = 1,М, при этом существуют нормы /м(дг, ■ ■ ■ ,дм) и аг(дг,ц) такие, что ц,г(дг,... ,ды) = &г{дг, Ц-г+1(дг+1,... ,дм)), г = 1,Ы — 1. Первый игрок нацелен минимизировать второй — максимизировать.

Дифференциальная игра рассматривается в смешанных стратегиях [1, с. 247]. Цель работы — разработка численного метода для приближенного нахождения цены р(Ьо,хо) этой игры и построения оптимальных вероятностных законов управления с поводырем

ь м

у = Л(Ь)у + £ Е /(Ь^^^Щр*д*, Ьо ^ Ь<$, у(Ь)= хо, р* € Р, д* € 0>, (2)

Г=15=1

___ ь ____ м

Р = [р € Мь : рг ^ 0, г = 1,Ь,^2рг = ^, Q = [д € Мм : д5 ^ 0, в = 1,М,^Гд3 = ^.

Г=1 5=1

Согласно [2], по шагам разбиения А^ = [Ь^ : 0 < tj+1 — tj ^ 5, ] =0,к — 1, tk = $}, $г € А$, г = 1,М, определяем множества Gj С М™, скалярные функции фj(•) и величины ej(•), ] = = 0, к, из соотношений:

при ] = к: Gk = {т = 0}, (т) = 0, т € Gk,

если tj+1 = $г: Gj = Gj+1, ф*+1(т) = фj+1(m), т € Gj,

если ^+1 = $г: Gj = |т = »т* + фТ[$г,$]0Т1 ^Ь ^

Ф*+1 (т) = тах \vфj+l(т*) — (I, Асг)!, т € Gj,

•'+ т*,и,1

tj+1 ь м

уз(тЛ =

для каждого ^ : Афj(т) = / тахт1п (т, ^/(Ь^У^,1№)р*д*) ёЪ,

^ Я*&0. Р*& г=1 5=1

^(m) = АФj(m)+ ф*j+l(m), ф(т) = {Фj}Ьj(m), т € Gj,

ej(у) = тах [(т, Ф[$, tj]у) + фj(т)], у € М™.

т£Оо

2556

Здесь Ф[$,Ь] — матрица Коши системы х = Л(Ь)х; верхний индекс « Т » обозначает транспонирование; &*(•) — норма, сопряженная к аг( ); максимум при определении ф**+1(т) вычисляется по всем таким т* €Gj+1, и€ [0,1], I € М^, а*(1,и) ^ 1, которые удовлетворяют равенству т = ит* + ФТ[$г,$]0Т1; (•, •) — скалярное произведение векторов;

}^. — выпуклая сверху оболочка функции фj на множестве Gj. Детали программной реализации данной процедуры приведены в [3].

Определим функции ри = р*(Ь,х,у), д* = д*(Ь,х,у), р*и = р^^^^А#) из соотношений

Для первого игрока рассмотрим закон управления = {ри(), р*и('> Д^), Яи(); є; •

Опираясь на движение комплекса {х-объект (1), у-модель-поводырь (2)}, из начальной позиции {іо,хо,уо = Хо} на каждом шаге разбиения закон ЫДб по сложившейся позиции

у -модели полагает р* (і) = р*и(г^ ,у(г^ ),є;Дв), Я*(і) = д*и (і і ,х(іі ),у(іі)), ^ ^

Теорема. Для всякого ограниченного Х0 С М™ и любых ( > 0 и 0^5 < в < 1 найдутся такие є* > 0 и 8 (є) > 0, 0 <є<є*, что при любых х0 єХ0, 0 <є ^ є* и Д$,

8 ^ 8(є), будет выполняться неравенство \р)і0,х0) — е0(х0)\ ^ (, а закон будет га-

управления второго игрока, удовлетворяющей условию стохастической независимости: Р^(Ь) €В | x(tj), y(tj), иЩ = Р^(Ь) €В | x(tj), y(tj)), tj ^ t<tj+1, ] =0,к — 1, В С V.

При помощи схожих построений можно определить закон УДв второго игрока, который будет гарантировать неравенство Р{^ ^ р(Ь0,х0) — () ^ в-

1. Krasovskii A.N., Krasovskii N.N. Control under Lack of Information. Berlin etc.: Birkhauser, 1995.

2. Лукоянов Н.Ю. К вопросу вычисления цены дифференциальной игры для позиционного функционала // Прикладная математика и механика. 1998. Т. 62. Вып. 2. С. 188-198.

3. Корнев Д.В. О численном решении позиционных дифференциальных игр с нетерминальной платой // Автоматика и телемеханика. 2012. №11. С. 60-75.

БЛАГОДАРНОСТИ: Работа поддержана программой фундаментальных исследований Президиума РАН «Математические модели и алгоритмы в управляемых системах с нелинейной динамикой» (проект 12-П-1-1012-4), а также программой АВЦП 1.994.2011 «Устойчивые вычислительные методы анализа динамики сложных систем».

Kornev D.V. ON ONE NUMERICAL METHOD OF SOLVING POSITIONAL DIFFERENTIAL GAMES IN MIXED STRATEGIES

A numerical method of solving positional differential games in mixed strategies based on recurrent constructions of upper convex hulls of auxiliary functions from the stochastic program synthesis is elaborated.

Key words: positional differential games; mixed strategies.

L M

<x - ^E E f (t,u[r],vls])Purqus) =

min max

p&P q€Q

L M

(x - y,E E f (t,u[r] ,v[s)prqs),

r=1 s=1

r=1 s=1

LM

є(і), E E f(t,u[r],v[s^)p*rqr

mu Є argmax {m, Ф[$, t]y) + фj(m) — є(і)\/1 + ||ФТ[$, t]m\\

m£Gj L

tj ^ t<tj+1, j = 0,k — 1, x Є М", уЄ М", є У 0.

{іі ,х(г^ ),у(іі)} назначает в х -объекте управление п(і) = иР\ ) ^ і<іі+1, в результате случайного испытания при условии Р(и,(і = и\г єи \ х(іі), у(іі)) = риг (іі ,х(іі ),у(іі )), а в

рантировать неравенство P(y ^ p(t0,x0)+ () ^ в, для любой случайной реализации v(^)

ЛИТЕРАТУРА

2557

i Надоели баннеры? Вы всегда можете отключить рекламу.