УДК 517.977
ОБ ОДНОМ ЧИСЛЕННОМ МЕТОДЕ РЕШЕНИЯ ПОЗИЦИОННЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГР В СМЕШАННЫХ СТРАТЕГИЯХ
© Д.В. Корнев
Ключевые слова: позиционные дифференциальные игры; смешанные стратегии. Развивается численный метод решения позиционных дифференциальных игр в смешанных стратегиях, основанный на попятном построении выпуклых сверху оболочек вспомогательных функций из стохастического программного синтеза.
Рассмотрим дифференциальную игру [1, 2], описываемую уравнением движения х = Л(Ь)х + /(1,п,у), Ь0 ^ Ь<$, х(Ь0) = х0 € М™,
и € и = {и[Г € М™“, г = 1,Ь}, V € V = € М™^, в = 1,М},
(1)
и л € М ", I — 1, ^ }, V € V — {V и € М ~ , в — 1, ±У± } ,
и показателем качества
7 = (А (х(§г) — а) (х($м) - см)^.
Здесь t — время; х € М™ — фазовый вектор; Л(Ь) и /(Ь, и, V) непрерывны; и и V — управления первого и второго игроков; to, $, $г € (Ь0,$]: $г+1 >$г, г =1, N — 1, =
= $, заданы; Бг — ёг х п -матрицы; сг € М™ — целевые векторы; ц1(д1,..., д^) — норма в пространстве векторов-наборов (д1,..., д^), дг € М^, г = 1,М, при этом существуют нормы /м(дг, ■ ■ ■ ,дм) и аг(дг,ц) такие, что ц,г(дг,... ,ды) = &г{дг, Ц-г+1(дг+1,... ,дм)), г = 1,Ы — 1. Первый игрок нацелен минимизировать второй — максимизировать.
Дифференциальная игра рассматривается в смешанных стратегиях [1, с. 247]. Цель работы — разработка численного метода для приближенного нахождения цены р(Ьо,хо) этой игры и построения оптимальных вероятностных законов управления с поводырем
ь м
у = Л(Ь)у + £ Е /(Ь^^^Щр*д*, Ьо ^ Ь<$, у(Ь)= хо, р* € Р, д* € 0>, (2)
Г=15=1
___ ь ____ м
Р = [р € Мь : рг ^ 0, г = 1,Ь,^2рг = ^, Q = [д € Мм : д5 ^ 0, в = 1,М,^Гд3 = ^.
Г=1 5=1
Согласно [2], по шагам разбиения А^ = [Ь^ : 0 < tj+1 — tj ^ 5, ] =0,к — 1, tk = $}, $г € А$, г = 1,М, определяем множества Gj С М™, скалярные функции фj(•) и величины ej(•), ] = = 0, к, из соотношений:
при ] = к: Gk = {т = 0}, (т) = 0, т € Gk,
если tj+1 = $г: Gj = Gj+1, ф*+1(т) = фj+1(m), т € Gj,
если ^+1 = $г: Gj = |т = »т* + фТ[$г,$]0Т1 ^Ь ^
Ф*+1 (т) = тах \vфj+l(т*) — (I, Асг)!, т € Gj,
•'+ т*,и,1
tj+1 ь м
уз(тЛ =
для каждого ^ : Афj(т) = / тахт1п (т, ^/(Ь^У^,1№)р*д*) ёЪ,
^ Я*&0. Р*& г=1 5=1
^(m) = АФj(m)+ ф*j+l(m), ф(т) = {Фj}Ьj(m), т € Gj,
ej(у) = тах [(т, Ф[$, tj]у) + фj(т)], у € М™.
т£Оо
2556
Здесь Ф[$,Ь] — матрица Коши системы х = Л(Ь)х; верхний индекс « Т » обозначает транспонирование; &*(•) — норма, сопряженная к аг( ); максимум при определении ф**+1(т) вычисляется по всем таким т* €Gj+1, и€ [0,1], I € М^, а*(1,и) ^ 1, которые удовлетворяют равенству т = ит* + ФТ[$г,$]0Т1; (•, •) — скалярное произведение векторов;
}^. — выпуклая сверху оболочка функции фj на множестве Gj. Детали программной реализации данной процедуры приведены в [3].
Определим функции ри = р*(Ь,х,у), д* = д*(Ь,х,у), р*и = р^^^^А#) из соотношений
Для первого игрока рассмотрим закон управления = {ри(), р*и('> Д^), Яи(); є; •
Опираясь на движение комплекса {х-объект (1), у-модель-поводырь (2)}, из начальной позиции {іо,хо,уо = Хо} на каждом шаге разбиения закон ЫДб по сложившейся позиции
у -модели полагает р* (і) = р*и(г^ ,у(г^ ),є;Дв), Я*(і) = д*и (і і ,х(іі ),у(іі)), ^ ^
Теорема. Для всякого ограниченного Х0 С М™ и любых ( > 0 и 0^5 < в < 1 найдутся такие є* > 0 и 8 (є) > 0, 0 <є<є*, что при любых х0 єХ0, 0 <є ^ є* и Д$,
8 ^ 8(є), будет выполняться неравенство \р)і0,х0) — е0(х0)\ ^ (, а закон будет га-
управления второго игрока, удовлетворяющей условию стохастической независимости: Р^(Ь) €В | x(tj), y(tj), иЩ = Р^(Ь) €В | x(tj), y(tj)), tj ^ t<tj+1, ] =0,к — 1, В С V.
При помощи схожих построений можно определить закон УДв второго игрока, который будет гарантировать неравенство Р{^ ^ р(Ь0,х0) — () ^ в-
1. Krasovskii A.N., Krasovskii N.N. Control under Lack of Information. Berlin etc.: Birkhauser, 1995.
2. Лукоянов Н.Ю. К вопросу вычисления цены дифференциальной игры для позиционного функционала // Прикладная математика и механика. 1998. Т. 62. Вып. 2. С. 188-198.
3. Корнев Д.В. О численном решении позиционных дифференциальных игр с нетерминальной платой // Автоматика и телемеханика. 2012. №11. С. 60-75.
БЛАГОДАРНОСТИ: Работа поддержана программой фундаментальных исследований Президиума РАН «Математические модели и алгоритмы в управляемых системах с нелинейной динамикой» (проект 12-П-1-1012-4), а также программой АВЦП 1.994.2011 «Устойчивые вычислительные методы анализа динамики сложных систем».
Kornev D.V. ON ONE NUMERICAL METHOD OF SOLVING POSITIONAL DIFFERENTIAL GAMES IN MIXED STRATEGIES
A numerical method of solving positional differential games in mixed strategies based on recurrent constructions of upper convex hulls of auxiliary functions from the stochastic program synthesis is elaborated.
Key words: positional differential games; mixed strategies.
L M
<x - ^E E f (t,u[r],vls])Purqus) =
min max
p&P q€Q
L M
(x - y,E E f (t,u[r] ,v[s)prqs),
r=1 s=1
r=1 s=1
LM
є(і), E E f(t,u[r],v[s^)p*rqr
mu Є argmax {m, Ф[$, t]y) + фj(m) — є(і)\/1 + ||ФТ[$, t]m\\
m£Gj L
tj ^ t<tj+1, j = 0,k — 1, x Є М", уЄ М", є У 0.
{іі ,х(г^ ),у(іі)} назначает в х -объекте управление п(і) = иР\ ) ^ і<іі+1, в результате случайного испытания при условии Р(и,(і = и\г єи \ х(іі), у(іі)) = риг (іі ,х(іі ),у(іі )), а в
рантировать неравенство P(y ^ p(t0,x0)+ () ^ в, для любой случайной реализации v(^)
ЛИТЕРАТУРА
2557