К ВОПРОСУ О СУЩЕСТВОВАНИИ ЦЕНЫ ИГРЫ В ОДНОТИПНОЙ ИГРЕ СО СМЕШАННЫМИ ОГРАНИЧЕНИЯМИ
Рассматривается задача о встрече в заданный момент времени р, в которой на управление первого игрока накладываются геометрические и интегральные ограничения, на управление второго игрока — геометрические ограничения.
Ключевые слова: дифференциальная игра, цена игры, стратегия.
1. Пример
Первый игрок управляет точкой переменного состава, движение которой описывается уравнением Мещерского [1, с. 25]
^ т(Ь) л3
х = С + т—х Е Я, т(Ь)
где С — постоянная внешняя сила; т — относительная скорость отделяющихся частиц, величину ||т|| которой считаем постоянной, ||т|| — некоторая норма в Я3; т(Ь) = т0 + т1(Ь) — масса точки, причем т0 — неизменяемая часть массы, т1(Ь) — реактивная масса. Второй игрок управляет точкой, движущейся с ограниченной по величине скоростью ||у|| < Ь. Цель первого игрока заключается в том, чтобы в заданный момент времени р сделать расстояние Цу(р) — х(р)|| как можно меньше. Обозначим
, , . (р — Ь)2 1 .
г = у — х — (р — ъ)х + С--------, V = - у,
2 Ь
т(Ь) .. .. п т(Ь) ,
и = —т——, ц(Ь) = ||т|| 1п-. (1.1)
т(Ь) 11 11 то v у
Тогда расстояние между игроками в момент времени р и уравнения движения примут вид
Цу(р) — х(р)Ц = ||г(р)||, ¡г = —(р — Ь)и + Ьv, ¡1 = —||и||.
Считаем, что тяга ограничена числом ^ > 0. Тогда ограничения на выбор управлений и и V принимают вид
||и|| < ^, 1М1 < 1■
В начальный момент времени Ь = 0 задан начальный запас реактивной массы
т\(0) > 0. В процессе выбора управления в каждый момент времени Ь < р остав-
шийся запас реактивной массы должен быть неотрицательным, т. е. т1 (Ь) > 0. Согласно (1.1) это условие равносильно неравенству 1(Ь) > 0. Рассмотренный пример был решен в работе [2]. Мы рассмотрим более общий случай.
2. Постановка задачи
Рассмотрим игру в пространстве Кп:
¿ = —а(Ь)п + Ь(Ь^, ||п|| < 1, |М| < 1, Ь < р. (2.1)
Здесь а(Ь) и Ь(Ь) — неотрицательные непрерывные при Ь < р скалярные функции, р — момент окончания игры. Первый игрок выбирает управление п, второй — управление V. На выбор управления первого игрока, наряду с геометрическим ограничением (2.1), накладывается интегральное ограничение
£
¡л(Ь) = цо д(г, ||п(г)||) ¿г > 0, Ьо < Ь < р, (2.2)
£о
где Ь0 — начальный момент времени; ц0 > 0 — начальный запас ресурсов, который первый игрок сможет использовать на формирование своего управления.
Предположение. Функция д(Ь,р) > 0 определена при всех Ь < р, 0 < р < 1, выпукла по р, является непрерывной и д(Ь, 0) = 0 при всех Ь < р.
Первый игрок стремится минимизировать величину ||г(р) ||, а второй — максимизировать ее. Определим стратегии игроков и порожденные ими движения. Стратегией первого игрока является функция вида
п(Ь,г ) = р(Ь)т(Ь,г). (2.3)
Здесь т : (—то,р] х Кп ^ Кп — произвольная функция, удовлетворяющая равенству
|ИЬ,г)Ц = 1, (2.4)
а функция р(Ь) является измеримой, строится в зависимости от начального состояния Ь0, го, Ц0 и удовлетворяет неравенствам
£
0 < р(Ь) < 1, ц(Ь) = ц0 — J д(г, р(г)) ¿г > 0, Ь0 < Ь < р. (2.5)
~£о
Стратегия второго игрока задается функцией V : (—го,р] х Яп ^ Кп, которая удовлетворяет ограничению
||v(t,z)||< 1. (2.6)
Замечание. Такое определение стратегии первого игрока продиктовано следующими соображениями. Пусть в рассмотренном в предыдущем параграфе примере закон изменения массы нужно задать программным образом, а управлять можно только направлением относительной скорости отделяющейся массы. В этом случае приходим к понятию стратегии (2.3).
Дадим определение движения, порожденного заданными стратегиями. Зафиксируем начальное состояние Ь0 < р, г(Ь0) = г0, ц0 > 0. Возьмем разбиение
и : Ьо < < ••• < 4+1 = р
с диаметром ¿(ш) = тах(гг+1 — гг). Построим ломаную
0< г<к
(г) = гш(гг) — \ а(т)р(т) ¿т I (гг)) + \ Ь(т) ¿т | у(гг,гш(гг)). (2.7)
Здесь гш(г0) = ¿о, гг < г < гг+х. Оставшийся запас ресурсов ц(г) определим с помощью равенства (2.5). Обозначим
Ь = тах (а(т) + Ь(т)). (2.8)
Ьо<т<р
Тогда из ограничений (2.4) и (2.6) следует, что Цгш(т) — гш(г) || < Ь\т — г\ для всех т,г Е [г0,р]. Из этого неравенства следует, что семейство ломаных (2.7) является равномерно ограниченным и равностепенно непрерывным на отрезке [г0,р]. По теореме Арцела [3, с. 236] из любой последовательности ломаных (2.7) можно выделить подпоследовательность, равномерно сходящуюся на отрезке [г0,р]. Под движением ¿(г) будем понимать равномерный предел последовательности ломаных (2.7), у которых диаметр разбиения стремится к нулю.
3. Вычисление цены игры
Зафиксируем функцию <р(г), удовлетворяющую неравенствам (2.5). Подставим управление (2.3) в уравнение (2.1) и рассмотрим игру с геометрическими ограничениями
г, = —а(г)р(г)т + Ь(г)у, ||и>|| = 1, |Н| < 1. (3.1)
Первый игрок, выбирая управление /ш, минимизирует величину ||г(р) ||, а второй игрок, выбирая управление V, ее максимизирует. Обозначим
С*(г0,г0,р(-)) = тах{Р г ,р(-)); 1Ы1 + / (г0,р(-))}, (3.2)
р
/(г,^(')) = [(—а(т)^(т) + Ь(т)) ¿т Р(г0,р(-))= тах /(т,р(-)). (3.3)
J го<т<р
I
Теорема 1 [4]. Для начального состояния г0 < р,г0 Е Яп в игре (3.1) управление т = 'Шо(г), где
, ч I Л при Ы > 0, , ,
т0(г) = < Лг||с/|, ,, п п (3.4)
[ УЗ Е {||з|| = 1} при Ы = 0,
обеспечивает выполнение неравенства ||ы(р)|| < С*(г0, г0,р(-)).
Управление V = т0(г) обеспечивает выполнение противоположного неравенства ||г(р)|| > С*(г0,г0,р(-)).
Из этой теоремы следует, что функция (3.2) является функцией цены [5, с. 87] в игре (3.1). Рассмотрим следующую оптимизационную задачу:
I
G(to,Zo,ßo) = inf G* (to,Zo,<p(-)),
?{•)
p
0 < p(t) < 1 при to < t < p, j g(r, p(r)) dr < ßo. (3.5)
¿0
Если задача (3.5) имеет решение po : [to,p] ^ [0,1], то, как следует из теоремы 1, функция G(to,zo,ßo) является ценой в исходной игре. В этом случае оптимальным управлением первого игрока является функция uo(t, z) = po(t)wo(z), а оптимальное управление второго игрока равно vo(t,z) = wo(z). Функция wo(z) определяется формулой (3.4).
Теорема 2. Пусть функция g(t, ф) удовлетворяет условиям предположения. Тогда для любых to < p, zo Е Rn, ßo > 0 решение po(t) в задаче (3.5) существует.
Доказательство. Из условия g(t, 0) = 0 при всех t < p следует, что множество измеримых функций ip(t), удовлетворяющих ограничениям в задаче (3.5), не пусто. Из формул (3.2) и (3.3) получим, что G*(t0, z0, ф(-)) > 0 для любой измеримой функции ip(t) Е [0,1]. Поэтому нижняя грань в задаче (3.5) существует. Это значит, что существует последовательность измеримых функций ipm(t), удовлетворяющая ограничениям в задаче (3.5), такая, что
lim max{Fm(to); ||zo|| + fm(to)} = G(to,zo,ßo). (3.6)
m^<x>
Здесь обозначено
p
fm(t) = i(-a(r)pm(r) + b(r)) dr, Fm(t) = max fm(r). (3.7)
J t<r<p
t
Каждая функция fm(t) (3.7) удовлетворяет на отрезке [t0,p] условию Липшица с константой L (2.8). Отсюда следует, что семейство функций fm(t) является равномерно ограниченным и равностепенно непрерывным на отрезке [to, p]. По теореме Арцела из нее можно выделить подпоследовательность, которая на отрезке [t0, p] равномерно сходится к некоторой функции f (t). Предельная функция f (t) также удовлетворяет на отрезке [t0,p] условию Липшица с той же константой L. Не вводя новых обозначений, считаем, что сама последовательность функций fm(t) сходится к f (t) равномерно на отрезке [t0,p]. Из равномерной сходимости следует, что
Fm(to) = max fm(r) ^ max f (т) = F(to)
to<T <p to<T <p
при m ^ ж. Отсюда и из (3.6) получим, что
max{F(to); ||zo|| + f (to)} = G(to,zo,ßo).
Осталось показать, что существует измеримая на отрезке [t0,p] функция p0(t), удовлетворяющая ограничениям в задаче (3.5), такая, что
p
f (t) = f (-a(r)po(r) + b(r)) dr, to < t < p. (3.8)
С этой целью рассмотрим последовательность функций
p
lm(t) = j g(r,Pm (r)) dr, to < t < p. (3.9)
t
Из непрерывности функции g(t,p) следует, что она ограничена на множестве t0 < t < p, 0 < p < 1 некоторым числом Li > 0. Следовательно, каждая из функций (3.9) удовлетворяет на отрезке [t0,p] условию Липшица с этой константой Li. Поэтому, рассуждая так же, как и для последовательности функций fm(t) (3.7), можем считать, что последовательность функций lm(t) сходится равномерно на отрезке [t0,p] к некоторой функции l(t). Эта предельная функция удовлетворяет условию Липшица с той же константой Li .
Таким образом, построенные предельные функции f (t) и l(t) являются абсолютно непрерывными на отрезке [to, p] и, следовательно, у них почти всюду существуют производные. Допустим, что существует измеримая функция р0 : [t0,p] ^ [0,1] такая, что
f(t) = a(t)Po(t) — b(t), l(t) < -g(t, po(t)) (3-10)
для почти всех t G [t0,р]. Из первой формулы в (3.7) следует, что fm(p) = 0. Поэтому f (p) = 0. Интегрируя равенство (3.10), получим требуемую формулу (3.8). Каждая функция pm(t) удовлетворяет неравенству в (3.5). Поэтому, согласно формуле (3.9), lm(t0) < ц0 и lm(p) = 0. Следовательно, l(t0) < Ц0 и l(p) = 0. Интегрируя неравенство (3.10), получим, что функция p0(t) удовлетворяет требуемому неравенству (3.5).
Введем в рассмотрение многозначную функцию
Q(t) = {(qi,q2) g R2 : qi = a(t)p — b(t),q2 = —g(t,p) Ур G [0,1]}. (3.11)
Из непрерывности функций a(t), b(t) и g(t, p) следует, что многозначная функция (3.11) полунепрерывно сверху зависит от t G [t0,p]. Это значит, что для каждой точки t G [t0,p] и для любого числа е > 0 найдется число 5 > 0 такое, что для всех \t — т\ < 5,т < p
Q(t) С Q(t)+ eS. (3.12)
Здесь обозначено S = {(qi,q2) G R2 : qf + q2 < 1}. Обозначим y(t) = (f (t),l(t)) и ym(t) = (fm(t),lm(t)),m > 1. Тогда почти всюду на отрезке [t0,p] существуют производные y(t) и ym(t), m > 1. Возьмем точку t G [t0,p), в которой существуют эти производные. Зафиксируем число h > 0, при котором t + h < p. Тогда
i
y(t + h) — y(t) = Um ym(t + h) — ym(t) = Um / ym(t + rh) dr. (3.13)
h m^-ж h m^-ж J
o
Из формул (3.7) и (3.11) следует, что ym(t+rh) G Q(t+rh) для почти всех r G [0,1]. Зафиксируем число е > 0. Тогда из включения (3.12) получим, что существует число 5 > 0 такое, что ym(t + rh) G Q(t) + eS для всех m > 1, 0 < h < 5 и
почти всех г Е [0,1]. Применяя понятие интеграла от многозначной функции [6], получим, что
1
Ут{ + - Ут(1) Е !т) + ев) ¿г = со Q(t) + ев. (3.14)
о
Здесь со Q — выпуклая оболочка множества Q. Поскольку множество, стоящее в правой части (3.14), является компактом, то, используя формулу (3.13), получим, что
у{г + к) - у{г) ^
---------------Е со Q(t) + ев.
к
Устремим к ^ 0+ и, учитывая, что е — произвольное положительное число, получим, что у(Ъ) Е соQ(t). Отсюда, используя теорему Каратеодори [7, с. 9], получим, что существуют числа Аг > 0, рг Е [0,1], г = 1, 2, 3, А1 + А2 + А3 = 1 такие, что
3 3
f (ъ)= АФ - b(t), 1 (Ъ) = -^ Агд(ъ,фг). (3.15)
г=1 г=1
Из этих формул, применяя лемму о выборе А. Ф. Филиппова [6], получим, что существуют измеримые на отрезке [Ъ0,р] функции Аг(Ъ) > 0,рг(Ъ) Е [0,1], А^Ъ) + +А2(Ъ) + А3(Ъ) = 1 такие, что они удовлетворяют равенствам (3.15) для почти всех
3
t Е [Ъ0,р]. Следовательно, функция р0(Ъ) = ^ Аг(Ъ)рг(Ъ) Е [0, 1] удовлетворяет
г=1
первому равенству в (3.10). Из выпуклости по р функций д(Ъ, ф) следует, что
з / з 4
1 (ъ) = - ^ Аi(t)g(t, фг(ъ)) <-д ^, ^ а()ф()
г=1 \ г=1
Таким образом, построенная функция р0(Ъ) удовлетворяет неравенству в (3.10).
□
4. Линейная задача управления при наличии помехи
Рассмотрим линейную управляемую систему
х = А(Ъ)х + с(Ъ)и + ш, х Е Яп, Ъ < р. (4.1)
Здесь А(Ъ) — непрерывная при Ъ < р матрица п х п; с(Ъ) — непрерывный при
Ъ < р п-мерный вектор; и — скалярное управление, стесненное ограничением
\и\ < 1; ш — помеха, значения которой принадлежат компакту Ш С Кп. Считаем, что Ш является связанным множеством. Задан вектор ф Е Кп. Цель выбора управления и заключается в минимизации величины \{ф,х(р))\. Здесь (ф,х) — скалярное произведение векторов ф, х Е Кп. Задан начальный момент времени Ъ0 < р. На выбор управления и накладывается интегральное ограничение
р
! д(г, \и(г)\) ¿г < ц0. (4.2)
Считаем, что функция g(t, p) удовлетворяет условиям, сформированным в предположении. Помеху отождествляем со вторым игроком.
Пусть Ф^) — фундаментальная матрица однородной системы X = A(t)x. Положим
b-(t) = min {ф,&(p)&-1(t)w), b+(t) = тах{ф,&(p)&-1(t)w). (4.3)
weW weW
Функции (4.3) являются непрерывными при t < p [7, с. 84]. Введем переменную
p
z = {ф, Ф(р)Ф-1 (t)x) + 2 J(b+ (r) + b-(r)) dr. (4.4)
t
Тогда из уравнений движения (4.1) получим, что z = {ф, ф(р)ф-1^)ф))п + f, f = {ф, ф(р)ф-1(ЬЩ - 1(b+(t) + b-(t)). (4.5)
Из формул (4.2) следует, что
~ b+(t) - b-(t) b+(t) - b-(t)~
_ 2 ’ 2 _ .
Поэтому уравнение (4.4) можно записать в следующем виде:
Z = -a(t)n + b(t)v, \п\ < 1, \v\ < 1,
a(t) = -\{ф, Ф(р)Ф-1тЩ, b(t) = b+(t) - b-(t).
Далее, из формулы (4.3) получим, что \z(p)\ = \{ф,х(р))\. Получили игру вида (2.1).
Список литературы
1. Красовский, Н. Н. Теория управления движением / Н. Н. Красовский. — М. : Наука, 1968.
2. Ухоботов, В. И. Однотипная линейная игра со смешанными ограничениями на управления / В. Н. Ухоботов // Приклад. математика и механика. — 1987. — Т. 51, вып. 2. — С. 179-185.
3. Люстерник, Л. А. Элементы функционального анализа / Л. А. Люстерник, В. И. Соболев. — М. : Наука, 1965.
4. Ухоботов, В. И. Синтез управления в однотипных дифференциальных играх с фиксированным управлением / В. И. Ухоботов // Вестн. Челяб. гос. ун-та. — Сер. Математика. Механика. — 1996. — № 1(3). — С. 178-184.
5. Айзекс, Р. Дифференциальные игры / Р. Айзекс. — М. : Мир, 1967.
6. Hermes, H. The Generalized Differential Equation x G R(t, x) / H. Hermes // Advances in Mathematics. — 1970. — №4. — P. 149-169.
7. Пшеничный, Б. Н. Выпуклый анализ и экстремальные задачи / Б. Н. Пшеничный. — М. : Наука, 1980.
{f : w G W} =