УДК 517.977
DOI: 10.14529/mmph180405
ОБ ОДНОЙ ИГРОВОЙ ЗАДАЧЕ УПРАВЛЕНИЯ ТОЧКАМИ ВБЛИЗИ ПОВЕРХНОСТИ ЛУНЫ
В.И. Ухоботов, П.И. Максакова
Челябинский государственный университет, г. Челябинск, Российская Федерация E-mail: [email protected]
Рассматривается игровая задача управления, в которой первый игрок управляет материальной точкой переменного состава. Второй игрок управляет точкой, которая может двигаться с ограниченной по величине скоростью. Предполагается, что на материальную точку переменного состава, наряду с управляемой реактивной силой, действует еще постоянная сила, величина которой пропорциональна массе точки. Такая ситуация возникает, например, при рассмотрении движения материальной точки вблизи поверхности Луны, где отсутствует атмосферное сопротивление. Считается, что у точки переменного состава величина относительной скорости отделяющихся частиц топлива является постоянной, а величина тяги ограничена сверху заданным положительным числом. Первый игрок стремится минимизировать в заданный момент времени расстояние между точками, расходуя при этом как можно меньше ресурсов. Сформулированная двухкритериальная задача с помощью весовых коэффициентов сводится к дифференциальной игре, плата в которой является суммой как терминальной, так и интегральной составляющих. С помощью замены переменных задача сводится к однотипной игре, в которой вектограммы игроков являются шарами с радиусами, зависящими от времени. Вычислена функция цены игры и найдены оптимальные управления игроков.
Ключевые слова: управление; дифференциальная игра; плата.
Введение
Движение материальной точки переменного состава описывается уравнением Мещерского [1]. Управлением является реактивная сила. Если величина тяги задана как функция времени, то управлением является относительная скорость отделяющихся частиц реактивной массы. В этом случае получим задачу об управлении материальной точкой, движущейся под действием заданной по величине силы. В монографии [2] рассмотрена дифференциальная игра преследования «изотропные ракеты». В этой игре преследователь управляет ограниченной по величине силой, приложенной к движущейся материальной точке. Убегающий управляет ограниченной по величине скоростью другой точки. Если допускается мгновенное отделение конечного количества массы топлива с постоянной по величине скоростью, то задача преследования в этом случае сводится к задаче с импульсным управлением [3-6]. В задаче преследования платой [2] является время поимки.
В работе [7] первый игрок управляет реактивной силой точки переменного состава. Величина относительной скорости отделяющихся частиц топлива постоянна, а тяга ограничена заданным числом. Второй игрок управляет ограниченной по величине скоростью второй точки. Решена задача, когда первый игрок стремится сделать в фиксированный момент времени расстояние между точками не меньше заданного числа, расходуя при этом как можно меньше ресурсов.
В настоящей статье рассматривается случай, когда первый игрок, управляя реактивной силой, стремится минимизировать в заданный момент времени расстояние между точками, расходуя при этом как можно меньше ресурсов. Предполагается, что на материальную точку переменного состава, наряду с управляемой реактивной силой, действует постоянная сила, пропорциональная массе точки. Такая ситуация возникает при рассмотрении движения материальной точки вблизи поверхности Луны, где отсутствует атмосферное сопротивление. Сформулированная двухкритериальная задача с помощью весовых коэффициентов сводится к дифференциальной игре, плата в которой является суммой как терминальной, так и интегральной составляющих. Вычислена функция цены игры [2] и найдены оптимальные управления игроков.
Постановка задачи
Вблизи поверхности Луны точка переменного состава, движение которой описывается уравнением Мещерского
т (')
x=m+v
m(t)'
x e Rn, t £ p,
(1)
преследует точку, которая движется с ограниченной по величине скоростью
у = Ьу, у е Я", Ь > 0, VI £ 1. (2)
Здесь вектор це Я" определяется постоянной внешней силой, пропорциональной массе точки; величина || относительной скорости отделяющихся частиц топлива является постоянной (| • | -
норма в Я" ); т(') = т0 + тх($) - масса точки, причем т0 - неизменяемая часть массы, т-реактивная масса; р > 0 - заданный момент окончания процесса управления. Считаем, что тяга ограничена числом у > 0
I т (')
V
m(t)
<g.
Точкой переменного состава управляет первый игрок. Второй игрок управляет движением второй точки. Цель первого игрока заключается в том, чтобы в момент времени р > 0 сделать расстояние между точками как можно меньше и минимизировать при этом расход топлива. Цель второго игрока - противоположна.
Формализация задачи
Введем новые переменные
z = y - x - (p -1) x - m
(p -1) V I I m(t)
——, u = -f~., (p(t) = -\g\——,
2 \v\ m(t)'
v = — y. b
Тогда
|y(P)-x(p)\ = |z(p)\, f (t)dt = \Vln mo + mi(to).
(3)
(4)
Здесь тх('0) - начальный запас реактивной массы. Используя уравнения (1) и (2), получим, что
Т =-(р - 0ф(0" + Ьп; \и\ = 1, 0 <ф<у; VI £ 1. (5)
Из формул (4) видно, что сформулированная выше цель первого игрока в переменных (3)
р
означает, что первый игрок минимизирует |т(р)| и | )&. Введем весовой коэффициент а> 0
'0
и рассмотрим показатель качества
р
|т(р)| + а\ ® ш1ишах. (6)
^ ф,и V
'0
Первый игрок стремится его минимизировать, а второй - максимизировать.
Условия оптимальности в однотипных дифференциальных играх
Рассмотренный пример (5), (6) является частным случаем однотипной дифференциальной игры
Т = -а(г)ф{г)и + Ь(')у, т('0) = Т0; 0 <ф(') <у, = 1, VI < 1. (7)
с критерием качества
G (| z( p)|) + f g (t,((t ))dt
® min max.
(,u v
(8)
Здесь a(t) > 0, b(t) > 0 интегрируемые при t £ p функции. Число g> 0 задано.
1
0
p
t
0
Ухоботов В.И., Об одной игровой задаче управления точками
Максакова П.И. вблизи поверхности луны
Предположение 1. При каждом ре [0, g] функция g(t,p) является измеримой по tе (-¥,p] и непрерывна по р при каждом t < p ; 0 < g(t,p) < D(t) при каждых t < p и ре [0, g], где функция D(t) является суммируемой на каждом отрезке [pj, p].
Из этого предположения следует, что для каждой измеримой при t < p функции p(t) е [0, g] сложная функция g (t,p(t)) является суммируемой на любом отрезке [ px, p] [8].
Предположение 2. Функция G(e) при e > 0 является непрерывной, строго возрастает и G(e) ® +¥ при e ® +¥ .
Рассмотрим оптимизационную задачу
p
G(e) + j g(t,p(t))dt ® min, (9)
p
M + j (b(t) - a(t)p(t))dt <e, (10)
t0
p
j(b(t) - a(t)p(t))dt < e, (11)
t0
p
max
Ь <т<р ^
е> 0, р:['0, р] ® [О,/] - измерима. (12)
Теорема 1 [9, теорема 2]. Пусть выполнены предположения 1 и 2, а е0 и р0 : ['0, р] ® [0, /] -решение задачи (9)-(12). Тогда решением задачи (7) и (8) являются функции р0(0, и0 = w(г) и у0 = м/(г), где
м(г) = при |г| > 0 и любое ^(0) с ограничением |^(0)| = 1. (13)
Значение цены игры в дифференциальной игре (7) и (8) равна
р
V (^0, г(^)) =е0 + | £ (((' )Ж (14)
'00
Теорема 2 [9, теорема 3]. Пусть дополнительно к предположениям 1 и 2 функция £ (',р) при каждом ' < р является выпуклой по р, а функция О(е) ограничена снизу. Тогда решение в задаче (9)-(12) существует.
Теорема 3 [9, теорема 4]. Пусть выполнено предположение 1, а число е0 > 0 и измеримая функция р0:['0, р] ® [0, /] удовлетворяют неравенствам (10) и (11). Пусть существуют число 1 > 0 и неубывающая функция в :['0, р] ® Я такие, что в('0) = 0 и
l
(p ^ j (b(t) - a(t)p0(t)) dt-e
= 0, (15)
У
I в(') (Ь(') - а(' )(0 (')) Ж = в( р)е0, (16)
'0
в(е0)-(1 + в(р) )е0 < О(е)-(1 + в(р) )е при любом числе е> 0; (17)
£ (',0)-(Л + в(')) а((0 < £ (()-(1 + в(')) а(')р, ре[0,г], '0 <' < р. (18) Тогда е0 ир0(') являются решением задачи (9)-(12).
Решение примера
В задаче (5), (6) выполнены равенства
а(') = р -', Ь(') = Ь, О(е) = е, £ (' ,ф) = аф.
Поэтому условия (10), (11) и (15)-(18) примут следующий вид:
р
I(Ь - (р-')Р0('))Ж + |г('0)\ -е0 < 0, (19)
0
z
max
t0 <T< p
(20)
t0 <t< p t
f p ^
1 f (b - (p - t)((t))dt + |z(t0)| ££ = 0, (21)
v10 p
f 0(t)(b - (p - t)((t))dt = q(p)e0, (22)
t0
(1 -1-0(p))(e0 -£) £ 0 при любом e> 0, (23)
(a- (1 + d(t))(p -1))((0(t) -() £ 0 при любых (e [0,g], t0 £ t £ p . (24)
Из условия (23) получим, что 1 = 1 -в(p). Поскольку 1> 0 и в(p) > 0, то 0 £ в(p) £ 1. Подставим это значение 1 в формулу (24). Будем иметь
a
(0(t) =
g при
p -1
любое (e [0,g] при
<q(t) -q( p) +1,
a
p-t
=q(t) -q( p)+1,
(25)
0
при
a
p-t
>q(t) -q( p)+1.
Пусть р -а< . Возьмем функции ) = 0 и ф0(') = 0 при всех <' < р . Они
удовлетворяют формуле (25). Поскольку 1 = 1 - в(р) = 1, то из условий (19) и (21) получим равенство
^0 = (р -Ч)Ь + |т('0)|. (26)
Максимальное значение по т в (20) достигается при т = '0 и оно равно (р - '0 )Ь . Поэтому число е0 (26) удовлетворяет условию (20). Условие (22) также выполнено. В рассматриваемом случае значение цены игры (14) равно
Пусть
V(t0,z(t0)) = (p-t0)b + |z(t0)| при t0 >p-a.
/b b ^
a£ — и p — £t0 <p-a. g g
(27)
Возьмем функции $(') = 0 при '0 <' < р ,
Ф0(') = У при '0 <' < р -а и ф0(') = 0 при р-а<' < р. (28)
Они удовлетворяют формуле (25). Из второго неравенства (27) следует, что функция (28) удовлетворяет неравенству Ь - (р -')ф0 (') > 0 при '0 <' < р . Поэтому максимальное значение по т в условии (20) достигается при т = '0 и оно равно
(
b
p -10--I +t
g
g
2
f (b - (p -1 )j(t)) dt = -
*0
Учитывая формулу (29) из условия (21) при 1 = 1, получим, что
p - t0 -
b-a I + ba> 0. g
£0 =-t
f b f gf b 42
g.
+ g 2
— a | +ba+ z(t0) .
g0
(29)
(30)
Очевидно, что условие (20) выполнено.
Из формул (28) и (30) получим, что значение цены игры (14) в рассматриваемом случае равно
V(t0, z(t0)) = -g(p -10 - a)2 + (p - t0)b + |z(t0 )|.
2
(31)
2
Ухоботов В.И., Максакова П.И.
Об одной игровой задаче управления точками вблизи поверхности луны
Пусть
/ b b I . r( b)
a<-, to < p—, \z(t0)\ p — to — I .
r r 2 ^ r)
(32)
Возьмем функцию в(') = 0 при '0 <' < р , а функцию р0(') определим формулами (28). Как и выше, число е0 определяется формулой (30). Проверим неравенство (20). Имеем
max
to <t< p
i. p p I y(t)dt = max (IbI2), I1 = max \y(t)dt = ab, I2 = max \y(t)dt,
» p—a<t< p _ t„ <t< p—a _
p-a<T<p t
t0 <t < p—at
где ) = Ь - (р - Ор0('). Из (28) следует, что ) < 0 при '0 <' < р - Ь/у и ) > 0 при р -Ь/у<' < р . Поэтому в формуле, которая определяет число 12, максимальное значение по т достигается при т = р - Ь/ у и
I =r 12 = 2
b
— a I +ab. Г )
(33)
Стало быть, max(I1,I2 )= I2 . Поэтому число e0 , определяемое равенством (30), должно удовлетворять неравенству e0 > I2. Согласно (32) и (33) это неравенство выполнено. В
рассматриваемом случае значение цены игры определяется формулой (31). Пусть
-( Ь"
p — to —"
^ b b | . . I r
a<—, to <p —, z(to)<j-
r r 2
r
Покажем, что при некотором числе '0 < q < р - Ь/ у выполнено равенство
^ Ь ^ у I \
кМ = Ш) = у р--(q - '0)-2 (q2 -'0).
V у) 2
(34)
(35)
В самом деле, у квадратного многочлена (35) производная f '(q) > 0 при t0 < q < p--.
r
Следовательно,
0 = f (to) < f (q) < f
p—b-1=r
r) 2
p — to--I .
o r)
Отсюда и из третьего неравенства в (34) получим существование требуемого числа q. Возьмем при г = Ь/ у функции
qt) =
0 при t0 < t < q a a
p—t p—q
a
при q < t < p — r, j0(t) = <
1 —
p—q
при p — r < t < p.
r при t0 < t < q, b
- при q < t < p — r,
p — t
0 при p — r < t < p.
(36)
Они удовлетворяют формуле (25). Поскольку число 1 = а/(р - q) > 0, то условия (19) и (21) принимают вид равенства
= (b — rp)(q—to )+r (q2 — to2)+r+1 z(to)|=г
r
r
(37)
Здесь использованы соотношения (35). Далее,
max IРy(t)dt = max(I1,I2,I3),
t0 >t< pJt
t
2
где
г г г
y(t) = b(p —1)jo(t), I1 = max [y(t)dt, I2 = max [y(t)dt, I3 = max [y(t)dt.
p—r<t< q<T< p—r^ <t<q^
23 p—r <t< pJ q<t< p—r to <t<q•
t t t
Подставим сюда функцию j(t) (36). Получим Ix = I2 = b2/g. Поскольку y(t) < 0 при to < t < q, то максимальное значение по t при определении числа I3 достигается при t = q . Поэтому I3 = b2g. Таким образом, max (I1? I2, I3 ) = b2 / g. Отсюда, учитывая формулу (37), получим, что условие (20) выполнено. Подставим функции (36) в условие (22). Получим
(38)
br = eo.
Числа r = b/g и eo = b2/g этому равенству удовлетворяют. Из (36) и (37) следует, что
... , чч ( Ьл p — q
V(to,z(to)) = eo +ag q — to +-ln^^-l g r
Л
где число q находится из равенства
q = p-
ь_ g
b > g
2
z(to)\
g
(39)
(4o)
а eo = b2jg и r = b/g.
Пусть
b
— <a, g
i i g to < p — a, z(to)
Л —
b_ gy
(b ^
— a g
2
(41)
/
Возьмем функцию ) = 0 при У0 < t < p и функцию р0(0 из (28). Из условия (21) при 1 = 1 получим формулу (30).
Поскольку р — а< р—Ь/g, то функция (28) удовлетворяет неравенствам Ь — (р— У)р0(У) < 0
при У0 < У < р — а и Ь — (р — У)р0(У) > 0 при р — а< У < р . Поэтому максимальное значение по 1 в
условии (20) достигается при 1 = р — а и оно равно Ьа. Из последнего неравенства в (41)
получим, что число е0 (30) удовлетворяет неравенству е0 > Ьа. Стало быть, условие (20)
выполнено. В рассмотренном случае значение цены игры задается формулой (31). Пусть
-( Ь ? g( Ь 42
р — у0 — —— — а
b I / 4l g
-<a, to <p — a, z(to)<-g 1 1 2
g
g
(42)
Покажем, что существует число У0 < q < р — а, при котором выполнено равенство (35). В самом деле, многочлен /при У0 < q < р — а строго возрастает. Поэтому его максимальное значение на отрезке [У0, р — а] достигается при q = р — а и оно равно выражению, стоящему в правой части третьего неравенства в (42). Поскольку /(У0) = 0, то требуемое число q существует.
Возьмем функции ) и р0(0, которые определяются формулами (36) при г = а. Эти функции удовлетворяют формуле (25). Поскольку А, = а/(р — q) > 0, то условия (19) и (21) принимают вид равенства
е0 =(Ь — pg)( q — ^) +1 g( q2 — ) + Ьа + = Ьа.
Здесь использовано равенство (35).
Функция (р0 (У), определяемая формулой (36) при г = а, удовлетворяет неравенствам Ь — (р — 0р0(у)<0 при у0 <у<р — а и Ь — (р — (0(у)>0 при р — а<у<р. Поэтому максимальное значение в неравенстве (20) достигается при 1 = р — а и оно равно
—g
p
b g.
(q — to ) + g(q2 — to2) + ba = — Iz(to)| + ba<eo.
t
o
2
Ухоботов В.И., Об одной игровой задаче управления точками
Максакова П.И. вблизи поверхности луны
Здесь использовано равенство (35). Числа г = а и £0 = Ьа удовлетворяют равенству (38). Поэтому условие (22) выполнено. Значение цены игры определяется формулами (39), (40) при £ = Ьа и г = а.
Заключение
С помощью найденной функции из третьей формулы в (3) вычисляется оптимальный
закон расхода топлива. Подставляя в формулу (13) значение г из первой формулы (3), найдем оптимальные направления относительной скорости отделяющихся частиц топлива и скорости второй точки.
Работа выполнена при финансовой поддержке гранта РФФИ в рамках научного проекта № 18-01-00264_а и гранта Фонда перспективных научных исследований ФГБОУ ВО «Челябинский государственный университет» (2018 г.).
Литература
1. Красовский, Н.Н. Теория управления движением / Н.Н. Красовский. - М.: Наука, 1970. -420 с.
2. Айзекс, Р. Дифференциальные игры / Р. Айзекс. - М.: Мир, 1967. - 479 с.
3. Ухоботов, В.И. Модификация игры «изотропные ракеты» / В.И. Ухоботов // Многокритериальные системы при неопределенности и их приложения: Межвузовский сборник научных трудов. Челябинск: Челябинский государственный университет, Изд-во Башкирского университета, 1988. - С. 123-130.
4. Ухоботов, В.И. Одна задача импульсного преследования при ограниченной скорости убегающего / В.И. Ухоботов, О.В. Зайцева // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника». - 2010. - №2 (178), вып. 11 - С. 29-32.
5. Пожарицкий, Г.К. Игровая задача импульсного сближения с противником, ограниченным по энергии / Г.К. Пожарицкий // Прикладная математика и механика. - 1975. - Т. 39. - Вып. 4. -С. 579-589.
6. Ухоботов, В.И. Задача импульсного преследования вблизи поверхности Луны / В.И. Ухоботов, А. А. Троицкий // Математическая теория игр и ее приложения. - 2013. - Т. 5. -Вып. 4 - С. 105-118.
7. Ухоботов, В.И. Однотипные дифференциальные игры с выпуклой интегральной платой / В.И. Ухоботов, Д.В. Гущин // Тр. ИММ УрО РАН. - 2011. - Т. 17, № 1. - С. 251-258.
8. Иоффе, А.Д. Теория экстремальных задач / А.Д. Иоффе, В.М. Тихомиров. - М.: Наука, 1974. - 479 с.
9. Ухоботов, В.И. Линейная задача управления при наличии помехи с платой, зависящей от модуля линейной функции / В.И. Ухоботов // Тр. ИММ УрО РАН. - 2017. - Т. 23, № 1. - С. 251261.
Поступила в редакцию 14 мая 2018 г.
Bulletin of the South Ural State University Series "Mathematics. Mechanics. Physics" _2018, vol. 10, no. 4, pp. 41-48
DOI: 10.14529/mmph180405
ON A GAME PROBLEM FOR POINT CONTROL NEAR THE SURFACE OF THE MOON
V.I. Ukhobotov, P.I. Maksakova
Chelyabinsk State University, Chelyabinsk, Russian Federation E-mail: [email protected]
A game control problem in which the first player controls the material point of variable composition is considered. The second player controls the point that can move with a limited speed. It is assumed that the material point of variable composition, along with the controlled reactive power, is exposed to a constant force, the value of which is proportional to the mass of the point. This situation occurs, for exam-
ple, when we consider the motion of a material point near the surface of the Moon, where there is no atmospheric resistance. It is considered that the point of variable composition has constant relative velocity of separating fuel particles, and the value of thrust is limited from above with a given positive number. The first player tries to minimize the distance between the points in a set moment, consuming as little resources as possible. The formulated two-criterion problem, with the use of weight coefficients, gets reduced to a differential game, the payoff of which is the sum of both terminal and integral components. By changing variables, the problem is reduced to a single-type game in which vectograms of players are balls with time-dependent radii. The function of the game price is calculated, and optimal control of the players is determined.
Keywords: control; differential game; payoff.
References
1. Krasovskiy N.N. Teoriya upravleniya dvizheniem (Motion control theory). Moscow, Nauka Publ., 1970, 420 p. (in Russ.).
2. Ayzeks R. Differentsial'nye igry (Differential games). Moscow, Mir Publ., 1967, 479 p. (in Russ.). [Isaacs R. Differential games: A Mathematical Theory with Applications to Warfare and Pursuit, Control and Optimization. New York: John Wiley and Sons, Inc., 1965, 384 p.]
3. Ukhobotov, V.I. Modifkatsiya igry "izotropnye rakety" (Modification of the game "Isotropic missiles"). Mnogokriterial'nye sistemy pri neopredelennosti i ikh prilozheniya: Mezhvuzovskiy sbornik nauchnykh trudov (Multicriterial systems with uncertainty and their applications: Interuniversity collection of scientific papers). Chelyabinsk: Chelyabinskiy gosudarstvennyy universitet Publ., Izd-vo Bashkirskogo universiteta Publ., 1988, pp. 123-130. (in Russ.).
4. Ukhobotov V.I., Zaytseva O.V. Odna zadacha impul'snogo presledovaniya pri ogranichennoy skorosti ubegayushchego (About one problem of impulse pursuit at the limited velocity of the escaping). Bulletin of the South Ural State University. Series of "Computer Technologies, Automatic Control & Radioelectronics", 2010, no. 2 (178), Issue 11, pp. 29-32. (in Russ.).
5. Pozharitskiy, G.K. Igrovaya zadacha impul'snogo sblizheniya s protivnikom, ogranichennym po energii (Game problem of impulse encounter with an opponent limited in energy). Prikladnaya mate-matika i mekhanika (Journal of Applied Mathematics and Mechanics), 1975, Vol. 39, Issue 4, pp. 579589. (in Russ.).
6. Ukhobotov V.I., Troitsky A.A. Problem about pursuer with pulse control near surface of the Moon (Problem about pursuer with pulse control near surface of the Moon).Matematicheskaya Teoriya Igr i Ee Prilozheniya, 2013, Vol. 5, Issue 4, pp. 105-118. (in Russ.).
7. Ukhobotov V.I., Gushchin D.V. Single-type differential games with convex integral payoff. Proceedings of the Steklov Institute of Mathematics (Supplementary issues), 2011, Vol. 275, suppl. 1, S178-S185. DOI: 10.1134/S0081543811090136
8. Ioffe A.D., Tikhomirov V.M. Teoriya ekstremal'nykh zadach (Theory of extremum problems). Moscow, Nauka Publ., 1974, 479 p. (in Russ.).
9. Ukhobotov V.I. Lineynaya zadacha upravleniya pri nalichii pomekhi s platoy, zavisyashchey ot modulya lineynoy funktsii (A linear control problem under interference with a payoff depending on the modulus of a linear function). Trudy Instituta Matematiki IMekhaniki UrO RAN, 2017, Vol. 23, no. 1, pp. 251-261. (in Russ.). DOI: 10.21538/0134-4889-2017-23-1-251-261.
Received May 14, 2018