УДК 517.977
ЭКСТРЕМАЛЬНЫЕ СТРАТЕГИИ В ИГРОВЫХ ЗАДАЧАХ ДЛЯ ЛИНЕЙНЫХ ИНТЕГРО-ДИФФЕРЕНЦИАЛЬНЫХ СИСТЕМ ВОЛЬТЕРРА, I
В.Л. Пасиковл
Изучены игровые ситуации для систем, описываемых линейными ин-тегро-дифференциальными уравнениями Вольтерра с управляющими воздействиями вне интеграла. Для решения этих задач предложена некоторая модификация известной экстремальной конструкции академика Н.Н. Кра-совского.
Ключевые слова: игровая задача, интегро-дифференциальная система, управляющее воздействие, позиции игры, программный максимин.
Введение
В предлагаемой работе рассматривается задача сближения-уклонения для линейных интегро-дифференциальных систем Вольтерра с управляющими воздействиями вне интеграла. Задача трактуется как позиционная антагонистическая игра в условиях конфликта при подходящем выборе пространства позиций. Особенность работы заключается в том, что эволюция объектов в рассматриваемой задаче описывается линейными интегро-дифференциальными системами Вольтерра, что усложняет применение методов решения, развитых в работах [1-8], на основе которых проводятся исследования. Предлагаемые модификации этих методов используют полную память по управляющим воздействиям [2, 7, 8].
1. Вывод формулы решения управляемой линейной интегро-дифференциальной системы Вольтерра
Рассматривается управляемая система, динамика которой описывается векторными линейными интегро-дифференциальными уравнениями Вольтерра:
г
) = / (г) + А(г) z(t) +1К (г, 5) z(s)ds + о(г), z(0) = z0. (1)
0
Здесь z - п -мерный фазовый вектор; /(г) - п -мерная измеримая по Лебегу на [0, в] вектор-функция; А(г) - непрерывная на [0, в] матрица п X п ; К (г, 5) - непрерывная при 0 < 5 < г <в
матрица п Xп ; О - управляющее воздействие, стесненное вложением оеТ с Яп , где Т - выпуклый компакт; реализация управляющего воздействия о[г], ге [0,в], измеримая по Лебегу функция; 0 < в - фиксированный момент. Все интегралы понимаются в смысле Лебега.
По плану доказательства теоремы 27 [9, с. 41] проверяется справедливость следующего утверждения.
Теорема 1.1. Если функции / (г), О) измеримы по Лебегу, а матрицы А(г), К (г, 5) непрерывны в соответствующих областях определения, то уравнение (1) имеет единственное абсолютно непрерывное решение z(t), удовлетворяющее заданному начальному условию z(0) = z0 .
Доказательство. Предположим, что z(t) - абсолютно непрерывное решение (1) с начальным условием z(0) = z0 . Тогда при почти всех г е [0, в]:
г
z(t) - А(г) z (г) -1К (г, 5) z (5^5 = / (г) + о(г). (2)
0
Проинтегрируем (2) по Лебегу:
г
+
ї(ґ) - | А(5)- |
| К (т, 5) г (s)ds
о
1 Пасиков Владимир Леонидович - кандидат физико-математических наук, доцент, кафедра математического анализа и информатики, Орский гуманитарно-технологический институт (филиал Оренбургского государственного университета).
0
0
0
0
поменяем порядок интегрирования по формуле Дирихле [9, с. 38]. Тогда
) = |
А(я) +1К (т, s)dт
(3)
Равенство (3) - линейное интегральное уравнение Вольтерра второго рода
z(t) = |Q(t, 5)г(я^я + р(г). (4)
о
г
Здесь Q(t, я) = А(я) +| К (т, - непрерывное ядро уравнения (4) при 0 < я < г <6;
я
г г
р(г) = z0 +|/(я^я +|а>(я^ - абсолютно непрерывная на [0,6] функция.
о о
Согласно [10, с. 132] уравнение (4) имеет единственное абсолютно непрерывное решение, а значит исходное уравнение (1) имеет единственное абсолютно непрерывное решение, удовлетворяющее условию z(0) = z0. Теорема доказана.
Далее по схеме [9, с. 43] получим формулу для решения уравнения (1) с начальным условием z(0) = z0 . Введем обозначение к (г) = Z(t) — А(г) z(t) и получим линейное обыкновенное дифференциальное уравнение Z(t) = у (г) + А(г) z(t). Запишем его решение по формуле Коши [1, с. 370]
г(г) = 2(г, 0)z0 +12(г, я)к(s)ds ,
(5)
где 2(г, я) - матрица Коши однородной системы Z(t) = А(г)z(г). Подставляем z(t) в (1) и меняем порядок интегрирования:
к (г) = / (г) + а(г) +1К (г, я)2 (г, 0^ • z0 +1
0 0
г
Пусть Ф(г, я) =| К (г ,т)2 (т, s)dт. Тогда (6) примет вид
| К (г, т)2 (т, я^т
(6)
к (г) = / (г) + а(г) + Ф (г, 0) z0 +1 Ф(г, я)к (.
(7)
Равенство (7) является интегральным уравнением Вольтерра второго рода. Обозначим символом Я(г, я) резольвенту матрицы Ф(г, я). Тогда суммируемое решение уравнения (7) можно записать в виде
у (г) = / (г) + а(г) + Ф(г, 0) z0 +1 Я(г, я) [ / (я) + а(я) + Ф(я, 0) z0 ] ds.
Подставив (8) в (5) и изменив по
рядок интегрирования, получим
1(г) = 2 (г, 0) Zо +1
2 (г, я) +12 (г, т) Я(т, s)dт
(/(я) + а(я) + Ф(я, 0)z0) ds.
(8)
(9)
Положим, ^(г, я) = 2(г, я) +12(г, т)Я(т, s)dт. Тогда для (9) получим:
я
г г
z(t) = 2(г, 0)Zо +1 £(г, я)[Ф(я, 0)Zо + /(я)]ds +1Z(г, s)а(s)ds .
(10)
Доказано следующее утверждение.
z
о
о
о
г
0
г
я
и
0
г
0
0
я
0
0
x(t) = f1(t) + Aj(t)x(t) +1K1(t, s)x(s)ds + u(t), x(0) = x0 , (11)
Пасиков В.Л. Экстремальные стратегии в игровых задачах
для линейных интегро-дифференциальных систем Вольтерра, I
Теорема 1.2. Если функции f (t), w(t) измеримы, а матрицы A(t), K(t, s) непрерывны в соответствующих областях определения, то уравнение (1) имеет абсолютно непрерывное решение z(t) с начальным условием z(0) = z0 , определяемое формулой (10).
2. Задача сближения-уклонения
для линейных интегро-дифференциальных систем Вольтерра
Рассматривается динамическая система, складывающаяся из двух управляемых объектов, эволюция которых описывается линейными интегро-дифференциальными уравнениями Вольтерра:
t
I + A1 (t)x(t) +1K1 (t, s)x(s)ds +1
0
t
y(t) = f2(t) + A2(t)y(t) + JK2(t, s)y(s)ds +v(t), y(0) = У0, (12)
0
u e P с Rn1, v e Q с Rn2. (13)
Ограничения на параметры систем аналогичны пункту 1; x - nx -мерный, а y - n2 -мерный фазовые векторы. Движение системы (11) подчинено первому игроку - преследователю. Движение системы (12) подчинено второму игроку - преследуемому. Управляющие воздействия игроков стеснены ограничениями (13). Игра рассматривается на заданном промежутке [0, в] и плата изображается равенством
Кв) = |{У(в)]„ -{x(в)]„|| (14)
Здесь и в дальнейшем || || - символ евклидовой нормы, {z]m - вектор, составленный из первых m компонент вектора z, в = const > 0 - фиксированный момент окончания игры, m < min {nx, n2 ]. Первый игрок распоряжается выбором управления u e P, стремясь минимизировать величину у(в) на траекториях x[t], 0 < t < в, системы (11), реализующихся под действи-
ем его управлений u[t ], 0 < t < в, u e P, в паре с любой интегрируемой реализацией v[t ], 0 < t < в, v e Q , управления второго игрока. Цель второго игрока противоположна и состоит в максимизации величины у(в) на траекториях y[t], 0 < t <в, системы (12), реализующихся под действием его управлений v[t ], 0 < t < в, v e Q, в паре с любой интегрируемой реализацией u[t ], 0 < t < в, u e P, управлений первого игрока.
Введем обозначения, аналогичные пункту 1:
х(г) = X(г, 0)х0 + | X(г, 5)[Ь(5, 0)х0 + /К?)] йъ + |Х(г, ъ)ы(ъ)йъ, (15)
0 0 г г
у(г) = У (г, 0) ^0 +1 у (г, ъ)[М (5,0) ^0 + /2(5)] Ж +1 у (г, , (16)
00
г
Х(г, ъ) = X (г, ъ) +1X (г, т) Е1(т, ъ)йт, (17)
г
у (г, ъ) = У (г, ъ) +1У (г, т) Я2(т, ъ)йт, (18)
где X (г, ъ) и У (г, ъ) - матрицы Коши систем Х(г) = А1(г) х(г), у (г) = А2(г) у (г); Я1(г, ъ) и Л2(г, ъ) -
гг резольвенты матриц Ь(г, ъ) = |К1 (г, т)X(т, ъ)йт и М(г, ъ) = |К2 (г, т)У(т, ъ)йт .
Окончательно решения (15) и (16) записываем в виде:
г г
х(г) = X(г, 0)х0 +1Х(г, ъ)N^5)^5 +1Х(г, 5)и(5)й5 , (19)
0 0
гг
у (г) = У (г, 0) у0 +1 у (г, ъ) N2 (ъ)йъ +1 у (г, ф(5)<*, (20)
00 где ^(ъ) = Ц(ъ, 0)Х0 + /1(5), N2(5) = М(5, 0)у0 + /2(5).
Если до момента г, г0 < г < в , оба игрока применяли некоторые допустимые управления и[г],
v[г], а после момента г имеем и[г] ° 0 , v[г] ° 0, то состояния систем (19), (20) имеют вид:
в г0 г
Х(в, г) = X (в, г) х0 + | Х (в, 5) ^( 5)й5 + | Х (в, 5)м0[ъ]й5 + | Х(в, 5)и(ъ)й5 , (21)
0 0 ?0
в г0 г
у(в, г) = У (в, г) у0 + | .у (в, 5) N2 (5)<* + | у (в, 5)У0 [5]й5 + | у (в, Ф(5)<* . (22)
0 0 г0
Обозначим
в в Х0(в) =Г(в,0)Х0+| Х(в, 5)N[(5)^5, у0(в) =У (в, 0)Х0+|.у (в, 5)N2(5).* .
00 Тогда из равенств (21) и (22) получим:
г0 г
Х(в, г) = х0 (в) +1Х(в, 5)и0 [5]й5 + | Х(в, ъ)и(ъ)йъ , (23)
0 г0
г0 г
у (в, г) = у0 (в) + | у (в, 5>0 [5]йъ + | у (в, ф(5)(* . (24)
0 г0
Определение 2.1. Тройку р ={г, х(в, г), у(в, г)} будем называть позицией игры в момент г,
г0< г < в , 0 < г0< в; р0 = {г0, х(в,г0), у(в,г0)} - начальной позицией.
Из определения 2.1 следует, что области достижимости [1, с. 109] систем (11) и (12) в момент г = в из начальной позиции р0 состоят из всех точек соответственно
в в
х(в) = х(в, г0 ) +| Х(в, 5)и[5]й5 , у (в) = у (в, г0 ) +| у (в, ф[5]<* , где и [г ], у[г ], г0 < г < в, все допус-г0 г0
тимые реализации управляющих воздействий и и V . Из вида формул для х(в), у(в) вытекает, что свойства выпуклости и замкнутости областей достижимости, установленные в [1], имеют место в рассматриваемом случае.
Из определения 2.1 и формул (23), (24) следует, что для вычисления позиций требуется полная память по управлениям. Такие игры называются играми с запоминанием информации или играми с полной памятью [2, 7, 8].
Определение 2.2. Стратегией и (V) первого (второго) игрока будем называть многозначное отображение, которое каждой реализовавшейся позиции р ={г, х(в, г), у(в, г)}, г0< г <в, ставит в соответствие некоторое непустое множество [1, с. 61] и (г, х(в, г), у(в, г)) + и (г, х(в, г), у(в, г))с Р (V (г, х(в, г), у (в, г)) - V (г, х(в, г), у (в, г)) с 0).
Множества и (г, х(в, г), у(в, г)) и V (г, х(в, г), у (в, г)) предполагаются выпуклыми замкнутыми и полунепрерывными сверху по включению при изменении позиции [1, с. 61]. Такие стратегии называем допустимыми, а соответствующие им управления и(г) еи(г, х(в, г), у(в, г)) и
v(г) е V(г, х(в, г), у(в, г)) - допустимыми управлениями.
Пасиков В.Л. Экстремальные стратегии в игровых задачах
для линейных интегро-дифференциальных систем Вольтерра, I
Под движениями систем (11), (12) будем понимать решения этих систем, в которых реализации допустимых управлений являются измерительными селекторами многозначных стратегий и и V, существующих согласно теореме об измеримом выборе [3, с. 55].
Уточним постановки задач для обоих игроков.
Задача 2.1. Среди допустимых стратегий и первого игрока найти стратегию ие, которая при любом допустимом способе управления второго игрока для любой начальной позиции р0 , 0 < < в, гарантирует результат игры:
(7(0) |'о, х(в, (о), У (в, (о), ие, V) < еЦо, х(в, to), у (в, to)).
Задача 2.2. Среди допустимых стратегий V второго игрока найти стратегию Vе, которая при любом допустимом способе управления первого игрока для любой начальной позиции р0 ,
0 < t0 < в, гарантирует результат игры:
(7(0) | to, х(в, ^), у (в, ^), и, Vе) > е(^, х(в, ^), у (в, О).
Задача 2.3. Среди допустимых стратегий и, V первого и второго игроков соответственно требуется найти пару оптимальных стратегий ие (^ х(в, t), у (в, t)) и Vе (^ х(в, t), у(в, t)),
0 < t0 < t < в , которые доставляют седловую точку игре 2.1, 2.2 и, следовательно, удовлетворяют условиям
7[в]^о, х(в, to), у (в, ^)ие, V < у [в ]%, х(в, to), у (в, ^)ие Vе <у[в]\^, х(в, to), у (в, to)u,Ve для любой начальной позиции р0 .
Здесь е(^, х(в, t0), у (в, t0)), 0 < t0 < в, - программный максимин для начальной позиции р0 , определяемый согласно (23), (24) формулой [4, с. 131]
в
e (to, x(0, to), y (0, to)) = maix
to vE<3
J maxl'{y(0, s)v(s)}mds -
(25)
- J maxI'{x(д, s)u(s)}m ds +1'({y(q to)}m -{X(д, to)}m)
to ueP _
если правая часть этого равенства положительна, или e(to, x(0, to), y(0, to)) = o в противном случае. В формуле (25) и далее штрих означает транспонирование.
Аналогично [1, с. 131] скажем, что имеет место регулярный случай, если для всех позиций
(to, x(0, to), y(0, to)), которые могут встретиться в рассматриваемой игре и для которых
e(to, x(0, to), y(0, to)) > o, максимум в правой части (25) достигается на единственном векторе
l = lo (to, x(0, to), y(0, to)). Иначе скажем, что случай нерегулярный. Здесь рассмотрим только регулярный случай.
Свойства функций e(t, x(0, t), y(0, t)), lo(to, x(0, to), y(0, to)), рассмотренные в [1], имеют место и в нашем случае. В частности, устанавливается, что функция e(t, x(0, t), y(0, t)) непрерывна по совокупности своих аргументов {t, x, y}, и в регулярном случае в области e(t, x(0, t), y(0, t)) > o, o < t <0 вектор lo {t, x, y} зависит от аргументов {t, x, y} непрерывно.
Пусть m-мерный вектор l = lo(to, x(0, to), y(0, to)) доставляет наибольшее значение правой части равенства (25) для произвольной начальной позиции po , o < to < 0. Тогда из (15), (16) получим:
в
{lo • x(0, t)} = {lo • X(0, t)}m + J {loX(0, t)}m • R (t, t)dt = xe (t), (26)
t
0
{lo • y (0, t)} = {lo • Y(0, t)}m + J {lo Y(0, t)}m • R2 (t, t)dt = ye (t). (27)
t
Согласно [1, с. 387] {/0 • X(0, t)} = x(t), {/0 • Y(0, t)} = y(t) - первые m координат решений систем x(t) =-A[(t)x(t), y(t) = -A2(t)y(t) с краевыми условиями x(0) = /0 , y(0) = /0 , сопряженных системам X(t) = A1(t)x(t), y(t) = A2(t)y(t).
Таким образом, экстремальные векторы xe[t ], ye [t] в рассматриваемом случае вычисляются сложнее, чем в случае обыкновенных дифференциальных систем, а при отсутствии интегралов в (11), (12) совпадают с экстремальными векторами для случая обыкновенных дифференциальных уравнений.
Определение 2.3. Пусть /0(t0, x(0, t0), y(0, t0)) - вектор, состоящий из первых m координат вектора, доставляющего максимум правой части равенства (25), и позиция p0(t0, x(0, t0), y (0, t0)) такова, что e(t0, x(0, t0), y(0, t0)) > 0. Этой позиции сопоставим множество Ue (t0, x(0, t0),y(0, t0))
(Vе(t0,x(0,t0),y(0,t0))) всех векторов ue e P (ve e Q), для которых xe(t0)ue(t0) = maxxe(t0)u
ueP
(ye (t0 )ve (t0) = max ye (t0 )v). Тогда стратегию Ue (Ve) назовем экстремальной стратегией первого
veQ
(второго) игрока.
Из определения 2.2, формул (19), (20) и результатов [1, с. 148] следует, что экстремальные стратегии допустимы. Отметим, что построенная выше экстремальная конструкция содержит элементы экстремальных конструкций из [1] и [11].
По плану доказательств аналогичных теорем из [1, с. 153] с использованием приведенных выше фрагментов доказательств проверяется справедливость следующего утверждения.
Теорема 2.1. В регулярном случае игры из задач 2.1 и 2.2 экстремальные стратегии Ue (t, x(0, t), y(0, t)) и Ve (t, x(0, t), y(0, t)), 0 < t0 < t <0, доставляют решения этих задач. Они составляют пару оптимальных стратегий {Ue,Ve}, которые разрешают задачу 2.3 и доставляют седловую рассматриваемой игры, причём (g[0]\t0,x(0,t0),y(0,t0)Ue,Ve)= e(t0,x(0,t0),y(0,t0)), то есть оптимальная плата игры (g[0]\t0,x(0,t0),y(0,t0)Ue,Ve) для всякой исходной позиции (t0,x(0,t0),y(0,t0)) равняется программному максимину e(t0,x(0,t0),y(0,t0)).
Доказательство. Запишем функцию
в
e(t) = f max {/0 (s, x(0, s), y(0, s)) • y(0, s)}m • v(s)ds -
t veQ
0
-f max {/0(s, x(0, s), y(0, s)) • x(0, s)}m • u (s)ds +
t ueP m
t
+f {/0 (s, x(0, s), y(0, s)) • y(0, s)}m • v[s]ds - (28)
10 t
-f {/0 (s, x(0, s), y(0, s)) • x(0, s)}m • u[s]ds + t0
+/0 (t0, x(0, t0), y(0, t0)) ({y(0, t0)}m - {x(0, t0)}m).
Здесь /0 (t, x(0, t), y(0, t)) - экстремальный вектор, доставляющий максимум правой части (25) в позиции p(t, x(0, t), y(0, t)), t0 < t < 0 , 0 < t0 <0, в котором после m-й компоненты приписаны нули; u[s], v[s], t0 < s < t - допустимые управления, реализовавшиеся в момент t.
Совершенно аналогично [1, с. 151] можно показать, что при дифференцировании функции s по t вектор /0 от t не зависит.
Функция e(t) является абсолютно непрерывной функцией в области e(t) > 0 в регулярном
случае [1, с. 144]. Ее производная существует почти всюду на [t0, 0] и имеет вид
Пасиков В.Л.
Экстремальные стратегии в игровых задачах для линейных интегро-дифференциальных систем Вольтерра, I
<deet) = max{/0 (t, x(0, t), y(0, t)) • x(0, t)}mu - max{/0 (t, x(0, t), y(0, t)) • y(0, t)}mv +
dt ue P ve Q
+{/0 (t, x(0, t), y(0, t)) • y(0, t )}m v[t] - {/0 (t, x(0, t), y (0, t)) • x(0, t )}m u[t ].
С учетом (2.16), (2.17) это выражение представляется в форме
de(t) = - max ye (t )v + max xe (t )u + ye (t )v - xe (t )u. (29)
dt veQ ueP
Считаем теперь, что первый игрок в течение всей игры применяет экстремальную стратегию Ue, а второй - произвольную допустимую. Тогда из (29) имеем dg(t) = - max ye (t )v + ye (t )v,
dt veQ
de(t) < отсюда--------< 0 .
dt
Следовательно, когда функция e(t) = e(t, x(0, t), y(0, t)) положительна, то при почти всех t, t0 < t < 0, она имеет неположительную производную. Таким образом, функция e(t, x(0, t), y(0, t)), t0 < t < 0, не возрастает, а значит,
e(0) = e(0, x(0, 0), y(0, 0)) < e(t0, x(0, t0), y(0, t0)).
Здесь e(0) = |{y(0)}m -{x(0)}J согласно (28) в ситуации, когда первый игрок применяет
свою экстремальную стратегию, а второй - произвольную допустимую.
Допустим теперь, что второй игрок в течение всей игры применяет экстремальную стратегию. Тогда de(t) = max xe (t)u - xe (t)u в силу (29), отсюда de(t) > 0. Следовательно, когда
dt ueP dt
функция s(t) положительна, то при почти всех t, t0 < t < 0 , она имеет неотрицательную производную. Таким образом, функция e(t, x(0, t), y(0, t)) не убывает, а значит, e(0) > e(t0).
Пусть теперь в регулярном случае оба игрока применяют свои экстремальные стратегии, тогда им будет, как это следует из предыдущего, гарантирован результат
||{y (0)}m -{x(0)}J| = e(^ x(0, t0), y(0, t0)).
Теорема доказана.
Пример. Пусть движение объекта описывается скалярным уравнением
Z(t) = e* + f z(s)ds + w(t), z(0) = 1, (30)
0
здесь f (t ) = e*, A (t)° 0, K (t, s)° 1; соответствующая однородная дифференциальная система для
(1) имеет вид s (t ) = 0, тогда положим, что фундаментальная матрица Z(t,s) = Z(t)Z_1 (s) = 1, Z(t,0) = 1; для начального условия z(0) = 2 выбираем Z (t) = 2, Z (t, s ) = 1.
t t
Далее вычисляем матрицу F(t,s) = f K(t,t)Z(t,s)dt = f dt = t- s, F(t,0) = t, резольвента
0 s
этой матрицы определяется формулой R(t,s) = sh(t-s) [12, с. 22] или в другой форме
,( ) et-s - e-(t-s)
sh (t - s) =---- ------, тогда
t t t
1 +r............................t
г (ґ, 5 ) = Z ІҐ, 5 ) + [ Z (т, 5 ) йт = 1 + [(т- Ґ= 1 + еЬ (т- 5 ) |
^ ■’ т = 5
= 1 + еЬ (ґ - 5 )- 1 = еЬ (ґ - 5 ) .
Для начального условия г (0) = 1 имеем (р(ґ ) = / (ґ ) + Ф(ґ,0) г0 = Є + ґ , для начального условия г(0) = 2 имеем р(ґ) = Є + 2ґ .
Записываем состояние уравнения (1) в момент і:
(і) = X(і,0)+1 г (і,5)^(5)йъ +| г (і)ю(5;
о
і
для случая г (0) = 1 имеем
і
Вычисляем
г (і ) = 1 +1 еЬ (і - 5)(е5 + ) йъ +| еЬ (і - 5)«(5) йъ.
о о
I еЬ (і - 5 )(е5 + 25 ) й5 =11 (е* 5 + е (* 5))( е5 + 25 ) й5 =
о 2 о
= 21 (еі-' + е-(і-'У* + 21 (е
(31)
Л | —І+25
1 і. 1
для первого слагаемого получаем 1| (е‘ + е ^25 й = —е‘і +— е ‘е
2 4
і 1 * 1 * 1 -і
=—еі + — е е , для вто-
о 2 4 4
г її
рого слагаемого |5 (е*-5 + е_(і-5))й5 = е |5е~11 й + е-|5е8й5, интегрируем по частям
е і^
о
и = 5 => йи = йи =е ( і Г ^ =е ( *1
II 1 >2 1 + I е~*й5 1 1 *т 1
йи = е~ 5й,5 => и = -е-5 о 1 ) V о)
= ег (-іе * - е * + 1) = -і -1 + ег, е *18е*й$ =
о
= е - (іе е — е * +1) = і — 1 + е і .
и = 5 => йи = й5 = е- ( і'І
1 (
йи = е*й5 => и = е5 V о)
Получаем, подставляя в (31)
1 * 1
-іе + -2 4 4
111 - - і
г (і) = 1 +—іеі + —е* —е * - і -1 + е* + і -1 + е * +1 еЬ (і - 5 )^(5 ) й,5 =
1 53 - і 1 53 _г
= 1 + —іе* + —е* + — е * - 2 +1 еЬ (і - 5)^(5)й,5 = -1 + —іе* + —е* + —е * +1 еЬ(і - 5)^(5)й,5 ,
2 4 4
о о
нетрудно видеть, что решение удовлетворяет начальному условию г (о) = 1. Аналогично, для начального условия г (о) = 2 получаем
1 53 - г 1 53 - і
г(і) = 2 + —іе* + — е* + —е * -2 +1 еЬ(і-5)ю(5)йя =—іе* + —е* + —е * +1 еЬ(і-5)ю(5)й,$.
Окончательно решения записываем в виде:
1 3 г
г(і) = -1 + — е* (і +1) +—еЬі + I еЬ(і -5)ю(5)й5, 22
1 3 і
г (і) = — е* (і +1) +—еЬі + I еЬ (і- 5 )ю( 5) й,5 22
(32)
(33)
с начальными условиями соответственно г (0 ) = 1 и г (0 ) = 2.
Будем теперь рассматривать движения двух управляемых объектов
• К
%1 (к) = в + I %1 (5)йи + ы1 (5), х1 (0) = 1, / = 1,2,
(34)
г
о
о
о
о
о
і
о
о
о
Пасиков В.Л. Экстремальные стратегии в игровых задачах
для линейных интегро-дифференциальных систем Вольтерра, I • і
У, (*) = е | у, (5) + и, (5) у, (0) = 2, = 1,2 (35)
0
Записываем состояния систем (34), (36) в момент і аналогично (32), (33):
1 3 і
хі ( І ) = -1 + — ее (і + 1) + — сЬ і + I сЬ (і - 5 )и, [5]^5, і = 1,2, (36)
9 0 *
13
У, (е )=— ее (е + 1) + — сЬ І + I сЬ (е - 5 )и[^]^5, і = 1,2. (37)
0
Для позиция игры в момент е0 получаем из (36), (37):
е0
1 3 ‘■и
, (в, е0 ) = -1 + — ев(в + 1) + —сЬв+ I сЬ (в- 5 )и, [5]^5,
2 2
0
3 *0
в,„ .. \ 3
1 3
У, (в, е0 ) =— ев (в + 1) + — сЬв + I сЬ (в- 5 и [ 5] ,
2 2 0
а состояния систем в момент і записываем в виде:
х, (в, і) = х, (в, і0) + I сЬ(в-5)и, [5]^5 , (38)
У,(в,і) = у,(в,^) + Ґ сЬ(в-5)и,[5№ . (39)
Будем теперь считать, что управляющие воздействия стеснены ограничениями: их возможные значения содержатся на [0,1] или на любом другом отрезке, или на любых различных отрезках. Из элементарных соображений заключаем, что экстремальный вектор 10 имеет постоянное направление по прямой у = х в сторону возрастания х и у . В момент і = 0 координаты преследователя, эволюция которого описывается системой (34), имеют значения (1,1), а координаты преследуемого согласно (35) имеют значения (2,2); экстремальные управления имеют вид (ие1,ие2 ) = (1,1), (ие1,ие2 ) = (1,1). При і = 0 расстояние между объектами л/2 . Если оба игрока
применяли свои экстремальные стратегии, то из (38), (39)
13 13
х, (в,в) = -1 + -ев(в +1) + -сЬв + ъЬв, у, (в,в) = -ев(в +1) + -сЬв + ъЬв,
таким образом, ||х(в,в)-у(в,в)|| = \/2 , где |^|| - символ евклидовой нормы. Получаем, что расстояние между объектами не меняется и равно значению программного максимина.
При использовании ресурсов управления, не являющихся одновременно экстремальными, получаем иллюстрацию других утверждений теоремы.
Литература
1. Красовский, Н. Н. Игровые задачи о встрече движений / Н.Н. Красовский. - М.: Наука,
1970. - 420 с.
2. Красовский, Н.Н. Позиционные дифференциальные игры / Н.Н. Красовский,
А.И. Субботин. - М.: Наука, 1974. - 456 с.
3. Субботин, А.И. Оптимизация гарантии в задачах управления / А.И. Субботин, А.Г. Ченцов
- М.: Наука, 1981. - 287 с.
4. Красовский, Н.Н. Управление динамической системой / Н.Н. Красовский. - М.: Наука, 1985. - 518 с.
5. Осипов, Ю.С. Дифференциальные игры систем с последствием / Ю.С. Осипов // ДАН СССР. - 1971. - Т. 196, № 4. - С. 779-782.
6. Осипов, Ю.С. Альтернатива в дифференциальной игре / Ю.С. Осипов // ДАН СССР. -
1971. - Т. 197, № 5. - С. 1023-1025.
7. Субботин, А.И. Экстремальные стратегии в дифференциальных играх с полной памятью /
А.И. Субботин // ДАН СССР. - 1972. - Т. 206, № 3. - С. 211-213.
8. Субботин, А.И.Дифференциальные игры с полной памятью / А.И. Субботин // Экстремальные стратегии в позиционных дифференциальных играх. - Свердловск: ИММ УНЦ АН СССР, 1974. - Вып. 8. - С. 211-223.
9. Ландо, Ю.К. Элементы математической теории управления движением: учебное пособие / Ю.К. Ландо. - М.: Просвещение, 1984. - 88 с.
10. Цалюк, З.Б. / З.Б. Цалюк // Итоги науки и техники. Сер. Математический анализ. - М.: ВИНИТИ, 1977. - Т. 15. - С. 199-266.
11. Пасиков, В.Л. Экстремальное прицеливание в игре линейных систем Вольтерра /
В. Л. Пасиков // Дифференциальные уравнения. - 1986. - Т. XXII, № 5. - С. 907-909.
12. Краснов, М.Л. Интегральные уравнения: Введение в теорию: учеб. пособ. для вузов/ М.Л. Краснов. - М.: Наука, 1975. - 303 с.
Поступила в редакцию 20 января 2012 г.
EXTREME STRATEGIES IN GAME-THEORY PROBLEMS FOR LINEAR INTEGRAL DIFFERENTIAL VOLTERRA SYSTEMS, I
V.L. Pasikov1
Game situations for the systems, defined by linear integral differential Volterra equations with control actions beyond the integral are studied. To solve these problems a modification of a familiar extreme construction of academician N.N. Krasovsky is given.
Keywords: game-theory problem, integral differential system, control action, game positions, program maximin.
References
1. Krasovskii N.N. Igrovye zadachi o vstreche dvizhenii (Motion game problems). Moscow: Nauka, 1970. 420 p. (in Russ.).
2. Krasovskii N.N., Subbotin A.I. Pozitsionnye differentsial'nye igry (Position differential games). Moscow: Nauka, 1974. 456 p. (in Russ.).
3. Subbotin A.I., Chentsov A.G. Optimizatsiia garantii v zadachakh upravleniia (Guarantee optimization in control problems). Moscow: Nauka, 1981. 287 p. (in Russ.).
4. Krasovskii N.N. Upravlenie dinamicheskoi sistemoi (Dynamic system control). - Moscow: Nauka, 1985. 518 p. (in Russ.).
5. Osipov Yu.S. DANSSSR. 1971. Vol. 196, no. 4. pp. 779-782. (in Russ.).
6. Osipov Yu.S. DAN SSSR. 1971. Vol. 197, no. 5. pp. 1023-1025. (in Russ.).
7. Subbotin A.I. DAN SSSR. 1972. Vol. 206, no. 3. pp. 211-213. (in Russ.).
8. Subbotin A.I. Ekstremal'nye strategii v pozitsionnykh differentsial'nykh igrakh. Sverdlovsk: IMM UNTs AN SSSR, 1974. Issue 8. pp. 211-223. (in Russ.).
9. Lando Yu.K. Elementy matematicheskoi teorii upravleniia dvizheniem: uchebnoe posobie (Elements of a mathematical motion control theory: study guide). Moscow: Prosveshchenie, 1984. 88 c. (in Russ).
10. Tsaliuk Z.B. Itogi nauki i tekhniki. Ser. Matematicheskii analiz. Moscow: VINITI, 1977. Vol. 15.pp.199-266.
11. Pasikov V.L. Differentsial'nye uravneniia. 1986. Vol. 22. no. 5. pp. 907-909. (in Russ.).
12. Krasnov M.L. Integral'nye uravneniia (Integral equations). Moscow: Nauka, 1975. 303 p. (in Russ).
1 Pasikov Vladimir Leonidovich is Cand. Sc. (Physics and Mathematics), Associate Professor, Mathematical Analysis and Information Service, Orsk Humanist and Technological Institute (Branch of Orenburg State University).