УДК 517.977.8
© С. А. Ганебный, С. С. Кумков, С. Ле Менек, В. С. Пацко
ИГРОВАЯ ЗАДАЧА ПРЕСЛЕДОВАНИЯ ДВУМЯ ДОГОНЯЮЩИМИ ОДНОГО УБЕГАЮЩЕГО: ЗАВИСИМОСТЬ РЕШЕНИЯ ОТ ПАРАМЕТРОВ1
Изучается модельная линейная дифференциальная игра с двумя догоняющими и одним убегающим. Приводятся результаты численного исследования структуры множеств уровня функции цены.
Ключевые слова: игры преследования-уклонения нескольких лиц, линейная динамика, функция цены игры.
Введение
Опишем содержательную задачу, разумное упрощение которой приводит к рассматриваемой в работе модельной дифференциальной игре. Предположим, что два догоняющих объекта атакуют на встречных курсах убегающий объект. Например, это могут быть ракеты или самолеты, движущиеся в горизонтальной плоскости. Номинальное движение первого догоняющего подбирается по номинальному движению убегающего так, что в некоторый момент Т\ происходит их точная встреча. Аналогично подбирается номинальное движение второго догоняющего (встреча в момент Т2). Однако реальные начальные положения объектов отличны от номинальных. Кроме того, убегающий объект, используя свое управление, может изменять траекторию движения по сравнению с номинальной (но не принципиально, без каких-либо разворотов). Корректирующие координированные усилия догоняющих вырабатываются поэтому в процессе движения по принципу обратной связи так, чтобы минимизировать результирующий промах, определяемый как минимум из отклонений (по абсолютной величине) в моменты Т1 и Т2 соответственно первого и второго догоняющего от убегающего. Переход от исходной нелинейной динамики к динамике, линеаризованной вдоль номинальных движения, дает [1,2] изучаемую задачу.
К настоящему времени имеется большое число публикаций, посвященных дифференциальным играм, в которых одна группа объектов преследует другую группу (для задач с линейной динамикой см., например, [3-7]). В рассматриваемой задаче два догоняющих и один убегающий. Таким образом, с точки зрения количества участвующих объектов, задача является простейшей. С другой стороны, при строгом математическом исследовании задач «группа преследователей — группа убегающих», как правило, накладываются весьма сильные предположения на динамику объектов, размерность фазового вектора и условия окончания. Такие предположения в исследуемой задаче не являются выполненными. Решение задачи может представить интерес для теории дифференциальных игр «группа на группу».
§ 1. Постановка задачи
В работе исследуется модельная дифференциальная игра с двумя догоняющими и одним убегающим. Три инерционных объекта передвигаются по прямой. Описание динамики для преследователей Р1 и Р2 и убегающего Е:
2 р1 = а р1, х р2 = а р2, 2 е = а е ,
ар-1 = («1 - ар1 )/1р1, ар^ = («2 — ар^)/1р2, Се = (у — аЕ)/1е, (1)
Ы ^ ^1, |«21 ^ ^2, |у| ^ V,
ар1 (Ь) = 0, ар2 (£о) = 0, аЕ (Ь) = 0.
Здесь хр1, хр2, хе — геометрические положения объектов, ар1, ар2, аЕ — ускорения, вызванные управлениями «1, «2, у. Скорость отработки управляющих воздействий задается константами 1р1, 1р2, 1е (постоянные времени).
1 Работа выполнена в рамках программы фундаментальных исследований Президиума РАН «Динамические системы и теория управления», при финансовой поддержке УрО РАН (проект 12-П-1-1002), а также при поддержке РФФИ (гранты №№ 10-01-96006-урал-а, 11-01-12088-офи-м).
Зафиксируем моменты Ti и T2. В момент Ti подсчитывается промах первого преследователя относительно убегающего, в момент T2 — промах второго преследователя:
rp1,E(Ti) = |ZE(Ti) - Zp1,E(Ti)|, rp2,E(T2) = |ze(T2) - Zp2,E(T^)|.
Условимся, что преследователи действуют координированно. Это означает, что мы можем объединить их в одного игрока P (назовем его первым), который распоряжается векторным управлением u = (ui,u2). Убегающего E считаем вторым игроком. Результирующим промахом назовем величину
<р = min{rPl,E(Ti), rp2,E(T2)}. (2)
В каждый момент t игроки точно знают все фазовые координаты zp1, ,Zp1, ap1, Zp2, Zp2, ap2, Ze, Ze, aE. Первый игрок, строя свое управление по принципу обратной связи, старается минимизировать промах ^>, второй максимизирует промах.
Соотношения (1), (2) задают стандартную антагонистическую дифференциальную игру [В]. Требуется найти функцию цены и построить оптимальные (или квазиоптимальные) стратегии игроков.
§ 2. Переход к эквивалентной двумерной дифференциальной игре
Сначала перейдем к разностным геометрическим координатам
Уі = ZE - ZPl, У2 = Ze - ZP2 (З)
в динамике (1) и функции платы (2). В результате получим
Уі = aE - apl, У2 = aE - ap2,
іPl = (ui - apl)/Ipi , іP2 = (u2 - ap2 )/lp2,
(4)
ІE = (v - aE)/lp1, |u21 ^ ^2,
|ui| < ^i, |v| < V, <p = min{|yi(Ti)|, ІУ2(T2)|}.
Фазовыми переменными системы (4) являются величины yi, yi, ap1, У2, У2, ap2, aE; ui и u2 — компоненты управления первого игрока; v — управление второго игрока. Функция платы ^ зависит от координаты yi в момент Ti и от координаты У2 в момент T2. С общей точки зрения (существование функции цены, позиционный тип оптимальных стратегий) игра (4) является частным случаем дифференциальных игр с позиционным функционалом [9].
Один из стандартных подходов к изучению дифференциальных игр с фиксированным моментом окончания и функцией платы, зависящей от части фазовых переменных в момент
окончания, — переход к новым фазовым координатам (см., например, [В]), которые имеют
смысл значений целевых компонент исходного фазового вектора, спрогнозированных на момент окончания при нулевых управлениях игроков. В западной литературе эти координаты часто называют ZEM, zero effort miss [1,2]. В нашем случае имеются два момента Ti и T2, но координаты, вычисляемые в эти моменты, независимы. Действительно, в момент Ti нужно принимать во внимание только yi(Ti), а в момент T2 — только У2СГ2). Это позволяет применить указанный подход при решении дифференциальной игры (4). При этом переходим к новым фазовым координатам Xi и X2, где Xi(t) есть значение yi, спрогнозированное на момент Ti, а X2 (t) — значение У2, спрогнозированное на момент T2.
Прогнозные значения находятся по формуле
Xi = Уі + j/іті - aPilpih^i/lpi)+ aElEh(тi/lE), i = 1,2. (Б)
Здесь Xi, yi, y/i, api и aE зависят от t; ті = Ti -1. Функция h описывается соотношением
h(a) = e-a + a - 1.
Отметим, что значения ті и т2 связаны друг с другом: ті - т2 = const = Ti - T2. Важно, что Xi(Ti) = yi(Ti). Пусть X(t, z) — двумерный вектор, составленный из переменных Xi, X2, определяемых формулами (З), (Б).
Динамика в новых координатах Ж1, Ж2 записывается следующим образом [2]:
Ж 1 = —1р1 Л,(т1/1р1 )«1 + 1е ^(г1/1е )у,
Ж2 = —1р2^(г2/1р2)«2 + 1е^(г2/1е)у, . ,
(6)
|«11 ^ ^1, |«21 ^ ^2, |у| ^ V,
^(Ж1(Т1),Ж2(Т2)) = тт{|Ж1(Т1)|, |Ж2 (Т2) |}.
Первый игрок распоряжается управлениями «1, -«2 и минимизирует плату второй обладает управлением V и максимизирует ^>. Используя систему (6), будем подразумевать, что если Т1 > Т2 и £о € (Т2,Т1], то = |ж1(Т1)|; если Т2 > Т1 и £о € №,Т2], то ^ = |ж2(Т2)|.
Дифференциальная игра (6) эквивалентна игре (1), (2).
Отметим, что управление «1 («2) влияет только на горизонтальную (вертикальную) компоненту Ж1 (Ж2) вектора скорости Ж = (Ж 1,Ж2)т. Когда Т1 = Т2, второе слагаемое в динамике (6) одинаково для Ж1 и Ж2.
Пусть V(£, х) — значение функции цены игры (1), (2) в позиции (£, х) и V(£,ж) — значение функции цены игры (6) в позиции (£,ж), Ж = (Ж1,Ж2)Т. Имеем
V(£, х) = V(£, X(£, х)). (7)
Соотношение (7) дает возможность найти функцию цены исходной игры (1), (2), используя функцию цены игры (6). Преобразование (£, х) ^ Ж = X(£, х) позволяет также пересчитать управления обратной связи игроков в игре (6), которые есть функции от (£,ж), в соответствующие управления в игре (1), (2), зависящие от (£,х).
Для любого с ^ 0 множество уровня
= {(£,ж) : V(£,ж) < с}
функции цены игры (6) может рассматриваться как множество разрешимости этой игры с результатом не более с. По терминологии книги [8] множество представляет собой максимальный стабильный мост для дифференциальной игры с динамикой (6) и терминальным множеством
Мс = {(£,ж) : £ = Т1, |ж1 | ^ с} и {(^,ж) : £ = Т2, |ж2| ^ с}.
Пусть ^с(£) = {ж : (£,ж) € ^с} — сечение по времени (£-сечение) множества в момент £.
Построение сечений ^с(£) проводим численно с использованием попятной процедуры.
Говоря о соотношении динамических возможностей каждого из преследователей Р1 и Р2 по сравнению с убегающим Е, введем параметры Пг = ^г/^ и е = 1е/^, * = 1, 2, определяющие характер множеств разрешимости в индивидуальных играх Р1 против Е и Р2 против Е [1]. Опираясь на эти параметры, можно классифицировать варианты типичной структуры решения задачи («сильные» преследователи: Пг, Пге > 1; «слабые» преследователи: Пг, Пге < 1; преимущество преследователей, переменное во времени: Пг < 1, > 1 или Пг > 1, < 1).
В докладе приводятся результаты численного построения множеств уровня функции цены и оптимальных движений для различных вариантов параметров задачи. Ниже рассмотрим случая слабых преследователей.
§3. Случай слабых преследователей
Выберем следующие параметры игры:
^ = 0.9, ^2 = 0.8, V = 1, 1р1 = = 1/0.7, 1Е = 1, Т1 =9, Т2 = 7.
Зафиксируем уровень промаха равный 2.0: |Ж1 (Т1) | ^ 2.0, |Ж2(Т2) | ^ 2.0. Сечения по времени ^2.о(£) соответствующего максимального стабильного моста показаны на рис. 1. Верхний-левый рисунок соответствует моменту Т1, когда первый игрок прекращает преследование. Следующий рисунок показывает картину для момента Т2, когда второй игрок завершает преследование. В этот момент добавляется горизонтальная полоса, которая чуть шире, чем вертикальная, которая сжалась за прошедший промежуток обратного времени. Затем стабильный
і = 7,
Тї = 2,
т2 = О
і = 5, П = 4, т2 = 2
\Х2 \х2
f = 3.9, ь = 2.7, 1 = 2,
Ті = 5.1, тг = 6.3, ^ = 7,
II оо , I—1 т2 = 4.3 т2 = 5
•^1 і
1 ^
Рис. 1. Два слабых преследователя: £-сечения максимального стабильного моста ^2.0
Рис. 2. Два слабых преследователя: множества уровня функции цены, і = 2
мост сжимается как в вертикальном, так и в горизонтальном направлениях, и появляются два криволинейных треугольника (см. верхнюю-правую картинку). Нижняя-левая картинка показывает сечение, когда исчезает вертикальная полоса, а следующая картинка — когда пропадает горизонтальная полоса. В этот момент сечение теряет связность и распадается на две части, симметричные относительно начала координат. Далее эти части продолжают сжиматься, как это можно видеть на нижней-правой картинке, и в конце концов пропадают.
Набор сечений по времени {^с(£)} нескольких максимальных стабильных мостов показан на рис. 2 в момент і = 2 (ті = 7, Т2 = 5). Множество Шс в пространстве і, Хі, Х2 для с = 2.0 приведено на рис. 3. При развитии сечений ^2.о(і) по і они меняют свою структуру в некоторые моменты времени. Такие места показаны пропуском одного сечения в ограничивающей поверхности.
На рис. 4 представлены траектории объектов, когда преследователи Рі, Р2 и убегающий Е
Рис. 3. Трехмерный вид максимального стабильного моста ^2.0
движутся на плоскости исходного геометрического пространства. Относительно скоростей объектов делаются следующие предположения. В начальный момент Ьо скорости всех объектов параллельны горизонтальной оси. Их величины существенно превосходят возможные изменения боковых компонент скоростей. Продольные компоненты постоянны во времени и таковы, что расхождение по горизонтали объектов Р\, Е происходит в момент Т = 9, а объектов Р2, Е — в момент Т2 = 7. Динамика боковых движений описывается соотношениями (1); результирующий промах задается формулой (2). Начальные положения в момент Ьо =2 выбраны в виде
= -12, 42 = 12, 4 = 0.
Траектории на рис. 4 слева были построены для оптимальных управлений всех объектов. В начале преследования убегающий сближается по вертикали с первым (нижним) преследователем. Это делается для того, чтобы увеличить промах со вторым (верхним) преследователем в момент Т2. Дальнейшее сближение неразумно, и убегающий переключает свое управление, чтобы увеличить промах с первым преследователем в момент Т1.
Рис. 4 в центре дает вид траекторий, когда преследователи по-прежнему используют оптимальные управления обратной связи. Однако теперь убегающий применяет постоянное управление V = V, уклоняясь от Р1 и игнорируя Р2. На рис. 4 справа показана ситуация, когда убегающий, наоборот, держит управление V = — V, уклоняясь от Р2 и игнорируя Р1. В двух
Рис. 4. Два слабых преследователя, траектории объектов в исходном геометрическом пространстве при оптимальном поведении догоняющих: слева — оптимальное управление второго игрока, в центре — постоянное управление второго игрока V = +v, справа — постоянное управление второго игрока V = — V
последних случаях плата меньше, чем в первом, когда убегающий использовал оптимальное управление. При v = +v уменьшается промах со вторым преследователем в момент Т2; если же v = — v, то уменьшается промах с первым преследователем в момент Т\.
При построении оптимальных управлений обратной связи первого и второго игроков проводилась обработка множеств уровня функции цены на некоторой достаточно мелкой сетке по t и по с. В результате для всех t из взятой сетки моментов времени для каждого управляющего воздействия получили линии переключения, разбивающие плоскость переменных Xl, Х2 на части, в каждой из которых соответствующее управление постоянно и принимает одно из крайних значений. Для внутренних точек любой такой части рассматриваемое управляющее воздействие первого (второго) игрока минимизирует (максимизирует) функцию цены. Применяемый способ управления при помощи линий переключения весьма удобен для практической реализации, но требует аккуратного теоретического обоснования.
Список литературы
1. Shinar J., Shima T. Non-orthodox Guidance Law Development Approach for Intercepting Maneuvering Targets // Journal of Guidance, Control, and Dynamics. 2002. Vol. 25. № 4. P. 658-666.
2. Le Menec S. Linear differential game with two pursuers and one evader // Annals of the International Society of Dynamic Games, Vol. 11: Advances in Dynamic Games. Theory, Applications, and Numerical Methods for Differential and Stochastic Games, M. Breton and K. Szajowski (Eds.). Birkhauser. Boston. 2011. P. 209-226.
3. Пшеничный Б.Н. Простое преследование несколькими объектами // Кибернетика. 1976. № 3. С. 145-146.
4. Петросян Л.А. Дифференциальные игры преследования. Ленинград: Изд-во Ленингр. ун-та, 1977. 222 с.
5. Григоренко Н.Л. Математические методы управления несколькими динамическими процессами. М.: Изд-во МГУ, 1990. 197 с.
6. Чикрий А.А. Конфликтно управляемые процессы. Киев: Наукова Думка, 1992. 384 с.
7. Благодатских А.И., Петров Н.Н. Конфликтное взаимодействие групп управляемых объектов. Ижевск: Удмуртский ун-т, 2009. 266 с.
8. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974. 456 с.
9. Krasovskii N.N., Krasovskii A.N. A differential game for the minimax of a positional functional // Adv. Nonlin. Dynamics. and Control: A report from Russia. Berlin: Birkhauser, 1993. P. 41-73.
Поступила в редакцию 26.02.2012
S. A. Ganebnyi, S. S. Kumkov, S. Le Menec, V. S. Patsko
Game pursuit problem with two pursuers and one evader: dependence of solution on parameters
A model linear differential game with two pursuers and one evader is considered. Results of numerical study of structure of level sets of the value function for different variants of the game parameters are given.
Keywords: multiple person pursuit-evasion games, linear dynamics, value function.
Mathematical Subject Classifications: 49N75, 49M30
Ганебный Сергей Александрович, к.ф.-м.н., вед. программист, Институт математики и механики УрО РАН, 620990, Россия, Екатеринбург, ул. С. Ковалевской, 16. E-mail: [email protected]
Кумков Сергей Сергеевич, к.ф.-м.н., с.н.с., Институт математики и механики УрО РАН, 620990, Россия, Екатеринбург, ул. С. Ковалевской, 16. E-mail: [email protected]
Ле Менек Стефан, PhD, исследователь, EADS / MBDA, 1 avenue Reaumur, 92358 Le Plessis-Robinson Cedex, France. E-mail: [email protected]
Пацко Валерий Семенович, к.ф.-м.н., зав. сектором, Институт математики и механики УрО РАН, 620990, Россия, Екатеринбург, ул. С. Ковалевской, 16. E-mail: [email protected]
Ganebnyi Sergei Aleksandrovich, Candidate of Physics and Mathematics, Leading Programmer, Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences, ul. S. Kovalevskoi, 16, Yekaterinburg, 620990, Russia
Kumkov Sergei Sergeevich, Candidate of Physics and Mathematics, Leading Researcher, Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences, ul. S. Kovalevskoi, 16, Yekaterinburg, 620990, Russia Le Menec Stephane, PhD, Researcher, EADS / MBDA, 1 avenue Reaumur, 92358 Le Plessis-Robinson Cedex, France Patsko Valerii Semenovich, Candidate of Physics and Mathematics, Head of Sector, Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences, ul. S. Kovalevskoi, 16, Yekaterinburg, 620990, Russia