Научная статья на тему 'Редукция дифференциальных игр альтернативного преследования'

Редукция дифференциальных игр альтернативного преследования Текст научной статьи по специальности «Математика»

CC BY
174
27
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Шевченко И. И.

Дифференциальная игра преследования называется альтернативной, если она может быть закончена на любом из нескольких заданных терминальных множеств. Каждому такому множеству соответствует свой функционал качества типа Больца, который отличается от других только своей терминальной частью. Такие игры могут моделировать маневрирование судна, преследующего рыбный косяк, который разделился на несколько частей, или судна, осуществляющего спасение экипажа другого судна, высадившегося на несколько плавучих средств. Они также могут использоваться при определении маневра летательного аппарата, осуществляющего сбор космического мусора, при выборе стратегии подводного аппарата, собирающего конкреции на дне океана, а также при организации поиска и/или наблюдения за несколькими подвижными объектами. Исследуется проблема синтеза решения альтернативных игр при известных решениях для каждой из игр с фиксированной целевой альтернативой. Предполагается, что выбор одной из альтернатив в качестве целевой целесообразен только тогда, когда условие доминирования устойчиво: альтернатива доминирует остальные альтернативы во всех состояниях вдоль соответствующих оптимальных траекторий. В состояниях, где условие доминирования не является устойчивым, должна формироваться и решаться некая дополнительная игра, которая стратегически эквивалентна исходной. Подробно рассматривается случай двух терминальных множеств и выпуклых разностей функций цен игр с фиксированными целевыми альтернативами и определенным характером поведения этих разностей вдоль оптимальных траекторий. Показано, что в части пространства игры, где ни одна целевая альтернатива не выбирается, у убегающего возникает дополнительная неопределенность, пользуясь которой, преследователь снижает свою гарантированную плату.A pursuit game is called alternative if it may be terminated on one of several given terminal manifolds and corresponding payoffs of

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Редукция дифференциальных игр альтернативного преследования»

_Известия ТИНРО_

2005 Том 143

МЕТОДИКА ИССЛЕДОВАНИЯ

УДК 519.9

И.И.Шевченко

РЕДУКЦИЯ ДИФФЕРЕНЦИАЛЬНЫХ ИГР АЛЬТЕРНАТИВНОГО ПРЕСЛЕДОВАНИЯ

Дифференциальная игра преследования называется альтернативной, если она может быть закончена на любом из нескольких заданных терминальных множеств. Каждому такому множеству соответствует свой функционал качества типа Больца, который отличается от других только своей терминальной частью. Такие игры могут моделировать маневрирование судна, преследующего рыбный косяк, который разделился на несколько частей, или судна, осуществляющего спасение экипажа другого судна, высадившегося на несколько плавучих средств. Они также могут использоваться при определении маневра летательного аппарата, осуществляющего сбор космического мусора, при выборе стратегии подводного аппарата, собирающего конкреции на дне океана, а также при организации поиска и/или наблюдения за несколькими подвижными объектами. Исследуется проблема синтеза решения альтернативных игр при известных решениях для каждой из игр с фиксированной целевой альтернативой. Предполагается, что выбор одной из альтернатив в качестве целевой целесообразен только тогда, когда условие доминирования устойчиво: альтернатива доминирует остальные альтернативы во всех состояниях вдоль соответствующих оптимальных траекторий. В состояниях, где условие доминирования не является устойчивым, должна формироваться и решаться некая дополнительная игра, которая стратегически эквивалентна исходной. Подробно рассматривается случай двух терминальных множеств и выпуклых разностей функций цен игр с фиксированными целевыми альтернативами и определенным характером поведения этих разностей вдоль оптимальных траекторий. Показано, что в части пространства игры, где ни одна целевая альтернатива не выбирается, у убегающего возникает дополнительная неопределенность, пользуясь которой, преследователь снижает свою гарантированную плату.

Shevchenko I.I. On reduction of alternative pursuit games // Izv. TINRO. -2005. - Vol. 143. - P. 374-390.

A pursuit game is called alternative if it may be terminated on one of several given terminal manifolds and corresponding payoffs of Boltza type differ only in their terminal parts. We investigate how to reduce such a game to a set of interrelated ordinary pursuit games when solutions of the games with fixed target alternatives are known. Assumed that the pursuer selects an alternative as the target one only if a dominating condition is stable along the corresponding optimal trajectory. At the part of playing space where the dominating condition is unstable, an auxiliary game is to be set up. We study in detail a case of convex differences of the values for fixed target alternatives with a particular pattern of their behavior along the optimal trajectories. Shown that the pursuer lowers the assured payoff at the states where no definitive target alternative is to be selected. The approach may be also used, for example, when a solution of an ordinary differential game is being constructed with use of two families of characteristics of the main equation.

Аппарат теории дифференциальных игр широко применяется в ситуациях, где для подвижного объекта требуется выбирать маневры в условиях неопределенности или конфликта. Формализация дифференциальных игр основывается

на применении принципа гарантированного результата, когда все неопределенные составляющие модели назначаются исходя из наихудшего варианта развития неконтролируемых событий, В частности, когда оптимизируется движение управляемого объекта по некоторому критерию, считается, что все изменения, происходящие в системе под непредсказуемым воздействием природных явлений или под целенаправленным контролем активного противника, реализуют максимальное уменьшение соответствующего показателя качества,

В альтернативных играх преследование может закончиться на любом из нескольких заданных терминальных множеств, каждому из которых соответствует свой функционал качества типа Больца, При этом все функционалы имеют общую интегральную часть и различаются только своими терминальными составляющими. Классическими примерами игр альтернативного преследования являются простейшая игра преследования в позициях, разделенных препятствием (Isbell, 1967; Малофеев, Петросяп, 1971; Вишневецкий, Меликян, 1982; Шевченко, 1989, 2003), а также игра первого периода поочередного преследования участников коалиции двух убегающих на быстродействие (Петросян, 1977; Breakwell, Hagedorn, 1979; Абрамянц и др., 1980; Шевченко, 1981, 1982, 2003; Чикрий, Калашникова, 1987; Чикрий и др., 1988; Маелов, Рубинович, 1991), Такие игры могут моделировать, например, маневрирование судна, преследующего рыбный косяк, который разделился на несколько частей, или судна, осуществляющего спасение экипажа другого судна, высадившегося на несколько плавучих средств. Они также могут использоваться при определении маневра летательного аппарата, осуществляющего сбор космического мусора, при выборе стратегии подводного аппарата, собирающего конкреции на дне океана, при организации поиска и/или наблюдения за несколькими подвижными объектами. Решения конкретных задач альтернативного преследования обсуждались многими исследователями (см., например, обширную библиографию работ, посвященных игре поочередного преследования одним преследователем нескольких убегающих на быстродействие и смежным задачам, в работе Серова (Serov, 2004)), Прежде всего альтернативный характер преследования неизбежно проявляется в постановках игр, в которых участвуют коалиции, состоящие из нескольких преследователей и/или убегающих (Габриелян, Субботин, 1979; Григоренко, 1983, 1990; Larin, Pashkov, 1996; Petrov, Vagin, 2002; Шевченко, 2004),

Близкими по постановкам являются задачи оптимального управления системами с переменной структурой при наличии промежуточных ограничений на траекторию с поочередным обходом неподвижных или движущихся многообразий, а также некоторые проблемы динамической оптимизации (Ащепков, 1987; Пшеничный, Покотило, 1990; Бердышев, 2002; Serov, 2004),

Альтернативным по своей сути является также процесс синтеза решения «обычных» игр преследования с использованием обобщенного подхода Айзекса, когда в некоторой части игрового пространства функция цены строится с использованием нескольких семейств характеристик основного уравнения Айзекса (Айзеке, 1967; Bernhard, 1977; Melikyan, 1994; Melikyan, Shinar, 1999; Камнева, 2003).

Специфика предлагаемого подхода заключается в том, что рассматривается позиционный способ выбора некоторой альтернативы в отличие от большинства известных методов, которые предполагают выбор наилучшей из имеющихся альтернатив в начальный момент игры. Изложение материала проводится следующим образом. Сначала даны основные положения обобщенного подхода Айзекса к формализации и исследованию «обычных» дифференциальных игр. Затем с его использованием приводится описание общей постановки игр альтернативного преследования, С каждой альтернативной игрой связаны две «обычные» игры с фиксированными целевыми альтернативами. Предполагаются известными решения этих игр, а также определенный характер поведения

разностей их функций цены вдоль соответствующих оптимальных траекторий. Предложен критерий для определения областей стратегической эквивалентности исходной альтернативной игры и «обычных» игр с фиксированными целевыми альтернативами, В части игрового пространства с нефиксированной целевой альтернативой формулируется вспомогательная игра, к решению которой сводится исходная игра. Показано, что при определенных предположениях из-за дополнительной неопределенности, возникающей у убегающих, преследователь снижает свою гарантированную плату.

Обобщенный подход Айзекса к формализации и исследованию

дифференциальных игр

Задание дифференциальной игры двух лиц с нулевой суммой включает в себя описание закономерностей, в соответствии с которыми осуществляется изменение переменных состояния системы, в виде системы дифференциальных уравнений с соответствующими начальными условиями, определение понятия решения этих уравнений для различных классов управляющих воздействий (стратегий) сторон, задание условий окончания игры, а также критерия качества выбора управлений и условий оптимальности. Известны различные подходы к согласованному описанию этих составляющих. Приведем основные положения подхода, первоначально предложенного Айзексом, а затем развитого в работах Берковица, Бернара, Брейкуэлла и др. (Berkowitz, 1964, 1986; Айзеке, 1967; Bernhard, 1977, 1987а,b,с; Breakwell, Hagedorn, 1979; Breitner, 2002, 2005).

Стратегиями называются правила, по которым формируются управляющие воздействия сторон, В общем случае эти правила могут представлять собой многозначные отображения, временные реализации которых описываются как объединение кусочно-непрерывных (измеримых) однозначных ветвей. Мы ограничиваемся рассмотрением исключительно детерминистических стратегий (в противоположность стохастическим). Типичным условиям информированности отвечают программные управления, позиционные стратегии, позиционные стратегии с памятью (дискриминирующие стратегии) (Bernhard, 1987а,b,с; Шевченко, 2003), Пусть в каждый момент времени t > 0 состояние системы характеризуется вектором z £ Z, где Z С Rn - так называемое «пространство состояний», или «игровое пространство». Изменение состояния в зависимости от выбираемых сторонами P и Е стратегий Sp и Se задается дифференциальным уравнением с начальными условиями

Z = f(z, Sp, Se), z|t=0 = z0, (1)

где f-С2-функция, а временные реализации üp (■) = {üp(t)bo и üe(-) = {üe(t)bo

Sp Se

üy^ üye, принимающих значения из компактов Up и Ue, В дальнейшем будем считать, что функция z(-,z0) = z(-,z0,Sp,Se) является решением уравнения (1), если z(0,z0) = z0, а z(-,z°) абсолютно непрерывна и удовлетворяет (1) почти всюду.

Пусть Z представляет собой замкнутое под множество Rn, граница которого 9Z является локально С2. Исходному состоянию z0 £ Z и паре допустимых стратегий Sp и Se ставится в соответствие момент окончания игры T, который зависит от исходного состояния и выбранных стратегий и определяется обычно как первый момент попадания состояния z(t,z0) на терминальное множество 8Z:

, imin(t > 0 : z(t,z0) £ 9Z}, если 3t > 0 : z(t,z0) £ 9Z, . ,

I (z , Op, Se) = \ (2)

в противном случае.

Каждому исходному состоянию Т0 £ Ъ и паре допустимых стратегий £р и Эг с временными реализациями ставится в соответствие оценка качества Р выбранных управлений, которая имеет вид

P(z0 S Se) = < T L(z(t,z0),Up(t) ,iie(t))dt , если T < +00, ^

' p' [+00 в противном случае,

где функции K > 0 и L > 0 предполагаются принадлежащими классу C2, Эта оценка является платой (минимизирующей) стороны P, распоряжающейся стратегией Sp, и выигрышем (максимизирующей) стороны E, распоряжающейся Se

Решение игры двух лиц с нулевой суммой предполагает для любого состояния игры z £ Z описание алгоритма вычисления функции цены V (z) - значения платы, которая гарантируется соответствующей стороне вне зависимости от того, как будет организовано противодействие. Кроме этого, обычно требуется сформировать описания стратегий сторон, применение которых приносит соответствующий гарантированный результат, а также траекторий игроков, порождаемых при применении этих стратегий.

Если отвлечься от проблемы определения решения (1) для произвольных способов формирования управляющих воздействий, то пару стратегий (Sp,Sg) можно было бы назвать оптимальной, если она Vz £ Z, VSp, VSe удовлетворяет условию P(z,Sp,Se) < P(z,Sp,Sg) < P(z,Sp,Sg), да отображения Sp,Sp и Sg,Se вырабатывают значения, принадлежащиe компактам Up и Ue, Плата, соответствующая оптимальным стратегиям, называется функцией цены и обозначается как V(z) = P(z,Sp,Sg), z £ Z,

Одной из основных проблем, которая неизбежно возникает при попытке дать точную формулировку понятия «решение дифференциальной игры», является выбор пары допустимых классов стратегий достаточно емких, чтобы содержать оптимальную пару (Sp,Sg), и одновременно таких, чтобы система (1) имела решение для любых пар стратегий, вырабатывающих значения, которые принадлежат соответствующим компактам. Например, в рамках одного из самых развитых подходов к формализации и исследованию дифференциальных игр, родоначальником которого является Н.Н.Красовский (1970), в качестве стратегий допускаются произвольные функции. Однако при этом рассматриваются не решения уравнения (1), а так называемые конструктивные движения, которые приближаются ломаными Эйлера (Красовскнй, 1970; Красовскпй, Субботин, 1974; Субботин, 1980; Субботин, Ченцов, 1981),

Предполагается также, что для любой пары множеств допустимых стратегий сторон Gp и Ge выполнены следующие интуитивно очевидные свойства (Bernhard, 1977, 1987а,b,с):

• любая пара стратегий из Gp х Ge вырабатывает значения, принадлежащие Up X Ue,

• программные стратегии являются допустимыми в Gp и Ge,

• Gp и Ge замкнуты относительно операции конкатенации («сцепления», «склейки»): переход от одной стратегии к другой возможен в любой момент времени,

• каждая пара страте гий из Gp х Ge порождает единственную траекторию через (1),

Gp Ge

ства

P(z,Sp,Se) < P(z,Sp,Sg) < P(z,Sp,Sg) (4)

при Vz G Z, VSp G Gp, VSe G Ge эквивалентно выполнению неравенства

P (z, Sp,Ue(-)) < P (z, Sp, Se) < P (z,Up(-), Se) (5)

при Vz G Z, Vüp(-) G aUp , Vüe(-) G nUe.

Пусть Sp и See являются оптимальными стратегиями в смысле (5), причем все пары стратегий, встречающиеся в неравенствах, генерируют соответствующие траектории через (1), Тогда Sp и Se будут оптимальными стратегиями в смысле (4) (относительно любой пары стратегий из Gp х Ge, удовлетворяющей перечисленным выше условиям). Тривиальным примером, например, множества Gp является замыкание объединения Qup и (Sp). Этот результат позволяет синтезировать стратегию (например, с применением метода, базирующегося на основном уравнении Айзекса, как достаточного условия оптимальности, см, ниже)

Gp х Ge

Главным инструментом, используемым при исследовании конкретных дифференциальных игр, является обобщенное уравнение Гамильтона-Якоби-Беллм-ана-Айзекса Как правило, уравнения характеристик этого уравнения, для краткости называемого основным уравнением (Айзекса), не позволяют построить поле регулярных траекторий, которые заполняли бы все пространство игры. Практически во всех исследованных дифференциальных играх функция цены не является гладкой. Другими словами, функция цены является одним (из бесконечно многих) обобщенных решений уравнения Айзекса, для которого выполнены соответствующие краевые условия, т.е. основное уравнение удовлетворяется почти всюду (Bernhard, 1977),

В рамках подхода, который обычно называется обобщенным подходом Айзекса, в стиле Берковица-Бернара (Berkowitz, 1964; Bernhard, 1977, 1987с) предполагается, что пространство игры Z Ç Rn может быть разбито двусторонними сингулярными многообразиями размерности (n-1 ) на конечное число открытых областей регулярности, удовлетворяющих условиям:

• функция цены V является С2-функцией в каждой области регулярности,

• V является либо полунепрерывной снизу, либо полунепрерывной сверху в окрестности каждого из сингулярных многообразий, может иметь разрыв типа скачка (позитивный или негативный) и является непрерывной по крайней мере с одной стороны каждого сингулярного многообразия,

• сужение V на каждое сингулярное многообразие является С2-функцией,

V

и сингулярных частей.

Известны различные дополнительные (необходимые) условия, которые должны удовлетворяться для конкретных типов спнгулярностей (Bernhard, 1987b; Breakwell, Bernhard, 1990), Общие результаты в рамках рассматриваемого обобщенного подхода Айзекса этим ограничиваются. Для получения решения конкретной игры требуется пытаться применить весь набор известных условий для

V

поверхностях с применением принципа перехода (Айзеке, 1967), Естественно, нужно каждый раз дополнительно обосновывать оптимальность синтезированных формальных решений (Bernhard, 1987b), Для этого, например, можно использовать обобщения уравнения Айзекса (на случай вязких решений, непрерывной, Липшице вой, дифференцируемой по направлению, кусочно-гладкой и т.д. функции цены) или некие достаточные условия оптимальности, полученные на их основе (Субботин, 1980; Субботин, Ченцов, 1981; Crandal, Lions, 1984; Lions, Souganidis, 1985; Bernhard, 1987a; Melikvan, 1998; Камнева, 2003),

Устойчивость пар стратегий и стратегическая эквивалентность игр

Введем такие понятия, как устойчивость пар стратегий относительно некоторого условия и стратегическая эквивалентность игр, которые достаточно удобно использовать при проведении исследований в рамках обобщенного подхода Ай-зекса.

Очевидно, что стратегия с обратной связью как функция времени в любом состоянии вдоль траектории, сгенерированной при оптимальных управлениях обоих игроков, должна предписывать такое же управление, что и рассчитанное в этом состоянии как начальном в соответствии с этой же самой парой стратегий. Например, для пары стратегий сторон, определенных в некоторой области, на которые разбивается игровое пространство, это свойство будет обеспечено, если соответствующая траектория не выйдет за пределы этой области.

Итак, пусть задан предикат (((Т), который принимает значение истина только в состояниях Т из Ъ, удовлетворяющих некоторому условию Сд, Этот предикат определяет соответствующее подмножество игрового пространства, в точках которого его значение истинно Ъд = {Т : (((Т) = истина] С Ъ, Пару позиционных стратегий (£р,5е) будем называть устойчивой относительно условия Сд, или устойчивой в области Ъд, если УТ0 € Ъд почти всюду на отрезке времени [0,Т(Т0,5е)] выполняется условие Т^Т0) € Ъд, где г("Ь,г°) = ¿("Ь,Т°,5р,£е) -соответствующая траектория игры (Шевченко, 2003),

Принцип устойчивости может применяться прежде всего для проверки корректности позиционных стратегий, синтезированных на основе некоторой про-

Сд

Сд

должно быть выполнено.

Пусть ^Т'- это игры с пулевыми суммами, в которых принимают участие по две стороны Р, Е и Р', Е', Пусть установлено взаимно-однозначное соответствие д между состояниями Т го части игрового пространства Ъ и состояниями Т' = 9(Т) € Т(Ъ) = Ъ', Пусть в любом состоянии Т € Ъ оптимальная стратегия Р в игре У совпадает с оптимальной стратегией Р' в игре У в состоявии Т' € Ъ', В этом случае игры У и У называются стратегически, эквивалентными для, пары (Р, Р') в области Ъ при соответствии Т (Шевченко, 2003), Это отноше-

(г,д)

пне обозначается как У ~ У. Аналогично можно определить стратегическую

(Р,Р')

эквивалентность для другой пары (Е, Е'), а также одновременно для обеих пар сторон.

Стратегическая эквивалентность для обеих пар игроков при тождественном отображении может быть использована, например, при описании связи исходной игры и игр, которые формулируются на основе принципа перехода (Айзеке, 1967) в отдельных частях регулярности игрового пространства.

Формализация игр альтернативного преследования и декомпозиция

пространства состояний

ЪР

Е

Ма и Мь- Пусть Т0 € Ъ и игроками выбраны етратегии £р и 5е. Обозначим через г(",г0) соответствующую траекторию состояния. Пусть Тт1П = шт{Та,Ть}, где Та и Ть - моменты первого попадания соетояния па Ма и Мь вдоль этой траектории (см, (2)), Пусть заданы также два функционала платы Ра или Рь типа (3) с общей подынтегральной функцией Ьаь > 0 и различными терминальными Ка > 0 и Кь > 0 частями, совпадающими на общей части терминальных

множеств Mab = Ma П Mb Vz0 £ Mab : Ka(z0) = Kb(z0). Обозначим через G игру с терминальным множеством Ma|b = Ma U Mb и платой преследователя P, которая имеет вид

P(z0 S S ) = {Pk(z0,Sp,Se), если к £ L = (a,b}, ,

' v' e \+oo, если k = неопределено,

где k = k(z0, Sp, Se) задается выражением

i i-0 с с \ - /1, если \ конечно uT\ = Tj™, , .

k(z , °p , Se) = 1-1 l< )

[неопределено в противном случае.

С игрой G свяжем две игры Ga и Gb с фиксированными целевыми альтернативами, которые имеют терминальные множества Ma и Mb, моменты окончания Ta и Tb и соответственно функционалы платы Pa и Pb, а также иrpv Ga|b с программным способом выбора альтернативы, которая имеет терминальное множество Ma|b и функционал платы Pa|b, равный Pm, где значение m = m(z0) £ L назначается P в начадьный момент. Отметим, что в отлнчпе от игры G, где k = k(z0,Sp,Se) рассчитывается на порождаемых траекториях в зависимости от выбора всех игроков, m = m(z0) играет роль дополнительного параметра управления P.

Ga

и Gb Обозначим через Sp и S^ оптимальные стратегии, Vi(z0) функцию цены, zi(t,z0) оптимальную траекторию состояния и Ti(z0) оптимальную продолжительность игры Gt, которая начинается в состоянии z0 £ Z, I £ L.

Пусть D0 - это множество состояний, в которых обе альтернативы равноценны!

D0 = (z0 : Va(z0)= Vb(z0)}. (8)

Пусть Za - это множество состояний, в которых альтернатива a доминирует (альтернативу b):

Z0a = (z0 : Va(z0) <Vb(z0)}. (9)

Za

a Ga

Za = (z0 : Vt £ [0,Ta(z0)], Va(za(t,z0)) < Vb (za(t, z0))}. (10)

D0

P

a

Ga

3t >0 : Va(za(t,z0))= Vb(za(t,z0)), и существенные, когда

3e > 0 3t £ [0,Ta(z0) - e] Vt £ [t',t' + e] : Va(za(t,z0)) > Vb(za(t,z0)).

Пусть Ba и Za - это множества состояний, в которых начальное условие доми-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

a

ственно, а Za - это замыкание Za.

Определим ЪЬ, Ъь, Ъь и Ъд аналогичным образом. Обозначим через Ъа|ь объединение Ъа и Ъь, а тер ез Ъ-уь дополнен не Ъ\Ъа|ь-

В некоторых состояниях оптимальная стратегия Р в игре Ф может быть явно направлена па реализацию конкретной альтернативы. Очевидно, что в игре Ф

Р

в случае, если во всех состояниях вдоль соответствующей оптимальной траекто-Р

ные переходы от одной равноценной альтернативы к другой). Таким образом, при принятии решения о выборе в текущем состоянии стратегии, направлен-

Р

соотпошепие цен игр с фиксированными альтернативами во всех состояниях,

Р

ЕР

Т0 € Ъд, то

У" € [0,Тд(Т0)]: к(^("Ь,г0)£р, ^) = I, I € Ь (11)

Поэтому в дальнейшем будем предполагать, что

^а|Ъ,д = ) . „

Ф - Фа|ь, 12

{(Р,Р),(Е,Е)} а|ь

где Т= - тождественное преобразование Т —> Т, и, следовательно, если Т0 € Ъа|ь, то в игре Ф преследователь выбирает стратегию, направленную на, реализацию конкретной альтернативы, гарантирующей наименьшую цепу (при равных ценах - любой из двух). При этом V(Т0) = Уа|ь(Т0) = ш1п{Уа(Т0),Уь(Т0)}, где V и ^|ь - функции цен игр Ф и Фа|ь-

Пусть Т0 € Ъ^ = 0 и игроками выбраны стратегии £р и 5е. Из определения

следует, что Бд разделяет Ъд и Ъд, I € Ь Пусть Тт1П = шт{ТМаЪ , ТВа, ТБъ}, где ТМаЪ; ТВа и ТВъ - моменты первого попадания состояния на Маь, Ба и Бь вдоль соответствующей траектории (см. (2)). Определим в Ъ-уь ИГРУ Ф-уь с терминальным множеством 9 Ъ-уь = Маь и Ба и Бь, в которой плата Р-уь ПРИ Тт1П < +оо имеет вид

3 _0 |Р1(Т0,5р,5е), если Тмаъ = Тт1п,

,^^(Т(ТВ1 ,Т0)) + /ТВь-ь^, еошТ^ = Т2т1п, I € ь

Положим игру Ф стратегически эквивалентной игре Ф-уь в части игрового пространства Ъ-уь, гДе целевая оптимальная альтернатива не фиксирована (может быть изменена при пересечении границы, разделяющей Ъ-уь и Ъа|ь, когда обе альтернативы равноценны, или может вообще не выбираться, если состояние Маь

Ф а|~ 0-Тъ. (14)

{(Р,Р),(Е,Е)} ауь

Проведем исследование Ф—ь пРи некоторых дополнительных предположениях.

Преследование в состояниях с нефиксированной целевой

альтернативой

При заданном состоянии г0 € Ъ определим разности функций цен Уа и Уъ вдоль оптимальных траекторий игр Фа и как функции времени следующим образом:

6а(-Ь,г°) = Уа(га(-Ь,г°))- Уь(¿а("Ь,г0)), VI € [0,Та(г0))],

= Уь(гь(м°))- Уа(гь(М°)), VI € [0,ть(г0))].

Пусть 61(-,г0) = [о,Т1 (¿о)] при любом фиксированном г0 € Ъ явля-

ется гладкой функцией времени, а также «непрерывно» меняет свою форму и положение на плоскости при изменении г0 в Ъ, I € Ь,

Ограничимся анализом игр в части Ъе игрового пространства Ъ, где обе разности 6а(-,г°) и 6ь(-,г0) как функции времени выпуклы и для всех г0 € Э0 выполняются условия

Vг0 € Э0 : Та(г0)= ть(г0), 6а(-,г0) = 6ь(-,г0), (16)

a также

Vz0 G Z0a : Ta(z0) < Tb(z0) и Vt G [0(Ta(z0))] : za(t,z0)) G Mb

Vz0 g Zb : Ta(z0) > Tb(z0b Vt g [0, Tb(z0))] : zb(t,z0)) G Ma.

В этом случае будем отмечать соответствующие подмножества состояний, которые соответствуют определенному образцу поведения 5a ( •, z0 ) и ôb ( •, z0 ), дополнительным верхним индексом 0, Из определения следует, что

Vt g [0,ti(z0)]Vt G[0,Tg(z°) t] : 6l(t,zl(T,z0)) = 51(t + t,z0), l G L. (18)

Поэтому, например, для получения графика {5a(t,za(T, z0))}te[0)Xl(^0)_x], соответствующего состоянию на оптимальной траектории игры Ga, которое достигается к моменту t G [0,Ti(z0)], нужно осуществлять сдвиг исходного графика 5a(-,z0) влево на T и отбросить значения для t < 0,

Пусть в состояниях из Zf график и 5a(-,z0) и 5b(^,z0) два раза пересекают

ось абсцисс (рис, 1, а, с). Для состояний на кривой Fe С D0, которая является внутренней границей, разделяющей Zf и Zf, меньший из двух корней 5a(-,z0) и 5b(^,z0) равен нулю (рис, 1, Ь), В состояниях на каждой из частей внешней границы Bf, разделяющей Zf и Zf, графи к 5l(-,z0) касается оси абсцисс при t > 0, l G L (рис, 1, d). В состоян пях на Df С D0 график и 5a(^,z0) и 5b(-, z0) лежат под осью абсцисс (рис, 1, f). Для состояний из Zf графи к 51 0,z0) при t > 0 лежит под осью абсцисс, l G L (рис. 1, g). Пусть также в Zf не существует состояний, в которых 5a(-,z0) и 5b(-,z0) как функции времени ведут себя неким образом, отличным от тех, что описаны выше.

Отметим, что выраженные в графической форме требования к совместному поведению 5a(-,z0) и 5b(-,z0) носят нелокальный характер и могут быть представлены в аналитической форме с использованием сопряженных переменных, Так, например, для z0 G Df (рис, 1, f), кроме тог о, что Ta (z0) = Tb(z0) и 5a(-,z0) = 5b(-,z0), должны быть также выполнены условия

(ayg(z°(t,z0)) _ ayb(z°(t,z0))) • f(Za(t,z0),Spa,S°) =

9z 9z p (19)

3Vb(zb(t,z0)) 3ya(zb(t,z0))) -(_ _0) b [Л (-0) -gz---dz-) • f (zb(t,z ), Sp, Se) < 0,t G [0,Ta(z )

6a,6b

6a,6b

(d) B

e

6a,6b

5a, 5b

= Tbt

(b) F

e

6a,6b

\Tb Ta t

6a,6b

(e) ze

TaTb

5a, 5b

(<0

= Tb t

(f) De

(g) ze

Рис. 1. Вид функций 5a (сплошная линия) и 5b (пунктирная линия) для состояний, принадлежащих различным множествам, последовательно достигаемым вдоль оптимальной траектории игры ©a, которая начинается в Ze

Fig. 1. Differences 5a(-,z°) (unbroken line) and 5b(-,z°) (broken line) for the subsets passed through along the optimal trajectory of Ga starting at z° £ Ze

t

Аналогичные условия для рассеивающей поверхности (но локального характера, при 1 = 0) описаны для случая синтеза поля оптимальных траекторий на основе двух семейств характеристик основного уравнения (МеЬкуап, 1994, 1996, 1998; МеИкуап, БЫпаг, 1994, 1999; Камнева, 2003).

Тип совместного поведения 6а(-,г0) и 6ь(^г0), представленный на рис. 1, согласуется с предположением о том, что игровое пространство имеет структуру, которая схематически показана на рис. 2.

Рассмотрим, например, траекторию, которая соответствует выбору игроками оптимальных стратегий игры Фа и начинается из состояния в Т©. Типы поведения 6а(-,г0) и 6ь(-,г0) в состояниях, последовательно достигаемых вдоль оптимальной траектории игры Фа, характеризуются графиками, изображенными на рис. 1. Соответствующая траектория состояния показана на рис. 2 пунктирной линией. Совершаемые при этом переходы из одного подмножества в другое

можно охарактеризовать следующей диаграммой

^ ^ ^ ^

Т|-> Ре-> В©^ Т©^ Ое-> Т©^ ма.

_0

На оптимальных траекториях Ф^ь состояние обязательно покидает Т©-^. Попав па внешнюю границу В© ми В©, оно вдоль оптимальной траектории игры

Mb

Рис. 2. Схематическая структура игрового пространства для случая выпуклых разностей функций цен и траектории движения состояния из Zf на M а при использовании игроками различных стратегий

Fig. 2. Structure of the playing space for the case of the convex differences and trajectories of the state from Zf on Ma for different strategies of the players

0а|ь неизбежно оказывается на Де (рис, 3). Пусть Т™п = шт{ТБа, ТБъ , ТА}, где

ТВа, ТВъ и ТА - моменты первого попадания соетояния на В®, В© и Де вдоль траектории, соответствующей выбранным стратегиям £р и 5е. Тогда плату (13) для конечного Т™п можно переписать в виде

_A Вт

, V1(z1(tA1 ,z0)) + J^ LlQbdt + J0T Labdt,

P^z0,Sp,Se)^ д если TBl = T3min, (20)

VQ(z(TA,z0)) + JTA Labdt, если TA = T3min,

где z(t,z0) = z(t,z0, Sp, Se) при t < T™n, Ta _ пеРвый момент попадания состояния на Де го состояния на B© вдоль оптимальной траектории игры Gi, а LQb рассчитывается вдоль этой же траектории, когда состояние перемещается по B©, 1 е L.

Обозначим через Sp|b и SQ|b оптимальные стратегии, VQyb"(¿0) функцию цены, ZQyb(t,z0) оптимальную траекторию состояния и TQyb"(¿0) оптимальную продолжительность игры GQjb, которая начинается в состоянии z0 е Z^-

a|b

Утверждение 1. Если в игре G^ z0 ^ Z^ значение платы, равное Vaj-g-(z0),

-j „ „ ca|b ca|b

достигается на единственной паре стратегии sp и Se , то

00

Vab(zü) <Va|b(¿ü).

Доказательство. Рассмотрим, например, состояние г0 € и оценим плату для пары стратегий, которая совпадает с ^ и ^а при г € ^^ и с и ^ при г € В^. Эта пара стратегий обеспечивает завершение игры за конечное время. Соответствующая им плата не меньше цены. Поэтому достаточно показать, что эта плата меньше, чем Уа(г0),

6a,6b

Рис. 3. Вид функций 6a и 5b для состояния на Л® (с касанием при t = 0) и функции 5a на B® (с касанием оси абсцисс при t > 0) (точечными линиями показаны значения для t < 0)

Fig. 3. Differences 5a(-,z0) and 5b(-,z0) for z0 е Л® (tangent to the x-axis at t = 0) and 5a(-,z0) for z0 е B® (tangent to the x-axis at t > 0) (dotted parts correspond to t < 0)

Действительно, цену Уд (г0) в соответствии с принципом перехода (Айзеке, 1967) можно представить в виде

где

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Va(z°) = Уа(га(тВъ ,Z°)) +

момент попадания состояния на Вь

,тБъ

т а

0

Lab dt,

рии, показанной пунктирной линией на рис. 2). Поскольку из определения Ве

см. начальную часть траекто-

©

ь

следует, что

Va(z(TBb ,Z°)) >Vb(Za(тВЪ ,Z°)), и в соответствии с принципом перехода (Айзеке, 1967)

Vb (Za (ТВЪ , Z°)) = Уь (Zb (тАъ , Z(т£ъ , Z°))) +

„-В

Lab dt,

имеем

Va(z°) >Vb(Zb(TAb ,Za(C ,Z°)))+

,-Въ a

тВ

Lab dt +

0

Labdt.

Правая часть последнего неравенства представляет собой значение платы (20), которое вычислено для соответствующей пары стратегий и по предположению не меньше, чем цена У^(г0).

Предположим теперь, что Р и Е в каждом состоянии придерживаются стратегий, соответствующих текущей доминирующей альтернативе. При этом в соЕ

действие с некоторой малой задержкой по времени, поскольку точно не знает,

Р

из Ре будет переходи ть в 7® ил и 7®, а затем снова возвращаться па Ре. В конце концов состояние должно будет попасть па В® или В®, а затем уже па Д® С которому соответствует касание 6а(-,г°) и 6Ь(-,¿°) оси абсцисс при I = 0 (рис. 3) (см., например, траекторию, показанную непрерывной линией на рис. 2, где для завершающего этапа реализован вариант попадания состояния на В® а на Д® -согласованный выбор альтернативы а). Диаграмма переходов при выборе игроками оптимальных стратегий, соответствующих доминирующей альтернативе малой временной задержкой ответа Е на Р®, имеет вид

B

ъ

т

a

B

ъ

т

и

B

ъ

т

и

г

©

г©^ г©

¡-а 71

>в©

•в©

г©-> ма

А©

2?"

Таким образом, если Р в игре Ф в состояниях из 2©- не фиксирует альтерна-

А©

ную неопределенность для Е, Это ограничивает возможности противодействия Е (он не может одновременно реализовывать оптимальные стратегии для обеих

Р

Заключение

В работе описан подход к исследованию альтернативных игр преследования, в которых терминальная часть К целевого функционала типа (6) зависит от того, па какое из двух терминальных множеств Ма и Мь попадет состояние. При заданных исходных состояниях рассматривается поведение во времени функций цен на оптимальных траекториях игр Фа и соответствующих фиксированным целевым альтернативам, В зависимости от типа поведения разностей этих функций 6а(-,г0) и 6ь(-,г0) во времени выделяется область, где целевая альтернатива может быть зафиксирована, В оставшейся части игрового пространства формулируется специальная игра, которая определяет стратегии в состояниях, где преследователю нецелесообразно фиксировать целевую альтернативу. Таким образом, исследование исходной альтернативной игры сводится к исследованию набора взаимосвязанных «обычных» игр.

Показано, что кроме рассеивающей Э© имеется также фокальная поверхность Р©, на штор ой Р может менять целевую альтернативу. На этой поверхности стратегия убегающего определяется в классе дискриминирующих позицион-

Е

Р

Р©

случае если Е2 применяет аппроксимацию дискриминирующей стратегии чистой

Р

существенного снижения цены за счет умышленного «сбрасывания» состояния Р©

На рис, 2 точечной линией дан схематический пример оптимальной траек-

А©

альтернативы а). Совершаемые при этом переходы можно охарактеризовать следующей диаграммой

г©^ р©^ А©

г© -> Ма

г© Мь.

На рис, 4 приведен типичный вид функций, представляющих разности цен игр с фиксированными целевыми альтернативами а и Ь для исходного состояния

из Z^ вдоль оптимальных траекторий игр Ga (сплошная линия) и G (точечная линия).

Рис. 4. Вид функций, представляющих разности цен игр с фиксированными целевыми альтернативами а и b для исходного состояния из Z® вдоль оптимальных траекторий игр ©а (сплошная лин ия) и G (точечная линия)

Fig. 4. Differences of the values for the fixed target alternatives а and b along the optimal trajectories of Ga (unbroken line) and G (dotted line) starting in Z^

Ha рис, 5 изображена типичная схематическая структура полей оптимальных траекторий в игре альтернативного преследования, для которой выполня-

Рис. 5. Схематическая структура полей оптимальных траекторий простейшей игры преследования в позициях, разделенных препятствием, и первого этапа игры поочередного преследования двух убегающих

Fig. 5. Fields of the optimal trajectories in the simple game with an obstacle between players and in the simple pursuit game of two evaders in succession

Предложенный метод был, в частности, применен при исследовании первого этапа игры Г1 поочередного преследования двух убегающих на быстродействие, где имеются два различных порядка преследования. Игра моделирует маневрирование судна (Р), преследующего рыбный косяк E2, который разделился на две части Ei, E2. Оптимальная стратегия позволяет по измеренным координатам обеих частей выбирать направления движения таким образом, чтобы минимизировать общее время маневра, В этой игре альтернатива а = {1,2} соответствует порядку преследования Р —> Ei —> E2, альтернат ива b = {2,1} реализуется при

выборе варианта Р —> Е2 —> Е1, интегральная часть критерия качества = 1, а терминальные части Ка и Кь равны гарантированным значениям платы при реализации конкретной альтернативы на завершающем этапе. Тип совместного поведения 6а(-,г0) и 6ь(-,г0) соответствует рассмотренному случаю (см, рис, 1),

4,2 и

Г2 1 с фиксированными аль-в области, где целевая ал fa-

Были сформулированы и исследованы игры тернативами, а также вспомогательная игра 11 2|2 1 тернатива не закрепляется (Шевченко, 2003),

На рис, 6 (а) приведены оптимальные траектории движения игроков в Г1 па этапе, когда Р может менять роли убегающих, для совпадающих Е1 и Е2. На рис, 6 (Ь) изображено гарантированное время поочередного преследования Ц^ (цена игры Гпа фокальной поверхности (пунктиром дана цена V0 2 игры Г| 2 с фиксированной целевой альтернативой, у - угол между направлениями от Р на

Е1 Е2

Р

гарантированно уменьшить время, затраченное на поочередное преследование (представленное на рис, 6, Ь),

У

рТм

Ч

uf,v10,2

р

x

(а)

Y

Рис. 6. Оптимальные траектории движения (а) и гарантированное время (Ь) поочередного преследования (цена игры) на фокальной поверхности для одного набора параметров игры

Fig. 6. Optimal trajectories (a) and duration (the value) of the simple pursuit game (b) of two evaders in succession on the focal line for a set of the game parameters

Литература

Абрамянц Т.Г., Маслов Е.П., Рубинович Е.Я. Простейшая дифференциальная игра поочередного преследования // Автоматика и телемеханика. - 1980. - № 8. - С. 5-15.

Айзеке Р. Дифференциальные игры. - М.: Мир, 1967.

Ащепков Л.Т. Оптимальное управление разрывными системами. - Новосибирск: Наука, 1987.

Бердышев Ю.И. Об одной нелинейной задаче управления с несколькими целевыми множествами // Кибернетика и системный анализ. - 2002. - №. 4. - С. 97-107.

Вишневецкий Л.С., Меликян A.A. Оптимальное преследование на плоскости при наличии препятствия // Прикладная математика и механика. - 1982. - Т. 46. -Вып. 4. - С. 613-620.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Габриелян М.С., Субботин А.И. Игровые задачи о встрече с m целевыми множествами // Прикладная математика и механика. - 1979. - Т. 43. - С. 204-208.

Григоренко Н.Л. Дифференциальные игры преследования несколькими объектами. - М.: Изд-во Моск. ун-та, 1983.

Григоренко Н.Л. Математические методы управления несколькими динамическими процессами. - М.: Изд-во Моск. ун-та, 1990.

Камнева Л.В. Достаточные условия стабильности для функции цены дифференциальной игры в терминах сингулярных точек // Прикладная математика и механика. - 2003. - Т. 67, вып. 3. - С. 366-383.

Красовский Н.Н. Игровые задачи о встрече движений. - М.: Наука, 1970. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры.

- М.: Наука, 1974.

Малофеев О.А., Петросян Л.А. Игра простого преследования с препятствием // Управляемые системы. - 1971. - Вып. 1. - С. 31-42.

Маслов Е.П., Рубинович Е.Я. Дифференциальные игры с групповой целью // Итоги науки и техники. Сер. Техническая кибернетика. - 1991. - Т. 32. - С. 32-59.

Петросян Л.А. Дифференциальные игры преследования. - Л.: Изд-во Ленингр. ун-та, 1977.

Пшеничный Б.Н., Покотило В.Г. О задаче оптимального обхода множеств // Кибернетика. - 1990. - №. 4. - С. 65-68.

Субботин А.И. Обобщение основного уравнения теории дифференциальных игр // ДАН СССР,- 1980. - Т. 10. - С. 293-297.

Субботин А.П., Ченцов А.Г. Оптимизация гарантии в задачах управления.

- М.: Наука, 1981.

Чикрий А.А., Калашникова С.Ф. Преследование управляемым объектом группы убегающих // Кибернетика. - 1987. - JV® 4. - С. 1-8.

Чикрий А.А., Соболенко Л.А., Калашникова С.Ф. Численный метод решения задачи поочередного преследования // Кибернетика. - 1988. - № 1. - С. 44-49. Шевченко И.И. О поочередном преследовании // Автоматика и телемеханика.

- 1981. - № 11. - С. 54-59.

Шевченко И.И. Простейшая модель поочередного преследования // Автоматика и телемеханика. - 1982. - JY» 4. - С. 40-42.

Шевченко И.И. Простейшая игра преследования в позициях, разделенных препятствием // Автоматика и телемеханика. - 1989. - № 12. - С. 39-48.

Шевченко И.И. Геометрия альтернативного преследования. - Владивосток: Изд-во Дальневост. ун-та, 2003.

Шевченко И.И. Стратегии сближения преследователя с коалициями убегающих в целом. - Владивосток: Изд-во Дальневост. ун-та, 2004.

Berkowitz L.D. A Variational Approach to Differential Games // Annals of Mathematics Study. - 1964. - Vol. 52. - P. 127-174.

Berkowitz L.D. Differential Games of Generalized Pursuit and Evasion // SIAM Journ. of Control and Optimization. - 1986. - Vol. 24, № 3. - P. 361-373.

Bernhard P. Singular Surfaces in Differential Games: An Introduction // Differential Games and Applications: Springer Lecture Notes in Information and Control Sciences / P. Hargedorn, H.W. Knobloch, G.H. Olsder (Eds.). - Berlin: Springer, 1977. - Vol. 3. - P. 1-33.

Bernhard P. Differential Games: Isaacs Equation // System and Control Encyclopedia / M.G. Singh (Ed.). - Pergamon Press, 1987a. - P. 1010-1017.

Bernhard P. Closed-Loop Differential Games // Svstem and Control Encyclopedia / M.G. Singh (Ed.). - Pergamon Press, 1987b. - P. 1004-1009.

Bernhard P. Differential Games: Introduction // Svstem and Control Encyclopedia / M.G. Singh (Ed.). - Pergamon Press, 1987c. - P. 1009-1010.

Breakwell J.V., Bernhard P. A Simple Game with a Singular Focal Line // Journ. of Optimization Theory and Applications. - 1990. - Vol. 64, № 2. - P. 419-428.

Breakwell J.V., Hagedorn P. Point Capture of Two Evaders in Succession // Journ. of Optimization Theory and Applications. - 1979. - Vol. 27, № 1. - P. 90-97.

Breitner M. Rufus P. Isaacs and the Early Years of Differential Games: Survey and Discussion Paper // Proceedings of the Tenth International Symposium on Dynamic Games and Applications / L.A. Petrosjan, N.A. Zenkevich (Eds.). - St. Peterburg: St. Petersburg State University, 2002. - P. 113-128.

Breitner M. The Genesis of Differential Games in Light of Isaacs' Contributions // Journ. of Optimization Theory and Applications. - 2005. - Vol. 124, № 3. - P. 523-560.

Crandal M.J., Lions P.L. Viscosity Solutions of Hamilton-Jacobi Equations // Transactions of American Mathematical Society. - 1984. - Vol. 277(1). - P. 1-42.

Isbell J.R. Pursuit around a Hole // Naval Research Quaterlv. - 1967. - Vol. 14. -P. 569-571.

Larin N.I., Pashkov A.G. Value Function in the Simple Pursuit-Evasion Game of Four Pursuers and One Evader on a Plane // Proceedings of the Seventh International Symposium on Dynamic Games and Applications / J.A. Filar, V. Gaitsgorv, F. Imado (Eds.). - Kanagawa, Japan, 1996. - P. 583-596.

Lions P.L., Souganidis P.E. Differential Games, Optimal Control and Directional Derivatives of Viscosity Solutions of Bellman's and Isaacs' Equations // SIAM Jorn. of Control and Optimization. - 1985. - Vol. 23, № 4. - P. 566-583.

Melikyan A. Singular Paths in Differential Games with Simple Motion // Advances in Dvnamic Games and Applications / T. Basar, A. Haurie (Eds.). - Boston: Birkhaeuser, 1994. - P. 125-135.

Melikyan A. Equations for Singular Focal Paths in Dynamic Games Motion // Proceedings of the Seventh International Symposium on Dynamic Games and Applications / J.A. Filar, V. Gaitsgorv, F. Imado (Eds.). - Kanagawa, Japan, 1996. - P. 690-695.

Melikyan A. Generalized Characteristics of First Order PDEs: Applications in Optimal Control and Differential Games. - Boston: Birkhauser, 1998.

Melikyan A., Shinar J. Identification and Construction of Singular Surfaces in Pursuit-Evasion Games // Proceedings of the Seventh International Symposium on Dvnamic Games and Applications / J.A. Filar, V. Gaitsgorv, F. Imado (Eds.). - Quebec, 1994. - P. 690-695.

Melikyan A., Shinar J. Identification and Construction of Singular Surfaces in Pursuit-Evasion Games // Advances in dynamic games and applications / J.A. Filar, V. Gaitsgorv, K. Mizukami (Eds.). - Boston, Basel, Berlin: Birkhauser. - 1999. - P. 151175.

Petrov N., Vagin D. The Two Problems of Group Pursuit // Proceedings of the Tenth International Symposium on Dynamic Games and Applications / L.A. Petrosjan, N.A. Zenkevich (Eds.). - St. Peterburg: St. Petersburg State University 2002. - P. 691— 415.

Serov V.P. Complete Solution to Differential Game of Feedback Point Capture of m Evaders bv One Pursuer in Minimum Total Time // Proceedings of the Eleventh International Symposium on Dynamic Games and Applications / T.L. Vincent (Ed.). -Lowes Vent an a Canyon Resort, Tucson, Arizona, 2004. - P. 849-865.

Tlocmynujia e pedanywo 21.04-05 e.

i Надоели баннеры? Вы всегда можете отключить рекламу.