Материалы международной конференции «Колмогоровские чтения. Общие проблемы управления и их приложения (ОПУ-2СШ9)», посвященной 15-летию Тамбовского государственного университета им. Г.Р. Державина и 80-летию Института математики, физики и информатики ТГУ им. Г.Р. Державина.
5-9 октября 2009 г., Тамбов.1
УДК 517.977.52, 517.977.54
НЕРАВЕНСТВА ГАМИЛЬТОНА-ЯКОБИ В ОПТИМАЛЬНОМ УПРАВЛЕНИИ: ГЛАДКАЯ ДВОЙСТВЕННОСТЬ И УЛУЧШЕНИЕ
© В. А. Дыхта
Ключевые слова: монотонные функции типа Ляпунова; неравенства Гамильтона-Якоби; условия глобальной оптимальности; гладкая двойственность; улучшение управления. Получены необходимые и достаточные условия глобальной оптимальности для нелинейных задач оптимального управления с терминальными ограничениями. Эти условия соответствуют двойственности, которая имеет место между задачей оптимального управления и экстремальной задачей на множестве сильно монотонных решений неравенства Гамильтона-Якоби. В действительности рассмотрена тройка двойственных задач, соответствующих подходам Каратеодори, Кротова и канонической теории оптимальности. Предложена процедура улучшения допустимого неоптимального управления с помощью синтезирующего управления, которое строится по слабо монотонному решению неравенства Гамильтона-Якоби. Она включает в себя ряд известных методов нелокального улучшения управления с линейно-квадратичной аппроксимацией целевого функционала.
1. Введение
Неравенства Гамильтона-Якоби играют важную роль в разнообразных задачах теории управления: устойчивости, стабилизации, инвариантности, достижимости и оптимальности [16]. Истоки столь широких приложений во многом связаны с идеями А.М. Ляпунова по применению вспомогательных функций для исследования свойств динамических систем. Поэтому решения всех
1 Продолжение. Начало опубликовано в журнале Вестник Тамбовского университета. Сер. Естественные и технические науки. - Тамбов, 2009. - Т. 14. - Вып. 4. - 210 с.
неравенств Гамильтона-Якоби (и уравнений, трактуемых как частный случай неравенств) мы называем кратко Ь-функцпямп.
Допуская некоторое огрубление, все Ь-функцпп можно разделить на два класса — сильно и слабо монотонные. Первый класс Ь-функций обладает данным свойством монотонности (например, возрастания) вдоль всех траекторий управляемой системы, проходящих по интересуемой
Ь
значается далее через Ф+ Второй класс слабо монотонных Ь-функций характеризуется тем, что из любой начальной позиции данной области выходит хотя бы одна траектория управляемой системы, вдоль которой Ь-функцпп имеют фиксированное свойство монотонности по I. Например, множество слабо убывающих Ь-функций естественно обозначить через Ф_. Заметим, что здесь
Ь
между тем подобные свойства оказываются полезными и в обратном. Кроме того, используемая
Ь
нятий сильной и слабой монотонности (см. [3]).
Ь
объясняется тем, что фундаментальные достаточные условия Каратеодори в вариационном исчислении [7], Веллмана [8-11] и Кротова [12, 13] в оптимальном управлении первоначально формулировались именно через существование гладкой сильно монотонной вспомогательной (проверочной) функции с некоторыми дополнительными свойствами. (Правда, свойство сильной монотонности в первоначальных формулировках условий Каратеодори и Кротова было неявным, но обнаруживалось путем преобразования (нормировки) искомой функции.) В последующем указанные результаты неоднократно обращались в необходимые условия и обобщались как путем ослабЬ
или даже множествам (см. [6, 12, 14-19], обзор в [13], а также [5, 20] относительно современного метода динамического программирования).
Основное содержание данной статьи посвящено необходимым и достаточным условиям глобальной оптимальности в новых версиях подходов Каратеодори, Кротова, а также канонической теории оптимальности [18, 19, 21, 22]. Все эти подходы объединяет использование множеств
Ь
чей оптимального управления и соответствующими (различными) экстремальными задачами на множествах Ь-функций из Ф+ В этой части существенно используются результаты из [23] (см. также [24]).
Однако указанные подходы отличаются по способу использования множеств из Ф+ причем если версии Каратеодори и Кротова оказываются довольно близкими, то «расстояние» от них до канонического подхода весьма ощутимо: по своей гибкости последний имеет существенные преимущества. Этот факт следует из теоретических утверждений и иллюстрируется серией примеров. Интерес представляют и установленные связи между подходами Каратеодори, Кротова и достаточными условиями глобальной оптимальности порядка и, где и — некоторый неотрицательный функционал. Они являются новыми для всей теории Гамильтона-Якоби, трактуемой в широком смысле.
Ь
управлении несравнимо уже, хотя в позиционных задачах достижимости, управляемости, инвариантности без них трудно обойтись [1-6, 14, 16, 17].
В заключительном разделе статьи предлагается схема улучшения (по целевому функционалу) опорного допустимого управления с помощью позиционного (синтезирующего) управления, которое находится по слабо монотонному решению соответствующего неравенства Гамильтона-Якоби. Эта схема родственна построению квазиоптимальной стратегии в дифференциальных играх с помощью субрешения уравнения Гамильтона-Якоби [5, 25] и включает в себя целый ряд известных методов нелокального улучшения управления [26-28].
2. Необходимые и достаточные условия глобальной оптимальности с множеством сильно монотонных L- функций
Рассмотрим задачу оптимального управления (P) в форме Майера с терминальными ограничениями на траекторию:
J(x,u) = l(x(t1)) ^ min,
x = f (t,x,u), u(t) £ U, (1)
x(to) = xo, x(ti) £ C. (2)
ux рывная функция на фиксированном отрезке времени А = [to,ti], dimx = n, dimu = m. Предпо-
U
множество C замкнуто, функции f (t,x,u), fx(t,x,u) и l(x) непрерывны. По поводу ослабления этих предположений см. раздел 3.
Пусть £ — множество допустимых пар функций а = (x,u), удовлетворяющих ограничениям
(1), (2). Считаем, что задача (P) нетривиальна, т.е. £ = 0. Через а = (x,u) £ £ обозначим
исследуемую допустимую пару (процесс).
2.1 Проверочные функции и гладкая двойственность
Начнем с модифицированного варианта условий глобальной оптимальности Каратеодори, использующего множество гладких L-функцпй.
Обозначим через Ф+^ множество всех функций p : АхR™ ^ R, удовлетворяющих следующим условиям:
p £ C^А х R™), (3)
P[p](t, x, u) := Pt(t, x) + Px(t, x)f (t, x,u) ^ 0 (4)
V(t, x,u) £ А х R™ х U, p(t1,x) ^ l(x) Vx £ C. (5)
Заметим, что знак «^» в индексе у Ф указывает на неравенство в граничном условии (5). Очевидно, что Ф+^ С Ф+, т.е. любая p £ Ф+^ сильно возрастает на А х R™:суперпозпцпя t ^ p(t,x(t))
не убывает на А вдоль любой траектории x управляемой системы (1). В зарубежной литературе элементы Ф+^ называют гладкими проверочными функциями [3, 6, 20].
Если определить нижний гамильтониан управляемой системы равенством
h(t, x, ф) = minф ■ f (t, x, u),
u£U
то условие (4) эквивалентно неравенству Гамильтона-Якоби
h(t,x, Vp) := pt(t,x) + h(t,x,px(t,x)) ^ 0 V(t,x) £ А х R™, (6)
где Vp = (pt, px) и h — расширенный нижний гамильтониан.
Предложение!.. Для любого множества Фс С Ф+^ справедлива оценка
inf J(а) ^ sup{p(to,xo)|p £ Фс} := у(Фо), (7)
(8)
шс(р,а) = Н(1,х(£), ¥р(1,х(£)))М,
(9)
(10)
1шо(?)(а) = J(а) — шс(р,а)-
Тогда из (4) и (6) следует
шс(р, а) ^ 0 У а е Т,
и, используя граничное условие (5), для любого а е Т мы получим следующую оценку снизу целевого функционала:
Теперь, переходя в левой и правой частях (13) соответственно к инфимуму по а е Ти супремуму по р е Фс^ получаем оценку (7). Из нее сразу следует, что выполнения равенства (8) достаточно
Таким образом, любое множество Фс С Ф+^ проверочных функций определяет нижнюю границу для значения задачи (Р), и появляется новая экстремальная задача
Множество Фс нижним опорным мужеством проверочных функций (или Ь-
(Р)
(Р)
да Каратеодорп. Примечательно, что соотношение двойственности (15) действительно реализуется, т.е. нижнее опорное множество проверочных функций существует. Однако для этого необходимо принять следующие предположения.
1Это не совсем прямое доказательство адаптировано для последующей интерпретации условий Каратеодори и Кротова с позиций условий оптимальности некоторого порядка ш (см. следующий пункт).
1 (а) > 1Шо{ф)(а) > р(Ь,х(г1)) — шс(р,а)
(И)
= р(Ьо,хо)+ [Н(Ь,х(1),р(1),п(1)) — Н(1,х(Ь),р(Ь))\ М.
JA
Здесь Н(1,х,ф,п) = ф/(1,х,п) — функция Понтрягина, р(1) = рх(1,х(1)). Полагая
5(р,а) = р(Ьо,хо) + I [Н(Ь,х(Ь),р(Ь),п(Ь)) — Н(Ь,х(1),р(1))} М,
(12)
(13)
для оптимальности а в задаче (Р).
□
р(го,хо) ^ эир, р е Фс.
(14)
И 1 (а) = у(Фс) = эир р(го,хо).
(15)
(Н1) Функция f (t, ■, и) локально лнпшнцева равномерно относительно (t,u) Е R х U.
(Н2) Существует с> 0 такое, что \f (t,x,u)\ ^ с(1 + |ж|^ на Rra+1 х U.
(НЗ) Множество f (t, x, U) выпукло V (t, x) Е Rra+1.
В дальнейшем будем предполагать эти предположения выполненными. Подчеркнем, что эти предположения существенны только для необходимых условий оптимальности и точных оценок значения задачи (P).
Предложение 2. Существует множество Фс С Ф+^ гладких функций такое, что выполняется равенство (15). Следовательно, условие (8) необходимо и достаточно для глобальной оптимальности о в задаче (P).
Доказательство. Для доказательства достаточно взять Фс = Ф1, где Ф1 — множество всех гладких функций р : А х R” ^ R, удовлетворяющих условиям (3)-(5), и применить следствие
3.2 работы [23]. □
Теперь рассмотрим модификацию кротовских достаточных условий, использующую множество проверочных функций. Пусть р удовлетворяет условиям (3)-(5). Для о Е £ положим
Шк(р,о) = p(t1,x(t1)) - p(to,xo)= P[p\(t, x(t),u(t))dt, (16)
J A
J^K (v)(°) = J (о) - Шк (р,о)= l(x(t1)) - p(t1,x(t1))+ p(to,xo). (17)
Имеем Шк(р,о) ^ 0 для всех о Е £, и, следовательно, справедлива следующая оценка
J(о) ^ J^K(ф)(о) > п(р) + p(to,xo) Vo Е £, (18)
ГД6
п(р) = inf{l(x) — р^1^) \ x Е C, р^1^) ^ р^о^о)} (19)
— значение вспомогательной концевой задачи метода Кротова. Оценка (18) получается из (17) применением неравенства
П(р) ^ inf{l(x(h)) - р^1, x(t1)) \ о Е £}.
Фк
дует, что
min J (P) ^ sup [п(р) + р^о^о)}^ V (Фк)- (20)
fеФк
Эта оценка позволяет получить модифицированные необходимые и достаточные условия оптимальности типа Кротова, основанные на соотношениях двойственности.
Теорема1. (а) Для любого множества гладких функций Фк С Ф+^ справедлива оценка (20). Следовательно, выполнение равенства
J (о) = V (Фк) (21)
достаточно для, глобальной оптимальности о в задаче (P).
(б) Существует множество гладких функций Фк С Ф+^ такое, что
min J(P) = V(Фк)- (22)
Следовательно, равенство (21) необходимо для глобальной оптимальности о в задаче (P).
Доказательство, (а) следует из оценки (20). (б) Положим Фк = Фс, где Фс удовлетворяет предложению 2. В силу граничного условия (5) для любой р Е Фк п(р) ^ 0. Тогда из (20) следует неравенство
V(Фк) ^ у(Фк)- (23)
Рассматривая последовательность {рк} С Фк такую, что рк(to,xo) ^ у(Фк), легко получаем
следующее условие
limsup п(рк) = 0. k
Отсюда
sup п(р) = 0- (24)
реФк
Тогда из (20) получаем неравенство
V(Фк) ^ limрк(to,xo) = у(Фк). k
Следовательно, V(Фк) = у(Фк) и равенство (22) доказано. □
Фс Фк
падают,.
Доказательство. Принимая во внимание доказательство теоремы 1, достаточно проверить,
Фс = Фк
V(Фк) ^ sup п(р) + ^(Фк)= у(Фк)-реФк
□
Сделаем ряд замечаний относительно приведенных результатов.
Ф1
верочных функций (как в [23] и [24]), для приложений важно, чтобы опорное снизу множество проверочных функций (с смысле Каратеодори и Кротова) оказывалось гораздо более узким. В этом случае двойственные задачи упрощаются, что важно, так как эффективных методов их решения в общей постановке не существует. Идеальными в этом смысле представляются конечные опорные множества; крайний вариант — одноэлементное множество — в классе гладких проверочных функций нереалистичен. Действительно, даже если мы расширим класс этих функций до локально липшицевых (что возможно и, кстати, усиливает все достаточные условия), то
р
(P)
2) Модифицированные условия Кротова теоремы 1 предпочтительнее других известных аналогов (см. [12, 13]), отличных от канонического подхода, не только из-за оперирования множеством L-функций, но и благодаря введению условия монотонности р в конечномерную концевую задачу метода Кротова (19). Отметим, кстати, что если это условие опустить, то получим версию условий оптимальности кротовского типа, эквивалентную условиям Каратеодори (т.е. в этом
Фк
Фк
Каратеодори.
В разделе 3 мы приведем примеры, иллюстрирующие сказанное.
2.2 Связь с условиями минимума порядка y
В гладкой двойственности в смысле подходов Каратеодори и Кротова функционалы JWC (р)(о) и ,ТШк(^)(ст) (см. (9), (10) и (16), (17)) являются обобщенными лагранжианами задачи (P), определенными через проверочные функции. Однако эти функционалы можно рассматривать как
специальные возмущения целевого функционала 1 (а), связанные с понятием минимума порядка 7, где ^(а) — некоторый функционал.
Функционал 7 : £ ^ К+ называется порядком для а, тел и 7 (а) = 0. Будем говорить, что а — точка 7- достаточности на £, если существует е > 0 такое, что функционал
1£1 ( а) = 1 (а) — е7(а) (25)
достигает глобального минимума на множестве £ в точке а.
Из этого определения следует, что если а является точкой 7-достаточности, то справедлива следующая оценка
1 (а) — 1 (а) ^ еу(а) Уа е £. (26)
Следовательно, 7-достаточность соответствует усилению понятия глобального минимума в точке а на множестве £. Функционал 7 характеризует остроту минимума функционала 1 в а.
Если для данного порядка 7 неравенство (26) не выполняется для всех е > 0, то назовем 7 слишком грубым порядком. В случае, когда два порядка 7; и 7" удовлетворяют неравенству
!'(а) ^ 1" ( а) У а е £,
будем говорить, что порядок тоньше, чем 7/; (или 7" грубее, чем ^')-
Заметим, что используемое памп понятие 7-достаточности отлично от аналогичного понятия в [30], где представлена общая теория условий высших порядков для локального минимума. Следующее утверждение показывает, что если решения в двойственных задачах Каратео-
а
7-достаточности с 7 = шс и 7 = шк соответственно.
Теорема 2. (а) Пусть существует функция р е Фс такая, что
р(Ьо,хо)= у(Фс) = 1 (а). (27)
Тогда, а является точкой шс(р)-достаточности на £.
(б) Пусть существует функция р е Фк такая, что
V(р) := п(р) + р(Ъо,Хо) = V(Фк) = 1 (а). (28)
а шк(р) £
условие (27). Тогда, в силу оценки (11), мы получаем, что
ш(р) =0, Л, = 0, Н = Н вдоль а.
Следовательно, ш(р^ торядком для а и
1ш(^)(а) = р(Ь,Хо)-
Отсюда, а — точка глобального минимума для 1Ш(^) на £. Это означает реализацию ш(р)-достаточности для а с е = 1. Утверждение (а) доказано.
Доказательство утверждения (б) мы здесь опустим. □
р
шс(р, а) ^ шк(р, а) Уае £, шс шк
пип 2), поскольку любая функция, опорная снизу по Каратеодори, является функцией Кротова. Поэтому область применимости утверждения (б) шире, чем утверждения (а).
Заметим, кстати, что если в (а) р удовлетворяет уравнению Гамильтона-Якоби, то шс = 0, т.е. шс-достаточность просто эквивалентна глобальной оптимальности (теоретически идеальный
р
2.3 Каноническая теория оптимальности
Фр (без граничного условия (5)). Введем множество
E(Ф) = {x | р(Ь\, x) — р(Ь0, x0) ^ 0 Vр Е Ф} (29)
и рассмотрим следующую экстремальную задачу (EP(Ф)):
l(x) — inf, x Е E(Ф)р| C. (30)
Теорема 3.
Для глобальной оптимальности процесса а в задаче (P) необходимо и достаточно существования множества Ф такого, что любая функция р Е Ф удовлетворяет условиям (3), (4),
и тючка, x = x(t\) доставляет глобальный минимум в задаче (EP(Ф)).
Доказательство. Достаточность хорошо известна [18]. Она элементарна, если заметить, что множество (29) оценивает сверху множество достижимости управляемой системы в момент t\.
Ф = Фс Фс
нпю 2. Тогда
l(x) ^ р^1^) ^ р(Ь^о) Vр Е Фс
и, следовательно,
inf l(EP(Фс)) ^ у(Фс) = l(x(ti)).
Однако в последней формуле строгое неравенство невозможно, так как x(ti) - допустимая точка в задаче (EP(Фс))■ Следовательно, x(ti)) является решением (EP(Фс)), и процесс а доставляет
(P) □
Из доказательства следует, что любое множество опорных снизу L-функцпй в смысле условий Каратеодори оказывается разрешающим (опорным снизу) и для канонической теории, т.е. удовлетворяет теореме 3. Легко показать, что аналогично обстоит дело и для опорных снизу множеств L-функцпй в смысле Кротова. Однако соответсвующие обратные импликации не верны (см. примеры в разделе 3).
Гибкость канонических условий оптимальности обусловливается отсутствием каких-либо кра-
рЕФ (P)
к ослаблению дифференциальной связи и переходу к Y~flOCTaT°4HOCTn. Однако это ослабление (снятие) дифференциальной связи происходит и в канонической теории за счет перехода к внешней аппроксимации множества достижимости управляемой системы.
3. Замечания, обобщения и примеры
Изложенные теоретические результаты дополним замечаниями конструктивного характера, расширяющими сферу применимости канонической теории и способствующими лучшей ориентации.
Прежде всего отметим, что выигрышная гибкость этой теории в сравнении с её аналогами особенно проявляется в задачах с плохими свойствами управляемости системы, с анормальными экстремалями Понтрягина, с экстремалями, которым соответствуют множества наборов множителей Лагранжа (даже после нормировки). Соответствующие примеры приведены в [18, 31] и ниже.
Далее, основной проблемой, конечно, является нахождение искомого множества Ф С Ф+, опорного снизу в смысле канонической теории (т.е. удовлетворяющего теореме 3). Заметим, что это множество может иметь функциональный произвол, поскольку составляющие его функции должны удовлетворять неравенству (уравнению) Гамильтона-Якоби без каких-либо краевых условий. Соответствующие примеры приведены в [19, 22, 26]. При аналитическом исследовании задач множество L-функцпй возникает почти автоматически (подобно множеству решений обыкновенных дифференциальных уравнений при их аналитическом интегрировании). Идеальная ситуация, при
Ф
системы, не является самоцелью — достаточно получить «хорошую» аппроксимацию этого множества вблизи концевой точки глобально оптимальной траектории. Здесь надо иметь в виду, что при сведении разнообразных задач к стандартной форме Майера интегральные функционалы оцениваются неравенствами из определения множества E(Ф). Когда подозрительная траекто-
Ф
упрощается (см. п. 3.2).
ФФ
а удовлетворяют теореме 3, то почти неизбежно во множестве Ф должны быть «активные» р, для которых р^,сс^)) = const (т.е. соответствующие ограничения в задаче (30) активны). В противном случае точка x(ti) должна быть по крайней мере локальным решением задачи
для которой дифференциальная связь не играет никакой роли. Ясно, что такие «абсолютно вырожденные» задачи редки и не представляют широкого интереса. В общем случае теоремы 3 множество Ф должно содержать е-актпвные элементы ф для любого е > 0, где е-актпвность определяется по неравенствам в (29). Подробный анализ обсуждаемой ситуации и взаимосвязь с принципом максимума см. в [18, 31].
Наконец, отметим, что для нахождения сильно монотонных Ь-функцпй можно использовать все методы, которые разработаны в ходе развития теории Кротова [12, 13, 14]:
а) поиск в классе линейных и линейно-квадратичных функций относительно х (разности х —
— Х(Ь), если известна подозрительная траектория X); этот путь теснейшим образом связан с понятием экстремали (биэкстремали) управляемой системы [18, 19, 36] и условиями оптимальности второго порядка (типа Якоби);
б) метод кратных максимумов [12, 14] и его модификацию, связанную с нелинейным преобразованием Гоха [18, 33]; они особенно эффективны в задачах с линейным управлением и особыми режимами;
в) метод нормировки, позволяющий во многих случаях получать сильно монотонную Ь-функцпю, отправляясь от произвольной ф.
Этот полезный прием состоит в следующем. По заданной ф конструируем функцию ф := Р[ф\ (см. (4)) и вычисляем
Легко проверить, что полученная таким образом ф будет решением неравенства Гамильтона-Якоби (6).
l(x) — min, x Е C,
u(t) = inf min P[рШ^^) = inf h(t,x, Чр).
u£U
жеК" ueu
Если оказалось, что ji(t) Е Li7 то делаем «нормировку» р, полагая
(31)
t
Конечно, в этом кратком обзоре мы не касаемся специальных, тонких методов, опирающихся на современную теорию уравнений и неравенств Гамильтона-Якоби [5, 20].
П р и м е р 1 можно рассматривать как задачу о знакоопределенности квадратичного функционала из вариационного исчисления с дополнительным ограничением на производную (задача на условие типа Якоби [34]):
т
J(x) = У x2dt — x2(T) ^ inf; x G AC([0,T]),
0
x(0) = 0, \x(t)\ < 1.
Стандартная форма этой задачи такова:
x = u, x(0) = 0, у = u2, y(0) = 0,
\u\ ^ 1, J(x, u) = y(T) — x2(T) ^ inf.
В этой невыпуклой задаче H = фu + u2,
Н(ф) = min H(ф, u) =
\u\^l
причем
u*(ф) = arg min H(ф,u)
\uK1
Заметив, что в силу принципа максимума ф = const на любой экстремали и что фаза у несущественна (для неё фу = 1), будем искать L-функцпп в виде
<p(t,x,y) = S (t,x)+ у,
линейные по x (Sx = ф) в каждой из подобластей определения h. Используя нормировку, получим два бесконечных семейства решений уравнения Гамильтона-Якоби, параметризованных
ф
Ф1 : р^ = фx + (1 — \ф\)(Т — t), \ф\ ^ 2,
ф2
Ф2 : = фx — -4(Т — t), \ф\ < 2.
Для Ф = Ф1 U Ф2 в концевой задаче (30) удается избавиться от бесконечного числа ограничений
ф
2\x\ — у ^ Т, x2 — Ту ^ 0,
к которым следует добавить очевидную априорную оценку у = у(Т) G [0, Т] (другая оценка x = x(Т) G [—Т,Т] оказывается излишней).
Анализ концевой задачи приводит к следующим выводам: при Т < 1 глобально оптимальна точка x(Т) = у(Т) = 0, а при Т ^ 1 — точки x(Т) = Т, у(Т) = Т и x(Т) = —Т, у(Т) = Т. Соответствующие им управления u = 0 u = 1, u = —1 определяются по множествам активных и «предэкстремальному» управлению u*(ф) □
Характерно, что наличие сопряженной точки Т = 1, за которой оптимальность u = 0 и зна-J
Риккати [12-14]. Оно, кстати, бесполезно для нахождения оптимального управления при Т ^ 1.
1 — \ф1 \ф\ > 2,
2 ф — \ф\ < 2,
[ —1 ф > 2,
1 +1, ф < —2,
{ —ф/2, \ф\ < 2.
Использованная в этом примере процедура построения бесконечного семейства линейных сильно монотонных L-функцпй с помощью решений сопряженной системы и нормировки допускает обобщение на задачи оптимизации линейных систем
x = A(t)x + b(t, u), u G U — компакт в Rm,
причем получающееся семейство функций Ф^ дает точное описание множества достижимости в силу его выпуклости и компактности.
Следующий пример нелинейной задачи также обладает этим свойством.
И р и м е р 2 представляет собой модель оптимального распределения ресурсов между факторами производства [35] и имеет следующее описание динамики:
П \
u G R+ ^ ui = 1 I .
Здесь f : R+ ^ R+ — вогнутая, гладкая при x > 0 функция прибыли экономической системы, fx (x) > 0 на R+ x — вектор факторов производства, ui — инвестиции в развитие i-ro фактора.
В данной управляемой системе H = f (x)^,u),
h(x^) = f (x)m^), т(ф) = тт(ф, u).
Пусть a = (x,u) — некоторый процесс системы и ф — соответствующая ему коэкстремаль — решение системы
ф = —fx(x)(ф, u), (ф(t),u(t)) = т(ф(t))
(тогда (ф,а) — биэкстремаль системы). Положим p(t,x) = (tj(t),x). Тогда функция
P (t,x) = min p(t,x) = —(Hx(x,ij),u),x) + f (x)m(ip(t))
uEU
вогнута при x ^ 0, тел и m(tj(t)) < 0 и имеет минимум по x при x = x(t) > 0, равный n(t). В этой ситуации нормировка (31) приводит к сильно возрастающей функции р.
j
m(tj(t)) < 0 порождает решение неравенства Гамильтон а-Якоби (6). Это свойство в свою очередь означает, что в естественных для данной модели задачах оптимизации экстремали Понтрягина будут глобально оптимальны. Построенный в [35] оптимальный синтез (редкий по завершенности)
□
Остановимся теперь на некоторых обобщениях.
3.1 Расширение класса L-функций
Мы уже отмечали, что ослабление предположения гладкости L-функцпй ведет к усилению достаточных условий оптимальности (и ослаблению необходимых). Кроме того, оно упрощает решение конкретных задач. Например, для обращения принципа максимума Понтрягина в достаточное условие оптимальности [18, 36] и построения методов улучшения (см. раздел 4) используются линейные функции
p(t, x) = ф(^(x(t) — x),
порожденные решениями ф(-) сопряженной системы, соответствующими а в силу условия максимума (в данной редакции — минимума) по управлению функции H. Однако x(-), ф(-) всего лишь
р
теорией.
Ближайшее расширение составляет класс Lip(A х Rn) локально липшицевых функций на G := А х Rn. Такие функции дифференцируемы по чти всюду на G (в смысле Леб ега в Rn+1), так
x = f (x)u, u G U =
что для них неравенство (4), или (6) можно рассматривать только в точках дифференцируемости, т.е. п.в. на О. Оказывается, что этого будет достаточно для сильного возрастания р на О (но не необходимо).
Инфинитезимальный критерий, эквивалентный сильному возрастанию локально липшицевой функции р, может быть записан через нижнюю производную Дини по направлению вектора (1,у = / (Ь,х,и)):
шш Ор(Ь, х;1,у) := шш пЕи----- пЕи
Иш — (р(Ь + а,х + ау) — р(Ь,х))
а^0+ а .
^ о V (г,х) е О. (32)
Другой эквивалент сильного возрастания выражается проксимальным неравенством Гамильтона-Якоби
н(г,х,р) ^ о Vр = (рг,рх) е дрр(г,х), (г,х) е (Ьо,и) х м™, (зз)
где дрр(Ь,х) — проксимальный субдифференциал функции р в точке (Ь,х).
Напомним [3, 6], что вектор р = (р*,рх) е М х М™ называют проксимальным субградиентом р в точке (Ь, х), если найдутся окрестность П точки (Ь, х) и константа с ^ 0, такие, что
р(т, у) > р(Ь, х)+ р • ((г, у) — (Ь, х)) — с\(т, у) — (г,х)\2 V (т, у) е п.
р
ности (г,х) — р имеет квадратичную функцию, опорную снизу в точке (Ь, х), с градиентом р в данной точке. Проксимальный субдифференциал дрр(Ь, х) состоит из всех таких субградиентов. Он может оказаться пустым множеством; в этом случае неравенство (33) считается выполненным автоматически в точке (Ь, х). Заметим, что для дифференцируемой р дрр(Ь, х) С {Чр(Ь, х)}, причем равенство имеет место, если р е С2(О). Проксимальный супердифференциал дрр вводится антисимметричным образом и формально определяется равенством дрр(Ь,х) = —др( — р(Ь,х)).
3.2 Учет априорных оценок решений и инвариантных множеств управляемой системы
Во многих приложениях нахождение опорного снизу множества Ф облегчается, если известно некоторое множество Б С М™+1, содержащее графики всех допустимых траекторий задачи, т.е. множества со свойством
(г, х(г)) е Б на А вдоль любо го а е £■
Например, такое Б может быть получено из априорных оценок решений системы или из анализа ее сильно инвариантных множеств.
В этом случае достаточно требовать сильного возрастания Ь-функцпй р е Ф только при (г,х) е Б, а в определение допустимого множества Е(Ф) для концевой задачи (29), (30) включить ограничение х е Б*1, где Б * — сечен ие Б при фиксированном Ь. (В задачах с подвижным левым концом траекторий следует включать условие х(Ьо) е Б*0, а при свободных Ьо, Ь1 — дополнительные ограничения принимают вид (Ьо,хо) е Б, (Ь1,х1) е Б, где хг = х(Ьг), г = 0,1.) Этой рекомендацией мы уже пользовались в примере 1.
ПримерЗ. х = хи + Ь(Ь)и, х(0) = 0, и е [0,1], 3 = х3(1) ^ шш, где Ь(Ь) ^ 0 оп [0,1]. Очевидно, что множество Б = {(Ь,х) \ х ^ 0} сильно инвариантно при х(0) = 0. Для р = х
р\в = х\я ^ 0 р Б Ф = {р}
3
х —>■ шш, х ^ 0.
2Как достаточное условие сильной монотонности неравенство (32) будет справедливо, если даже функция / из-
мерима по £, а <р абсолютно непрерывна по £ равномерно то компактным множествам из Кп и локально липшицева по х (см. детали в [37]).
Ее глобальное решение x = 0 указывает на глобальную оптимальность процесса а = 0 (теорема 2.3).
Заметим, что р = x не удовлетворяет граничному условию (5) и не является функцией Ка-ратеодори и Кротова, даже если использовать известные способы нормировки элементов из Ф+ [13], условие их монотонности и свойство инвариантности в концевой задаче EP(Фк)■
То же самое относится к стандартной концевой задаче метода Кротова [12]
к(х) = xs — x — min, x ^ 0,
для которой x = 0 не является решением. □
П р и м е р 4. x 1 = u, x2 = 2x1u, \u\ ^ 1,
xi(0) = 0, x2(0) = x1(1) =0, J = x1 (1) — min .
а = 0
локально липшицевых функций Веллмана, Каратеодорп [38], а также (как легко показать) и функции Кротова. В то же время уравнение Гамильтона-Якоби h = 0 имеет гладкое решение р = x2 —x2, являющееся первым интегралом системы (т.е. p(x(tty = const вдоль всех траекторий). Полагая Ф = {р}^ приходим к элементарной концевой задаче
x1(1) — min, x2(1) = 0, x2(1) — x1(1) = 0
с глобально оптимальной точкой x(1) = 0. Этим устанавливается оптимальность процесса а. □
3.3 Задачи с невыпуклым годографом и неограниченным множеством управлений
Если множество f (t,x, U) не выпукло, то в классе обычных процессов решение может не существовать — в общем случае оно достигается на скользящем режиме, т.е. на некотором процессе расширенной овыпукленной задачи (coP) с дифференциальной связью
x G co f (t, x, U).
Она допускает конструктивное описание «по Гамкрелидзе» (см. [11, 12, 19])
k
x = ^2 y1f (t,x,Ui),
1 _ k (34) ui G U, vi ^ 0, i = 1,k, ''^vi = 1, k ^ n + 1,
1
где ui, Vi — управления. При этом гамильтонпаны задач (P) и (coP) совпадают, так что они обладают одним множеством сильно (и слабо) монотонных L-функцпй.
Следовательно, при нарушении условия выпуклости годографа схема применения канонической теории остается неизменной, но решение ищется в классе процессов овыпукленной системы (34) или на множестве последовательностей {ап} задач и (P), траекторные компоненты которых
(co P)
щие обычные траектории последовательностей {ап} могут удовлбтворять концевым ограничениям лишь в пределе (в смысле сходимости расстояния d(xn(t1), C) — 0).
Подобная ситуация с несуществованием оптимального процесса может случиться и в слу-
U
(P)
в детали такого расширения и соответствующего развития канонической теории оптимальности [41], укажем лишь на естественные корректировки подхода.
h
множества
domh = < (t,x,ф) \ min H(t,x,^,u) достигается
[ u£U
Тогда h > —ж на domh. При этом неравенство Гамильтона-Якоби (6) дополняется условием
(t,x,px) G domh, (35)
которое может оказаться системой дифференциальных неравенств. Следовательно, условие сильной монотонности усложняется и в общем случае вся система неравенств (а, возможно, и урав-
нений) может оказаться несовместной.
Например, в линейной по управлению системе
x = f0(t,x)+ g(t,x)u, u G U = R™ (36)
условие (35) принимает вид
gT(t,x)px(t,x) ^ 0 (m неравенств),
а при U = R™ получаем равенство (m уравнений кратных максимумов). Ясно, что в общем случае такая система в целом будет несовместной. Именно поэтому распространение всех аналогов теории Гамильтона-Якоби на системы типа (36) требует нетривиальных обобщений; оно только разворачивается [32, 42—44].
Во-вторых, если система условий монотонности (6), (35) оказалась совместной, то в общем
(P)
ее расширения — задачи (Pi) на множестве импульсных процессов исходной системы с разрывными траекториями. Эти траектории поточечно аппроксимируются траекторными компонентами
{ п}
Ф
функцию x(-) (даже гладкую), которая вообще не допускает указанной аппроксимации. Проверка этого свойства в сомнительных случаях требует обращения к теории импульсного управления. Пример 5. x = u, y = F (t, x,z), z = (x, Vu),
x(0) = x(1), y(0) = yo, z(0) = zo, J = y(1) — inf.
x, u G R2 F V
кости па угол п/2. Управляемая система задачи имеет вид (36) с U = R2.
Условие (35) здесь приводит к системе кратных максимумов относительно функции p(t, x, y, z):
Px1 + x2Pz = 0, Px2 — x1Pz = 0. (37)
Она совместна, так как допускает пополнение [32] уравнением pz = 0 (коммутатор [g1,g2] векторных полей системы (37) равен g3 = (0, 0,1), а коммутаторы [g1,g3]1 [g2,g3] уже не дают новых
уравнений для р). Пополненная система имеет общее решение р = W(t,y), где W - гладкая
функция. Неравенство (6) сводится к следующему
Wt + WyF(t,x,z) ^ 0 y(t,x,y,z). (38)
F minF(t,x,z) = m(t) = F(t,x(t), z(t)) п.в. на [0,1],
x,z
где х, г — некоторые функции из Ь^. Положим
г* Ю
У(1) = Уо + I ш(в)йв, о
р = w(г,у) = у - у(£).
Тогда ^ (38), а р сильно возрастает. Очевидно, что при Ф = {р} у(1) является
глобальным решением концевой задачи (29), (30), а тройка V = (х(-), у(•),&(•)') оказывается аппроксимируемой траекторией некоторого импульсного процесса. Заметим, что ^ можно выбрать так, чтобы компоненты V были гладкими функциями; однако их аппроксимация последовательностью обычных траекторий является достаточно сложной. □
4. Слабо монотонные Ь-функции и улучшение управления
В этом пункте мы рассмотрим простейшую задачу оптимального управления (Р8) без ограничений на траекторию:
Х = /(Ь,х,и), и(Ь) € и, { € А, (39)
х(£о) = х0, 3(и) = 1(х(£{)) ^ шш,
где отрезок времени А := [£0,^1] зафиксирован. Сохраним в силе все предположения и обозначения, которые использовались для задачи (Р).
Поставим следующую задачу улучшения управления:
для данного допустимого управления и
найти такое допустимое упрвление и*, что (40)
3(и*) < 3(и).
Эта задача в принципе разрешима тогда и только тогда, когда и неоптимально в (Р3).
Следуя [45], опишем некоторое решение задачи (40), основанное на использовании слабо убывающих функций и порождаемого ею позиционного управления (стратегии). Для этого нам дополнительно потребуются некоторые понятия и конструкции.
1) Непрерывную функцию р : А х Мп ^ М назовем слабо убывающей относительно системы (39), если для любой позиции (т, £) € (£о,£1)хМп существует её решение х(-) с начальным условием х(т) = £ такое, что р(Ь, х(£)^ убывает (в нестрогом смысле) на отрезке [т, £1].
Необходимое и достаточное условие слабого убывания дается проксимальным неравенством Гамильтона-Якоби [3]
щ,х,р) ^ о Vр = (рг,рх) € дрр(г,х), V(г,х) € (и,и) х Мп.
Как и в п. 3.1, это неравенство считается выполненным в точках (£,х) с непустым супердифференциалом.
2) Напомним концепцию решения динамической системы х = /{Ь,х,у(1,х)') с разрывным позиционным управлением у(Ь,х) [3, 5, 46].
Функция V : А х Мп ^ и называется стратегией. Пусть заданы стратегия V и следующее
А
Р : = ^о = во <01 < ... < вМ+1 = £1}-
Этому разбиению и заданному начальному условию поставим в соответствие ломаную Эйлера хр(■) как решение системы
хр(£) = /хр(г)^(вг, хр(вг))), х(го) = хо, £ € [вг,вг+1), г = 0,...,М
с кусочно постоянным управлением.
Тогда решение Эйлера разрывной системы
х = / (£,х^(£,х)), х(£о) = хо (41)
определяется как любой равномерный предел некоторой последовательности ломаных [хрк } при рк ^ 0, где
рк = ё1аш(рк) := шах{вг+1 — вг | 0 ^ г ^ N}.
Таким образом, системе (41) сопоставляется множество решений Эйлера, или конструктивных движений по терминологии из [46].
3) Для данного управления и выберем некоторый функционал
и(и) = д1(х(Ь1)) + д(1,х(1),и(1))й1,
в котором
| д1(х) ^ 0 на Мп, д(£,х,и) ^ 0 на А х Мп х и, [ и(и) = 0, и(и) > 0 V допустимых и() = и(),
функции д1, д непрерывны и д(1, ■, и) локадьно липшицева равномерно по (1,и) € А х и. Ясно, что и является точкой минимума функционала и па множестве допустимых управлений.
Функционал и со свойствами (42) назовем порядком для управления и. (Ср. этот шаг изложения с п. 2.2.) Для ясности в качестве примера приведем часто используемый порядок
1, ,2 1
и1(и) = 11х(Ь1) — х(ь )12 + 1! 1х(Ь) — х(г)12йг.
4) Определим теперь возмущенный целевой функционал
3аш (и) = 3(и) — 3(и) + аи(и), а > 0.
Через (Раш) обозначим задачу минимизации функционала 3аш (и) при ограничениях задачи (Р3)-Переход к задаче (Раш) — это важный момент построения улучшающего управления.
Следующее условие ^назовем необходимым условием оптималъ ноет,и порядка и для управления й:
Условие Nш. Для люб ого а ^ 0 управлен ие и оптимально в задаче (Раш )■
и* а > 0
3аш (и ) < 3аш (и) 1 ТО
3(и*) — 3(и) < —аи(и*) < 0
(случай а = 0 тривиален). Следовательно, при наруш ении условия Nш управлен ие и может быть улучшено по целевому функционалу с оценкой порядка и.
Очевидно, что любой порядок и характеризует степень нарушения минимума управлением и в задаче (Р.^)-
5) Чтобы записать задачу (Раш) в форме Майера, введем дополнительное уравнение
y = g(t,x,u), y(to) = 0. (43)
Тогда, очевидно,
u(u) = gi(x(ti)) + y(ti), Jaw(u) = J(u) — J(u) + a(gi(x(ti)) + y(ti)).
Ясно, что любая L-функция для задачи (Раш) имеет вид
Wa(t,x,y) = p(t,x) + ay
и фактически определяется функцией р и параметром а. Поэтому условие слабого убывания Wa в дополненной системе (39), (43) эквивалентно неравенству Гамильтона-Якоби
ha(t, x, dpp(t, x)) ^ 0 на (t0,ti) x R™, (44)
где ha — расширенный нижний гамильтониан для задачи (Раш). Заметим, что поскольку ha ^ h, то любая р, удовлетворяющая (44), будет слабо убывающей относительно системы (39). Будем рассматривать неравенство (44) с граничным условием
p(t]_, x) ^ l(x) — l(x(ti)) + agi(x) на R™. (45)
Теперь мы готовы сформулировать один из возможных ответов к задаче (40). Пусть u(u) есть порядок для управления u такой, что множество
/ f (t,x,U )\ yg(t,x,U))
выпукло при всех (t, x) Е A x R™. Тогда для любого числа а ^ 0 и любого локально липшице-
вого решения ра неравенства (44) с граничным условием (45) пайдется стратегия v(t,x) с тем
свойством, что каждое решение Эйлера (x, y) начальной задачи
x = f (t, x, v(t, x)), x(to) = xo, ^
y = g(t,x,v(t,x)), y(to)=0
удовлетворяет оценке
l(x(ti)) — J(u) ^ pa(to,xo) — a(gi(x(ti)) + y(ti)). (47)
Для доказательства необходимо применить к задаче (Раш) теорему 8.1 из [3], или же теорему
12.3 из [5]. Мы опускаем детали этого доказательства.
Поясним, почему эта теорема может давать решение задачи улучшения управления (40). Рассмотрим сначала частный случай, когда стратегия V непрерывна. Тогда х — обычное решение Каратеодори системы (41). Полагая и(Ь) = ь(Ь,х(Ь)), и*(Ь) = и(Ь), Ь € А, получим процесс а* = (х*(Ь) = х(Ь), и*(Ь)), допустимый в задаче (Р.в), для которого неравенство (47) принимает
ВИД
3(и*) — 3(и) ^ ра(Ьо,хо) — аи(и*) < 0, если только р(Ьо,хо) ^ 0 а > 0 и и*(■) = и(-). Это означает, что управленпе и* «лучше» и.
В общем случае для любого е > 0 можно найти ломаную Эйлера хр, достаточно близкую к х в равномерной норме пространства С (А, М”), и соответствующее кусочно постоянное допустимое управление ир такие, что выполнится неравенство
3(ир) — 3(и) ^ е + ра(Ьо,хо) — аи(ир). (48)
а>0
3(ир) < 3(и) и тем самым решить задачу улучшения (40) с помощыо управления и* = ир.
Описанную процедуру назовем улучшением управления с оценкой порядка и. Если улучшения управления и нельзя добиться, то будем говорпть, что и удовлетворяет необходимому условию оптимальности порядка и. При и = 0 или а = 0 теорема 4 остается справедливой; в этой ситуации будем говорить об улучшении с оценкой нулевого порядка.
Важно, что стратегия V строится конструктивно с помощью проксимального (или экстремального) прицеливания управления дополненной системы (39), (43) на множество
Z = {(Ь, х,у) € А х М” х М+ | ра(Ь, х) + ау ^ ра(Ьо, хо)}
(см. [3, 5, 46]). В простейшем гладком случае V находится как решение задачи
ра(Ь,х) ■ /(Ь,х,у) + ад(Ь,х,у) — шш, V € и. (49)
Надо отметить, что теоретические оценки (47), (48) не являются точными; в некоторых слух
Эйлера хр) с вычислением 1(х(Ь\)) (1(хр(Ь\)) = 3(ир)) дает лучшую оценку разности 1(х(Ь\)) —
— 3(и) (1(хр(Ь\)) — 3(и)) и может приводить к улучшению и, даже если оценки (47), (48) его не гарантируют.
Пример 6. х = и, х(0) = 0 1и1 ^ 1 3 (и) = х3(1) ^ шт. В этой невыпуклой задаче управление и = 0 является особой экстремалью Понтрягина, хотя оно явно неоптимально. Возьмем и = 0. Тогда
па = Н = —1Ф1 < 0
и, следовательно, любая гладкая функция р = ра(х) удовлетворяет неравенству (44). Положим р(х) = 1(х) = х3. Тогда граничное условие (45) выполнено в форме равенства, и оценка (47) приводит к неравенству
1(х(Ь\)) — 3(и) = 1(х(Ь\)) ^ 0.
Оно говорит лишь о возможности улучшения нулевого порядка, но не гарантирует его. В то же время из условия (49) находим гладкую стратегию V(х) = — 1 с соответствующей траекторией х(Ь) = —Ь, доя которых 3(V) = —1 < 0 = 3(и). Таким образом, управление и* = V(х(Ь)) улучшает и и в действительности оптимально. П
Этот пример подсказывает, что оценка (47) может быть улучшена, если в ее правую часть добавить слагаемое
УIV(г,х(г),у(г))м( = ^ [р^а(г,х(г)) + ау(г)]м^,
А А
неположительное в силу убывания функции V вдоль (х,у).
Отметим, что в этом примере все известные методы улучшения управления, основанные на линейно-квадратичной аппроксимации целевого функционала [13, 27, 28], неэффективны из-за и
П р и м е р 7. Рассмотрим задачу оптимального управления системой, линейной по состоянию:
х = А(Ь, и)х + Ь(Ь, и), и(Ь) € и, (50)
х(Ьо) = хо, 3(и) = ех(1\) шш .
Здесь матричная функция А(Ь, и) и векторная функция Ь(Ь, и) непрерывны, с € М”.
Пусть и — некоторое допустимое управление, ах — соответствующая ему траектория системы (50). Введем сопряженную систему
Ф = —А(Ь,и)т ф, ф(Ь\) = —с,
и пусть ф() — её решение, соответствующее и. Рассмотрим линейную Ь-функцпю
р(Ь, х) = ф(Ь)(х(Ь) — х).
Для нее производная в силу системы (50) имеет вид
р(Ь, х) = Н(Ь, х, ф(Ь),и(Ь)) — Н(Ь, х, ф(Ь),и),
и
штр(Ь,х) = Н(Ь,х,ф(Ь),и(Ь)) — Н(Ь,х,ф(Ь)) ^ 0. (51)
п^и
р
р(Ь\,х) = сх — 3 (и)
и, если считать и = 0, то граничное условие (45) выполнится как равенство. Следовательно, можно положить ра = р. Тогда стратегия V(Ь,х) определится из условия минимизации (49), т.е. в силу (51)
V(Ь,х) € А^шахН(Ь,х,ф(Ь),и). (52)
пеи
Поскольку на любой эйлеровской кривой х с начальным условием х(Ьо) = хо нмеем р(Ьо,х(Ьо)) = =0
1(х(Ь\)) ^ 3(и).
С учетом условий (51), (52) она гарантирует улучшение нулевого порядка, если только управление и не является экстремальным, т.е. не удовлетворяет принципу максимума Понтрягина. Для экстремального и улучшение не гарантируется, но возможно. Для этого необходимо, чтобы система (41) с V = V(t, х) допускала решения Эйлера, отличные от х (имеются соответствующие примеры).
В данном примере улучшение нулевого порядка по схеме теоремы 4 приводит к одной из известных нелокальных процедур улучшения управления [28], которая была получена совершенно из других соображений, не связанных с применением слабо монотонных Ь-функцпй. Эта ситуация довольно типична: все известные нам методы улучшения укладываются в схему теоремы 4 с линейно-квадратичными функциями вида
ра(Ь, х) = ф(Ь)(х(Ь) — х) + 2(х(Ь) — х, Е(Ь)(х(Ь) — х)),
в которых ф() является решением сопряженной системы относительно дополненной системы (39), (43), а матрица К(Ь) удовлетворяет некоторому неравенству или уравнению типа Риккати.
Данное обстоятельство свидетельствует о достаточной общности предлагаемой схемы улучшения управления.
Заключение
В статье доказаны соотношения двойственности, базирующиеся на сильно монотонных гладких решениях неравенства Гамильтона-Якоби для нелинейных, невыпуклых задач оптимального управления с терминальными ограничениями на фиксированном отрезке времени. Представляет интерес распространение этих результатов на задачи с общими концевыми ограничениями, а также на задачи синтеза оптимального управления.
Метод улучшения допустимого управления, использующий слабо монотонные решения неравенства Гамильтона-Якоби, желательно довести до реализуемого итерационного алгоритма хотя бы для некоторых классов задач, включающих концевые ограничения.
Конечно, все эти обобщения останутся без приложений, если не получат дальнейшего развития конструктивные методы решения неравенств и уравнений Гамильтона-Якоби.
ЛИТЕРАТУРА
Список литературы
1. Aubin J.-P., Cellina A. Differential Inclusions. Berlin: Springer-Verlag, 1984.
2. Aubin J.-P., Frankowska H. Set-valued analysis. - Boston; Basel; Berlin: Birkhauser, 1990. 461 p.
3. Clarke F.H., Ledyaev Yu.S., Stern R.J., Wolenski P.R. Nonsmooth Analysis and Control Theory. New York: Springer-Verlag. Grad. Texts in Math. 1998. V. 178. 276 p.
4. Гусейнов Х.Г., Ушаков B.H. Сильно и слабо инвариантные множества относительно дифференциального включения, их производные и применение к задачам управления // Дифференц. уравнения. 1990. Т. 26, № И. С. 1399-1405.
5. Субботин А.И. Обобщенные решения уравнений в частных производных первого порядка. Перспективы динамической оптимизации, Москва; Ижевск: Институт компьютерных исследований, 2003. 336 с.
6. Vinter R.B. Optimal Control. Boston: Birkhauser, 2000.
7. Янг Л. Лекции по вариационному исчислению и теории оптимального управления. М.: Мир, 1974. 488 с.
8. Беллман Р. Динамическое программирование. М.: Изд-во иностр. лит, 1960. 400 с.
9. Болтянский В.Г. Математические методы оптимального управления. М.: Наука, 1969. 408 с.
10. Флеминг У., Рим,ел Р. Оптимальное управление детерминированными и стохастическими системами. М.: Мир, 1978. 316 с.
11. Cezary L. Optimization theory and applications. Springer-Verlage, 1983. 542 p.
12. Кротов В.Ф., Гурман В.И. Методы и задачи оптимального управления. М.: Наука, 1973. 448 с.
13. Krotov V.F. Global Methods in Optimal Control Theory. Monographs and Textbooks in Pure and Applied Mathematics. V. 195. Marcel Dekker, New York, 1996.
14. Гурман В.И. Принцип расширения в задачах управления. М.: Наука. Физматлит, 1997. 288 с.
15. Кларк Ф. Оптимизация и негладкий анализ. М.: Наука, 1988. 280 с.
16. Хрусталев М.М. Точное описание множеств достижимости и условие глобальной оптимальности динамических систем. I. Оценки и точное описание множеств достижимости и управляемости // Автоматика и телемеханика. 1988. №5. С. 62-71.
17. Хрусталев М.М. Точное описание множеств достижимости и условие глобальной оптимальности динамических систем. II. Условия глобальной оптимальности // Автоматика и телемеханика. 1988. № 7. С. 70-80.
18. Дыхта В.А. Неравенство Ляпунова-Кротова и достаточные условия в оптимальном управлении // Итоги науки и техники. Совр. математика и ее приложения. 2006. Т. 110. С. 76-108.
19. Milyutin A.A., Osmolovskii N.P. Calculus of Variations and Optimal Control. American Mathematical Society, Providence, Rhode Island. 1998.
20. Bardi М., Gapuzzo-Dolcetta I. Optimal Control and Viscosity Solutions of Hamilton-Jacobi-Bellman Equations. Boston: Birkhauser, 1997.
21. Дыхта В. А. Принцип расширения в качественной теории управления // Методы решения задач теории управления на основе принципа расширения. / под ред. В.И. Гурмана и Г.Н. Константинова. Новосибирск: Наука, 1990. 190 с.
22. Milyutin A.A. Calculus of variations and optimal control // Proc. Internat. Conf. on the Calculus of Variations and Related Topics, Haifa, Chapman and Hall/CRC Research Notes in Mathematics Series. 2000. V. 411. P. 159-172.
23. Clarke F.H., Nour C. Nonconvex duality in optimal control // SIAM J. Control Optim. 2005. V. 43. P. 2036-2048.
24. Vinter R.B. Convex duality and nonlinear optimal control j j SIAM J. Control Optim. 1993. V. 31. P. 518-538.
25. Clarke F.H., Ledyaev Yu.S., Subbotin A.I. The synthesis of universal feedback pursuit strategies in differential games // SIAM J. Control Optim. 1997. V. 35. P. 552-561.
26. Аргучинцее А.В., Дыхта В.А., Срочко В.А. Оптимальное управление: нелокальные условия, вычислительные методы и вариационный принцип максимума // Изв. вузов. Математика. 2009. № 1. С. 3-43.
27. Батурин В.А., Урбанович Д.Е. и др. Приближенные методы оптимального управления, основанные на принципе расширения. Новосибирск: Наука, 1997. 175 с.
28. Срочко В.А. Итерационные методы решения задач оптимального управления. М.: Физматлит, 2000. 160 с.
29. Kotsiopoulos J, Vinter R.B. Dynamic programming for free-time problems with endpoint constraints j j Math. Control Signals Systems. 1993. V. 6. P. 180-193.
30. Левитин E.C., Милютин А.А., Осмоловский Н.П. Условия высших порядков локального минимума в задачах с ограничениями // Успехи мат. наук. 1978. Т. 33, № 6. С. 85-147.
31. Dykhta V.A. Lyapunov-Krotov inequality and sufficient conditions in optimal control j j J. Math. Sci. 2004. V. 121. P. 2156-2177. ~
32. Дыхта В.А., Антипина H.B. Достаточные условия оптимальности для задач импульсного управления // Изв. РАН. Теория и системы управления. 2004. № 4. С. 76-83.
33. Дыхта В.А., Самсонюк О.Н. Оптимальное импульсное управление с приложениями. 2-е изд. , М.: Физматлит, 2003.
34. Иоффе А.Д., Тихомиров В.М. Теория экстремальных задач. М.: Наука, 1974. 480 с.
35. Зеликина Л.Ф. Многомерный синтез и теоремы о магистрали в задачах оптимального управления j j Веро-
ятностные проблемы управления в экономике/ под ред. В.И. Аркина. М.: Наука, 1977. С. 33-114.
36. Антипина Н.В., Дыхта В.А. Линейные функции Ляпунова-Кротова и достаточные условия оптимальности в форме принципа максимума j j Изв. вузов. Математика. 2002. № 12. С. 11-21.
37. Vinter R.B., Wolenski P. Hamilton-Jacobi theory for optimal control problems with data measurable in time j j SIAM J. Control Optim. 1990. V. 28. № 6. P. 1404-1419.
38. Vinter R.B. Dynamic programming for optimal control problems with terminal constraints // Lecture Notes in Math. 1985. V.” 1119. P. 190-202.
39. Миллер Б.М., Рубинович Е.Я. Оптимизация динамических систем с импульсными управлениями. М.: Наука, 2005.
40. Завалищин С. Т., Сесекин А.Н. Импульсные процессы: модели и приложения. М.: Наука, 1991.
41. Dykhta V.A., Samsonyuk O.N. Some applications of Hamilton-Jacobi inequalities for classical and impulsive optimal
control problems // European Journal of Control. Special issue on «Nonlinear analysis, control and optimization». (В печати.)
42. Motta М., Rampazzo F. Dynamic programming for nonlinear systems driven by ordinary and impulsive control // SIAM J. Control Optim. 1996. V. 34. P. 199-225.
43. Pereira F.L., Matos A.C., Silva G.N. Hamilton-Jacobi conditions for an impulsive control problem j j Nonlinear Control Systems / Fevereiro, 2002. P. 1297-1302.
44. Стефанова А.В. Уравнение Гамильтона-Якоби-Веллмана в нелинейных задачах импульсного управления // Тр. ин-та матем. и мех. УрО РАН. Екатеринбург, 1998. Т. 5. С. 301-318.
45. Дыхта В.А. Некоторые приложения неравенств Гамильтона-Якоби в оптимальном управлении // Известия Иркутского государственного университета. Серия математика. 2009. Т. 2. С. 15-28.
46. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974. 455 с.
БЛАГОДАРНОСТИ: Работа выполнена при финансовой поддержке Российского фонда
фундаментальных исследований (проект № 07-01-00741) и финансовой поддержке Сибирского
отделения Российской академии наук (интеграционный проект СО РАН-УрО № 85).
Поступила в редакцию 5 октября 2009 г.
Dykhta V. A. Hamilton-Jaeobi inequalities in the optimal control theory: smooth duality and control improvement. For classical optimal control problem with terminal constraints, new variants of the Caratheodory and Krotov types global necessary and sufficient optimality conditions are proposed and compared. In a spirit of so-called Hamilton-Jacobi canonical optimality theory, these conditions are obtained by using some sets of strongly monotone solutions to the corresponding Hamilton-Jacobi inequality and have forms of duality relations between the optimal control problem and an extremal problems on the sets of strongly monotone Lyapunov type functions. A control improvement procedure is proposed using the Hamilton-Jacobi inequality for weakly monotone functions and the method of proximal (or extremal) aiming.
Key words: monotone Lyapunov type functions; Hamilton-Jacobi inequalities; global optimality conditions; smooth duality; control improvement.
УДК 519.83
ПРОБЛЕМЫ ТЕОРИИ НЕАНТАГОНИСТИЧЕСКИХ ПОЗИЦИОННЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
© А. Ф. Клейменов
Ключевые слова: неантагонистическая позиционная дифференциальная игра; стратегии; движения; равновесное решение по Нэшу; неулучшаемое по Паретто решение; решение по Штакельбергу.
Приведены основные идеи и результаты теории неантагонистических позиционных дифференциальных игр.
1. Динамика.
Пусть динамика управляемой системы описывается уравнением
т
X = ^2 ^ (1>х,щ), т ^ 2 (1)
г=1
х е Еп, £ е [Ь, #] , иг е Рг е еотрЯш, х(го) = хо,
где управление иг подчинено г-ому игроку. Пусть заданы I показателей качества вида
1г = аг{х{д)),г = 1,...т (2)
где I ^ т.