Серия «Математика»
2014. Т. 8. С. 86—103
Онлайн-доступ к журналу: http://isu.ru/izvestia
УДК 517.977.5
Вариационные условия оптимальности с позиционными управлениями спуска, усиливающие принцип максимума *
В. А. Дыхта
Институт динамики систем и теории управления СО РАН
Аннотация. Получены нелокальные необходимые условия оптимальности, усиливающие классический и негладкий принципы максимума для нелинейных задач оптимального управления со свободным правым концом траекторий. Усиление достигнуто путем привлечения позиционных управлений потенциального спуска по функционалу, экстремальных относительно специальных решений неравенства Гамильтона - Якоби для слабо монотонных функций. Основные результаты формулируются в рамках конструкций теории принципа максимума и иллюстрированы примерами.
Ключевые слова: неравенство Гамильтона - Якоби, позиционное управление спуска, принцип максимума, необходимые условия.
Рассматривается задача оптимального управления (задача (Р)):
Считаем, что выполнены основные предположения: (Н1) множество и С Ят компактно;
(Н2) вектор-функция / (г,х,и) непрерывна и локально липшицева по х на Т х Кп х и;
* Работа выполнена при частичной финансовой поддержке РФФИ, проект № 1401-00699, Совета по грантам Президента Российской федерации для государственной поддержки ведущих научных школ, проект НШ-5007.2014.9 и Программы фундаментальных исследований Президиума РАН, проект № 17.1.
1. Введение
Х = / (г,х,и), х(г0) = хо, и(г) е и, г е т = [гоМ], 3[х, и] = 1(х(г{)) ^ шт .
(1.1) (1.2)
(H3) выполняется условие сублинейного роста
\f (t,x,u)\<c(1 + \x\) на T х Rn x U (c > 0);
(H4) функция l(x) непрерывна.
Задача (P) рассматривается на множестве допустимых пар функций а = (x,u) с абсолютно непрерывными траекториями и измеримыми, ограниченными управлениями. Через а = (x,u) обозначается допустимая пара (процесс), исследуемая на оптимальность.
Необходимые условия оптимальности, полученные в данной статье, базируются на свойстве слабого убывания решений неравенства Гамильтона - Якоби
pt(t,x) + min px(t,x) ■ f (t,x,u) < 0 на T x Rn (1.3)
с граничным условием ^(t\,x) = l(x) на Rn. Это свойство (формулируемое точно в разделе 2) по существу совпадает со свойством u-стабильности, развитым в уральской школе по теории управления [8; 11; 12]; но в контексте целей данной статьи термин «слабое убывание» из [16; 17] представляется более выразительным. Свойство слабого убывания для обобщенных решений неравенства (1.3) (липшицевых, непрерывных и т.д.) давно использовалось для сложных позиционных задач теории управления [6; 8; 11; 12; 16; 17]: оценки сверху функции Беллмана семейства задач (Pt0Х0) с варьируемой начальной позицией, гарантированной оценки качества синтеза в условиях неопределенности и т.д. Однако эти глубокие результаты носят, в основном, теоретический характер, поскольку не содержат «достаточно регулярных» методов построения решений неравенства (1.3). В частности, они не содержат каких-либо необходимых условий оптимальности для задачи (P), сравнимых по конструктивности с принципом максимума Понтрягина [9] (хотя вопрос о таких условиях ставился давно [17]). Отметим, что теоретически решения неравенства (1.3) естественны именно для получения необходимых условий, а сильно возрастающие решения неравенства противоположного смысла (> 0) — для достаточных условий (которые хорошо известны). В пересечении двух указанных множеств решений лежит идеальный объект — функция Беллмана, — однако трудности его нахождения несоразмерны со сложностью задачи (P); последние конструктивные сдвиги в этих направлениях содержатся в [13].
В работах [3; 4] предложен общий подход к получению необходимых условий оптимальности на базе решений неравенства Гамильтона-Якоби (1.3) и получены первые достаточно обнадеживающие результаты. В основу подхода заложено следование двум целевым установкам: 1) краевая задача для неравенства (1.3) должна быть как-то увязана с исследуемым на оптимальность процессом а;
2) решения краевой задачи должны иметь достаточно простую структуру, содержащую неизменные атрибуты принципа максимума (решения сопряженной системы для а), а также других локальных условий оптимальности (матричные импульсы типа Габасова и Риккати).
Решения неравенства (1.3), в достаточной степени удовлетворяющие этим требованиям, названы опорными мажорантами функционала ■] в точке а. Оказывается, что каждая такая мажоранта порождает необходимое условие оптимальности вариационного типа — оно формулируется через бесконечномерную задачу оптимизации, называемую присоединенной.
Данная статья продолжает развитие метода опорных мажорант, причем все её результаты являются новыми. Это касается расширения используемых классов решений системы с разрывными позиционными управлениями, конструкции опорных мажорант и классов охватываемых задач (не только гладких, но и негладких). Основными результатами являются позиционные принципы минимума для гладких и негладких задач, которые существенно усиливают соответствующие варианты принципа максимума (кратко — ПМ). Они формулируются в абсолютно стандартных терминах и для ознакомления с ними (и сопутствующими примерами) можно сразу обратиться к разделам 3-5, минуя раздел 2 с несколько абстрактным общим условием оптимальности с позиционными управлениями спуска. Однако следующее дополнение о решениях с такими управлениями для этого необходимо.
Под позиционным управлением будем понимать любую функцию у(Ь,х), однозначно определенную на Т х Кп со значениями в и .В качестве траекторий системы
хх = ¡{1,х,у(1,х)), х(10) = х0
с таким управлением (которая не обладает свойством единственности из-за возможных разрывов управления у) будут использоваться два типа решений:
а) решения х() типа Каратеодори, если только суперпозиция у(Ь, х(Ь)) измерима на отрезке Т и, следовательно, порождает допустимое программное управление;
б) конструктивные движения Красовского - Субботина [7; 11] (иначе — кривые Эйлера [16]) — равномерные пределы соответствующих ломаных Эйлера.
Множество решений первого типа обозначим через X0(у), второго — через Xк(у), а их объединение — через X(у). Все эти решения определены на отрезке Т.
Для замкнутости изложения напомним определение конструктивных движений Красовского - Субботина, соответствующих позиционному управлению у(Ь,х).
Возьмем любое разбиение А = {го = в0 < ... < 0^ = ¿1} отрезка Т и построим рекурсивно непрерывную ломаную Эйлера хд(-) как решение системы
Х = ¡(г,х,у(вг,хА(в^)), ге[вг,вг+1), г = мг,
с кусочно-постоянным программным управлением ид (г) = ,хд(0г)), г е [0г,0г+{), и начальным условием х(Ьо) = хо. Рассматривая всевозможные разбиения А, получим пучок ломаных Эйлера (А-траекторий) Хд(ь), соответствующих данному позиционному управлению V. Пусть |А| = шах(0г+1 — 0г) — диаметр разбиения А. Любой равномерный
г
предел последовательности ломаных Эйлера при |А| ^ 0 называется конструктивным движением (предельной траекторией) или кривой Эйлера. Пучок этих конструктивных движений обозначен выше через
X к (V).
Заметим, что конструктивное движение может оказаться решением овыпукленной системы
х е со/(г,х,и), х(го) = хо, (1.4)
т. е. траекторией скользящего режима.Если на некоторой такой траектории будет получено неравенство ¡(х^г^) < 1(х(г1)), то пара а неоптимальна в задаче (Р) в силу равномерной аппроксимируемости решений включения (1.4) траекториями системы (1.1), (1.2). С такой ситуацией можно столкнуться, если позиционный принцип минимума используется не только как тест на оптимальность а, но как итерационный метод решения задачи (этой конструктивностью и привлекательны вариационные условия). На первый взгляд кажется, что в этом случае придется оборвать итерации, так как результаты формулируются для «обычного» процесса задачи (Р), а не скользящих режимов (из соображений простоты). Теоретически это действительно так, но практически улучшение скользящих режимов в овыпукленной задаче отличается от исследуемого случая элементарными деталями — сменой уравнений для фазовых и сопряженных траекторий [10]. Это замечание использовано при анализе примера 2 (раздел 4).
2. Общее позиционное условие минимума с опорными
мажорантами
Обозначим через ~Я-(Ь) множество достижимости в момент г е Т управляемой системы (1.1), (1.2), а через 7£(£) - его замыкание.
Непрерывную функцию С : В™" —> К назовем функцией сравнения для целевой функции I на множестве Е С ^(¿1) в точке ж(^), если
имеет место импликация
(з x* Е E : L(x*) < C(x(ti))) l(x*) <l(x(ti)).
Очевидно, что если L — функция сравнения в указанном смысле, то из оптимальности процесса (x,u) в задаче (P) следует его оптимальность в задаче сравнения (PL) с целевым функционалом L(x(t1)) вместо l(x(ti)).
Обозначим через F множество локально липшицевых функций ф : T х Rn — R с непрерывной частной производной фх и производной фt, удовлетворяющей условиям Каратеодори (т.е. непрерывной по x для почти всех t Е T). Для процесса а и фиксированной функции сравнения L с соответствующим оценочным множеством E будем обозначать через F+(a, L,E) множество функций ф EF, удовлетворяющих граничному условию
ф(Ь\, x) = L(x) -C(x(ti)) У x Е E. (2.1)
Для ф Е F+(a, L,E) определим ф-экстремальное многозначное отображение
U^(t, x) = Argmin фх(t,x) ■ f (t,x,u) (2.2)
neu
и множество Vv всех его селекторов (ф-экстремальных позиционных управлений).
Теорема 1. Если пара а = (x,u) оптимальна в задаче (P), то при любом выборе функции сравнения L и ф Е Р+(а, L,E) выполняется условие минимума
ф(Ь,x(ti))=min{ф(^,x(ti)) x(^) Е [J X(v)}.
vevv
Экстремальную задачу
ф(t1,x(t1)) — min, x(^) Е [J X(v)
назовем (ф, ¿^-присоединенной. Заметим, что теорема 1 не утверждает, что траектория ха является её решением, так как для этого необходимо существование селектора У отображения (2.2), порождающего х. Утверждается лишь, что минимум в (ф, (т)-присоединенной задаче равен нулю (см. граничное условие (2.1)).
Может показаться странным, что в теореме 1 фигурирует любая функция с граничным условием (2.1) без каких-либо дифференциальных условий (уравнений, неравенств): нет никаких видимых оснований предполагать, что ф-экстремальные управления потенциально задают
veyv
направление спуска для целевого функционала задачи сравнения. Следующее утверждение проясняет ситуацию и указывает простой способ генерирования специальных суперрешений уравнения Гамильтона-Якоби, которые мы и называем опорными мажорантами функционала J в точке а. Через ф(Ь, x, u) будет обозначаться полная производная функции ф(Ь,т) в силу системы (1.1).
Лемма 1. Для любой функции ф £ F+(a, L, E) можно указать такой шар Or = {x ||x| < r}, что выполняются условия:
1) все траектории овыпукленной системы (1.4) удовлетворяют на отрезке T включению x(t) £ Or;
2) функция m(t) = sup [minLp(t,x,u)} £ L^(T);
xeür ueU
3) функция
ti
<p(t,x) = ip(t,x) + j т{т)йт e C,E)
t
при E = E П Or и удовлетворяет на множестве Т х Ог неравенству Гамильтона-Якоби (1.3);
4) отображения Uv(t,x) и U^(t,x) совпадают на T х Or.
Последнее утверждение леммы примечательно: оно показывает, что явное нахождение опорных мажорант сравнения является излишним в приложениях позиционных условий оптимальности теоремы 1. Описанный в лемме способ перехода от почти произвольной ф £F к опорной мажоранте называется нормировкой. Ясно, что если сама ф удовлетворяет неравенству (1.3), то m = 0, р = ф, так что нормировки не требуется.
Сформулируем теперь точно свойство слабого убывания опорной мажоранты р: для любой начальной позиции (t*,x*) £ [to,ti) х Rn существует такое решение x дифференциального включения (1.4) с начальным условием x(t*) = x*, что функция t ^ p(t,x(t)) не возрастает на отрезке [t*,t1}. Неравенство (1.3) гарантирует это свойство.
В силу утверждения 4) леммы 1 ф-экстремальные позиционные управления v в каждой текущей позиции (t, x) нацелены на обеспечение наискорейшего спуска одного из своих решений на множество ф(t,x) < 0. Если на траектории спуска выполнится неравенство
ф(^,x(ti)) = p(ti,x(ti)) < 0,
то, в силу граничного условия (2.1) и определения функции L, будет установлена неоптимальность процесса а. По этой причине ф-экстре-мальные управления v обладают потенциалом спуска и по функционалу J.
Мы видим, что использование в необходимых условиях ф-экстре-мальных управлений естественно; но в определенной степени оно является данью традициям — как ПМ, так и динамического программирования. С точки зрения методов последовательного спуска для улучшения пары а достаточно найти допустимую пару (х,и), для которой функционал сравнения отрицателен:
ф(Ь1 ,х(Ьг)) = ф(г0,х0) + ! фг(Ь,х)+ фх(г,х) ■ /(Ь,х,и) йг < 0 (2.3)
т
(интегрант здесь равен полной производной ф(г, х, и) в силу системы (1.1)). Для обеспечения этого неравенства ортодоксальный выбор управления и = у(г, х) € не является необходимым; легко привести примеры, в которых аналитическое нахождение отображения и^(Ь,х) невозможно или затруднительно, а если и реализуемо, то спуска не обеспечивает (при очевидной неоптимальности а). В то же время срабатывает выбор приближенно ф-экстремального у(Ь, х) или из условия спуска (2.3) (см. пример 4 в разделе 5).
3. Позиционный принцип минимума в гладких задачах
Рассмотрим сначала вариационное условие оптимальности, усиливающее классический ПМ, но при несколько завышенных предположениях гладкости. Формулировка результата в этом случае не требует введения новых понятий и особенно наглядна.
Предположим, что выполнены следующие дополнительные предположения:
(Н5) вектор-функция / и её частная производная /х непрерывны на Т х Кп х и;
(Н6) функция I дважды непрерывно дифференцируема на Яп.
Заметим, что лишь последнее требование завышено в сравнении с гладким ПМ.
Введем функцию Понтрягина Н(г, х,ф,и) = ф ■ /(г, х, и) и сопряженную систему
ф = -Нх(г,х,ф,и), ф(Ь) = 1х(х(и)).
Отметим, что граничное условие для неё соответствует условию минимума функции Н по управлению в ПМ. Пусть ф — траектория сопряженной системы, соответствующая исследуемой на оптимальность допустимой паре функций а = (х,и). Определим вектор-функцию
р(г,х) = ф(г) + 1х(х) - 1х(х(г)) (3.1)
и компактнозначное полунепрерывное сверху многозначное отображение
Uj,(t, x) = Argminp(t, x) ■ f (t, x, u). (3.2)
neu
Пусть V^ — множество всех его селекторов, трактуемых как позиционные управления.
Теорема 2. Пусть выполнены предположения (H1)-(H6). Если пара (x,u) оптимальна в задаче (P), то траектория X оптимальна в следующей задаче:
l(x(ti)) ^ min, x(^) е [J X(v). (3.3)
veVj
Это необходимое условие мы называем позиционным принципом минимума для поставленной задачи (и используем сокращенное словосочетание «позиционный ПМ»). Заметим, что если целевая функция l линейна, то из (3.1) следует, равенство p(t,x) = tp(t), и тогда теорему 2 можно интерпретировать как позиционную версию классического ПМ. Эта интерпретация естественна и для общего случая (с возмущенной котраекторией p(t,x)), что оправдывает введенную терминологию. Опишем, как выводится позиционный ПМ из результатов раздела 2. Начнем с частного случая линейной целевой функции l(x), который является в некотором смысле эталонным. В этом случае опорная мажоранта тоже линейна
p(t,x)= Ш ■ (x - x(t)) + r(t), (3.4)
где неоднородность r(t) определяется нормировкой, описанной в лемме 1. Тогда граничное условие (2.1) выполняется при L = l, так что никаких функций сравнения не требуется. Заметим, что к этому случаю относятся задачи с интегральным функционалом Лагранжа, которые сводятся к линейному терминальному функционалу стандартным введением дополнительной фазы.
Общий случай задачи с l(x) е C2 тоже сводится к эталонному путем введения дополнительной фазы y, подчиненной уравнению
у = lx(x) ■ f (t,x,u), y(to) = yo := l(xo),
и переходом! к J = y(tl). В преобразованной задаче исследуемому процессу а' := (x, U,y = l(x(t))) соответствует котраектория
q(t) = (qx(t) = Ш - lx(x(t)), qy(t) = l), и формула (3.4) приводит к нелинейной мажоранте
p(t, x) = qx(t) ■ (x - x(t)) + l(x) - l(x(t)) + r(t)
с экстремальным отображением (3.2).
Связь позиционного ПМ с классическим устанавливает
Лемма 2. а) Если траектория x оптимальна в задаче (3.3), то пара (x,u) является экстремалью Понтрягина в задаче (P). Более того, экстремальность а следует уже из условия допустимости траектории x в задаче (3.3).
б) Если (x,u) — экстремаль Понтрягина в задаче (P), то траектория X допустима в задаче (3.3).
Доказательство. а) Ограничимся случаем, когда X £ X0(v) при некотором v £V^. Это означает выполнение равенств
H(t,x,p(t,x),v(t,x)) = min H(t,x,p(t,x),u) на T x Rn
и u(t) = v(t,x(t)) на T. Полагая в первом из них x = x(t) и учитывая равенство (3.1), получим экстремальность а.
б) Достаточно заметить, что позиционное управление
v(t x) = { U(t)l (t,x) £ graphx(')l ( ' ) \ v0(t,x) £ Уф произвольно вне graphx(-)
является селектором отображения (3.2) и порождает траекторию x в качестве решения Каратеодори. □
Возникает естественный вопрос: как проверять позиционный ПМ, т. е. как решать присоединенную задачу (3.3)? Эта задача динамической оптимизации имеет ряд особенностей, в силу которых известные методы к ней не применимы: экстремальное отображение (3.2) не удовлетворяет условию Липшица и в общем случае имеет невыпуклые образы, что в сочетании с нелинейностью функции f (t,x,u) составляет критический набор трудностей. Поэтому практически целесообразно использовать позиционный ПМ с несколько ослабленным утверждением:
при любом выборе селектора v £\>ф, необходимо выполняется неравенство
l(x(ti)) < l(x(ti)) Vx(-) £ X(v).
Нарушение этого условия не только влечет неоптимальность а, но сопровождается предъявлением процесса с меньшим значением целевого функционала. Это конструктивное свойство служит основой для разработки итерационных методов позиционного спуска.
4. Примеры
п nxi
Пример 1. х\ = и, ±2 = —иcos —-—, ж(0) = (0,0), \и\ < 1, J = x2(1) — min.
Пара а = (X, и) = 0 является особой экстремалью с котраекторией — ■ ПХ\ '
■ф(£) = (0,0) и p(t, х) = (0,3^2). Отсюда U^(x) = —sign x\cos—— ,
а с учетом априорной оценки |xi(t)| < 1 V t G [0,1] получаем в качестве одного из селекторов v(x) = —1 =: и* (обычное управление). Легко убедиться, что J [х*,и*] = —1 < 0 = J [а], так что экстремаль а неоптимальна; в то же время пара а* = (х*,и*) глобально оптимальна. Отметим, что в силу глубокого вырождения экстремали а, локальные условия высших порядков не могут её «забраковать».
В этом примере можно было действовать несколько иначе, заметив, что в качестве целевой функции сравнения в точке Х(1) = 0 можно взять L(x) = Х- Именно такая задача с линейным функционалом рассмотрена в [2] в контексте необходимых условий для экстремалей.
Пример 2. ([18]) Х = и, х(0) = 0, lui < 1,
J = J (t — a)x2 — и2 dt — inf,
0
где а > 0 — параметр.
Это модификация классического примера с функционалом
1
' -2 „.2^
J = J (x2 — u2) dt — inf,
0
в котором оптимального управления в обычном классе и не существует, а в расширенной, овыпукленной задаче решением является скользящий режим с обобщенным управлением (вероятностной мерой на и [18])
&{йи) = + мера Дирака в точке и е Ы)
и траекторией х = 0. Этот режим возникает и в данном примере.
Но мы начнем с обычного процесса а = (х,и) = 0. Поскольку Н = фи + (I — а)х2 — и2 и
ф = —2(г — а)х, ф(1)=0, (4.1)
то ф = 0 и, очевидно, а не является экстремалью. Отображение и, = {—1,1} постоянно и его элементарные селекторы V = ±1 естественным образом дают два процесса а1, а2 с и1'2 = ±1, улучшающие а:
,1[а1] = ,1[а2] = < 0 = Уа>0.
1
Более того, при а > 1 эти процессы с очевидностью оптимальны, так что далее интерес представляют значения а £ (0,1).
Но не выпуклозначное отображение U^ имеет селекторы, порождающие траекторию x в качестве конструктивного движения, например,
/л i -1, x> 0,
v(x) = \ +1, x < 0
(рассмотрение таких селекторов часто оказывается целесообразным). Нетрудно понять, что v(x) генерирует скользящий режим s = (x,v) со значением функционала J[s] = —1 < J[аг] при а £ (0, 3)4).
При этих а исследуем оптимальность s в овыпукленной задаче, пользуясь позиционным ПМ. Поскольку сопряженное уравнение (4.1) не зависит от управления, то для s котраектория ф = 0 и отображение U^ остаются неизменными. Отсюда, в частности, следует экстремальность s. Но ресурсы позиционного спуска с постоянным отображением U^ оказываются исчерпанными, и причиной тому — раздельная зависимость входных данных задачи по переменным x, u. От неё можно избавиться путем преобразования функционала к следующему виду
1
/t — 1
[(2P(t)xu - u2]dt, P(t) := —(2a - 1 -t).
0
(Мы просто добавили к исходному J равный нулю JT d(P(t)x2).) В преобразованной задаче сопряженное уравнение (для импульсной переменной п)
П = —2P (t)u, п(1) = 0
при u = v(du) имеет котраекторию п = 0, а соответствующее экстремальное отображение оказывается позиционным: U^(t,x) = —sign P(t)x.
При а £ (1/2, 3/4), когда P(t) меняет знак на T, выберем «наугад» селектор
ч f +1, P(t)x < 0, оЛ
v(t,x) = {'„)'- ' (4.2)
v ' ' \ —1, P(t)x > 0. v !
Тогда в правой полуокрестности O+(t0) точки t0 = 0 получим x(t) = t, u(t) = 1. При этом g[t] = P(t)x(t) < 0 до момента т1 = 2а — 1, когда P(t) обращается в нуль, и g[t] меняет знак. Поэтому u(t) = —1 в 0+(т\) и g[t] > 0 до момента т2 = 2т1, когда обратится в нуль x(t) = 2т1 — t. Правее т2 селектор (4.2) порождает скольжение вдоль x = 0 (отрезок конструктивного движения). В итоге мы получили траекторию, которая соответствует обобщенному управлению (мере, параметрически зависящей от t)
vt(du) = X[0,n] ¿1 + Х(т1,2т1] — + X(2Ti,1]V(du),
где xa = XA(t) — характеристическая функция множества A. Численные расчеты показали, что на обобщенном процессе s = (x(),vt(du)) J[s] < J[s] для всех а £ (1/2, 3/4); следовательно, при этих а скользящий режим ss неоптимален.
Наконец при а £ (0,1/2], когда P(t) > 0 на [0,1), Ufj(x) = —signx, а это отображение дает только исходную траекторию x = 0. Для этих значений параметра позиционный ПМ не бракует s, хотя он тоже не оптимален. Этот факт установлен в [18] с помощью квадратичных условий оптимальности для скользящих режимов.
5. Позиционный принцип минимума для негладких задач
Рассмотрим задачу (Р) при основных предположениях (Н1)-(Н3), т. е. с негладкой динамикой по фазовой переменной. Будем исходить из негладкого ПМ в форме Кларка [5] как наиболее известного. Введем соответствующее сопряженное дифференциальное включение
-ф(1) е дхН(Ь,х(1),ф(1),и(1)), (5.1)
где символ дхН означает частный обобщенный градиент Кларка по х.
Для ясности начнем с задачи (Р\) с дополнительным предположением (Н6), т. е. с 1(х) е С2. В этом случае граничное условие для включения (5.1) стандартно: ф(1\) = 1х(х(^)). Обозначим через Ф(<г) множество всех решений этого включения и для любого ф е Ф(<а) положим (по образцу теоремы 2)
р*(г,х) = ф(г) + 1х(х) - ¡хШ),
и*(I, х) = А^штр*(1, х) ■ /(I, х, и). пеи
Пусть V* — множество селекторов отображения и*(Ь,х).
Теорема 3. Пусть а = (х,и) — оптимальный процесс в задаче (Рг). Тогда:
а) для любого ф е Ф(<г) выполняется условие минимума
¡(х(г!)) = шт{¡(х(г1)) х е у X(и)};
б) существует такое ф е Ф(а), что траектория х оптимальна в следующей задаче
l(x(t1)) — min, x £ [J X(v).
vev^
Доказательство этой теоремы практически не отличается от случая гладкой задачи (с той же конструкцией опорных мажорант). Отметим, что лишь утверждение б) является здесь собственно позиционным ПМ, поскольку произвольные ф € Ф(а) в утверждении а) не обязаны обеспечивать выполнение условия минимума функции Н по управлению; тем не менее они могут порождать управления спуска.
Рассмотрим теперь негладкую задачу (Р2), в которой целевая функция 1(х) считается полувогнутой. Напомним [14], что функция I : Кп ^ К называется полувогнутой с константой С > 0, если функция х ^ 1(х) — С\х\2 вогнута на Кп. Из многочисленных свойств таких функций для нас важно следующее: вектор в € Кп в том и только том случае принадлежит обобщенному градиенту Кларка функции I в точке х , если выполняется неравенство
1(х) — 1(х) < в ■ (х — х) + С\х — х\2 Vх € Кп.
Отсюда следует, что любой вектор в € д1(х(Ь1)) задает квадратичную функцию сравнения
С3(х) = в ■ (х — х(и)) + С\х — х(и)\2
для I в точке х(^) на Кп (для вогнутой 1С = 0 и С3 линейна). Но С3 дважды гладкая, поэтому к задаче сравнения с функционалом С3(х(Ь1)) можно применить теорему 3.
Соответствующую формулировку опустим ввиду её очевидности и обратимся к примерам.
Пример 3. х 1 = и1[1 — (и2 — Ь)2] =: д(Ь,и1 ,и2), х2 = \х1\ + и3, х1(0) = х2(0) =0, т € [— 1,1], и2 € [0,1], и3 € { — 1, 0}, .] = —х2(1) ^ шт.
Пусть а = (х,и) = 0. Тогда дхН \& = [—1,1] х {0} и сопряженное включение имеет котраекторию ф(Ь) = (0, —1) € Ф(ст ), с которой условие минимума функции Н по и € и выполнено. Следовательно, негладкий ПМ не бракует а .
Позиционное условие минимума с этой ф дает отображение и, = {и € и \ и3 = 0}, и соответствующая присоединенная задача фактически равносильна исходной, суженной на из = 0. Она, конечно, легко решается неформально, бракуя а . Но жестко следуя логике позиционного ПМ, возьмем в суженной задаче другую котраекторию ф(Ь) = (1 — Ь, —1) € Ф(а) для а' с и3 = 0. Тогда и ^ = {и1 = 1,и2 = Ь} — состоит из одной точки минимума функции д(Ь,и,1,и,2). В итоге получаем управление и* = (1,Ь, 0), для которого
х*,и*] = < 0 =
Поэтому процесс а неоптимален, и нетрудно показать, что пара (х*,и*) оптимальна. Заметим, что ещё одна котраектория ф(Ь) = (Ь — 1, — 1) порождает другое оптимальное управление и = (—1,Ь,0).
Таким образом, пример иллюстрирует важность использования множества котраекторий исследуемого процесса в негладких задачах.
Пример 4. [15] x = 4u, x(0) = 0, \u\ < 1,
1
J = J (x + \x — u\)dt ^ min. 0
Здесь H = фи + x + \x — u\, dxH(x, ф,п) = 1 + E(x, u), где
( [—1,1], x — u = 0, E(x,u) = I {2}, x — u> 0, | {0}, x — u< 0.
Пара а = (x,u) = 0 удовлетворяет негладкому ПМ. Действительно, tp(t) = 0 Е Ф(а) и условие минимума H по управлению выполнено. Однако а не оптимальна, хотя эта задача линейно-выпукла, а а — нормальная экстремаль (поскольку нет ограничений на траекторию).
Для данной котраектории ф U^ = {x}, но единственный селектор v(x) дает исходную траекторию. Возьмем приближенно экстремальное позиционное управление vs(x) = x — е, где е > 0. Получим траекторию xe (t) = е(1 — e4t) с управлением u£(t), для которых
J[x£,u£] =е 2 — ^(е4 — 1)
< 0.
Таким образом, приближенно экстремальное управление дает спуск по функционалу, что указывает на неоптимальность а.
Однако этот спуск неглубокий — в классе слабых вариаций управления. Но если взять другую котраекторию
то можно получить управление
( -1, г е [0,7-1], и(г) = \ —2е4:(1-Т1 \ г е [п,72], [-1, г е [72, 1],
1 1, т\ = 72=71--1п71
гораздо более глубокого спуска.
Анализируя отсутствие минимума на экстремали в этом выпуклом примере, авторы статьи [15] предложили версию необходимого условия слабого минимума для нелинейных задач, которое переходит в достаточное условие для линейно-выпуклых задач. Но этот путь можно
сказать «с избытком» (возможно поэтому упомянутое условие более не встречалось). Гораздо более естественное объяснение состоит в следующем. Линейно-выпуклую задачу оптимального управления можно переформулировать как негладкую задачу выпуклого программирования в банаховом пространстве, для которой можно применить теорему Куна -Таккера в двух вариантах [1]: либо с условием минимума лагранжиана по паре (х(^),и(^)), либо в субдифференциальной форме тоже по паре «переменных»; любой из них будет давать необходимое и достаточное условие для нормальной экстремали. В то же время негладкий ПМ соответствует промежуточному, несимметричному варианту «ослабленной» необходимости в теореме Куна - Таккера, когда по х(^) используется субдифференциальное условие стационарности лагранжиана, а по и(^) — условие минимума; как следствие, достаточность теряется.
В нашем анализе котраектория ф предъявлена «не с потолка»; она возникает при анализе теоремы Куна - Таккера в субдифференциальной форме, которая тоже «бракует» а. Можно сказать, что иногда жесткая установка на условие минимума по управлению, асимметричное к стационарности по траекториям, может привносить дефект в необходимые условия.
6. Заключение
Полученные в статье вариационные условия оптимальности существенно усиливают известные варианты принципа максимума для некоторых классов гладких и негладких задач. Эти условия вполне конструктивны и допускают алгоритмизацию. Кроме того, для некоторых типовых классов задач (линейных и квадратичных по состоянию) они имеют двойственные аналоги [3], независимые с прямыми, и комбинирующиеся с ними естественным образом.
Список литературы
1. Алексеев В. М. Оптимальное управление / В. М. Алексеев, В. М. Тихомиров, С. В. Фомин. - М. : Наука, 1979. - 430 с.
2. Габасов Р. Принцип максимума в теории оптимального управления / Р. Габа-сов, Ф. М. Кириллова. - М. : Едиториал УРСС, 2011. - 272 с.
3. Дыхта В. А. Слабо монотонные и производящие Ь-функции в оптимальном управлении / В. А. Дыхта // Аналитическая механика, устойчивость и управление : тр. X Междунар. Четаев. конф. - Казань : Изд-во Казан. гос. техн. ун-та, 2012.- Т. 3, секц. 3 : Управление, ч. 1. - С. 408—420.
4. Дыхта В. А. Слабо монотонные решения неравенства Гамильтона-Якоби и условия оптимальности с позиционными управлениями / В. А. Дыхта // Автоматика и телемеханика. - 2014. - № 5 - С. 31-49.
5. Кларк Ф. Оптимизация и негладкий анализ / Ф. Кларк. - М. : Наука, 1988. -280 с.
6. Кларк Ф. Универсальное позиционное управление и проксимальное прицеливание в задачах управления в условиях возмущения и дифференциальных играх / Ф. Кларк, Ю. С. Ледяев, А. И. Субботин // Тр. мат. ин-та им. В. А. Стеклова. - 1999. - Т. 224. - С. 165-186.
7. Красовский Н. Н. Позиционные дифференциальные игры / Н. Н. Красовский, А. И. Субботин. - М. : Физматлит, 1974. - 456 с.
8. Красовский Н. Н. Управление динамической системой / Н. Н. Красовский. -М.: Наука, 1985. - 518 с.
9. Математическая теория оптимальных процессов / Л. С. Понтрягин, В. Г. Болтянский, Р. В. Гамкрелидзе, Е. Ф. Мищенко. - М. : Физматгиз, 1961. -388 с.
10. Мордухович Б. Ш. Методы аппроксимаций в задачах оптимизации и управления / Б. Ш. Мордухович. - М. : Наука, 1988. - 360 с.
11. Субботин А.И. Обобщенные решения уравнений в частных производных первого порядка. Перспективы динамической оптимизации / А. И. Субботин. -М. ; Ижевск : Ин-т компьютер. исслед., 2003. - 336 с.
12. Субботин А. И. Оптимизация гарантии в задачах управления / А. И. Субботин, А. Г. Ченцов. - М. : Наука, 1981. - 288 с.
13. Метод характеристик для уравнения Гамильтона - Якоби / Н. Н. Субботина, Е. А. Колпакова, Т. Б. Токманцев, Л. Г. Шагалова. - Екатеринбург : РИО УрО РАН, 2013. - 244 с.
14. Cannarsa P. Semiconcave functions, Hamilton - Jacobi equations and optimal control. Progress in nonlinear differential equations and their appications / P. Cannarsa, C. Sinestrari. - Boston : Birkhauser, 2004. - Vol. 58. - 304 p.
15. de Pinho M. d. R. An Euler-Lagrange inclusion for optimal control problems / M. d. R. de Pinho, R. B. Vinter // IEEE Trans. Automat. Control. - 1995. - Vol. 40, N 7. - P. 1191-1198.
16. Nonsmooth Analysis and Control Theory / F. H. Clarke, Yu. S. Ledyaev, R. J. Stern, P. R. Wolenski. - N. Y. : Springer-Verlag, 1998. - 276 p.
17. Qualitative Properties of Trajectories of Control Systems: a Survey / F. H. Clarke, Yu. S. Ledyaev, R. J. Stern, P. R. Wolenski // J. Dynamical and Control Syst. -1995. - Vol. 1, N 1. - P. 1-48.
18. Warga J. A second order condition that strengthens Pontryagin's maximum principle / J. Warga // J. Differential Equations. - 1978. - Vol. 28, N 2. -P. 284-307.
Дыхта Владимир Александрович, доктор физико-математических наук, профессор, зав. отделением, Институт динамики систем и теории управления СО РАН, 664033, Иркутск, ул. Лермонтова, 134 тел.: (3952)453036 (e-mail: : )[email protected]
V. A. Dykhta
Variational Optimality Conditions with Feedback Descent Controls that Strengthen the Maximum Principle
Abstract. We derive nonlocal necessary optimality conditions that strengthen both classical and nonsmooth Maximum Principles for nonlinear optimal control problems with
free right-hand end of trajectories. The strengthening is due to employment of feedback controls, which are assumed to ensure a descent of a value of the cost functional, and are extremal with respect to certain solutions of a Hamilton - Jacobi inequality for weakly monotone functions. The main results are Feedback Minimum Principles for smooth and nonsmooth problems, that are formulated through accessory dynamic optimization problems. Effectiveness of these necessary optimality conditions are illustrated by examples.
Keywords: Hamilton - Jacobi inequality, feedback control of descent, Maximum Principle, necessary conditions.
References
1. Alekseev V.M., Tikhomirov V.M., Fomin S.V. Optimal control. N. Y., Consultants Bureau, 1987, 309 p.
2. Gabasov R.F., Kirillova F.M. The maximum principle in optimal control theory (in Russian). Moscow, Editorial URSS, 2011, 272 p.
3. Dykhta V.A. Weakly monotone and generating L-functions in optimal control (in Russian). Proc. 10th Int. Chetaev Conf. Analytical mechanics, stability and control, Kazan, KSTU, 2012, vol. 1, part 1, pp. 408-420.
4. Dykhta V.A. Weakly monotone solutions of the Hamilton — Jacobi inequality and optimality conditions with positional controls. Automation and Remote Control, 2014, vol. 75, no. 5, pp. 31-49.
5. Clarke F. Optimization and nonsmooth analysis. Montreal, Universite de Montreal, 1989, 312 p.
6. Clarke F., Ledyaev Yu.S., Subbotin A.I. Universal positional control and proximal aiming in control problems under perturbations and in differential games. Proc. Steklov Inst. Math., 1999, vol. 224, no. 1, pp. 149-168.
7. Krasovskii N.N., Subbotin A.I. Game-theoretical control problems. N.Y., SpringerVerlag, 1988, 517 p.
8. Krasovskii N.N. Control of a dynamic system (in Russian). Moscow, Nauka, 1985, 518 p.
9. Pontryagin L.S., Boltyanskii V.G., Gamkrelidze R.V., Mishchenko E.F. The mathematical theory of optimal processes. N.Y.-London, Interscience Publishers John Wiley & Sons, 1962, 360 p.
10. Mordukhovich B.Sh. Approximation methods in problems of optimization and control(in Russian). Moscow, Nauka, 1988, 360 p.
11. Subbotin A.I. Generalized solutions of first-order PDEs. Boston, Birkhauser Boston, Inc., 1995, 312 p.
12. Subbotin A.I., Chentsov A.G. Guaranteed optimization in control problems (in Russian). Moscow, Nauka, 1981, 288 p.
13. Subbotina N.N., Kolpakova E.A., Tokmantsev T.B., Shagalova L.G. The method of characteristics for the Hamilton - Jacobi equations (in Russian). Ekaterinburg, RIO UB RAN, 2013, 244 p.
14. Cannarsa P., Sinestrari C. Semiconcave functions, Hamilton - Jacobi equations and optimal control. Progress in nonlinear differential equations and their appications. Boston, Birkhauser, 2004, vol. 58, 304 p.
15. de Pinho M.d.R., Vinter R.B. An Euler-Lagrange inclusion for optimal control problems. IEEE Trans. Automat. Control, 1995. vol. 40, no. 7, pp. 1191-1198.
16. Clarke F.H., Ledyaev Yu.S., Stern R.J., Wolenski P.R. Nonsmooth Analysis and Control Theory. N.Y., Springer-Verlag, 1998, 276 p.
17. Clarke F.H., Ledyaev Yu.S., Stern R.J., Wolenski P.R. Qualitative Properties of Trajectories of Control Systems: a Survey. J. Dynamical and Control Syst, 1995, vol. 1, no. 1, pp. 1-48.
18. Warga J. A second order condition that strengthens Pontryagin's maximum principle. J. Differential Equations, 1978, vol. 28, no. 2, pp. 284-307.
Dykhta Vladimir Aleksandrovich, Doctor of Sciences (Physics and Mathematics), Professor, Chief of Department, Institute for System Dynamics and Control Theory SB RAS, 134, Lermontova st., Irkutsk, 664033 tel.: (3952)453036 (e-mail: : )[email protected]