УДК 517.977 © М. И. Сумин
РЕГУЛЯРИЗОВАННЫЙ СЕКВЕНЦИАЛЬНЫЙ ПРИНЦИП МАКСИМУМА ПОНТРЯГИНА В ВЫПУКЛОЙ ЗАДАЧЕ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ С ПОТОЧЕЧНЫМИ ФАЗОВЫМИ ОГРАНИЧЕНИЯМИ1
Обсуждается принцип максимума Понтрягина в регуляризованной секвенциальной форме в выпуклой задаче оптимального управления с поточечными фазовыми ограничениями.
Ключевые слова: выпуклая задача оптимального управления, минимизирующая последовательность, принцип максимума, поточечные фазовые ограничения, двойственность, регуляризация.
Введение
Проблемы, связанные с различными проявлениями некорректности в задачах оптимизации и, в частности, в задачах оптимального управления, хорошо известны (см., например, [1,2]). Они возникают уже в «самых простых» по виду оптимизационных задачах и находят выражение в фактах несуществования классических решений как прямых, так и двойственных задач, неустойчивости этих решений при возмущении исходных данных. Как следствие, последняя влечет и «неустойчивость» классических условий оптимальности, заключающуюся в выделении ими сколь угодно далеких «возмущенных» оптимальных элементов от их «невозмущенных» аналогов при сколь угодно малых возмущениях исходных данных задач. В случае достаточно сложных реальных задач, требующих для своего решения применения приближенных методов и использования ЭВМ, указанные проблемы несуществования, неустойчивости являются центральными и требуют их обязательного учета. Сказанное выше в полной мере относится как к самой рассматриваемой ниже выпуклой задаче оптимального управления с поточечными фазовыми ограничениями, так и к классическим для нее условиям оптимальности — принципу максимума Понтрягина. В настоящей работе предлагается преодолевать проблемы некорректности в изучаемой задаче оптимального управления, характерными свойствами которой являются неустойчивость оптимальных управлений, возможное несуществование решений двойственной задачи на пути применения методов теории двойственности, регуляризации и одновременного перехода к рассмотрению понятия минимизирующей последовательности допустимых элементов в качестве основного понятия оптимизационной теории, то есть, другими словами, перехода с языка оптимальных элементов на секвенциальный язык минимизирующих последовательностей.
§ 1. Постановка задачи
Рассматривается параметрическая выпуклая задача оптимального управления с поточечными фазовыми ограничениями типа равенства и неравенства, понимаемыми как ограничения в гильбертовом пространстве H = L2(X)
(Pp,r) g0(u) ^ min, u eDc L2(0, T),
g1(u)(t) = ((p1(t),x[u](t)) = h(t) + p(t), g2(u)(t) = <p2(t,x[u](t)) ^ r(t) при почти всех t € X.
Здесь: p €H, r € H — параметры, go : L2(0,T) ^ R1 — непрерывный выпуклый функционал (интегральный, терминальный или смешанного вида), <^i, h € L^(0,T) — заданные функции, ^>2 : [0, T] х Rn ^ R1 — выпуклая по х, непрерывная вместе с градиентом V х^2 функция, D = {u € L2(0,T) : u(t) € U при почти всех t € (0,T)}, U С Rm — выпуклый компакт,
О
X С [0,T], X = cl X, x[u](t), t € [0,T] — решение задачи Коши X = A(t)x + B(t)u(t), х(0) = Xo € Rn, t € [0,T], с измеримыми по Лебегу ограниченными матрицами A, B.
хРабота выполнена при финансовой поддержке Минобрнауки РФ в рамках государственного задания на оказание услуг в 2012-2014 гг. подведомственными высшими учебными заведениями (шифр заявки 1.1907.2011).
Замечание 1. При определенных условиях на исходные данные задачи (Ррг) ее ограничения можно, естественно, трактовать и как ограничения в Ь^(Х) (р, г € Ь^(Х) ) и С(X) (^>1, Н, р, г € С(X)). При этом понятия оптимальности управления в указанных частных случаях эквивалентны понятию оптимальности для случая «тех же» ограничений в Ь2(Х).
§2. Основные результаты и их обсуждение
Определим регулярный функционал Лагранжа Ьр,г(и, X, ц) = до(и) + (Х,д1(п) — Н — р) + (ц,д2(и) — г) задачи (Рр,г) и введем обозначения: и[Х, ц] = а^шт {Ьр,г(и,Х,ц) : и € V}, 'Рр г = {и € V : \\д1(и) — Н — р\\2,х ^ е, шт \\д2(и) — г — х\\2,х ^ е}, Н- = {г € Ь2(Х) : х(Ь) ^ 0
гёК-
при почти всех Ь € X}, Н+ = —'Н-. Очевидно, задача (Рр,г) разрешима, если V<0r = 0. В случае единственного решения задачи (Рр , г) обозначим его через иР г. Пусть, для определенности, д0(и) = /0Т((Г(Ь)х[и](Ь),х[и](Ь)) + (С(Ь)и(Ь),и(Ь)))М с измеримыми по Лебегу ограниченными матрицами Г : [0,Т] ^ Мгахга, С : [0,Т] ^ Ктхт. Введем стандартное обозначение Н(Ь,х,и,ф, Х(£), ц(Ь)) = (ф,А(Ь)х + Б(Ь)и) — ((Г(Ь)х,х) + (С(Ь)и,и)) — Х(£)^(^1 (Ь),х) — Н(Ь) — р(Ь)) — ц(Ь){^2 (Ь,х) — г(Ь)), Х,ц € Ь2(Х). Как элемент, минимизирующий непрерывный выпуклый функционал Лагранжа на множестве V, управление и[Х, ц] существует для любой пары (X, ц) € Н х Н и удовлетворяет (обычному) принципу максимума Понтрягина в задаче Ьр>г(и, X, ц) ^ шт, и € V, то есть удовлетворяет при и = и[Х, ц] соотношению максимума
Н(Ь,х[и](Ь),и(Ь),ф(Ь), Х(£), ц(Ь)) = шахН(£,х[и](£),у,ф(£), Х(£), ц(£)) при п. в. Ь € [0, Т], (1)
где ф(Ь), Ь € [0,Т] — решение сопряженной задачи
ф = —У.Н (Ь,х[и](Ь),и(Ь),ф, Х(Ь), ц(Ь)), ф(Т )=0 (2)
при и = и[Х,ц]. Именно из элементов и[Х, ц] и конструируются минимизирующие приближенные решения (МПР) в смысле Дж. Варги в исходной задаче (Рр,г), в терминах которых формулируются различные версии регуляризованного секвенциального принципа максимума Понт-рягина (РСПМП), представляющие собою утверждения об устойчивой аппроксимации решений задачи точками минимума ее регулярного функционала Лагранжа. Напомним, что под минимизирующим приближенным решением в задаче (Рр,г) понимается такая последовательность иг € V, г = 1, 2,..., для которой справедливы соотношения до(иг) ^ в(р, г) + 8г, иг € Рр,г для некоторых последовательностей сходящихся к нулю неотрицательных чисел 5г, ег, г = 1, 2,....
Здесь: в(р, г) = { шт до (и), если VР г = 0; в противоположном случае} — нижняя грань —
и€Р°,г Р’
Б-функция задачи (Рр,г), являющаяся выпуклой и полунепрерывной снизу функцией параметров р,г. Наличие функциональных параметров р, г в задаче (Рр,г) позволяет сформулировать для нее следующий аналог теоремы Куна-Таккера в математическом программировании — параметрический регулярный принцип максимума Понтрягина, указывающий на жесткую связь выполнимости регулярного принципа максимума в задаче (Рр,г) с субдифференцируемостью (в смысле выпуклого анализа) ее функции значений в.
Теорема 1 (см. [3]). Пусть управление и0 € является оптимальным в задаче (Рр,г)■ Тогда, если ( € дв(р,г), где дв(р,г) — субдифференциал в смысле выпуклого анализа, то для множителей Лагранжа X € Н, ц € Н+, (X, ц) = —(, при и = и0 выполняется соотношение максимума (1), в котором, ф — решение сопряженной задачи (2) при и = и0, и условие дополняющей нежесткости ц(Ь){д2(Ь,х[и0](Ь)) — г(Ь)) = 0 при почти всех Ь € Х■ При этом —^ = (X, ц) — вектор Куна-Таккера задачи (Рр,г)■ И наоборот, если и0 € Vp0r — такое управление, что при некоторых X € Н, ц € Н+ выполняются указанные соотношения, то этот элемент оптимален в задаче (Рр,г) и одновременно (—X, —ц) € дв(р,г).
Замечание 2. Так как в — выпуклый полунепрерывный снизу функционал, то множество всех точек (р,г), в которых дв(р,г) = 0, плотно в ёош в. В то же время, для задач вида (Рр,г) вполне возможны ситуации, когда при (р,г) € ёош в регулярный принцип
максимума теоремы 2 не верен. Более того, он может быть не верен и в нерегулярном варианте, то есть вовсе не верен (подробности и примеры, в том числе и для задач математического программирования в гильбертовом пространстве, см. в [3-5]).
Приведем ниже две формулировки РСПМП, сначала для задачи (Рр,г) с сильно выпуклым функционалом д0, а затем — с выпуклым д0. Обе формулировки даются для случая точного задания исходных данных задачи, однако, они могут быть обобщены и на случай, когда исходные данные задаются лишь приближенно. При этом, как это и полагается в теории регуляризации, необходимо согласовывать поведение параметров регуляризации и величин, характеризующих ошибки исходных данных (для случая задачи математического программирования в гильбертовом пространстве необходимые подробности можно найти в [4-6]).
Т еорема 2. Пусть д0 — сильно выпуклый функционал■ Для существования МПР в задаче (Ррг) (и, значит, одновременно сходящегося сильно к и*0г), необходимо и достаточно, чтобы существовала последовательность двойственных переменных (Xк, цк) € Н х Н+, к =
1, 2, . . ., такая, что выполняются соотношения
Ьр г (иX ,цк ]Ак ,цк) — йиР шш Ьр г (и^,ц), и^к ,цк ] €Vpkr, ек — 0, к — ж, (3)
(Л , ^]&НхН+ иеО ’ ’ К !
и обобщенное условие «дополняющей нежесткости»
[ Xк(Ь)(д1 (и^к,цк])(£) — Н(Ь) — р(Ь)) ^ 0,
.Ух
/ цк (Ь)^^^ ,цк ])(£) — г(Ь)) ^ 0, к = 1,2,....
х
(4)
——
При этом последовательность иX, цк ], к = 1, 2,..., является искомым МПР и и^к, цк ] ир г, к — ж. В качестве последовательности (Xk, цк) € Н х Н+, к = 1, 2,... может быть взята последовательность, генерируемая алгоритмом двойственной регуляризации [2-6]: (Xk ,цк) = argmaxm\n{Lp , г (и, X, ц) — ак || (X, ц)\\2, (X, ц) € Нх Н+}, ак, к = 1,2,... — про-
и,£О ’
извольная последовательность сходящихся к нулю положительных чисел■
Замечание 3. В отличие от ситуации с классическим принципом максимума и, в частности, принципа максимума теоремы 1, РСПМП, сформулированный в теореме 2, справедлив в любой задаче (Рр , г), имеющей смысл (в(р,г) < +ж). В то же время, если в задаче (Рр, г) принцип максимума теоремы 1 выполняется, то выделяемое им оптимальное управление, вообще говоря, неустойчиво к возмущениям исходных данных. Можно показать, что примером такой ситуации является «простейшая» задача: д0(и) = \\и\\2 — шш, х = и(Ь), х[и] = р0, и = [—1,1], Ь € [0,1], где р0 € L2(0,1) любой такой элемент, для которого дв(р0) = 0. В этом случае можно утверждать, что существуют такие рк — р0, к — ж, для которых дв(рк) = 0 и, значит, в аппроксимирующих задачах справедливо утверждение регулярного принципа максимума теоремы 1, но для которых одновременно оптимальные «аппроксимирующие» управления не сходятся к решению невозмущенной задачи.
Прежде всего, подчеркнем, что, в отличие от огромного числа различных работ, посвященных оптимальному управлению в задачах с поточечными фазовыми ограничениями, в данной работе эти ограничения трактуются как ограничения в пространстве L2(X). Важнейшее преимущество такого подхода заключается, прежде всего, в том, что это приводит к возможности формулировки и доказательства РСПМП на основе идеологии двойственной регуляризации [2-6] для задачи (Рр,г), представляющего собою необходимые и достаточные условия на элементы минимизирующей последовательности и одновременно устойчивый к ошибкам исходных данных регуляризирующий алгоритм ее решения. Последним обстоятельством РСПМП принципиально отличается от своего хорошо известного классического аналога. Подчеркнем также, что «вложение» ограничений в пространство L2(X) и переход на секвенциальный язык
дали возможность сформулировать РСПМП без традиционного использования для подобного рода задач в качестве множителей Лагранжа мер Радона. Тем не менее, обычный принцип максимума в задаче (Pp,r) с традиционными ограничениями в C(X) (р\, h, p, r € C(X)) и с мерами Радона в своих формулировках могут быть получены путем предельного перехода при к ^ ж в соотношениях теоремы 2 (подробности в случае задачи с ограничениями-неравенствами см. в [3]). Это позволяет говорить о том, что РСПМП представляет собой секвенциальное «расширение» классического принципа максимума. Отметим также, что наличие функциональных параметров p, r задаче (Pp,r) позволяет жестко увязать свойства сходимости алгоритма РСПМП с дифференциальными свойствами выпуклой функции значений (S-функции) задачи (Pp,r). Теорема 2 обобщается на случай выпуклого функционала цели до.
Теорема 3. Пусть до — выпуклый функционал, Up,r = argmin {go(u) : u € Dpr}, U[Л, = argmin {Lp,r(u, Л,ц): u € D}. Для того, чтобы в задаче (Pp,r) существовало МПР (и, значит, одновременно, все его слабые предельные точки up,r € Up, r ), необходимо и достаточно, чтобы существовала последовательность двойственных переменных (Лк, /лк) € H х H+, к = 1, 2,..., такая, что для некоторых элементов u^k, ц.к ] € U [Лк, ц.к ] выполняются соотношения (3), а также обобщенное условие «дополняющей нежесткости» (4). При этом последовательность u^k, ц,к ], к = 1, 2,..., является искомым МПР, а любая ее слабая предельная точка является решением задачи (Pp,r). В качестве последовательности (Лк, ц.к) €Н х H+, к = 1, 2,... может быть взята, точно так же, как в теореме 2, последовательность, генерируемая алгоритмом двойственной регуляризации [2-6].
Замечание 4. В отличие от теоремы 2 сформулированная выше теорема 3, хотя и представляет собою утверждение об аппроксимации (слабой) решений задачи точками минимума ее регулярного функционала Лагранжа, но является не вполне удобной для практического использования, так как в ней утверждается лишь существование аппроксимирующих точек u[Лк, ц.к] € U[Лк, ц.к]. В то же время, можно заметить, что для практического решения выпуклых задач оптимального управления вида (Ppr) можно непосредственно использовать теорему
2, предварительно аппроксимировав исходную задачу задачами с сильно выпуклыми функционалами цели go(u) + ек||u||2 ^ min, u € D0r, ек > 0, ек ^ 0, к ^ ж, решая затем на основе алгоритма теоремы 2 каждую аппроксимирующую задачу с одновременным согласованием параметров регуляризации ек и ак (подробности см., например, в [2,6]).
Список литературы
1. Васильев Ф.П. Методы оптимизации. М.: Факториал Пресс, 2002. 824 с.
2. Сумин М.И. Некорректные задачи и методы их решения. Материалы к лекциям для студентов старших курсов: Учебное пособие. Нижний Новгород: Изд-во Нижегородского госуниверситета, 2009. 289 с.
3. Сумин М.И. Параметрическая двойственная регуляризация для задачи оптимального управления с поточечными фазовыми ограничениями // Журн. вычисл. матем. и матем. физ. 2009. Т. 49. № 12. С. 2083-2102.
4. Сумин М.И. Параметрическая двойственная регуляризация и теорема Куна-Таккера // Вестник Тамбов-
ского университета. Сер.: Естественные и технические науки. 2011. Т. 16. Вып. 1. С. 77-89.
5. Сумин М.И. Регуляризованная параметрическая теорема Куна-Таккера в гильбертовом пространстве // Журн. вычисл. матем. и матем. физ. 2011. Т. 51. № 9. С. 1594-1615.
6. Сумин М.И. Регуляризация в линейно выпуклой задаче математического программирования на основе теории двойственности // Журн. вычисл. матем. и матем. физ. 2007. Т. 47. № 4. С. 602-625.
Поступила в редакцию 15.02.2012
M. I. Sumin
Regularized sequential Pontryagin maximum principle in the convex optimal control with pointwise state constraints
Pontryagin maximum principle in regularized sequential form for the convex optimal control with pointwise state constraints is discussed.
Keywords: convex optimal control, minimizing sequence, maximum principle, pointwise state constraints, duality, regularization.
Mathematical Subject Classifications: 49K15, 49M05
Сумин Михаил Иосифович, д.ф.-м.н., профессор, заведующий кафедрой теории функций, Нижегородский государственный университет им. Н. И. Лобачевского, 603950, Россия, г. Нижний Новгород, пр. Гагарина, 23. E-mail: [email protected]
Sumin Mikhail Iosifovich, Doctor of Physics and Mathematics, Professor, Head of the Department of Function Theory, Nizhni Novgorod State University, pr. Gagarina, 23, Nizhni Novgorod, 603950, Russia