3. Управляемые системы и методы оптимизации
УДК 517.977
©А.С. Булдаев
МЕТОДЫ НЕПОДВИЖНЫХ ТОЧЕК ПРИНЦИПА МАКСИМУМА1
Необходимые условия оптимальности в задачах оптимального управления в форме принципа максимума представляются как специальные задачи о неподвижных точках конструируемых операторов управления. На основе предлагаемого подхода рассматриваются методы поиска управлений, удовлетворяющих принципу максимума.
Ключевые слова: оптимальное управление, принцип максимума, задача о неподвижной точке.
©A.S. Buldaev
METHODS OF FIXED POINTS OF MAXIMUM PRINCIPLE
Necessary optimality conditions for optimal control problems in the form of the maximum principle are represented as a special problem of the fixed points of the constructed control operators. On the basis of the proposed approach are considered methods of searching controls, satisfying the maximum principle.
Keywords: optimal control, maximum principle, fixed point problem
Введение
Распространенным подходом к решению задач оптимального управления является поиск экстремальных управлений (удовлетворяющих принципу максимума). При этом классический подход заключается в построении краевой задачи принципа максимума, трудности решения которой общеизвестны [1]. Другой подход состоит в последовательном решении задач локального улучшения, в результате которого строится релаксационная последовательность управлений, сходящаяся при определенных условиях к экстремальному управлению [2,3]. К этому типу относятся, например, известные градиентные методы [2]. В статье предлагается новый подход к поиску экстремальных управлений, заключающийся в поиске неподвижных точек специальных операторов в пространстве управлений. Рассматриваемые методы иллюстрируются в рамках задачи оптимального управления со свободным правым концом.
1 Работа выполнена при финансовой поддержке РФФИ при финансовой поддержке РФФИ, проект № 15-01-03680
1. Задачи о неподвижной точке принципа максимума
Рассматривается задача оптимального управления
ф(и) = (p(x(tx)) + \ F(x(t),u(t),t)dt —»min, (1)
JT ueV
x(t) = f(x(t),u(t),t), x(t0) = x°, u(t) e U, teT=[t0,tl],(2)
в которой x(t) = (xl(t),...,xn(t)) - вектор состояния, u{t) = {u.i{t),...,um{t)) - вектор управления. В качестве допустимых управлений рассматривается множество V кусочно-непрерывных на Т функций со значениями в выпуклом компактном множестве U с R'". Начальное состояние х° и промежуток управления Т заданы.
Предполагаются выполненными следующие условия:
1) функция (р(х) непрерывно-дифференцируема на R", функция F(x,u,t), векторная функция f(x,u,t) и их производные Fx(x,u,t), Fu(x,u,t), fx(x,u,t), fu(x,u,t) непрерывны по совокупности аргументов (x,u,t) на множестве R" xU хТ ;
2) функция f(x,u,t) удовлетворяет условию Липшица по х в R" xU хТ с константой L > О
\\f(x,u,t)-f(y,u,t)\\<L\\x-y\\.
Условия гарантируют существование и единственность решения x(t,v), te. Т системы (2) для любого допустимого управления v e V .
Рассмотрим функцию Понтрягина с сопряженной переменной у/ eRn H(y/,x,u,t) = (f(x,u,t),y/)-F(x,u,t).
Для допустимого управления veV обозначим i//(V.v). teT - решение стандартной сопряженной системы
y(t) = -Hx(yf(t),x(t)Mt),t), w(0 = -<рЛх(0)
при u(t) = v(t), x(t) = x(t,v), teT .
Рассмотрим отображение
u*(y/,x,t) = argmaxH(y/,x,w,t), y/ e R", xeR", teT . (3)
Предположим, что данное отображение является кусочно-непрерывным по совокупности своих аргументов на R" х R" хТ, т.е. имеет конечное число поверхностей разрыва. Каждая поверхность разрыва задается уравнением вида s(y/,x,t) = 0, где s(y/,x,t) дифференцируема по совокупности аргументов у/, х и непрерывна по t на множестве
R" х R" хТ. Допустим, что в рассматриваемом классе задач операция на максимум (3) допускает аналитическое решение, т.е. управление u*{\f/,x,t) представляется в явном виде по соответствующей формуле.
Известное необходимое условие оптимальности (принцип максимума) [1-3] для управления veV можно представить в следующей форме
v(t) = u(W(t,v),x(t,v),t), teT. (4)
Краевая задача принципа максимума имеет вид
x(t) = f(x(t),u(y/(t),x(t),t),t), x(t0) = x°, (5)
Y(t) = -Hx(y/(t)Mt)y(w(0,x(t)j\t)MO = -(pAx(O) ■ (6)
Краевая задача (5), (6) в пространстве состояний является эквивалентной задаче (4) на множестве допустимых управлений в следующем смысле.
Пусть пара (x(t),y/(t)). i е Т является решением краевой задачи (5),(6). Тогда формируемое по правилу (3) выходное управление v(t) = u*(y/(t),x(t),t) удовлетворяет условию (4). Обратно, пусть управление veV является решением задачи (4). Тогда формируемая пара функций (x(t,v),y/(t,v)), i е Т удовлетворяет краевой задаче (5),(6).
В общем случае правые части краевой задачи разрывны и многозначны по фазовым переменным х, у/ . Стандартные методы для ее численного решения (метод стрельбы, метод линеаризации, конечно-разностный метод) даже в случае гладкости и однозначности правых частей задачи, как правило, оказываются вычислительно неустойчивыми, что обусловливается наличием положительных вещественных значений собственных чисел соответствующей матрицы Якоби.
Используемая система обозначений решений фазовой и сопряженной систем в форме явной зависимости от управления позволяет удобно интерпретировать задачу (4) как задачу о неподвижной точке некоторого оператора управления. Представим задачу о неподвижной точке (4) в канонической форме
v = G*(v), veV, (7)
в которой оператор G* можно определить в виде суперпозиции трех отображений.
Первое отображение *-F определяется с помощью соотношения 4>(v) = ¥,veV, ¥(t) = ¥(t,v),teT.
Второе отображение X определяется аналогичным соотношением X(v) = х, vе V, х(0 = x(t,v), t <еТ .
Третье отображение V* имеет вид
V(w,x)=v, yseC(T), х е С(Т), v(t) = u(¥(t),x(t),t), teT.
В итоге оператор G* записывается в виде композиции
G» = r Ci>(v),X(v)).
Из принципа максимума (4) следует известное ослабленное необходимое условие оптимальности (дифференциальный принцип максимума) [1,2] для управления v е V, рассматриваемое здесь в форме неравенства {Hu{W{t,v\x{t,v),v{t\t\yv-v{t))<Q, w eU, teT. (8)
Определим отображение wa , а > 0 с помощью соотношения
м>а(ц/,х,и,г) = Ри(и +аНи(ц/,х,и,г)), у/ е Я", х е Я", и е V, t е Т, (9) где Ри - оператор проектирования на множество II в евклидовой норме.
На основании условия Липшица для оператора Ри функция ч>а непрерывна по совокупности (1//,х,и^) е Я" х Я" хи хТ . При этом имеет место неравенство
/ \ 1 н II2
(Ни(\у,х,иX,и¿)-и)>—\М1ах,и.
\ 'а11 11
Данная оценка определяется свойствами операции проектирования. Дифференциальный принцип максимума (8) для управления V е V с помощью отображения (9) можно представить в следующей форме
у(0 = ^(у/(^),х(^),у(0,0, ГеТ,а> 0. (10)
Отметим, что для выполнения (8) достаточно проверить условие (10) хотя бы для одного а > 0. Обратно, из условия (8) следует выполнение (10) для всех а > 0 .
В линейной по управлению задаче (1), (2) (функции /(х,м,^), 1< (х.и.1) линейны по а) дифференциальный принцип максимума (10) эквивалентен принципу максимума (4).
Условие (10) можно интерпретировать как задачу о неподвижной точке соответствующего оператора управления
у = Оа(у), уеУ. (11)
Введем вспомогательное отображение Vх соотношением
УЦу,,х,у)=у\ ¥еС(Т), х е С(Т), уеУ,
уа(0 = м>а(у,(0,х(0А0,0, (еТ. Тогда с помощью рассмотренных ранее отображений Ч^, X и введенного отображения Vх оператор Са записывается в виде суперпозиции Са(у) = Уа0¥(у),Х(у),у), уеУ.
2. Метод неподвижных точек принципа максимума
Для реализации задачи о неподвижной точке (4) предлагается использовать метод возмущений. Параметризуем условие принципа максимума (4) с помощью параметра возмущения £ е [0,1] следующим образом.
Для этого выделим в задаче (1), (2) специальную линейную по состоянию часть с разделенными переменными по состоянию и управлению, в следующей форме
Ф (и) = {с0,х(О} + (РМО) +
* ' ие¥
х(0 = Ао(0х(0 + Ь0(и(ф) + £(х(0,и(0Л *('о) = х° >
и(()еи, (еТ = (13)
в которой матричная функция A^{t) и векторная функция a0(t) непрерывны на Т, векторная функция b0(u,t) и функция d0(u,t) непрерывны по совокупности переменных и , t на множестве U хТ, с0 - постоянный вектор.
На основе представления (12), (13) определим возмущенную задачу оптимального управления с параметром возмущения s е [0,1]
+ i ((а0(t), x(t)) + d0 (u(t), t) + sFx (x(t), u(t), t))dt —» min, (14)
JT ^ ' ueV
x(t) = \(t)x(t) + b0(u(t),t) + sfl(x(t),u(t)J), x(t0) = x°,
u(t)eU, ter = [t0,t1]. (15)
Задаче (14), (15) соответствует возмущенная функция Понтрягина H s (у/, x,u,t) = {y/,A0(t)x + b0(u,t))-{a0(t),x)-d0(u,t) +
возмущенное отображение
u*s(y/,x,t) = argmaxHs(y/,x,w,t), i¡/eRn, xeR", teT
weU
и возмущенная сопряженная система
yho=-лг(оио+«о(о -е(/£мо,«(о,оу(о - ^(*(о,«(о,о),
W(t1) = -c0-s(plx(x(t1)), teT. (16)
Обозначим xs(t,v), teT - решение возмущенной фазовой системы (15) при u(t)=v(t); I//,.(/.v). teT - решение возмущенной сопряженной системы (16) при u(t) =v(t), x(t) = xs(t,v).
Условие принципа максимума для возмущенной задачи (14), (15)
v{t) = us{Ws{t,v),xs{t,v),t), teT (17)
определим в качестве возмущенного условия принципа максимума с параметром s е [0,1].
Исходная задача в форме (12), (13) и соответствующие функция Понтрягина H , отображение и*, сопряженная система и условие принципа максимума (4) получаются, последовательно, из возмущенной задачи (14), (15), возмущенной функции Понтрягина Hе, возмущенного отображения
и*, возмущенной сопряженной системы (16) и возмущенного условия (17) при s = 1.
Невозмущенному условию принципа максимума при s = 0 соответствует невозмущенная задача оптимального управления
Ф0(м) = (с0,х(^))+ [ ((а0 (t),x(t)} + d0(u(t),t))dt^> min, (18)
х ' J1 ^ ' ueV
x(t) = A0(t)x(t) + b0(u(t),t), x(t0) = x°, teT = [t0,tl] (19) с невозмущенной функцией Понтрягина
40
Н0(у/,x,u,t) = (y/,A0(t)x + b0(u,t)]- (а0(t),х) -d0(u,t), невозмущенным отображением
u*(y/,x,t) = argmaxH0(y/,x,w,t) , i¡/eRn, хей", teT,
weU
невозмущенной сопряженной системой
VKO = "АГ(Ov (О + «о(0, teT, р(О = -с0. (20)
Для veV обозначим x0(t,v), teT - решение невозмущенной фазовой системы (19), y70(t), teT - решение невозмущенной сопряженной системы (20). Таким образом, невозмущенное условие принципа максимума принимает вид
v(t) = u*0(y70(t),x0(t,v),t), teT. (21)
Невозмущенные задача оптимального управления, фазовая и сопряженная системы, функция Понтрягина Н0, отображение и* получаются из соответствующих возмущенных при s = 0 .
Отметим, что невозмущенная задача (18), (19) является линейно-выпуклой, для которой принцип максимума (21) является необходимым и достаточным условием оптимальности управления [2].
Трудоемкость решения невозмущенного соотношения (21) определяется решением задачи Коши для сопряженной системы (20) и решением задачи Коши для фазовой системы
x(t) = A0(t)x(t) + b0(u0(f0(t),x(t),t),t),x(t0) = x°, teT. (22)
Действительно, пусть x0(t), teT - решение задачи (22). Построим выходное управление v0 (t) = и * (у70 (t), х0 (t), t), teT . Тогда х0 (t) = х0 (t, v0 ), teT и, следовательно, v0 (t), teT является решением невозмущенного условия (21).
Возмущенное условие (17) можно рассматривать как задачу о неподвижной точке соответствующего оператора G*, определяемого аналогично рассмотренному выше оператору G*.
Для решения задачи (17) можно применить известный в вычислительной математике метод последовательных приближений и его модификации [5]. В частности, метод простой итерации при к > 0 , имеющий форму vk+l(t) = ue(We(t,vk\xe(t,vk\t), teT. (23)
В качестве начального приближения v° е V при к = 0 для процесса (23) может выбираться невозмущенное решение v0.
Трудоемкость каждой итерации процесса (23) составляет две задачи Коши аналогично трудоемкости решения невозмущенного условия (21).
Условия сходимости метода простой итерации для задач о неподвижной точке, рассматриваемых в канонических формах (7), (11), могут быть определены на основе известного принципа сжимающих отображений. Сформулируем аналог известной теоремы [5, с. 196-197].
Рассмотрим оператор С: V —> V, действующий на множестве V в полном нормированном пространстве функций, определенных на множестве Т со значениями в компактном множестве V с 11"', с нормой ||-|| .
Для решения операторного уравнения
у = С(У), уеУ (24)
рассматривается метод простой итерации
ук+1=С(ук), к> 0. (25)
Теорема 1. Пусть оператор О удовлетворяет условию Липшица в шаре 5(у0,/) = {уеК:||у-у0|| <1,у0 еУ,1>0] с константой 0 <М =М(у0,1) < 1:
р(у)-С(и)1<М\\у-и\1,уеВ(у0,1),иеВ(у0,1), (26) причем выполняется условие
\\С(у0)-У0\1<(1-М)1 . (27)
Тогда уравнение (24) имеет единственное решение V е В(у0,1) и метод простой итерации (25) сходится к V в норме Ц-Ц^ при любом начальном приближении V0 е В(у0,1) . Для погрешности метода справедлива оценка
к> 0.
Доказательство теоремы полностью аналогично доказательству, приведенному в работе [5].
Отметим, что условие (27) вводится для обеспечения невыхода приближений итерационного процесса (25) за пределы множества В(у0,1), на котором выполняется условие Липшица (26).
Используя данную теорему, можно при определенных предположениях обосновать сходимость итерационного процесса (23) в пространстве измеримых функций (У ) аналогично [4].
В качестве критерия остановки итерационного процесса (23) может задаваться достижение заданного малого значения невязки возмущенного принципа максимума (17).
Расчет задач о неподвижной точке возмущенного принципа максимума повторяется с постепенным увеличением параметра возмущения £ е (0,1] . При этом в качестве начального приближения итерационного процесса принимается управление, полученное в задаче (17) с меньшим значением £ . Дойдя до значения е = 1 получим решение исходной задачи.
3. Метод неподвижных точек дифференциального принципа максимума
Для реализации задачи о неподвижной точке (10) предлагается использовать метод простой итерации при к > 0
ук+\() = Ри(ук(()+аНи(у,((У),х((У)Ут)), (еТ. (28)
Сходимость процесса (28) можно обосновать с помощью сформулированной выше теоремы 1 на множестве допустимых управлений V = {v е С(Т): v(t) eU,t еТ} с равномерной нормой ||| .
Предположим, что на множестве V семейство фазовых траекторий системы (2) ограничено:
x(t,v)eX, teT, veV, (29)
где Icii" ■ выпуклое компактное множество. Тогда с учетом принятых предположений и линейности сопряженной системы на основе известного достаточного условия [6, с. 68] получаем условие ограниченности семейства сопряженных траекторий
Y(t,v)eP, teT, veV, (30)
где Р ей" - выпуклое компактное множество.
Дополнительно предположим, что функции f(x,u,t), F(x,u,t), <р(х) дважды непрерывно дифференцируемы по совокупности переменных х, и , t на множестве R" xU хТ .
В сделанных предположениях операторы X, Ч^ удовлетворяют условию Липшица с константой Сг > 0
||X(v)-X(w)||c <q||v-w||c, veV, ueV, ¡^(v) - ^(м)||с < Q ||v - u\c , veV, ueV .
На основании условия Липшица для оператора проектирования Ри имеем
II II2 и и2
Iwa (р,x,u,t) - wa (q,y,v,0| < II(и - v) + a(Hu(p, x,и, t) -Hu(q,y,v,0)|| <
< Iи - vf +2a(u- v,Hu (p,x,u,t)-Hu (q,y,v,t)) +
+<x2\\Hu(p,x,u,t)-Hu(q,y,v,t)f,
u,veU, p,qeP, x,yeX, teT. Предположим, что для вектор-функции Hu(y/,x,u,t) выполняется условие
(u-v,Hu(p,x,u,t)-Hu(q,y,v,t))<-K\\u-v\f, (31)
u,veU, p,qeP, x,yeX, teT,
где К = const > 0 .
В итоге, на основе (31) при достаточно малом а > 0 получаем оценку
Y<x{x¥{u),X{u),u)-Va{x¥{v),X{v),v)\c<{l-2aK + a2M)2\u-v\c,
где М = const > 0 .
Таким образом, в сделанных предположениях при достаточно малых а > 0 оператор Ga удовлетворяет условию Липшица с константой мень-
ше единицы. В результате на основе теоремы 1 получаем следующее утверждение о сходимости процесса (28). Теорема 2. Пусть
1) семейство фазовых траекторий в основной задаче (1), (2) ограничено: x(t,u)eX , / е 7. и е V . где X a R" - выпуклое компактное множество;
2) вектор-функция f(x,u,t), функции F(x,u,t), <р(х) дважды непрерывно дифференцируемы по совокупности переменных х, и , t на множестве R" xU хТ;
3) для вектор-функции Hu(y/,x,u,t) выполняется условие
{u-vMu(P,x,u,t)-Hu(q,y,v,t)) < -К\и -v||2, u,v<eU, p,q<EP, х,уеХ, t еТ,
где К = const > 0, Р ей" - выпуклое компактное множество, ограничивающее семейство сопряженных траекторий: y/(t,u) еР , t <еТ , и <eV . Тогда для достаточно малого параметра проектирования а > 0
1) задача (10) имеет единственное решение v" е V;
2) итерационный процесс (28) сходится в норме ||-|| к решению v" для
любого начального приближения v° е V .
Отметим, что рассматриваемый метод характеризуется тем, что экстремальное управление определяется условием (10) при любом значении проекционного параметра а > 0 .
Для сравнения предлагаемого метода последовательных приближений запишем в используемых обозначениях стандартный метод проекции градиента [2]
va(t) = wa(W(t,vk),x(t,vk),vk(t),t), teT, а >0: <D(va)<<D(/) => /+1=va. Основное отличие предлагаемого метода от стандартного проекционного метода и его модификаций [2, 6] состоит в том, что параметр проектирования а > 0 фиксируется в итерационном процессе поиска последовательных приближений управления. В методах проекции градиента этот параметр варьируется на каждой итерации для обеспечения улучшения текущего управления по функционалу.
Заключение
Предлагаемые методы неподвижных точек принципа максимума выгодно характеризуются:
- отсутствием операции выпуклого или игольчатого варьирования управления в отличие от градиентных методов;
- вычислительной устойчивостью в отличие от методов решения краевой задачи принципа максимума.
В отличие от градиентных методов, требующих трудоемкую настройку процедур локального варьирования управления, методы неподвижных точек:
- не гарантируют релаксацию по целевому функционалу на каждой итерации;.
- настройка сходимости методов неподвижных точек сводится к выбору только одного настроечного параметра.
Отсутствие операции локального варьирования управления также обуславливает на практике вычислений предлагаемыми методами получение реализуемых расчетных управлений, не содержащих участков резких амплитудных изменений управления.
Указанные свойства являются существенными факторами повышения вычислительной эффективности и качества решения задач оптимального управления.
Литература
1. Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. - М.: Наука, 1976. -392 с.
2. Васильев О.В. Лекции по методам оптимизации. - Иркутск: Изд-во Иркут. ун-та, 1994. - 344 с.
3. Методы решения задач математического программирования и оптимального управления. - Новосибирск: Наука, 1984. - 232 с.
4. Булдаев А.С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. - Улан-Удэ: Изд-во Бурятск. гос. ун-та, 2008. -260 с.
5. Самарский А.А., Гулин А.В. Численные методы. - М.: Наука, 1989. -432 с.
6. Срочко В.А. Итерационные методы решения задач оптимального управления. - М.: Физматлит, 2000. - 160 с.
References
1. Pontrjagin L.S., Boltjanskij V.G., Gamkrelidze R.V., Mishhenko E.F. Matematicheskajateorija optimal'nyh processov. - M.: Nauka, 1976. - 392 s.
2. Vasil'ev O.V. Lekcii po metodam optimizacii. - Irkutsk: Izd-vo Irkut. unta, 1994. - 344 s.
3. Metody reshenija zadach matematicheskogo programmirovanija i opti-mal'nogo upravlenija. - Novosibirsk: Nauka, 1984. - 232 s.
4. Buldaev A.S. Metody vozmushhenij v zadachah uluchshenija i optimizacii upravljaemyh sistem. - Ulan-Ude: Izd-vo Buijatsk. gos. un-ta, 2008. -260 s.
5. Samarskij A.A., Gulin A.V. Chislennye metody. - M.: Nauka, 1989. -432 s.
6. Srochko V.A. Iteracionnye metody reshenija zadach optimal'nogo uprav-lenija. - M.: Fizmatlit, 2000. - 160 s.
Булдаее Александр Сергеевич, д-р физ.-мат. наук, проф. каф. прикладной математики Бурятского государственного университета, директор Научно-образовательного инновационного центра системных исследований и автоматизации Бурятского государственного университета, e-mail: buldaev@mail. ru.
Buldaev Alexander Sergeevich, doctor of physical and mathematical sciences, professor of applied mathematics department of the Buryat State University, director of the Scientific and Educational Innovation Centre for System Studies and Automation in the Buryat State University, e-mail: buldaev@mail. ru.