Задачи и методы неподвижных точек принципа максимума

Булдаев Александр Сергеевич

Серия «Математика»

2015. Т. 14. С. 31—41

Онлайн-доступ к журналу: http://isu.ru/izvestia

УДК 518.517

Задачи и методы неподвижных точек принципа максимума *

А. С. Булдаев

Бурятский государственный университет

Аннотация. Необходимые условия оптимальности в задачах оптимального управления в форме принципа максимума рассматриваются как специальные задачи о неподвижных точках конструируемых операторов управления. На основе предлагаемого подхода строятся методы поиска управлений, удовлетворяющих принципу максимума.

Ключевые слова: принцип максимума, задача о неподвижной точке, метод последовательных приближений.

Распространенным подходом к решению задач оптимального управления является поиск экстремальных управлений (удовлетворяющих принципу максимума). При этом классический подход заключается в реализации краевой задачи принципа максимума, трудности решения которой хорошо известны [1]. Другой подход состоит в последовательном решении задач локального улучшения, в результате которого строится релаксационная последовательность управлений, сходящаяся при определенных условиях к экстремальному управлению [2], [3]. К этому типу относятся, например, известные градиентные методы [2]. В статье предлагается новый подход к поиску экстремальных управлений, заключающийся в поиске неподвижных точек специальных операторов в пространстве управлений. Рассматриваемые методы иллюстрируются в рамках задачи оптимального управления со свободным правым концом.

1. Введение

* Работа выполнена в рамках госзадания, проект №3808, и при финансовой поддержке РФФИ, проект 15-01-03680-а

2. Задачи о неподвижной точке принципа максимума

Рассматривается задача оптимального управления

где х(Ь) = (хг(Ь),... ,хп(Ь)) — вектор состояния, и = (иг(Ь),... ,ит(Ь)) — вектор управления. В качестве допустимых управлений рассматривается множество V кусочно-непрерывных на Т векторных функций со значениями в выпуклом компактном множестве и С Ят. Начальное состояние х0 и промежуток управления Т заданы.

Предполагаются выполненными следующие условия:

1) функция ^(х) непрерывно-дифференцируема на Кп, вектор-функции ¥(х, и, Ь), f (х, и, Ь) и их производные ¥х(х,и,Ь),¥и(х, и, Ь),¡х(х, и, Ь), ¡и(х, и, Ь) непрерывны по совокупности аргументов (х, и, Ь) на множестве Кп х и х Т;

2) функция f (х, и, Ь) удовлетворяет условию Липшица по х в Кп х и х Т с константой Ь > 0

Условия гарантируют существование и единственность решения х(Ь,ь), Ь € Т системы (2.2) для любого допустимого управления V € V. Рассмотрим функцию Понтрягина с сопряженной переменной ф €

Для допустимого управления V € V обозначим через ф(Ь,ю), Ь € Т решение стандартной сопряженной системы:

ip(t) = -Hx(^(t),x(t),u(t),t), t е T, ф(Ь) = -<px(x(ti))

при u(t) = v(t), x(t) = x(t,v). Рассмотрим отображение

u*(^,x,t) = argmaxH(ф,x,w,t), ф е Rn,x е Rn,t е T. (2.3)

Предположим, что данное отображение является кусочно-непрерывным по совокупности своих аргументов на Кп х Кп х Т, т.е. имеет конечное число поверхностей разрыва. Каждая поверхность разрыва задается уравнением вида з(ф,х,Ь) = 0, где з(ф,х,Ь) дифференцируема по совокупности аргументов ф, х и непрерывна по Ь на множестве Кп х Кп х Т. Допустим, что в рассматриваемом классе задач операция на максимум (2.3) допускает аналитическое решение, т. е. управление

x(t) = f (x(t),u(t),t), x(to) = x0,t е T = [to,ti], (2.2)

\\f (x,u,t) — f (v,u,t)\\ <L\\x — y\\.

Rn

H (ф,x,u,t) = (f (x,u,t),ф) — F (x,u,t).

weü

ик(ф,х,г) представляется в явном виде по соответствующей формуле. Известное необходимое условие оптимальности (принцип максимума) [1] - [3] для управления V € V с помощью отображения (2.3) можно представить в следующей форме

v(t) = ик(ф(г^),х(г^),г), г € т. (2.4)

Краевая задача принципа максимума имеет вид

х(г) = /(х(г),ик(ф(г),х(г),г),г), х(го) = х0, (2.5)

ф(г) = -их(ф(г),х(г),ик (ф(г),х(г),г),г), ф(и) = -<Рх(х(Ь)). (2.6)

Краевая задача (2.5),(2.6) в пространстве состояний является эквивалентной задаче (2.4) на множестве допустимых управлений в следующем смысле.

Пусть пара (х(г),ф(г)), г € Т является решением краевой задачи (2.5)-(2.6). Тогда формируемое по правилу (2.3) выходное управление v(t) = ик(ф(г),х(г),г), г € Т удовлетворяет условию (2.4). Обратно, пусть управление V € V является решением задачи (2.4). Тогда формируемая пара функций (х(г^),ф(г^)), г € Т, удовлетворяет краевой задаче (2.5),(2.6).

В общем случае правые части краевой задачи разрывны и многозначны по фазовым переменным х, ф. Стандартные методы для ее численного решения (метод стрельбы, метод линеаризации, конечно-разностный метод) даже в случае гладкости и однозначности правых частей задачи, как правило, оказываются вычислительно неустойчивыми, что обусловливается наличием положительных вещественных значений собственных чисел соответствующей матрицы Якоби.

Используемая система обозначений решений фазовой и сопряженной систем в форме явной зависимости от управления позволяет рассматривать задачу (2.4) как задачу о неподвижной точке некоторого оператора управления

V = С\(V), V € V,

в которой оператор Ок можно определить в виде суперпозиции трех отображений.

Первое отображение Ф определяется с помощью соотношения

ф^) = ф, V € V, ф(г) = ф(г, V), г € т.

Второе отображение X определяется аналогичным соотношением

х(V) = х, V € V, х(г) = х(г^), г € т. Третье отображение Vк имеет вид

Vк(ф,x)=vк, ф € С(Т), х € С(Т), vк(t)=uк(ф(t),x(t),t), г € т.

В итоге оператор С\ записывается в виде композиции

а\ (V) = V *(ъ^),х(у)),

поточечная задача о неподвижной точке (2.4) представляется в следующей операторной форме

V = V*(Ъ(v),X(v)), V € V. (2.7)

Сконструируем другие задачи о неподвижной точке, эквивалентные краевой задаче принципа максимума (2.5),(2.6).

Определим отображение X* следующим соотношением

X*(ф) = х, ф € С(Т), х € С(Т),

в котором х(Ь), Ь € Т является решением специальной фазовой задачи Коши

х(Ь) = f(х(г),и*(ф(г),х(г),г),г), х(Ьо) = х0. Рассмотрим задачу о неподвижной точке

V = ^(Ъ^),х*(Ъ^))), V € V. (2.8)

Покажем, что задача (2.8) эквивалентна задаче (2.7). Действительно, пусть V € V удовлетворяет условию (2.7). Тогда

х (V) = х (V* (ъ^),х^))) = х*(ъ^)).

Следовательно,

^(ъ^),х* (■&№)) = у*(ъ&),х№) = V,

т.е. V удовлетворяет задаче (2.8).

Обратно, пусть V € V удовлетворяет условию (2.8). Тогда

х (V) = х (У*(Ъ&),х* (Ъ^)))) = х*(Ъ^)).

Следовательно,

V * (Ъ^) ,х (V)) = ^(Ъ^),х* (■&№)) = V,

т.е. V удовлетворяет задаче (2.7).

В поточечной форме задачу (2.8) корректно можно записать в виде

v(t) = и*(ф(Ь, v),x(t, V* (Ъ^),х*(ЪШ),Ь), Ь € Т.

Определим оператор управления С2, как суперпозицию отображений по формуле

С*2(и) = V* (Ъ^),х*(Ъ^))).

Тогда задачу о неподвижной точке (2.8) можно представить в канонической форме

V = Ок2(V), V € V.

Еще одну задачу о неподвижной точке, эквивалентную краевой задаче принципа максимума, получаем на основе следующего отображения

Фк(х) = ф, х € С(Т), ф € С(Т),

в котором ф(г), г € Т является решением специальной сопряженной задачи Коши

ф(г) = -их(ф(г),х(г),ик (ф(г),х(г),г),г), ф(и) = -^Х(х(г{)).

Рассмотрим задачу о неподвижной точке

V = Vk(Фk(X(V)),х(V)), V € V. (2.9)

Аналогично приведенному выше рассуждению легко показывается эквивалентность задач (2.9) и (2.7).

В поточечной форме задача (2.9) записывается в виде

v(t) = ик(ф(г, Vк(Фк(х(V)),хш,х(г, v)),t), г € Т.

Определим оператор управления Ок соотношением

О^) = Vк (Фк(х (V)),х(V)).

Тогда задача о неподвижной точке (2.9) представляется в канонической форме

V = О3(V), V € V.

3. Методы неподвижных точек принципа максимума

Рассмотрим оператор О : V V, действующий на множестве V в полном нормированном пространстве функций, определенных на множестве Т со значениями в множестве и С. Кт, с нормой ||-||у. Для решения задачи о неподвижной точке

V = О(V), V € V, (3.1)

можно использовать известный в вычислительной математике метод последовательных приближений и его модификации [5]. В частности, можно применить явный метод простой итерации при к > 0, имеющий форму

vk+l = О^к), V0 € V. (3.2)

Для улучшения сходимости итерационного процесса задачу (3.1) можно преобразовать к эквивалентной задаче о неподвижной точке с параметром 5=0

V = V + 5(V - О(V)), V € V, на основе которой получаем модификацию итерационного процесса vk+l = vk + 5^к - О^к)), V0 € V.

Выбирая достаточно малый параметр 5=0, можно регулировать сходимость рассматриваемой модификации метода простой итерации.

Первой задаче о неподвижной точке в форме (2.4) соответствует метод простой итерации при к > 0 в поточечной форме

Vk+1(t) = ик(ф(г^к),х(г^к),г), г € Т, V0 € V. (3.3)

В операторной форме итерационный процесс (3.3) в соответствии с задачей (2.7) записывается в виде

vk+1 = Vк(Ф^к),х^к)), V0 € V.

Вторая задача о неподвижной точке в форме (2.8) порождает метод простой итерации

vk+1 = Vк(ф^к),хк(Ф^к))), V0 € V.

В силу определения отображения хк выполняется соотношение

хк (Ф(V)) = х ^к(Ф^),хк (Ф(V)))).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Следовательно, в соответствии с итерационным процессом получаем

хк(Ф^к)) = х (Тк(Ф^к ),хк(Ф(ик)))) = х (ик+1).

Таким образом, в поточечной форме метод простой итерации для задачи (2.8) представляется в следующем виде

vk+1(t)= ик(ф(г^к),х(г^к+1 ),г), г € Т, V0 € V. (3.4)

Для третьей задачи о неподвижной точке (2.9) рассматривается итерационный процесс

vk+1 = vк(Фк(XV)),х(ик)), V0 € V.

Из определения отображения Фк следует выполнение равенства Фк(х (V)) = Ф^к(Фк(х (V)),х(V))).

Отсюда получаем

Фк(х V)) = Ф^к(Фк(х V )),х(ик))) = Ф(ик+1).

В итоге, итерационный процесс метода простой итерации в поточечной форме для задачи (2.9) принимает следующий вид

vk+l(t)= u(ф(t,vk+i),x(t,vk),t), t е T, v0 е F. (3.5)

Для анализа сходимости рассматриваемых итерационных процессов (3.3) - (3.5) к решениям задач о неподвижной точке можно применить известный в вычислительной математике метод возмущений.

Метод возмущений основывается на введении параметра возмущения в исследуемую задачу так, чтобы при некотором значении параметра задача, называемая невозмущенной, имела относительно простое или очевидное решение. Как правило, невозмущенная задача соответствует нулевому значению параметра возмущения. Для решения возмущенных задач при фиксированном ненулевом значении параметра возмущения строятся итерационные алгоритмы, на каждой итерации которых решается задача, аналогичная по сложности невозмущенной задаче. При этом, в качестве начального приближения итерационного процесса, используется решение возмущенной задачи, полученное при меньшем значении параметра возмущения.

Проиллюстрируем этот метод на примере задачи о неподвижной точке (2.4).

Параметризуем задачу (2.4) с помощью параметра возмущения е е [0,1] следующим образом.

Для этого выделим в задаче (2.1), (2.2) специальную линейную по состоянию часть с разделенными переменными по состоянию и управлению, в форме

Ф(у,) = (c,x(ti)) + pi(x(ti))+

+ ((a(t),x(t)} + d(u(t),t) + Fi(x(t),u(t),t))dt ^ min, (3.6) JT u€V

x(t) = A(t)x(t) + b(u(t),t) + fi(x(t),u(t),t),

x(to) = x0, u(t) е U,t е T, (3.7)

в которой функции A(t), a(t), b(u,t), d(u,t), ^l(x), Fl(x,u,t), fl(x,u,t) и их частные производные по состоянию и управлению являются непрерывными по совокупности своих аргументов, c - постоянный вектор.

На основе представления (3.6), (3.7) определим возмущенную задачу оптимального управления с параметром возмущения е е [0, 1]

Фе (u) = (c,x(ti)} + epi(x(ti)) + + ((a(t),x(t)} + d(u(t),t) + eFi(x(t),u(t),t))dt ^ min, (3.8)

JT u£V

x(t) = A(t)x(t) + b(u(t),t)+ efi(x(t),u(t),t),

x(to) = x0, u(t) е U,t е T. (3.9)

Задаче (3.8), (3.9) соответствует возмущенная функция Понтрягина Н£(ф, x, u, t) = (ф, A(t)x + b(u, t)) — (a(t),x) — d(u, t)+

+e((^,fi (x,u,t)) — Fi(x, u, t)), возмущенное отображение

u*ty,x,t) = arg max H£^,x,w,t), ф £ Rn, x £ Rn, t £ T, и возмущенная сопряженная система

ф(t) = —AT (t^(t) + a(t) — efx (x(t),u(t),t^(t) — Flx(x(t),u(t),t)), ф(Ь) = —c — e<pix(x(ti)), t £ T. (3.10)

Для допустимого управления v обозначим xe(t,v), t £ T — решение возмущенной фазовой системы (3.9) при u(t) = v(t); ф£(t,v), t £ T — решение возмущенной сопряженной системы (3.10) при u(t) = v(t), x(t) = x£(t, v).

Задача о неподвижной точке в возмущенной задаче (3.8), (3.9) при e £ (0,1], имеющая вид:

v(t) = (t, v),x£(t, v),t), t £ T, (3.11)

рассматривается в качестве возмущенной задачи о неподвижной точке.

Исходной задаче о неподвижной точке (2.4) соответствует возмущенная задача (3.11) при e = 1.

Невозмущенная задача о неподвижной точке получается из возмущенной при e = 0. Невозмущенная задача оптимального управления

$o(u) = (c, x(ti)) + ((a(t),x(t)) + d(u(t),t))dt ^ min, (3.12) Jt u€V

x(t) = A(t)x(t) + b(u(t),t) x(to) = x0, u(t) £ U,t £ T, (3.13) невозмущенная функция Понтрягина

Н0(ф, x, u, t) = (ф, A(t)x + b(u, t)) — (a(t),x) — d(u, t),

невозмущенное отображение

uQ^,x,t) = arg max H0^,x,w,t), ф £ Rn, x £ Rn, t £ T, и невозмущенная сопряженная система

ф(Ь) = —AT(t^(t) + a(t), ф(Ь) = —c, t £ T (3.14)

получаются из соответствующих возмущенных при e = 0.

Для допустимого управления V обозначим хо(Ь,и), Ь € Т — решение невозмущенной фазовой системы (3.13) при и(Ь) = v(t); ф0(Ь), Ь € Т — решение невозмущенной сопряженной системы (3.14). Таким образом, невозмущенная задача о неподвижной точке принимает вид

v(t)= и*(фо(Ь),хо(Ь^),Ь), Ь € Т. (3.15)

Отметим, что сконструированная задача (3.12), (3.13) является линейно-выпуклой, для которой принцип максимума (3.15) является необходимым и достаточным условием оптимальности управления [2].

Трудоемкость решения невозмущенной задачи (3.15) определяется решением задачи Коши для сопряженной системы (3.14) и решением задачи Коши для фазовой системы

х(Ь) = А(Ь)х(Ь) + Ь(и0(фо(Ь),х(Ь),Ь),Ь), х(Ьо) = х0,Ь € Т.

Для решения возмущенной задачи о неподвижной точке (3.11) можно применить метод простой итерации при к > 0

vk+1(t) = и*(фе(Ь, V1"),хе(Ь, ),Ь), Ь € Т. (3.16)

В качестве начального приближения V0 € V итерационного процесса (3.16) при к = 0 может выбираться решение невозмущенной задачи (3.15).

Трудоемкость каждой итерации (3.16) составляет две задачи Коши аналогично трудоемкости решения невозмущенной задачи (3.15).

Условия сходимости метода простой итерации (3.16) для возмущенной задачи о неподвижной точке (3.11) могут быть определены на основе известного принципа сжимающих отображений.

Сформулируем аналог теоремы [5] о сходимости метода последовательных приближений (3.2) к решению канонической задачи (3.1).

Теорема 1. Пусть оператор О удовлетворяет условию Липшица в шаре В(V0,1) = {V € V : 11V — v0\\v < € V, I > 0} с константой 0 <М = М(ио,1) < 1:

\\О(V) — О(и)\V < М\\V — и\V, V € В^о,1), и € В(Vо,1), (3.17) причем выполняется условие

\№о) — vо\\v < (1 — м)1. (3.18)

Тогда задача (3.1) имеет единственное решение V € В(V0,1) и метод простой итерации (3.2) сходится к V в норме \\-\v при любом начальном приближении V0 € В(V0,1). Для погрешности метода справедлива оценка \^к — V\\v < Мк— V\\v, к > 0.

Доказательство теоремы полностью аналогично доказательству, приведенному в работе [5].

Отметим, что условие (3.18) вводится для обеспечения невыхода приближений итерационного процесса (3.2) за пределы множества В(ио,1), на котором выполняется условие Липшица (3.17). Используя данную теорему, можно при определенных предположениях обосновать сходимость итерационного процесса (3.16) к решению воэмущенной задачи (3.11) в пространстве измеримых функций Ь^(Т) при достаточно малых значениях параметра возмущения е > 0 аналогично [4].

Расчет возмущенных задач о неподвижной точке повторяется с постепенным увеличением параметра возмущения е € (0,1]. При этом в качестве начального приближения итерационного процесса выбирается расчетное управление, полученное в возмущенной задаче с меньшим значением е. Дойдя до значения е = 1, получим решение исходной задачи.

В качестве сравнения отметим, что метод (3.3) совпадает с простейшим методом последовательных приближений [6].

Модификация простейшего метода последовательных приближений (алгоритм М1) [6] в задаче (2.1), (2.2) с ^(х) = (е,х) соответствует итерационному процессу (3.16) в возмущенной задаче оптимального управления (3.8), (3.9) при простейшей аппроксимации вида А(Ь) = 0, Ь(и,Ь) = 0, а(Ь) = 0, = 0.

Итерационные процессы вида (3.4) и (3.5) для расчета экстремальных управлений не имеют известных аналогов.

4. Заключение

Предлагаемые методы неподвижных точек принципа максимума выгодно характеризуются:

- отсутствием операции выпуклого или игольчатого варьирования управления в отличие от градиентных методов;

- вычислительной устойчивостью в отличие от методов решения краевой задачи принципа максимума.

Методы неподвижных точек не гарантируют релаксацию по целевому функционалу на каждой итерации. Компенсацией свойства релаксации является отсутствие трудоемкой операции локального варьирования управления на каждой итерации и получение приемлемых на практике расчетных управлений, не содержащих участков частых амплитудных изменений управления.

К преимуществам предлагаемых методов относится также простая настройка сходимости, регулируемая выбором параметра возмущения.

Указанные свойства являются существенными факторами повышения вычислительной эффективности и качества решения задач оптимального управления.

Список литературы

1. Математическая теория оптимальных процессов / Л. С. Понтрягин, В. Г. Болтянский, Р. В. Гамкрелидзе, Е. Ф. Мищенко. - М. : Наука, 1976. - 392 с.

2. Васильев О. В. Лекции по методам оптимизации / О. В. Васильев. — Иркутск : Изд-во Иркут. ун-та, 1994. - 344 с.

3. Методы решения задач математического программирования и оптимального управления. - Новосибирск : Наука, 1984. - 232 с.

4. Самарский А. А., Гулин А. В. Численные методы / А. А. Самарский, А. В. Гулин. - М. : Наука, 1989. - 432 с.

5. Булдаев А. С. Методы возмущений в задачах улучшения и оптимизации управляемых систем / А. С. Булдаев. - Улан-Удэ: Изд-во Бурят. гос. ун-та, 2008. - 260 с.

6. Черноусько Ф. Л. Оценивание фазового состояния динамических систем / Ф. Л. Черноусько. - М. : Наука, 1988. - 319 с.

Булдаев Александр Сергеевич, доктор физико-математических наук, профессор, Бурятский государственный университет, 670000, Улан-Удэ, ул. Смолина, 24а (e-mail: [email protected])

A. S. Buldaev

Problems and Methods of the Fixed Points of the Maximum Principle

Abstract. Necessary optimality conditions for optimal control problems in the form of the maximum principle are represented as a special problem of the fixed points of the constructed control operators. On the basis of the proposed approach are considered methods of searching controls, satisfying the maximum principle.

Keywords: maximum principle, fixed point problem, method of successive approximations.

References

1. Pontrjagin L.S., Boltjanskij V.G., Gamkrelidze R.V., Mishhenko E.F. Matematicheskaja teorija optimal'nyh processov. M., Nauka, 1976, 392 p.

2. Vasil'ev O.V. Lekcii po metodam optimizacii.Irkutsk, Izd-vo Irkut. un-ta, 1994. 344 p.

3. Metody reshenija zadach matematicheskogo programmirovanija i optimal'nogo upravlenija. Novosibirsk, Nauka, 1984. 232 p.

4. Samarskij A.A., Gulin A.V. Chislennye metody. M., Nauka, 1989. 432 p.

5. Buldaev A.S. Metody vozmushhenij v zadachah uluchshenija i optimizacii upravljaemyh sistem. Ulan-Ude, Izd-vo Burjatsk. gos. un-ta, 2008. 260 p.

6. Chernousko F.L. Ocenivanie fazovogo sostoyanija dinamicheskih sistem. M., Nauka, 1988. 319 p.

Buldaev Aleksandr Sergeevich, Doctor of Sciences (Physics and Mathematics), Professor, Buryat State University, 24a, Smolina st., Ulan-Ude, 670000 (e-mail: [email protected])

Задачи и методы неподвижных точек принципа максимума Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Булдаев Александр Сергеевич

Похожие темы научных работ по математике , автор научной работы — Булдаев Александр Сергеевич

Problems and Methods of the Fixed Points of the Maximum Principle

Текст научной работы на тему «Задачи и методы неподвижных точек принципа максимума»