Модификация метода проекций для улучшения нелинейных управлений

Булдаев А.С.; Моржин О.В.

УДК 517.977 ББК 22.16

Бурятский государственный университет, Улан-Удэ E-mail: [email protected], [email protected]

Модификация метода проекций для улучшения нелинейных управлений1

Предлагается метод нелокального улучшения управлений в нелинейных системах на основе операции проектирования на множество допустимых значений управления. Особенностью метода является возможность нелокального улучшения нелинейных управлений и управлений, удовлетворяющих принципу максимума. На основе метода получено новое необходимое условие оптимальности, дополняющее и усиливающее дифференциальный принцип максимума в рассматриваемом классе задач. Приводится иллюстрирующий пример строгого улучшения особого управления.

Ключевые слова: управление, условие улучшения, краевая задача, проекция.

Buryat State University, Ulan-Ude E-mail: [email protected], [email protected]

Modification of the method of projections for improving the nonlinear controls

A method for the nonlocal improvement of controls in nonlinear systems based on the operation of projection onto the set of admissible control values. The peculiarity of the method is the possibility of nonlocal improvement of nonlinear control and control, satisfying the maximum principle. a new necessary condition for optimality that complement and reinforce the principle of differential peak-passer in the considered class of problems is received on the base of this method. An illustrative example of strict improvement of special management is given.

Введение

В качестве объекта для разработки метода улучшения рассматривается задача оптимального управления

Ф(м) = p(x(t1)) +1F (x, u, t)dt ^ inf, T = [t0, t1], (1)

T

x(t) = f (x(t),u(t), t), x(t0) = x0, u(t) eU e Rm, t e T, (2)

где x(t) =(x1(t),...,xn(t)), u(t) = (u1(t),...,um(t)) - векторы состояния и управления. Начальное состояние x0 и отрезок T заданы. В качестве допустимых управлений рассматривается класс V кусочно-непрерывных на T функций со значениями в выпуклом множестве U .

Предполагаются выполненными стандартные условия:

1) функция р(x) непрерывно-дифференцируема в Rn, функции F(x,u, t), f (x,u,t) и их производные по x, u непрерывны по совокупности аргументов (x,u, t) на Rn XRm XT ;

2) функция f (x, u, t) удовлетворяет условию Липшица по x на Rn X Rm XT с константой L > 0: ||f (x, u, t) - f (y, u, t)|| < L||x - y|| Vx, y e Rn.

Поставим задачу улучшения заданного управления u0 e V : найти управление v e V с условием Ф^) < Ф^0).

1 Работа выполнена при финансовой поддержке РФФИ (проекты 08-01-00945-а, 09-01-90203-Монг-а), РГНФ (проект 09-02-00493-а).

В трудах В.Ф. Кротова и его учеников был обозначен подход к нелокальному улучшению на основе достаточных условий оптимальности с точным заданием разрешающей функции в определенных классах задач [1]. Впоследствии в работах В. А. Срочко, А. С. Булдаева и их учеников был разработан аппарат нелокального улучшения, характеризующийся точным учетом приращения целевого функционала (без остаточных членов разложений по х, и) в линейных, линейно-квадратических и полиномиальных по состоянию задачах оптимального управления (в том числе с терминальными ограничениями) на основе специальных сопряженных систем и краевых задач [2, 3]. В отличие от методов, основанных на принципе максимума [4,

5], новые методы обладают свойством нелокальности, не требующим параметрического поиска улучшающего управления в окрестности улучшаемого управления, а также возможностью улучшения управлений, удовлетворяющих принципу максимума, включая особые управления.

В работе [6] было предложено развитие указанного второго подхода к нелокальному улучшению применительно к общим нелинейным задачам оптимального управления на основе использования дифференциально-алгебраических двухточечных краевых задач. В статье [7] показано, что подход, используемый в [6], можно успешно интерпретировать в рамках первого подхода [1] с применением линейной по состоянию функции Кротова при использовании специальных сопряженных систем.

В данной работе для достижения нелокального улучшения используется операция проектирования на выпуклое множество и , которая в отличие от процедуры максимизации функции Понтрягина, используемой в [6], обладает свойством непрерывности, позволяющим обосновывать разрешимость рассматриваемых краевых задач улучшения в широких предположениях.

Образуем функцию Понтрягина Н(р, х, и, г) = (р, /(х, и, 0) - ^(х, и, г) , р е К1, г е Т. Обозначим х0(г) - решение системы (2) на заданном управлении и0 еУ , (х, у) - допустимый процесс в задаче (1), (2), приращение Лх(г) = х(г) - х0 (г), г е Т.

В указанных условиях задачи (1),(2) для оптимального управления у е У выполняется дифференциальный принцип максимума (ДИМ)

(Ни (у(г),х(г),у(г),г), w -у(г)) < 0, wе и, ге Т, который имеет эквивалентную проекционную форму

у (г) = Ри (у (г) + аНи (у (г), х(г), у(г), г)), а> 0, г е Т, (3)

где Ри - оператор проектирования в евклидовой норме на допустимое множество и , у(г),

г е Т - решение стандартной сопряженной системы

у (г) = - Нх (у(г), х(г), у (г), г), у(гх) = р (х(г^) (4)

Рассмотрим дифференциально-алгебраическую сопряженную систему

р (г) = - НХ (р(г), х0 (г), и0 (г), г) - г (г), (5)

Н (р(г), х(г), и0 (г), г) - Н (р(г), х0 (г), и0 (г), г) =

= ( Нх (р(г), х0(г), и °(г), г), Лх(г)^ + (г (г), Лх(г)) ( )

с краевыми условиями

р(г1) = -рх (х0(г1)) - Ч , (7)

р( х(гх)) - р( х0 (г1)) = (<рх (х0 (г1)), Лх(г^) + ( ч, Лх(г^). (8)

Пусть р(г), г е Т - решение системы (5)-(8). В [6] показано, что приращение функционала для допустимых процессов (х0, и0) и (х, у) записывается в виде

Ф(у) -Ф(и0) = - [ (Н (р(г), х(г), у(г), г) - Н (р(г), х(г), и\г), г)) йг. (9)

Т

В отличие от формул приращения [4, 5], на которых основывается принцип максимума Л.С. Понтрягина и стандартные градиентные методы, формула (9) не содержит остаточных членов каких-либо разложений.

Идея предлагаемого метода нелокального улучшения состоит в построении приращения функции Понтрягина по управлению (подынтегральная функция) в форме разложения

Н (р(г), х(г), у(г), г) - Н (р(г), х(г), и0 (г), г) = = (Ни (р(г), х(г), и0(г), г) + й (г), у(г) - и0(г^

с некоторой кусочно-непрерывной функцией й (г), г е Т. Тогда формула приращения функционала принимает вид

ф(у)-Ф(и0) = -|( Ни (р(г), х(г), и 0(г), г) + й (г), у(г) - и 0(г)^ йг,

Т

аналогичный формулам, на которых основываются проекционные методы нелокального улучшения для линейных по управлению систем [2, 3].

Отметим, что в линейном по управлению случае очевидно й (г) = 0, г е Т.

1. Краевая задача улучшения

Рассмотрим дифференциально-алгебраическую систему

х(г) = / (х(г), иа( р(г), х(г), г), г), х(г0) = х0, (10)

р (г) = - Нх (р(г), х0(г), и0(г), г) - г(г), р(г1) = р (х0(г1)) - ч, (11)

Н (р(г), х(г), и 0(г), г) - Н (р(г), х0 (г), и0 (г), г) = (12) = (Нх (р(г), х0 (г), и 0(г), г), Лх(г)) + (г (г), Лх(г )).

Р( х(г1)) - р( х0 (г1)) = рх (х0 (г1)), Лх(г^) + ( ч, Лх(г^), (13)

Н (р(г), х(г), иа( р(г), х(г), г), г) - Н (р(г), х(г), и0 (г), г) =

(14)

= ^ Ни (р(г), х(г), и 0(г), г) + й (г), иа( р(г), х(г), г) - и 0(г )^, в которой с целью простоты обозначений вводится модифицированное проекционное отображение для заданного и0 е У и параметра а > 0

иа(р,х,г) = Ри (и0(г) + а(Ни(р,х,и0(г),г) + й(г))), (15)

где функция й (г) в каждый момент времени г е Т определяется из алгебраического соотношения (14).

Предположим, что краевая задача (10)-(14) разрешима с некоторой кусочно-непрерывной функцией й(г), г е Т и (х(г), р(г)), г е Т - соответствующее решение. Сформируем выходное управление по правилу

у(г) = иа(р(г),х(г),г) = Ри (и0(г) + а(Ни(р(г),х(г),и0(г),г) + й(г))), ге Т. (16)

Покажем выполнение свойства улучшения. В соответствии с формулой (9) с учетом уравнения (14) имеем

Ф(у)-Ф(и0) = -^ Ни (р(г), х(г), и 0(г), г) + й (г), у(г) - и 0(г)^ йг =

Т

= - К Ни (р(г), х(г), и 0(г), г) + й (г ),Ри (и 0(г) + а(Ни (р(г), х(г), и 0(г), г) + й (г))) - и 0(г ^ йг <

Т

< - — ГI |и0 (г) - Ри (и 0(г) + а( Ни (р(г), х(г), и \г), г) + й (г )))||2 йг = - — ГI |и 0(г) - у (г )|2 йг < 0. (17) а Т11 11 а Т

Оценка (17) для приращения функционала следует из известного свойства оператора проектирования Ри .

Формализуем рассматриваемый подход к улучшению управления следующим образом. Введем дифференциально-алгебраическую сопряженную систему

р (г) = -Нх (р(г), х(г), ^(г), г) - г(г), (18)

{Нх(р(г ), х(г X ^(г ), г X У(г ) - х(г ^+ ( г (г ), У(г ) - х(г ^ =

= Лу(г)Н(р(г),х(г), ^(г),г) ( )

с краевыми условиями

р(г1) =-Рх (х(г1)) - Ч , (20)

рх(х(0), у(г1) -х(г^) + (Ч, у(г1) -х(г^) = Лу{рх(г^). (21)

По определению, положим г (г) = 0 , если /, Г линейны по х Также определим Ч = 0 , если р линейна. В нелинейных случаях если в некоторый момент времени г е Т у(г) = х(г), то полагаем г (г) = 0. При этом если г = г1, то Ч = 0 .

В остальных случаях можно явно определить г(г) , Ч из алгебраических уравнений аналогично [6]. Таким образом, система (18) - (21) всегда может быть сведена к вспомогательной дифференциальной сопряженной системе (возможно, не единственным образом).

Для допустимых управлений и, у обозначим х(г, у), г е Т - решение системы (2); \у(г,у), г е Т - решение стандартной сопряженной системы (4) при и(г) = у(г) , х(г) = х(г, у) ; р(г,и,у), ге Т - решение системы (18)-(21) при х(г) = х(г,и), ^(г) = и(г), у(г) = х(г,у); ЛуН(р,х,и,г) = Н(р,х,у,г) - Н(р,х,и,г) - частное приращение функции Понтрягина по управлению.

Из определения следует, что р(г,и,и) =щ(г,и), г е Т.

Формула приращения функционала (9) в новых обозначениях принимает вид ф(у) -Ф(и0) = -| Лу(() Н (р(г, и0, у), х(г, у), и 0(г), г)йг.

Т

Выходное управление, формируемое по правилу (16), записывается в виде

у(г) = иа(р(г,и0,у),х(г,у),г), ге Т.

Обозначим множество допустимых выходных управлений дифференциально-

алгебраической краевой задачи (10)-(14):

Уа(и0) ={уеУ : у(г) = иа(р(г,и0,у),х(г,у),г), ге Т}.

Если и0 е Уа (и0) хотя бы для одного а > 0 , то

и0(г) = иа(р(г,и0,и0),х(г,и0),г) = иа(щ(г,и0),х(г,и0),г), ге Т.

При этом алгебраическое уравнение (14) тождественно выполняется. Положим й (г) = 0 , тогда

очевидно, что управление и0 удовлетворяет условию дифференциального принципа максимума (3).

Обратно: если и удовлетворяет условию ДПМ (3), то оно удовлетворяет условию (16) при у = и0 с й(г) = 0 для всех а > 0 . Следовательно, и0 е Уа(и0), а > 0 .

Это значит, что краевая задача (10)-(14) для управления и0, удовлетворяющего дифференциальному принципу максимума, при любом а > 0 всегда допускает решение х(г) = х(г,и0), р(г) = ^(г, и0). Следовательно, если краевая задача (10)-(14) не имеет решения хотя бы при

одном а > 0 , то и0 не удовлетворяет ДПМ.

Таким образом, справедливо следующее утверждение.

Лемма. Управление и0 е У удовлетворяет дифференциальному принципу максимума тогда и только тогда, когда и0 е Уа (и0) хотя бы для одного а> 0.

Следствие (дифференциальный принцип максимума). Для оптимальности управления и0 е У необходимо, чтобы и0 еУа (и0) хотя бы для одного а > 0 .

Оценка (17) гарантирует строгое улучшение управления и0 е У (в том числе удовлетворяющего принципу максимума) при уа е Уа(и0), уа Ф и0. Таким образом, случай неединственности решения краевой задачи улучшения обеспечивает строгое улучшение управления, удовлетворяющего дифференциальному принципу максимума.

Оценка (17) позволяет сформулировать новое необходимое условие оптимальности на основе предлагаемого метода улучшения.

Теорема (условие А). Для оптимальности управления и0 е У в задаче (1),(2) необходимо, чтобы оно было единственным управлением на выходе процедуры улучшения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Уа(и0) = {и0} для всех а> 0 .

Очевидно, что ДПМ является следствием условия А .

В терминах решения краевой задачи (10)—(14) условия оптимальности в задаче (1),(2) принимают следующую форму.

Дифференциальный принцип максимума. Для оптимальности управления и0 е У необходимо, чтобы пара (х(г,и0),^(г,и0)) была решением краевой задачи (10)—(14) хотя бы для одного а>0.

Условие А. Для оптимальности управления и0 еУ необходимо, чтобы пара (х(г,и0),^(г,и0)) была единственным решением краевой задачи (10)—(14) для всех а > 0 .

Трудоемкость построения улучшающего управления определяется трудоемкостью решения непрерывной краевой задачи (10)-(14), которая в общем случае существенно проще разрывных по состоянию краевых задач улучшения, построенных в [6] с помощью операции на максимум функции Понтрягина.

Как показано в [6], подсистема (10)-(13) всегда может быть сведена к некоторой вспомогательной дифференциальной подсистеме без алгебраических соотношений (возможно, не единственным способом). В итоге краевая задача (10)-(14) сводится к дифференциальноалгебраической системе вида

х(г) = / (х(г), иа (р(г), х(г), г), г), х(г0) = х0, (22)

р (г) = - Нх (р(г), х0 (г), и 0(г), г) - Я( р(г), х(г), г)),

р(0 = -Рх (/(О) - Q( х(г,)),

Н (р(г), х(г), иа (р(г), х(г), г), г) - Н (р(г), х(г), и0 (г), г) =

(24)

= ^Ни (р(г), х(г), и0(г), г) + й(г), иа(р(г), х(г), г) - и0(г)^.

При этом функции Я(р, х, г), Q(х) в общем случае определяются не единственным образом.

Все множество выходных управлений Уа (и0) формируется с учетом всех возможных вспомогательных функций Я(р, х, г), Q(х), а также множества решений й(г), г е Т алгебраического соотношения (24).

В случае линейной по состоянию задачи (1),(2) (функции /(х, и, г), Г(х, и, г), р(х) линейны по х), функции Л(р, х, г), Q(х) полагаются равными нулю и краевая задача (22)-(24) сводится к двум непрерывным задачам Коши сначала для сопряженной, затем фазовой системы с алгебраическим соотношением (24).

При этом для управления, удовлетворяющего ДПМ, соотношение (24) удовлетворяется тождественно с й (г) = 0 . Возможность строгого улучшения управления, удовлетворяющего ДПМ, в этом случае обеспечивается лишь в случае существования ненулевого решения й (г) Ф 0 в соотношении (24).

Если дополнительно задача (1),(2) линейна по управлению, то ненулевых решений нет, следовательно, отсутствует возможность строгого улучшения управления, удовлетворяющего ДПМ, эквивалентного принципу максимума. В этом линейном по состоянию и управлению случае предлагаемая процедура улучшения становится эквивалентной известному проекционному методу нелокального улучшения [2]. Потеря свойства неединственности означает, что в данном линейном случае условие А и принцип максимума равнозначны.

Отметим, что в линейных по управлению и состоянию задачах (1),(2) краевая задача улучшения приобретает свойство существования решения. Это свойство и оценка (17) гарантируют строгое улучшение любого управления, не удовлетворяющего принципу максимума.

В нелинейной либо по состоянию, либо по управлению задаче (1),(2) возможен случай, когда краевая задача улучшения не имеет решения. Это означает, что управление и0 е V не удовлетворяет ДПМ. В этом случае рассматриваемая процедура не действует и нужно перейти к другим методам улучшения.

2. Пример

Рассматривается известная тестовая задача [8, с. 57 - 58]

Ф(и) = | (и 2(t) - x2(t))dt ^ inf, T = [0, п],

T

X(t) = и(t), x(0) = 0, и(t) е R, t е T.

Требуется улучшить неособое управление и 0(t) = 0 , t е T, удовлетворяющее принципу максимума. Соответствующие траектории x0(t) = 0 , Щ0 (t) = 0, t е T.

Предложенная в работе [6] процедура, использующая максимизирующее отображение

и* = 2 Р , не дает СФОГОГО улу,шения э™™ управления. Эффехт пегого улучен™ д°с-

тигается с помощью модификации процедуры, основанной на улучшении вспомогательного функционала

П П

Ф7 (и) = | (и2 (г) - х2 (г ))йг + у| (Лх(г ))2 йг, у > 0.

0 0

Покажем, что предлагаемая в данной статье процедура обеспечивает строгое улучшение управления и 0(г) = 0 без модификации, что обусловливается возможностью регулировать процесс решения краевой задачи улучшения с помощью параметра проектирования а > 0 . В данной задаче функция Понтрягина Н (р, х, и, г) = ри - и2 + х2. Получаем Ни = р - 2и . Краевая задача улучшения выписывается в форме

х(г) = иа (р(г), х(г), г), х(0) = 0, р (г) = -г (г), р(п) = 0, г (г) х(г) = х 2(г), иа( р(г), х(г), г)(р(г) - иа( р(г), х(г), г)) = (р(г) + й (г ))иа( р(г), х(г), г), где отображение иа имеет вид иа( р, х, г) = и 0(г) + а( р - 2и 0(г) + й (г)) = а( р + й (г)), а > 0.

Краевая задача сводится к задаче

х(г) = иа( р(г), х(г), г), х(0) = 0, р (г) = - х(г), р(п) = 0, иа( р(г), х(г), г )(й (г) + иа( р(г), х(г), г)) = 0.

Задача допускает очевидное нулевое решение с выходным управлением у(г) = иа( р(г), х(г), г)) = 0. При этом строгое улучшение не достигается.

Другое решение определяется условием

й (г) + иа (р(г), х(г), г) = й (г) + а( р(г) + й (г)) = 0. а

Отсюда получаем выражение й (г) =-р(г) и краевую задачу

а+1

х(г) = а р(г), х(0) = 0, а+1 р (г) = - х(г), р(п) = 0.

Для решения этой задачи рассмотрим уравнение 2-го порядка

р + ^р = 0, w = а > 0, р(п) = 0 , р(0) = 0 . а+1

Данное уравнение имеет решение p(t) = Ccos Vwt, где константа C определяется из граничного условия C cos yfwn = G. Ненулевое решение соответствует случаю -Jwn = П + кп,

к = G,±1,±2,.... Решение для к = G соответствует значению а = — и имеет вид

p(t) = C cos —, C Ф G.

2

Ct

Ему соответствует нетривиальное решение x(t) = -p(t) = — sin—. При этом получаем выходное управление

a C t

v(t) = -d(t) =-p(t) = — cos —, tє T, C Ф G.

a+1 4 2

Соответствующее значение функционала

Ccos 112 -(C sin 1Ї)„ = -Щ* < ф(uG) = 0, C Ф 0 .

фоо=jl

4 2 J I 2 2

0 '

Таким образом, предлагаемая процедура позволяет строго улучшить особое управление.

Отметим наличие бесконечного множества других строго улучшающих ненулевых выходных управлений в предлагаемой процедуре, определяющихся ненулевыми значениями к = ±1,±2,..., а также комбинациями приравнивания к нулю множителей левой части уравнения

иа( р(г), х(г), г )(й (г)+иа( р(г), х(г), г)) = 0 на различных допустимых подынтервалах времени на отрезке Т .

Заключение

Выделим основные свойства предлагаемой процедуры улучшения.

1) нелокальность улучшения управления, т.е. отсутствие процедуры параметрического поиска улучшающего управления в окрестности улучшаемого управления, характерной для стандартных локальных методов улучшения;

2) возможность строгого улучшения управлений, удовлетворяющих принципу максимума, в том числе особых управлений;

3) получение новых необходимых условий оптимальности, усиливающих дифференциальный принцип максимума в рассматриваемом классе задач;

4) трудоемкость нелокального улучшения определяется трудоемкостью решения непрерывной дифференциально-алгебраической краевой задачи, которая в общем случае существенно проще разрывной по состоянию краевой задачи принципа максимума.

5) предлагаемый проекционный метод не требует ограниченности множества значений управления.

6) в случае линейности рассматриваемых задач по состоянию и управлению предлагаемый метод совпадает с известным в литературе проекционным методом нелокального улучшения.

7) впервые за счет построения специальной дифференциально-алгебраической краевой задачи показана принципиальная возможность строгого нелокального улучшения нелинейных управлений с помощью применения операции проектирования.

Литература

1. Krotov V.F. Global methods in optimal control theory. - New York: Marcel Dekker, 1996.

2. Срочко В. А. Итерационные методы решения задач оптимального управления. - М.: Физматлит, 2000.

3. Булдаев А.С. Методы возмущений в задачах улучшения и оптимизации управляемых систем. -

Улан-Удэ: Изд-во Бурятского госуниверситета, 2008.

4. Габасов Р., Кириллова Ф.М. Качественная теория оптимальных процессов. - М.: Наука, 1971.

5. Федоренко Р.П. Приближенное решение задач оптимального управления. - М.: Наука, 1978.

6. Булдаев А.С., Моржин О.В. Улучшение управлений в нелинейных системах на основе краевых задач // Известия Иркутского государственного университета. Математика. - 2009. - Т. 2, № 1. - С. 94-107.

7. Моржин О.В. Нелокальное улучшение нелинейных управляемых процессов на основе достаточных условий оптимальности // Автоматика и телемеханика. - 2010. - № 9.

8. Гурман В.И., Батурин В.А., Расина И.В. Приближенные методы оптимального управления. - Иркутск: Изд-во Иркутского гос. ун-та, 1983.

Модификация метода проекций для улучшения нелинейных управлений Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Булдаев А. С., Моржин О. В.

Похожие темы научных работ по математике , автор научной работы — Булдаев А. С., Моржин О. В.

Modification of the method of projections for improving the nonlinear controls

Текст научной работы на тему «Модификация метода проекций для улучшения нелинейных управлений»