УДК 519.362.50
КВАЗИЛИНЕАРИЗАЦИЯ И ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ В ЗАДАЧЕ УЛУЧШЕНИЯ И ЛОКАЛИЗАЦИИ
© 2016 А.В. Данеев, В.Н. Сизых
Иркутский государственный университет путей сообщения
Статья поступила в редакцию 09.12.2016
Изложен новый подход к аналитическому конструированию линейных и нелинейных интегрированных систем автоматического управления (САУ) реального (ускоренного) масштаба времени, основанный на совместном использовании технологий динамического программирования и метода квазилинеаризации. Разработаны эффективные методы совмещенного синтеза и процедуры решения двухточечной краевой задачи по схемам динамического программирования, обеспечивающие поинтервальную монотонно убывающую (релаксационную) сходимость процессов управления по необходимым условиям локальной оптимальности. Сформулированы основные теоремы и приводятся различные варианты алгоритмической реализации методов. Необходимость в такой разработке обусловлена фактическим отсутствием надежных методов нелинейного синтеза цифровых регуляторов, гарантирующих высокую точность и устойчивость решения при приемлемых вычислительных затратах. Для непрерывных динамических систем приведены основы теории нелинейного синтеза в вырожденной (синергетической) формулировке. разработано алгоритмическое обеспечение интегрированной САУ, стратифицированное по уровням управления воздушным судном. Работоспособность алгоритмов нелинейного синтеза проверена на ряде тестовых примеров и на модельных задачах динамики перспективных автоматизированных систем предупреждения столкновений и преодоления сдвига ветра при заходе на посадку самолета среднего класса. Впервые задача нелинейного синтеза формулируется в вырожденной (синергетической) постановке, которая необходима для исследования диссипативных (открытых, самоорганизующихся) систем. Ключевые слова: непрерывная динамическая система, приближенно-оптимальное позиционное управление, квазилинеаризация, достаточные условия оптимальности.
ВВЕДЕНИЕ
Управление - создание в каждый текущий момент времени целенаправленных воздействий на объект управления в зависимости от доступной информации о поведении объекта и действующих на него возмущениях. В теории управления рассматриваются три принципа управления: 1) по разомкнутому контуру, 2) по замкнутому контуру, 3) в реальном (ускоренном) времени. При использовании первого принципа до начала процесса управления по априорной информации строится программа (программное управление), которая в процессе управления не корректируется. При втором принципе управления текущие управляющие воздействия (позиционные управления) создаются по заранее (до начала процесса управления) составленным правилам, определенным на всевозможной информации, которая может появиться о поведении объекта и действующих на него возмущений в процессе управления. Эти правила реализуются в форме прямых, обратных и комбинированных связей.
Данеев Алексей Васильевич, доктор технических наук, профессор кафедры информационных систем и защиты информации. E-mail: [email protected] Сизых Виктор Николаевич, доктор технических наук, профессор кафедры автоматизации производственных процессов. E-mail: [email protected]
При использовании третьего принципа управления перечисленные связи заранее не создаются, их текущие (потребные будущие) значения вычисляются в реальном (ускоренном) масштабе времени в процессе функционирования объекта.
Подход к проблеме синтеза обыкновенных динамических систем, ориентированный на принцип оптимального управления (ОУ) в реальном (ускоренном) времени, был предложен в начале 70-ых годов В.С. Шендриком (по инициативе Б.Н. Петрова) и развит А.А. Красовским и его учениками [1]. Наибольший вклад в развитие данного направления теории ОУ внес В.Н. Буков [2]. В начале 90-ых принцип управления в реальном времени был "переоткрыт" Р. Габасовым и Ф.М. Кирилловой и успешно развивается в белорусской школе математиков [3].
Известно, что на традиционные алгоритмы последовательных улучшений накладываются достаточно жесткие условия по сходимости и выбору начальных приближений. На пути использования только достаточных условий оптимальности или теории квазилинеаризации простых и надежных (гарантирующих поточечную сходимость) методов, как отмечалось еще Р. Беллманом [4], создать не удалось. Для преодоления этих трудностей в статье развивается многометодная технология, основанная на сочетании метода квазилинеаризации с достаточными условиями
оптимальности Беллмана-Кротова. Предлагается применить квазилинеаризацию для локальной оптимизации в окрестности точек стационарности, а достаточные условия оптимальности для интервальной оптимизации. Основная идея предлагаемой двухметодной технологии: за счет интервальной оптимизации осуществлять грубый поиск начального приближения по достаточным условиям, а затем итерационным путем уточнять полученное приближение по условиям локальной оптимальности: стационарности или в форме принципа минимума.
Для организации минимизирующих последовательностей слабой, сильной и абсолютной минималей формулируется вспомогательная (вырожденная по формулировке) задача приближенно-оптимального синтеза. Вырожденность здесь заложена в саму постановку проблемы управления и проявляется особым образом: исходная (невырожденная) задача синтеза доопределяется до сингулярной с целью включения предельных функций состояния и/ или управления в множество допустимых, но таким образом, чтобы преобразованная задача содержала оптимальное решение. Если в традиционных постановках вырожденных задач управления сингулярная кривая подлежит определению, то в преобразованной задаче она известна: ею является оптимальная траектория исходной задачи.
Таким образом, в отличие от известных подходов к решению задачи приближенно-оптимального синтеза регуляторов, когда в методе решения используется имеющаяся неоднозначность в выборе производящих функций со свойствами функции Ляпунова, в данном случае имеет место другое продолжение теории достаточных условий: путем фазовой линеаризации уравнений динамической системы и интегранта функционала исходной задачи нелинейного синтеза относительно заранее неизвестных, но определяемых в процессе функционирования объекта, постоянных на малых интервалах времени оптимальных значений вектор-функций управления и/ или состояния (квазилинеаризации) и через формирование градиентной стратегии ньютоновского типа по вариациям управлений и/ или траекторий на тех же интервалах последовательно определяются и уточняются точки стационарности искомой минимали. С целью фиксации предельных элементов минимизирующих последовательностей поиска оптимального решения по условиям стационарности предлагается использовать функционал обобщенной работы А.А. Красовского.
Разработаны эффективные методы совмещенного синтеза и процедуры решения двухточечной краевой задачи по схемам динамического программирования, обеспечивающие поинтер-вальную монотонно убывающую (релаксационную) сходимость процессов управления по
необходимым условиям локальной оптимальности. Сформулированы основные теоремы и приводятся различные варианты алгоритмической реализации методов. Необходимость в такой разработке обусловлена фактическим отсутствием надежных методов нелинейного синтеза цифровых регуляторов, гарантирующих высокую точность и устойчивость решения при приемлемых вычислительных затратах.
Наиболее важным представляется тот факт, что, по-видимому, впервые задача нелинейного синтеза формулируется в вырожденной (синер-гетической) постановке, которая необходима для исследования диссипативных (открытых, самоорганизующихся) систем.
1. ПОСТАНОВКА ЗАДАЧИ ПРИБЛИЖЕННО-ОПТИМАЛЬНОГО СИНТЕЗА УПРАВЛЕНИЙ
Под оптимизацией непрерывных процессов управления будем понимать решение задачи выбора на отрезке времени T = [t0, tk] позиционного управления
u = u(t0, x(t0), t, x(t)) (1)
и/ или состояния
x = x(t0, x(t0), t, u (t)) (2)
для динамической системы
x = f (t, x, u) (3)
такого, чтобы на траектории движения объекта x(t), удовлетворяющей заданным ограничениям на множествах начального и конечного состояний
M(t0,x(t0),tK,x(tK)) = 0, ц £Rp, (4)
Функционал
I = V3 (t0,x(t0),tK,x(tK)) + Jf0(t,x(t),u(t))dt, I s R\ (5)
<c
достигал минимума (максимума) или наименьшей (наибольшей) точной грани (инфимума inf или супремума sup). Здесь функции f, m, V и f0 - заданные кусочно-непрерывные по t и непрерывные и достаточно гладкие по x, u (дифференцируемые или кусочно-дифференцируемые) векторные и скалярные функции указанных аргументов.
В дальнейшем будем рассматривать менее общую постановку задачи оптимизации - постановку задачи нелинейного синтеза ОУ, для которой условие (3) без потери общности может учитываться в конструкции модифицированного лагранжиана; а скалярная функция V3 (x(tK )) = V3 (tк, x(tк )) определяет граничные условия только на правом конце траектории (терминальное множество). Граничные условия на левом конце траектории x(t0) = x0 gR выбираются произвольными. Конечные ограничения на граничные условия и на значения управляющих функций и траектории процесса (3) будем записывать как
Xt), u(t)) ËF(t),
(6)
где F(t) œ Gx x Gu ,Gx = X,Gu = U является декартовым произведением множеств топологической степени (n + m), зависящим от времени t.
Множество пар вектор-функций {x(t), u(t)} , удовлетворяющих дифференциальной связи (3) и конечным ограничениям (2.6), называют множеством допустимых D. Предполагается, что D^ 0.
Пару функций (хоп (t), uon (t)} G D будем называть оптимальным процессом (минималью) для I на D, если
I ( *оп (t ), uou (t )) = d. (7)
Здесь d = inf I(x(tt, u(tj) - нижняя точная грань функционала (5).
Функционал (7) в общей теории экстремаль -ных задач называют опорным функционалом (опорой) [5].
Последовательность {xs(t), us(t)} ëD, на которой
I(X ,us) s—, >d (8)
является минимизирующей для функционала I на множестве D.
2. КВАЗИЛИНЕАРИЗАЦИЯ И ДОСТАТОЧНЫЕ УСЛОВИЯ АБСОЛЮТНОГО МИНИМУМА
А. Теорема Кротова. Введем непрерывную и достаточно гладкую (дифференцируемую или кусочно-дифференцируемую) функцию (p(t, x) ë Ф и рассмотрим следующие конструкции
cpp(t.x) cpp(t.x) R(t,x,u) = J + J. f(tx,u) + f0(t,x,u), (9)
ct
cx
R(t,x,u) - ( f R(t,x,u), (13) ®(x.(t0),xs(tK))-> inf ) <P(x(t0\x(tK)). (14)
x (t0)£Fx(t0) x (tK )eFI(t^ )
Доказательство теоремы связано с реализацией принципа снятия части ограничений на условия задачи (1) - (6) за счет игнорирования дифференциальной связи (3), то есть за счет перехода к так называемой тривиальной задаче [7] на расширенном множестве E = F(t) з D.
Пусть решение (хОП, хОП) содержится в тривиальной задаче (1) - (6). Покажем, что функционал I в данной задаче равен некоторому функционалу L: I(x(-),o(-)) = L(x('),u(-),p) при произвольно
выбираемой функции p(t, x), где
tK
L(x()u(-),ç) = Ф(x(tо),x(tK)) + |tf(t,x(t),u(t))dt. (15)
h
Для этого используем в функционале (15) конструкции (11), (12). Тогда
L(x(), u() ,ф) = V3 (x(tK ))-ç(tK, x(tK )) + ç(t0, x(t0)) +
+
I(•
d<p(t, x) d<p(t, x)
dt dx
-f (t,x,u) + f0(t,x,u))dt. (16)
Ф( x(tQ), x(tK)) = V3 (x(tK)) - <p(tK, x(tK)) + <p(t0, x(tQ)) .(10) Достаточные условия абсолютного минимума задачи (1) - (6) формулируются теоремой о минимали [6].
Теорема 1. Для того чтобы пара (хоп, uon ) G D была минималью в задаче (1) - (6) достаточно существования такой гладкой функции (p(t, x), чтобы выполнялись условия
pit) = R(t, хоп, иш) = ( f) R(t, х, и)
(х ,и) eF (t)
для любого t е [t0, tк ] , (11)
Ф(*оп Хоп )) = inf(t ) Ф(Х« о), X(tj), (12)
x(ts)eFx(t%)
где включение x(t) е Fx(t) определяет ограничение на значения вектора состояния системы (1), Fx(t) - проекция множества F(t) на пространство X.
Данные условия с незначительными оговорками распространяются на случай отсутствия явного решения уравнения (3), то есть когда речь идет об отыскании минимизирующей последовательности {xs,us}
Если оптимальное решение является одновременно минималью (хоп, моп ) G D исходной задачи (1) - (6), то выполняется дифференциальная связь (3) и справедливо правило дифференцирования функции <p(t,x) как сложной функции
d(p{t, X ) d(p{t, х) л л
-f (t, x, u) + f0( t, x, u) =
dt dx
dç(t, x)
+ fo(t,x,u)■
dt ■ ■/0 Тогда формула (16) перепишется в виде
(17)
L( x(-), м(-), ф) = V3 ( x(tK )) - <p(t к, x(t к )) + <p(t о, x(t0 )) +
+
I(
dç(t, x)
dT + y о
+f0(t, x, u))dt = I(x(), u()), (18)
что и требовалось показать.
Оценка снизу функционала L(X^),u(^),ф) определится как
l(ç) = inf( ^ Ф(x(t0), x(tK )) +
x ( t о) eFx(t o) x(tK )GFx (tK )
+ } ( ( ) iiif f () R (t, x (t ), u(t ))dt. (19)
j (x(t),u(t))eF(t)
о
Из формулы (19) непосредственно следует, что условия (11), (12) теоремы 1 окажутся выполненными, если задать такую скалярную функцию p(t,X), что
m = M ( цхы),Ф)=х/ ixuu. (20)
Имеющийся произвол в задании функции p(t,x) позволяет лучше приспособиться к специфике конкретной задачи и определяет метод ее решения. Связь с другими методами оптимизации рассмотрена в ряде монографий [6 - 8]. При этом к выбору функции p(t,X можно подходить таким образом, что аналогов среди известных методов не будет [9]. Однако такая общность допускает множество частных рекомендаций и методик, которые тесно связаны с опытом разработчика, а, значит, приближаются к искусству. Конкретные примеры и практические результаты применения теоремы 1 можно найти в [5, 6, 10].
Замечание 1. В основополагающих работах В.Ф. Кротова [7] рассматривались конструкции, в которых в формуле (11) вместо операции на инфимум использовалась операция на sup и за функцию p принималась функция с обратным знаком. Однако для большинства специалистов в области прикладной теории управления, знакомых с методом динамического программирования, наиболее понятны условия теоремы 1.
Следуя предсказанному Р. Беллманом подходу сочетания условий поиска глобального (динамическое программирование) и локального минимумов ( квазилинеаризация), предлагается другое приложение достаточных условий абсолютного минимума (теорема 1), которое для непрерывных динамических систем приводит к разработке конструкций алгоритмов с прогнозирующими моделями, две из которых не имеют известных аналогов.
Б. Вывод основных соотношений. Учтем в исходных конструкциях (11), (12) тейлоровское разложение функций/, / в малой окрестности локальной минимали (x0(t), u0(t)) = (xоп (t), иоп (t, T)/T=t )
% (t,xo,u)
f (t,x,u) = f (t,x{)U 0) + % (t ,x,uo)
du
dx
Su + o1 ),
-dx +
(21)
f0(t, x,u ) = f0(t ,x0,u o) +
%0(t ,x,uo)
%0 (t,x0,u)
+ ■
du
dx
Su + о2(|&Д/| ),
■Sx +
(22)
где для краткости обозначим
df (t, Xo, u) = dx
afo(t, xo, u) dx
df (t, x, u) dx
dfo(t, x, u) dx
df (t, x, uo) = du
dfo(t, xuo)
du
df (t, x, u) du
dfo(t, x, u) du
и применим теорему 1. Достаточные условия абсолютного минимума (11), (12) с учетом (21), (22) перепишутся в виде
. ~,др((,х) др((,х) г, ,
1ПГ( V ' + ' /((,х0,Ы0) + /0(г,х0,Ы0)) +
х^рх. д дх
спдр(,х) дд дочсч
+ 1йГ ([ — + —]&) +
х(=-р> дх дх дх
д((,х) ^ + дд±]3и) + и) = ^), (23)
+ inf([
uéU
inf ((
* ( toi
x (tK )eFx(tK i
+
dx d du
dV3 ( Xo(t K )) d(p(t K, Xo(t K ))
dx(t K )
dcpjt o, xo(t o)i âcitoo)
)âx(tK ) +
dx(t K ) Sx ( 10)i = 0. (24)
Выражения в квадратных скобках формулы (23) могут быть записаны через скалярную функ-д(р(^х)
цию Н^, х, Рх, u) = —д^ Г+ Г0.
Тогда формулу (2.23) можно представить в виде
^РО + / ((, ,0, „0) +
а дх
+ /0((, х0,и0)) + М(Ш(( ХХ(х,„ &) +
дх
cH (t, x,px, u0)
uœ ~ dk
+ inf (-
Su) + o(\Sx, ôu\) = ju(t). (25)
Замечание 2. Техника доказательства принципа минимума использует вариации управления на множестве малой меры, которые влекут за собой малые (в классическом смысле) вариации траектории. Нетрудно показать, что выражение (23) также имеет вариационный смысл. Если учесть,
Ж Ж Ж дГ{)
что8Х = ~5х+ — 5и, $ = то
dX
dU
dX
dU
в результате получим
1П.(ф((,х) , дР((,х) , ( х и ) +
1П£Ч—т— + —-— I((, х0, и0) +
х^рх д( дх
+ /0((, х0,„0)) + (д(Р(( х) ^^ + $0) +
(х,и )^Р(() ¿к
+ о(|$х,$и|) = /и(().
Если считать остатки разложений функций /, ^0 незначимыми функциями времени ( о(дх, 8и\) = /и(()), то соотношение (25) будет характеризовать четыре различные ситуации,
/ u=u
/ x=x
каждой из которых соответствуют свои конструкции алгоритмов оптимального управления.
Первая ситуация типична при решении задач ОУ на основе принципа минимума, где постулируется сам факт существования экстремали Пон-трягина: x = x0 (t), uon (t, t) = u0 (t), (px = (t). Тогда при фиксированных начальных условиях (öXt0) = 0) из (25) можно формально выписать уравнение сопряженной системы (уравнение импульсов), а из формулы (24) определить условия его трансверсальности.
Вторая ситуация имеет место при решении задач синтеза ОУ методом дифференциального ДП [11], когда об оптимальности траектории x= можно косвенно судить по условиям
оптимальности отдельных ее участков (интервалов [t, tj) при ненулевой вариации управления (8иФ 0) на этих участках. Такой способ вычислений не связан с непосредственным варьированием управления и траектории и, как следует из формулы (25), сводится к поиску минимизирующей последовательности (к организации процедуры слабого локального улучшения) won (t,т) ^tuon (t't ) = uo(t), где локально-оптимальное управление u0(t) определяется по условию стационарности. Приx= x0(t) функция Кротова (p(t,x) является одновременно функцией Беллмана S(t, x) ( Sx = ут (t) ).
Третья ситуация соответствует случаю x Ф x0(t), uou(t,t) = u0(t), допускает и фактически рекомендует тип приближения, называемый приближением в пространстве политик [4], который также отсутствует в классическом анализе. Политика (процедура сильного локального улучшения) x(t) — x0(t) согласно (23), (25) формируется по условию
inf([
xfFx
w,x) d +fW) = m[(ClI(t,^,щ) &),(26)
¿к ¿к ¿к ¿к из которого в силу стационарности точек х0(() (функция Н не зависит от х) при малой ненулевой вариации траектории 8х следует тождество
dH(t,xo,Px,Uo) dx
= 0,
(27)
dH(t,x,Çx,Uo) n dH(t,xo,Px,U) n
= 0,-;-= 0 здесь
dU
dx
организуются итерационные процедуры улучшения иопЦ,0^иоп(7,г) = ), х(т)-> ,
обеспечивающие выполнение необходимого условия абсолютного локального минимума функционала (5): при 8х— 0, 8и— 0 ожи-
. ¿Г ¿Г
дается сходимость 5Х = —8х+—~8и— 0 ,
¿Х ¿¿и
сГ0 ¿Г 8£ = —8х+—8и— 0. ¿¿х ¿¿и
В. Необходимые и достаточные условия слабой, сильной и абсолютной локальной минимали. Сформулируем теперь ряд теоретических положений о слабой, сильной и абсолютной минимали, которые следуют из теоремы 1 и анализа формул (24), (25).
Теорема 2 (необходимые и достаточные условия локальной оптимальности в форме принципа минимума1). Если в задаче (1) - (6) существует локальная минималь (х0,и0), то в каждой точке стационарности выполняются следующие условия:
1)
dP(t,xo) TÏ
+ H(t,xo,y) = 0,
dP(t,x0)
= yT (t),
dt v u,r' dx
2) V (x0 (tK )) = (pitK, x0 (tK )) - (р(10, x0 (tо)),
3) H(t,x,w) = H(t,х0,ц,и0) = inf H(t,x0, ц, u).
ueU
Здесь условиям 1), 2) соответствует канонически сопряженная система уравнений, формирующая двухточечную краевую задачу
dH (t,x,y)
dy
= f(t,xo,Uo), xo(to) = x°, (28)
y = d T (t, Xo,y) = _ ddLÇti^oi^o) y
dx
(t, Xo, uo)
dX
dX
dxit K )
(29)
и определяется вектор х0. За счет организации процедуры улучшения х?) — х0(Ь) обеспечивается приближенное вычисление функции Беллмана Б(Ь,х0) через функцию Кротова (р(Ь,х), которая здесь может быть выбрана произвольной, то есть фактически является функцией Ляпунова.
Четвертая ситуация формально напоминает классическую постановку решения вариационных задач, так как в ней за счет квазилинеаризации предполагается использовать ненулевые вариации траектории и управления: хФ х(0, иФ и0((). Через соотношения
Из условия 3) определяется вектор управления u0 (t ) = uon (t, t ) = arg min H (t, x 0 o, u) ,
ueU
в локальном смысле доставляющий минимум функционалу (2.4)
tK
I * = V ( X o(t к )) + } f0(t, x0(t ), u0(t ))dt,
I* = inf I(x, u).
( x ,u)eD
(30)
1 Условия теоремы 2 соответствуют традиционной схеме ДП и определяют решение не одной, а семейства задач оптимального управления.
Таким образом, в рассмотренной выше первой ситуации локальная минималь (оптимальная программа) и опорный функционал I* вычисляются через решение двухточечной краевой задачи (28), (29).
Отметим, что предположение теоремы 2 о том, что пара (х0,и0) — локальная минималь в задаче (1) - (6), несколько эвристично, пока не доказан факт ее существования [6, с. 24 - 26]. Этот факт устанавливается путем такой переформулировки исходной задачи ОУ, при которой имеется возможность организации процедур поиска минимизирующих последовательностей, монотонно сходящихся по и и/ или по х к локальной минимали.
Теорема 3 (необходимые и достаточные условия слабой локальной минимали). Для того чтобы пара (х0.и0) была слабой локальной минималью задачи (1) - (6) необходимо и достаточно выполнения следующих условий:
1)
др((. х1) + др{(. х0) дх
др((. х0) д ((. х0) т
д
/ ((. х0. и0) + /0((. х0. и0) = 0.
= ¥ ((),
дх дх
2) V (X0 (1 к )) = (р{хк, Х0 (к )) - (р{х0, X0 {10 )),
3)
ди
ство 1пГ(
дН(г,х.Рх.и{))
ди
ди
I«)) = У3 (х0(' к)) +
+
'к ТЛ
I (/о(1, хо('), %(' ))
'к ТЛ
I* + [ (^ 5и)&. ди
(32)
Непосредственно из формул (31), (32) видно, что при должным образом организованной процедуре приближений моп (г, Т) ^ иоп (г, г) = и0 (г) значения
функционала (31) стремятся к нижней точной грани I* функционала исходной задачи (1) - (6).
Теорема 4 (необходимые и достаточные условия сильной локальной минимали). Для того чтобы пара (х0.и0) была сильной локальной минималью задачи (1) - (6) необходимо и достаточно выполнения следующих условий:
1) 1П£(—5;— + —Н— f (г' х°' и°) + 1°(г>Х0=«0 )) = °
А
д(р(г, х) дх
2)
дх
= Р Т ),
( х 0(/к )) д(р(1 к, х0(Г к ))
М ((
х (/о)е?х(
х ()
дфЦ0, х0(/о )
дх (Гк)
дх (Гк)
)&« к ) +
+ ' V&ао)) = о,
ск((о)
3)
дн(1. хг р. и)
дх
= 0 для Х= Я" и при ненуле-
= 0 для и е 1".и или
и = Я и при ненулевой допустимой вариации управления ди.
Замечание 3. По-видимому, на границах множества и следующее из анализа (25) равен-
ди) = 0 уступит место
соотношению 1пГ(Н(г, х0. у. и)£^(г)) = 0 , где
иеи
£ — малое число, ^(г) - непрерывная и кусочно-гладкая на множестве малой меры функция. Тогда условие 3) теоремы 3 можно заменить на условие: 1пГ Н(г. х0 .у. и) = 0.
иеи
Теорема 3 соответствует случаю решения задачи локально-оптимального синтеза ОУ по схеме дифференциального ДП []. Здесь локальное улучшение управления осуществляется через квазилинеаризацию дифференциальной связи (3) и интегранта функционала качества (4) в окрестности и0(г), то есть
д
х = Г(г.х0.и0) + ~ди. (31)
вой допустимой вариации траектории дх.
Замечание 4. По-видимому, на границах множества X следующее из анализа (25) равенство М( дНг,х,рх,ио) дХ) = 0 уступит место
хеРх дх
соотношению 1пГ(Н(г. х0. р. и)£^(г)) = 0, где
хеРх
£ — малое число, £({) — непрерывная и кусочно-гладкая на множестве малой меры функция. Тогда условие 3) теоремы 4 заменится условием: Ы Н^.х.р.и) = 0.
хеРх
Теорема 4 определяет случай решения задачи локально-оптимального синтеза по приближению в пространстве политик (дискретный аналог: метод «блуждающей трубки» [4]). Здесь локальное улучшение траектории осуществляется через квазилинеаризацию дифференциальной связи (3) и подынтегрального выражения в функционале качества (4) в окрестности х0({), то есть
дГ
х = Г^х.щ) +дх дх. (33)
I ( х(-)) = У3 ( х 0 (к)) + } (/0 (, х 0 (Г), ы0« ))
+
ПГ гк Л/>
+ ^тт дх = I * + Г (^ дх)Ж. (34) дх 1 Лг
дх
Из анализа формул (33), (34) ясно, что при организации процедуры приближений х{т) ^ х0 (t) предельное значение функционала (34) равно нижней точной грани I* критерия качества исходной задачи (1) - (6).
и
Теорема 5 (необходимые и достаточные условия абсолютной локальной минимали). Для того чтобы пара (х0,и0) была абсолютной локальной минималью задачи (1) - (6) необходимо и достаточно выполнения следующих условий:
1) ^(^Т1 + Г«, *>, "о) + Г««, Хо, и«)) = О,
d(p(t, x)
dx
2) inf ((
* (t0)eFx(t0) x (t, )eFx( t,)
= P P (t),
dV3 (x0(tK)) d(p(tK,x0(tK)) )
)Sx(t K)
dx(t K)
dx(t K)
d(p(t0,xo(t0) „ o
----&c(to)) = °
dx(to)
3) dH(t,X0,p,u) 0 X n
3)---= U для X = R и при не-
dx
нулевой допустимой вариации траектории Sx. dH(t, x, p, u0)
4)
du
= 0 для ueintU или
и = К и при ненулевой допустимой вариации управления 8и.
Для условий 3), 4) теоремы остаются справедливыми замечания 3, 4.
Теорема 5 формально характеризует случай решения оптимизационных задач по классической схеме вариационного исчисления. Однако стратегия определения минимали здесь иная: улучшение траектории и управления за счет квазилинеаризации дифференциальной связи (3) и интегранта функционала (4) в окрестности х0((), и0(г) на малых интервалах оптимизации
^, то есть в реальном времени
¿Г ¿Г
х= /(г,х0,и0) + ~хх8х+~йи8и, (35)
>к
I(х(•),м(0) = У3 (х0 (>к)) + |(/0 (>, х0 (>),п0 (>)) + •
>0
+ & + ^ ди)Ж = I. + [Д0- дх + ^ ди)Ж. (36) дх 1 Аг
да
дх
да
чтобы допустимый оптимальный процесс являлся локальной минималью, необходимо доопределить функционал (4) таким образом, чтобы:
1) при x(t) = x0(t), uon(t,t) = u0(t) множество оптимальных в локальном смысле управлений и траекторий E = F(t) совпало бы с множеством допустимых оптимального процесса D= B( En D= B);
2) для того и другого класса процессов на расширенном множестве E=F(t) была бы возможность организации поиска минимизирующих последовательностей x(r) ^ x0(t) и /или
uon(t,г) ^ uon(t,t) = u0(t) к D=B(Ed D).
Выполнение пункта 1) утверждения 1 сопровождают условия стационарности по переменным u и x (теорема 2); пункта 2) — условия их вырожденности по u и /или x (теоремы 3 - 5).
Условиям 1), 2) сформулированного выше принципа эквивалентности допустимой и локальной минималей соответствует доопределение опорного функционала I* = inf I до
D
функционала исходной задачи (4) (формулы (32), (34), (36)).
Обозначим L(x, u) = I(x, u) . Тогда предположение об оптимальности одного из элементов множества D — переменных u или x, позволяет локализовать процесс вычислений по схемам динамического программирования: по схеме дифференциального ДП (теорема 3) или по приближению в пространстве политик (теорема 4) через соответствующие утверждению 1 конструкции функционалов:
Lxo, u) = S(xo) + Jx(u,uu ), J (u, uo) > 0, (37) L(x, u) = S(u) + J2 (x, x), J2 (x, x ) > 0, (38) где S(x0) = inf I(x0,u), S(u0) = xn.f I(x,u0)
ueU
Из формул (35), (36) следует, что при х(т)— х0(0 , поп(г,т) ^ иоп(г,г) = и0(г) вы-
т— г т^г
полняются условия: 1(х{ ), и(') — I*, 8х — 0.
Условие |хг) - хх0(г)| <5 соответствует необходимому условию абсолютной локальной минимали.
3. ФОРМАЛИЗМ ДООПРЕДЕЛЕНИЯ КОНСТРУКЦИИ ИСХОДНОГО КРИТЕРИЯ ДО НЕКЛАССИЧЕСКОГО ФУНКЦИОНАЛА КАЧЕСТВА
Утверждение 1 (принцип эквивалентности допустимой и локальной минималей). Для того
- функции Беллмана в процедурах решения прямой и обратной задач синтеза управлений,
¿г ге ¿Г
^(ии) = \(¿и8иШ 12(х,х0) = |(¿х8х)Л -
функционалы расстояний между элементами множества допустимых, S(u0) = S(x0) = I* . Схема решения задачи приближенного синтеза ОУ через функциональное уравнение
Дх) = иПи 1(х0, и) соответствует методу слабого улучшения: через близость допустимого управления u=uОП(í,т) к локально-оптимальному н0(£)=нОП(г:,^ обеспечивается выполнение условия х — х и косвенно х— х. Другая частная схема решения задачи синтеза через функциональное уравнение S(u0) = тГ 1(х,и0) отражает суть
метода сильного улучшения: обеспечение сходимости итерационных процедур по единственному условию: хг) — х0(г).
Общей схеме решения задачи приближенно-оптимального синтеза (теорема 5) соответствует доопределение опорного функционала до функционала следующей конструкции:
Ь( х. и) = I (х0. и0) + Зх(и, и0) + J2 (х. х0).
(39)
Jl(u.и0) > 0. J2(х.х0) > 0. 4 '
где 1(х0,и0) = 1пГ 1(хи) = I* . Аналог
(х,и)еО
схемы решения вариационных задач характеризуется функциональным уравнением 1(х0.и0) = 1пГ 1(х. и) и реализуется через
(хи)еП
метод определения абсолютного минимума функционала (4): за счет организации минимизирующих последовательностей хТ ^ х(0 ,
иоп , т) ^ иоп , ^) = и0 ) обеспечивается
выполнение условия: |хг) — х0 (г) < £.
К сожалению, ответ на вопрос о существовании опорного функционала I* и единственности решения определяющих его характеристик задачи Коши (28), (29), а также исходной задачи синтеза (1) - (6) неоднозначен по ряду причин [12]:
I0. В заданном классе допустимых управлений не всегда существует такое, при котором достигается инфимум в (5).
20. Функция Ляпунова - Кротова не всегда обладает той гладкостью, которая предполагалась при выводе достаточных условий абсолютного минимума (теорема 1). Иными словами, производящая функция не всегда удовлетворяет достаточным условиям оптимальности Беллмана
- Кротова или удовлетворяет им в некотором обобщенном смысле. Следовательно, решение, получаемое по условиям (11), (12), не всегда совпадает с соответствующей функцией Ляпунова
- Кротова.
30. Если производящая функция удовлетворяет условиям (11), (12), то отсюда не следует, что управление, при котором достигаются эти условия, является оптимальным. В частности, при таком управлении может вообще не существовать решения уравнения (3).
40. Решение задачи Коши (11), (12) может оказаться не единственным (магистральным). Поэтому требуется дополнительное исследование, позволяющее установить, какое из этих решений удовлетворяет исходной задаче синтеза. Даже в ЛК-задаче число таких решений будет 2п, где п— размерность вектора состояния системы (3).
Г, ]0 л0 о0
Если причины 1 , 2 , 3 принципиально устранимы за счет расширения множества допустимых, уточнения выбора производящей функции и организации итерационных процедур поиска решения системы (3), то последняя при-
чина в рамках классических формулировок задач синтеза ограничивает применение теории (за исключением частных случаев) исследованием объектов размерностью не выше трех - четырех, для которых еще известно аналитическое решение в радикалах.
4. ИТЕРАЦИОННО-РЕЛАКСАЦИОННЫЙ МЕТОД КАК СПОСОБ РЕШЕНИЯ ДВУХТОЧЕЧНЫХ КРАЕВЫХ ЗАДАЧ ДЛЯ НЕПРЕРЫВНЫХ ДИНАМИЧЕСКИХ СИСТЕМ
А. Релаксационное расширение пространства состояний. Следующий конструктивный шаг к практической реализации рассмотренных выше схем решения задачи (1) - (6) состоит в определении стратегии приближенного синтеза оптимальных в локальном смысле управлений и/ или траекторий через релаксационное расширение пространства состояний. Релаксационное расширение связано с исследованием свойств предельных элементов минимизирующих последовательностей поиска управлений и/ или траекторий, которые определяют исходную постановку задачи синтеза для дифференциальной системы (3).
В основу организации поиска предельных элементов положены [13]:
1). Идея квазилинеаризации — фазовой линеаризации процесса (3) и интегранта функционала (5) относительно оптимальных, определяемых в процессе функционирования объекта, и постоянных на конечном числе малых длин оптимизации Дг параметров и0 = и и/ или х0 = х по формулам (31) — (36).
2). Предположение о допустимости выбора управлений и/ или траекторий, мало отличающихся от оптимальных на конечном числе длин Дг, что дает возможность организовать приближенную стратегию синтеза на паре (и,и0 ) по традиционной схеме динамического программирования
Ади п 0
■ = 3, ди = и— и0, (40)
на паре (хх0) по схеме приближений в пространстве политик
Адх
. дх= х— х (41)
на паре (%%) по аналогу вариационной схемы (*= (хи))
Ади „ Адх
ёг А
= Л,
(42)
где 3 - «новый» т - вектор управления, г/ -«новый» п- вектор состояния.
Если длины оптимизации Дг малы, то производные в (40) - (42) с достаточной степенью точности описываются соотношениями
u(t) = u0(t) + 3Аt, x(t) = x(t) + r/At,
которые могут быть реализованы в виде итерационной процедуры ньютоновского типа для определения локальной минимали: при 3 — 0, / — 0 в каждой точке стационарности обеспечивается выполнение условий: u(t) — u0(t), x(t) — ((t). Поэтому выбор градиентных стратегий типа (40) - (42) естественен, соответствует идеологии квазилинеаризации и идее нелинейного синтеза в процессе функционирования объекта (3) (совмещенного синтеза) на малых длинах Ai. Этим самым и сама задача синтеза представляется в линеаризованном виде: множество всех точек x(Q терминального члена функционала (5) становится близко к выпуклому [14].
Отметим, что при квазилинеаризации дифференциальной связи (3) по формуле (35) для аналога схемы вариационного исчисления между вариациями траектории Sx и управления Su существует взаимооднозначная связь.
Приращение вариации траектории системы (3) на малых длинах оптимизации Ai равно
ASx 0 0 lim-= oX, Sx = x- x. (43)
At—0 At
Очевидно, что отклонение траектории движения системы (3) на длинах Ai от неварьируемой величины x0 может быть вызвано вариацией управления на тех же длинах
ASx lim - :
ASu—0 ASu
dx du
(44)
lim
At—0
Поэтому в силу (46) и (47) можно считать, что ASu ASx
где Z =
lim
asu—0 At ASu
dx
dx
du
/u=u
lim — = ZSu, (45)
At—0 At 1
du
матрица размера nx m,
/u=u
определяемая из формулы
d " ASx lim- Гdf(t,x,u) 1 " ASx lim- + \df(t,xu) 1
dt ASu0 ASu_ dx _ASu0 ASu_ du
Последнее выражение является уравнением чувствительности вариаций траекторий к вариациям управлений в точках стационарности
x= x, u= u0
Z = fxZ + fu. (46)
Следовательно, оказывается справедливым следующее соотношение
Sx=ZSu, (47)
которое следует из сравнения формул (46), (48) между собой.
Таким образом, для аналога схемы вариационного исчисления градиентная процедура поиска локальной минимали определяется формулами Sx= Z3, Sil =3, (48)
которые при малых длинах Дt могут быть представлены в виде
и(г) = и00г)+здг, х(г) = х0 + ¿хЗДг.
Б. Применение функционала обобщенной работы в задаче приближенно - оптимального синтеза регуляторов. Суть градиентных стратегий (40), (41), (42) или (48) — релаксационное расширение пространства состояний (3): у= (х.ди) для схемы дифференциального динамического программирования, у= (х.дх) для схемы приближений в пространстве политик, у= (х.дх.ди) для аналога схемы вариационного исчисления. Поэтому требуется таким образом переформулировать исходную постановку задачи оптимизации (1) - (6), чтобы была возможность зафиксировать предельные элементы минимизирующих последовательностей в точках стационарности х= х0. и= и0. Для этого предлагается применить функционал обобщенной работы (ФОР) [1]
I (У(•)) = ^ (У ('к)) + / [бр (0, у) + Ьз1(&) + + ^М) + + 4 2(^0)] М, (49)
результат минимизации которого есть цена I* исходной задачи синтеза. Здесь
ЬЛ (0) = 0.5 &Тг"Ч ЬЛ = 0.5 г"Ч, 4: (Л) = 0.5 4:2 (%) = 0.5 ЩТ
— некоторые квадратичные формы от «новых» управлений и/ или состояний. Интегранты линеаризованного в окрестности векторов и0 (г) и/ или х0(г) функционала (5) в ФОР (52) задаются
в виде: (г.У) = ^У.х.Ц) + ди — для
традиционной схемы динамического програм-
д
мирования, Я(I.у) = ¡0(г. х0,и) + —^дх - для
дх
схемы приближений в пространстве политик,
0р($.У) = Л(*.х0.Щ) + ддтдх + дди - для
д ди
аналога вариационной схемы. Переменные 30. Т]0 на длинах Дt являются постоянными, не-варьируемыми параметрами: 30 = 3*,/0 = / .
Задача получения оптимального решения линеаризованного на малых длинах оптимизации Дt процесса (3) формулируется следующим образом: организовать итерационные процедуры поиска слабой (теорема 3), сильной (теорема 4) и абсолютной минимали (теорема 5), обеспечивающие инфимум ФОР (52) при дифференциальных связях (31), (33), (35).
Сформулированная задача приближенно-оптимального синтеза решается методом характеристических полос [1]. Основной результат
формулируется в виде следующих теорем.
Теорема 6. Для процесса (3) оптимальное в смысле достижения локального минимума функционала (5) и ФОР
I (у (•)) = ^ ( у (' к)) +
'к
+ I (0, у) + !*(#) + ^з1(^с)] <Ю (50)
'о
управление определяется процедурой слабого улучшения иоп^ иоп(7,Г) = ), получаемой из канонически сопряженной системы: дифференциальной связи (31) и уравнений
Рх =
¿х ¿х
, д(8Up8U)
¿х ,
гт / ^ \ лгт,
"Рх +
(51)
Р8и = --;---;-Рх,(52)
¿и ¿и
У=-ГР8и, S (г, х,8и) = -
(53)
Щ,х,и) --;-8и, (54)
ои
где S — функция Беллмана для задачи с расширенным вектором состояния;
оsT 0ST
Рх = ^Т = ¥х(г) , Р8и = = ¥8и(г) —
¿х
¿8и
Р8х =
0 х ¿х
, ¿(^5хР8х), ¿х
¿0 (г,х ,и) ¿Чихи)
¿х
¿х
(56) Рх, (57)
Л=-РР8х,
(58)
ф(г,х,8х) = -гг,х,ч) -°>(г,х,и) 8х, (59)
¿х
где ф — функция Ляпунова - Кротова для задачи
с расширенным вектором состояния;
¿фт ¿фт
Рх =
¿х
Р8и =
¿8и
котраектории со-
стояния и вариаций состояния.
Теорема 8. Для процесса (3) оптимальные в смысле достижения локального минимума функционала (5) и ФОР (49) управление и состояние определяются процедурой поиска абсолютной локальной минимали иОП (г, т) — иОП (г, г) = и0 (г) , х(г) — хОП (г) = х0(г), формируемой через решение кан онически сопряженной системы: дифференциальной связи (35) и уравнений
¿^гхи) ¿^(гхи)
Рх
0 х
0 х
Рх +
¿х
¿¿х
Р8и =
¿Г(г,х,и0) ¿Г(г,хи0
¿и ¿и
гТ / . Ч ,
(60)
Рх, (61)
¿Г (гх,и) ¿г (гх,и)
Рхх = ---— ---—Рx, (62)
котраектории состояния и вариаций управления.
Теорема 7. Для процесса (3) оптимальное в смысле достижения локального минимума функционала (5) и ФОР
I (у (•)) = £ ( у «к)) +
+ } [0Р (в, у) + 4^) + 4:(%)1 ¿в (55)
состояние определяется процедурой сильного улучшения х(г) — хОП (г) = х0 (г), формируемой
т—г
через решение канонически сопряженной системы: дифференциальной связи (33) и уравнений
_ о гТ(г-,x, и) ¿ГТ(г,х0,и0) +
г х п п Рх
¿х ¿х
Л=-РР8х 3 = -ГР8u, )
ф(г, х,8х,8и) = -
(63)
¿^хи) 8 ¿(гхи) 8
-- Г0(г,х>,и0)-—¿х— —¿йи— , (64)
где ф - функция Ляпунова-Кротова для задачи
с расширенным вектором состояния;
¿фт ¿фт ¿фт
Рх =
¿х
Р8и =
¿8и'
Р8х =
¿8 х
ко-
траектории состояния и вариаций управления и состояния. Здесь в условиях теоремы вместо формул (62), (63) при небольших размерностях векторов состояния и управления можно использовать матричное уравнение чувствительности (49) и градиентную процедуру (48).
Доказательство теорем 6 - 8 осуществляется через прямое преобразование достаточных условий оптимальности Беллмана - Кротова к более простым достаточным условиям в форме уравнения Ляпунова для расширенного пространства состояний с последующим его решением методом характеристик.
Нетрудно видеть, что при 8и= 0 или 8х= 0 из условий теоремы 8, как следствие, получаются процедуры слабого и сильного улучшения теорем 6, 7.
ЗАКЛЮЧЕНИЕ
На основе условий теорем 6 - 8 разработано алгоритмическое обеспечение интегрированной САУ, стратифицированное по уровням управления воздушным судном. Работоспособность алгоритмов нелинейного синтеза проверена на ряде тестовых примеров [15 - 18] и на модельных задачах динамики перспективных автоматизированных систем предупреждения столкновений и преодоления сдвига ветра при заходе на посадку самолета среднего класса.
СПИСОК ЛИТЕРАТУРЫ
1. Справочник по теории автоматического управления [под ред. А.А. Красовского/. М.: Наука, 1987.
2. Буков В.Н. Адаптивные прогнозирующие системы управления полетом. М.: Наука, 1987.
3. Габасов Р., Кириллова Ф.М. Принципы оптимального управления // Доклады НАН Беларуси, 2004. Т. 48. С.15 - 18.
4. Беллман Р., Калаба Р. Квазилинеаризация и нелинейные краевые задачи. М.: Мир, 1968.
5. Гирсанов И.В. Лекции по математической теории экстремальных задач. М.: Изд-во МГУ, 1970.
6. Москаленко А.И. Оптимальное управление моделями экономической динамики. Новосибирск: Наука. Сиб. отд-ние, 1999.
7. Кротов В. Ф., Букреев В.З., Гурман В.И. Новые методы вариационного исчисления в динамике полета. М.: Машиностроение, 1969.
8. Гурман В.И. Принцип расширения в задачах управ-
ления. М.: Наука, 1997.
9. Гурман В.И. Вырожденные задачи оптимального управления. М.: Наука, 1977.
10. Батурин В.А., УрбановичД.Е. Приближенные методы оптимального управления, основанные на принципе расширения. Новосибирск: Наука. Сиб. отд-ние, 1997.
11. Jacobson D. H. Differential Dynamic Programming Methods for Solving Bang-bang Control Problems // IEEE Trans. On Autom. Control. 1968. V. AC-13, No. 6. P. 661-675.
12. Афанасьев В.Н., Колмановский В.Б., Носов В.Р. Математическая теория конструирования систем управления. М.: Высшая школа, 1998.
13. Сизых В.Н. Итерационно-релаксационный метод приближенно-оптимального синтеза регуляторов // Докл. РАН. 2000. Т.371. №5. С. 571-574.
14. Болтянский В.Г. Отделимость выпуклых конусов - общий метод решения экстремальных задач // Оптимальное управление. М.: Знание, 1978.
15. Сизы1хВ.Н. Прогнозно-оптимизационные алгоритмы сингулярных задач аналитического конструирования // Оптимизация, управление, интеллект. 2000. №4. С. 77-92.
16. Буков В.Н., Сизы1х В.Н. Приближенный синтез оптимального управления в вырожденной задаче аналитического конструирования // А и Т. 1999, № 12. С. 16-32.
17. Буков В.Н., СизыихВ.Н. Метод и алгоритмы решения сингулярно - вырожденных задач аналитического конструирования // Изв. РАН. Сер. Теория и системы управления. 2001. № 5. С. 43-51.
18. Сизых В.Н. Итерационно-релаксационный метод нелинейного синтеза регуляторов // А и Т. 2005, №6. С. 108-119.
QUASILINEARIZATION AND SUFFICIENT CONDITIONS OF OPTIMALITY IN THE PROBLEM OF IMPROVEMENTS AND CONTAINMENT
© 2016 A.V. Daneev, V.N. Sizykh
Irkutsk State Transport University
A new approach to the analytical design of linear and panel-integrated linear automatic control systems (ACS) real (fast) time scale, based on the combined use of technology and a dynamic programming method quasilinearization. The effective methods of synthesis and the combined procedure the two-point boundary value problem solutions on schemes of dynamic programming, providing interval standardized monotonically decreasing (relaxation) the convergence of management processes for the necessary conditions for the local optical-minimality. The basic theorems and are different vari-Antes algorithmic implementation methods. The need for such a development is due to the actual lack of reliable methods for the synthesis of non-linear digital controllers, guaranteeing high accuracy and stability of the resolution as acceptable computational cost. For continuous dynamical systems-ray shows the basics of nonlinear synthesis of theory in the degenerate (synergistic) formulation. developed algorithmic software integrated ACS, stratified by level of control of the aircraft. The efficiency of the nonlinear fusion algorithms tested in a number of test cases and model problems of the dynamics of promising automated collision avoidance systems and overcome the wind shear on approach middle-class aircraft. For the first time a non-linear synthesis problem is formulated in the degenerate (synergistic) setting, which is necessary for the study ofdissipative (open, self-organizing) systems. Keywords: continuous dynamic system, approximately-optimal position control, quasilinearization sufficient optimality conditions.
Alexei Daneev, Doctor of Technics, Professor at of
Informational Systems and Information Security Department.
E-mail: [email protected]
Viktor Sizykh, Doctor of Technics, Professor at the
Automatization of Production Processes Department.
E-mail: [email protected]