Литература
1. Sheng-Guo Wang. Robust Schur Stability and Eigenvectors of Uncertain Matrices // Proceedings of the American Control Conference. - 1997. - V. 5. - P. 3449-3454.
2. Baarda W. S-transformations and criterion matrices // Netherlands geodetic commission, 1981. - V. 5. -№ 1. - 168 p.
3. Годованный П.А. Моделирование процессов нарушения проводимой политики безопасности в РВС // Сборник научных трудов НГТУ. - 2003. - № 4 (34). - С. 13-18.
4. Голуб Дж., Ван Лоун Ч. Матричные вычисления: Пер. с англ. - М.: Мир, 1999. - 548 с.
5. Wilkinson J.H. The algebraic eigenvalue problem. - Oxford: Clarendon Press, 1965. - 570 p.
6. Дударенко Н., Ушаков А. Анализ многомерных динамических систем: технология контроля вырождения. - Saarbrucken: LAP LAMBERT Academic Publishing, 2011. - 232 с.
7. Дударенко Н.А., Ушаков А.В. Вырождение сложных дискретных динамических систем: проблема контроля с помощью частотных чисел обусловленности // Научно-технический вестник СПбГУ ИТМО. - 2004. - № 14. - С. 62-66.
8. Дударенко Н.А., Ушаков А.В., Полякова М.В. Алгебраическая организация условий обобщенной син-хронизируемости многоагрегатных динамических объектов // Научно-технический вестник СПбГУ ИТМО. - 2010. - № 2 (66). - С. 30-36.
9. Дударенко Н.А., Ушаков А.В., Полякова М.В. Формирование интервальных векторно-матричных модельных представлений антропокомпонентов-операторов в составе сложных динамических систем // Научно-технический вестник СПбГУ ИТМО. - 2010. - № 6 (70). - С. 32-36.
10. Дударенко Н.А., Бирюков Д. С., Ушаков А.В., Полякова М.В., Акунов Т.А. Формирование спектра сингулярных чисел квадратной матрицы простой структуры // Научно-технический вестник СПбГУ ИТМО. - 2011. - № 6 (76). - С. 53-58.
11. Дударенко Н.А., Слита О.В., Ушаков А.В. Математические основы современной теории управления: аппарат метода пространства состояний: Учебное пособие / Под ред. А.В. Ушакова. - СПб: СПбГУ ИТМО, 2009. - 325 с.
12. Эйкофф П. Основы идентификации систем управления. - М.: Мир, 1975. - 683 с.
Дударенко Наталия Александровна - Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, кандидат технических наук, доцент, [email protected]
Ушаков Анатолий Владимирович - Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, доктор технических наук, профессор, [email protected]
УДК 681.5
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ПО УПРАВЛЕНИЮ
Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
Рассмотрена задача формирования закона оптимального управления для нелинейных динамических систем с запаздыванием по времени в канале управления. В соответствии с принципом оптимальности обосновывается необходимое условие оптимальности (уравнение Беллмана) для систем с запаздыванием в канале по управлению. Выводы анализа подкрепляются результатами численного моделирования в задаче оптимальной стабилизации вращения твердого тела.
Ключевые слова: запаздывание в канале управления, оптимальное управление, принцип оптимальности, беллма-новская оптимизация.
Введение
Основной поток публикаций по регулируемым динамическим системам с запаздыванием касается вопросов устойчивости и стабилизации изучаемых процессов (например, работы [1-4] и содержащаяся там библиография). Полученные результаты можно рассматривать как обобщение результатов теории дифференциальных уравнений с запаздывающим аргументом в фазовой переменной.
В некоторых работах решены задачи с запаздыванием по управлению применительно к общей (но не оптимальной) адаптивной задаче управления с возмущениями [5-7]. Значительно более скромным выглядит список работ по оптимизации управляемых динамических систем с запаздыванием по управлению [1-3]. Данные публикации в основном посвящены принципу максимума с учетом эффекта запаздывания.
В настоящей работе, по-видимому, впервые ставится и решается задача синтеза оптимального управления в непрерывных динамических системах с запаздыванием в канале управления с использова-
нием беллмановского оптимизационного подхода (метода динамического программирования). На рис. 1 условно изображена схема формируемой системы управления.
У u (t) \ БЗ u (t - h) s ОУ
s s
/V
'( ' )
X
(t)
Рис. 1. Общая блок-схема системы управления с инерционным запаздыванием: ОУ - объект управления; БЗ - блок запаздывания; У - управление
Ставится основная цель - построить оптимальное управление объектом, которое бы решало задачу минимизации функционала качества в условиях запаздывания по управлению.
Постановка задачи
Пусть объект управления задается векторным уравнением
X = f [х (t),u (t - h), t], (1)
где х (t) е Rn - состояние системы в момент времени t, где t е [t011] - заданный интервал, h = const > 0 - запаздывание в управлении (так называемое инерционное запаздывание); при этом предполагается, что в самом объекте (1) запаздывания нет, но оно есть в регуляторе u (t - h) е Rn. Интегрируя уравнение (1),
получим равносильное ему векторное интегральное уравнение Вольтерра:
t
х (t) = х0 +|f [ х (s ),u (s - h ), s ] ds, (2)
t0
где х0 = x(t0) - заданный вектор начального состояния системы. Уравнение (2) показывает, что x(t) -состояние системы в момент времени t - зависит от значений управления u (s - h) в предыдущие моменты времени s - h, где t0 < s < t(t0 > 0, h > 0).
Далее, управление u(9) e Rn входит в уравнения (1)-(2) в виде значения u(6) в запаздывающий момент времени 9= s - h , где h > 0 . При малых s > t0 запаздывающий момент 9 = s - h может оказаться отрицательным. В связи с этим, чтобы подынтегральное выражение в уравнении (2) имело смысл, управление u (t) следует задавать и при отрицательных t, а именно при t е [t0 - h, 0], когда t0 < h . Таким
образом, управление u (t) надо задавать на более широком интервале времени t е [t0 - h,t1 ], причем состояние x(t) должно быть определено на более узком интервале времени t е [t0,tj].
Будем считать, что на управляющие силы u е Rn наложены некоторые ограничения: u е U с Rr, где U - некоторое заданное множество допустимых управлений. Требуется выбором управления u (t), t е [t0 - h,t1 ] обеспечить минимум функционала качества
J = V (х (tj), t1) + Jf [ х (s ),u (s - h ), s ] ds
^ min
пеи
(3)
и перевести систему (1) из начального состояния х (/0) в конечное х ). Полагаем, что в системе (1) с функционалом (3) вектор-функция / и скалярные функции V, ^ непрерывно дифференцируемы по всем своим аргументам.
Напомним, что принцип оптимальности Беллмана, лежащий в основе метода динамического программирования, применим для систем, последующее движение которых полностью определяется состоянием этих систем в любой текущий момент времени [1]. Согласно Беллману, оптимальная стратегия определяется только начальным условием и конечной целью, т. е. принцип оптимальности утверждает, что для любого первоначального состояния и стратегии (управления) в начальный момент последующие стратегии должны составлять оптимальное движение относительно состояния, полученного в результате применения начальной стратегии. Указанная формулировка принципа оптимальности останется справедливой и для систем с запаздыванием, если в понятие состояния системы в текущий момент времени /' включить и предысторию изменения фазовых координат системы на промежутке времени последействия: г' - к < г < г'.
Отметим также, что отличительной особенностью метода динамического программирования, использующего принцип оптимальности, является то, что отрезки оптимальной траектории определяются в обратной последовательности, начиная с заданного конечного (целевого) состояния х ).
Необходимое условие оптимальности
Принцип оптимальности Беллмана позволяет сформулировать необходимое условие оптимальности для динамических систем с последействием по управлению вида (1) с функционалом качества (3).
Допустим, что х0 (/) - оптимальная траектория системы (1) с заданным начальным х (t0) и конечным состоянием х (^). Требуется перевести систему (1) из векторной точки х (t0) в векторную точку х (^) по траектории х0 (t), выбрав оптимальное управление и0 ^ - к), минимизирующее функционал
(3). Можно показать, что функционал качества (3) с запаздыванием по времени в управлении можно подходящим функциональным преобразованием свести к функционалу с управлением без запаздывания по времени, но с запаздыванием по индексу [3]. Тем самым возникает возможность использовать стандартные оптимизационные процедуры метода динамического программирования и к системам с запаздыванием по управлению.
Теорема. Пусть поставлена задача синтеза оптимального управления для системы (1) с функционалом (3) с оговоренными выше требованиями непрерывности и гладкости для всех входящих скалярных функций и вектор-функций.
Тогда, если х0 (t) - оптимальная траектория системы (1) с заданными значениями х (0) и х (^),
оптимальное управление и0 (t - к) удовлетворяет уравнение Беллмана (уравнение Гамильтона-Якоби-Беллмана) вида
Г dS ( х0 к ), t)
либо
<®(х0^),t) Л
где обозначено
I «Ol x 111,1 I г -,1
I dt + F [ x° (^ u (t -h) '][ = 0, (4)
- + F [ x ° (t), u ° (t - h), t ] = °, (5)
S(x° (t),t) = V |t] + minJF [x° (s),u (s - h),s] ds , (6)
t
причем
S (x° (t,), t, ) = V t = V (x (t,), t,) , (7)
а для подынтегральной функции F (•) имеет место равенство (5), (6).
Доказательство. Обозначим через S (x° (t°), t°) минимум функционала J (3). Из принципа оптимальности следует, что часть траектории с концами x° (t) (в начале при t = t) и x° (t,) (в конце при t = t,), удовлетворяющая уравнению (1), также оптимальна. Значит, минимальное значение порождаемого этой частью траектории функционала равно S (x° (t), t) (6) с граничным значением S (x° (t,), t,) = V |t,
(7). Приходим тем самым к так называемому функциональному уравнению Беллмана (6).
Пусть t' = t + At, где At - достаточно малый интервал времени. Тогда минимальное значение функционала по части оптимальной траектории с начальным состоянием x° (t') = x° (t + At) и конечным состоянием x° (t, ) определяется равенством
S (x°(t'), t') = V |t, + min JF [x° (s), u (s - h), s] ds. (8)
ue t'
Разобьем интервал интегрирования на два: от t до t' = t + At и от t' до t,. Тогда, сравнивая интегралы (6) и (8), получим, что
С t+At t Л
S(x° (t),t) = V t + min J F [x° (s),u (s - h), s]ds +J F[x° (s),u (s - h),s] ds , (9)
\ t t+At у
или с точностью до малых а, (At) более высокого порядка, чем At, можно написать (с учетом оптимальности на втором интервале):
S(х0 (t),t) = V |t] + min F [x0 (t),u (t - h),t] At + min Jf [x0 (s), u (s - h),s]ds -ъсц (At) ,
uiU v uiU t )
где с точностью до a,j (At) имеем в соотношении (9) для первого интеграла справа
t+At
J F[х0 (s),u(s -h),s]ds = F[x0 (t),u(t -h),t] At + с (At) ,
a. (At) lim ———— = 0.
A<^0 At Таким образом, имеем запись
S (х0 (t),t) = min{ [x0 (t),u (t - h), t] At + S (х0 (t'),t')] + a, (At). (10)
Пусть, ради простоты записи, х (t) = х0 (t). Тогда, разлагая x(t') в ряд Тейлора, получим
x(t') = х (t + At) = х (t) + х (t) At + a2 (At) = х (t) + f [х (t), u (t - h), t] At + a2 (At) , (11)
где a2 (At) - остаточный член выше первого порядка малости от At. Подставим это разложение x(t')
(11) в выражение для S (х (t'),t'). При соответствующем разложении в ряд Тейлора, полагая при этом,
что существуют частные производные dS / dxi, i = 1, n , и dS / dt, получим
S (x(t'), t') = S [ х (t + At), t + At ] = S {x (t)+ f [ х (t), u (t - h), t ] At + a2 (At), t + At] =
, .. . - dS(х(t),t) dS(х(t),t)
= S(x(t),t)+£— fi [X(t),u(t-h),t] At+—v w ' At + a3 (At),
i=1 dXi dt
где a3 (At) - это остаточный член выше первого порядка малости по At, причем здесь
¿dSMM f [ х (t), u (t - h), t ]+dS (X (t),t ) =dS (X (t),t)
(12)
dt
dt
S
dx
(
dS dS dS
Y
v dX2 dxn )
= gradS,
(*) сверху по-прежнему означает операцию транспонирования. Следовательно, для £ (х(г'),г') имеем
S (x(t'), t ') = S (х (t), t)
dS (х (t), t)
Л*
dx
r /ч / ч -| dS(х(t),t)
f [X(t),u(t-h),t] At +—x dtt At + a3 (At).
(13)
Подставим затем в^1ражение (13) в правую часть соотношения (10), полагая х(t) = х0 (t). Поскольку выражения S (х(t),t) и dS/ dt не зависят от u (•) = u (t -h), то их можно вынести за знак min . После сокращения и деления обеих частей на At получим
dS (х0 (t), t)
dt
= min
uiU
dS (х0 (t),t)
Y
cX°
f [ x0 (t), u (t - h ), t ]+ F [ x0 (t), u (t - h ), t ][+a 4AAt) , (14)
где а4 (Аг) - остаточный член выше первого порядка малости по А/, т.е. а4 (Дг) / Дг ^ 0 при Аг ^ 0 .
При Аг ^ 0 из уравнения (14) получим уравнение Беллмана для управляемых систем с запаздыванием в управлении:
7яоЛ.0 гл Л У
/ [ х0 (г), и (г - к), г ] + F [ х0 (г), и (г - к), г (15)
dS (х0 (t), t)
dt
= min
uiU
dS (х0 (t), t)
dx0
либо
dS (х0 (t), t) Г dS (х0 (t), t)
dt
Л*
dx0
f [x0 (t),u0 (t - h),t] + F[x0 (t),u0 (t -h),t] .
(16)
С помощью полной производной dS / dг последние два уравнения (15) и (16) можно записать в виде соотношений (4) и (5) соответственно из формулировки теоремы. Тем самым утверждение полностью доказано.
i=1
Модельный пример
В качестве простейшего модельного примера можно взять управляемую линейную систему с уравнением движения
х(^ = х() + u[х(),xp t-к], х,хр е R , с целевым функционалом качества вида (3):
J = V (у )) +1 (v (у (^)) + u2 ( - к)) )
^ Ш1П,
иеи
где V (у (/)) = у2 (/) - функция Беллмана, и (/ - к) = и [х (/), хр (/), ' - к ], у (t) = х (t)-хр (t), хр (t) -программное движение системы, и стабилизационным условием limt^ |х(t) - хр ^)| < 5, где 8> 0 - заданная достаточно малая постоянная. Применяя описанный выше метод оптимальной стабилизации с помощью теоремы, получим необходимое условие оптимальности в виде уравнения Беллмана
Шп (((у) + у2 + и2 ) = 0.
С учетом исходного уравнения движения у = х - хр = х + и - хр это уравнение можно записать в
развернутом виде:
. Ч 2 ■ (дV 2 1 п ЗV „ -(х - х )+ у + Ш1п I-и + и 1= 0,-= 2 у ,
Су У «ей J - ду
откуда следует формула для выбора оптимального управления
и0 (t - к ) = и0 [ х ^), хр (t), t - к ] = -у ^) = -(х (t)- хр (t)) .
После подстановки и 0 в уравнение движения получим
х = хр,
а при подстановке и 0 в уравнение Беллмана будем иметь
2у (х - хр ) + у2 - 2у2 + у2 = 0,
или 2у (х - хр) = 0 . Чтобы уравнение Беллмана имело место, выберем хр (t), полагая х - хр = 0 .
Таким образом, приходим к системе двух уравнений первого порядка относительно х ^) и хр ^):
х = хр, хр = х.
Очевидно, что эта система равносильна системе двух уравнений второго порядка
хр — хр, х — х
с общими решениями
хр ^) = С/-» + С2е-(^0', х ^) = С/-» - С2е-(^0', где С1, С2 - произвольные постоянные. Выбирая начальные условия
хр (^ ) = С1 + С2 = х (t0 ) , хр (t0 ) = С1 - С2 = х (t0 ) так, чтобы С = 0 , т.е.
хр (t0 ) = С2 = х(t0 ), х(^ ) = С2 = хр (^ ) (это обеспечивается выбором программной траектории хр (') = С2е-^', t е [70, t1 ]), придем к задаче оптимального торможения или, в противном случае, т.е. когда С1 Ф 0, к задаче оптимального разгона движения исходного объекта управления.
Оптимальная стабилизация вращения твердого тела
В качестве примера синтеза оптимального управления рассмотрим движение твердого тела вокруг неподвижного центра инерции под действием управляющего момента М :
Iю+юх/ю = М, (17)
либо в скалярной форме
Ар + (С - В )дг = Мх, Вд + (А - С )рг = Му, Сг +(В - А) рд = М2,
Здесь А, В, С - главные центральные моменты инерции тела; р, д, г - проекции вектора угловой скорости ю твердого тела на главные центральные оси инерции связанной с телом системы координат 0хуг, I = diag (А, В, С) - тензор инерции. Уравнения Эйлера (17) можно записать в нормальном виде:
ю = -I 1 (юх/ю)+м, u = I 1M,
или
p = k1qr + u1,q = k2pr + u2,r = k3pq + u3, где обозначено
= Mx = My = Mz = B - с k = С - Л k = А - B
u„ —-, w —-, u — , ki — , k9 — , k, —
p A q B r С 1 А 2 B 3 С
Тем самым имеем
ю = /(ro) + u , (18)
+ u ,
f p ^ f u. ^ ' k1qr N
= q , u = u2 , / (ю) = k2 pr
r V v u3 V v k3 pq v
Зададим также программную траекторию
юР = / (юР) •
Введем в рассмотрение вектор-функцию y = ю-юр, где ю = юp (t) - программное движение. Цель управления - минимизация разницы между движением системы и программной траекторией. Необходимо выбрать закон оптимального стабилизирующего управления u0 в функции измеряемых значений ю (t), t е [t0, t1 ] так, чтобы обеспечивались следующие целевые условия:
J (u, y, to, t1 ) = y*y| +í (y* y + u*u )dt ^ min, limC^^) <8 , (19)
lt—t J V / ueU t^t, -vit I
to ' У\1о)
где 8>0 - заданная малая постоянная, а ||y(t)|| - евклидова норма вектора y(t) • Для решения задачи (17)-(19) воспользуемся полученными ранее результатами. Зададим стационарную функцию Беллмана
V (y ) = y* y, = y* y[=t1
как решение уравнения Беллмана (4):
mm (V (y) + V (y) + u*u )= 0, (20)
с функционалом качества (19). С учетом выражения (18) выражение (20) запишется в виде
2 y* / (y) + y* y + min ( 2 y*u + u*u) = 0, (21)
ueU v '
откуда будет следовать формула задания оптимального управления: u0 = -y . При таком значении управления уравнение движения примет следующий вид:
y + y = F (ra,t), F (ra,t) = /(ю t)-róp,
или
ю-ю + ю-ю = /(ю,t)-rö •
p p ^ v / p
Если положить F(ю, t) = 0, то V(y) = y*y ^ 0 (t ^ro), откуда следует, что y ^ 0, ю^юр (t ^ro). Таким образом, имеем ограничение на выбор юр: F (ю, t )= 0 ею = / (ю, t), где ю (t0) ^ юр (t0), т.е. y0 ^ 0, y (t) = y (t0) e~(t-t0'. Подставляя это выражение, получим дифференциальное уравнение для определения ю (t):
юp (t) = /(юp (0 + у ('0)e-(t-t0',t).
Приведем данные численных расчетов для модели (17)-(19). В примере задавались следующие значения: главных моментов инерции: А = 3 кг-м2; B = 1 кг-м2; С = 2 кг-м2; [t0, t1 ] = [0,10] с ;
p (0) = 5 рад / с ; q (0) = 6 рад / с ; r (0) = 7 рад / с ; 8= 0,05.
После подстановки u0 = -y обратно в уравнение Беллмана (20), (21) получим
V = -2V, V = y*y ^ 0, y ^ 0,
при t ^ го по экспоненциальному закону. Из графиков видно, что цель управления достигнута и произведена стабилизация вращения твердого тела. При данном оптимальном управлении u0 функционал качества J принимает минимальное постоянное значение J = V (t0 ) = y* (t0) y (t0 ) = 110 (рад/с)2, где
У* (0) = (5,6,7) рад/с.
хо
5
3
о
1 2 3 < 5 6 7 8 Э 10 Г, с
- А q1--1
Рис. 2. Графики зависимостей угловых скоростей вращения твердого тела; y(t) = Ю(t)-Юр (t) = (A (t),ql (t),r,(t))
Заключение
Основным результатом проделанной работы следует считать формирование алгоритма оптимального стабилизирующего управления для нелинейных динамических систем с запаздыванием в канале
обратной связи. Отметим важные особенности данного алгоритма:
L Уравнение Беллмана (4) обосновано в той степени, в которой имеют место требования гладкости функции Беллмана, т.е. в той мере, в которой справедливо допущение о существовании частных производных dS / dx , dS / dt функции S (x (t), t) ;
2. Уравнение Беллмана (4) позволяет выразить оптимальное управление u° = u° (t - h) в момент времени t - h в функции вектора состояния x (t) в момент времени t и самого времени t. Отметим, что формирование блока запаздывания (рис. !), указывающего на зависимость между управлениями u ° (t), u ° (t - h), является самостоятельной задачей и в данной статье не рассматривается.
Литература
L Габасов Р., Кириллова Ф.М. Качественная теория оптимальных процессов. - М.: Наука, !97L - 508 с.
2. Колмановский В.Б., Носов В.Р. Устойчивость и периодические режимы регулируемых систем с последействием. - М.: Наука, !98L - 448 с.
3. Матвеев А.С., Якубович В.А. Оптимальные системы управления: обыкновенные дифференциальные уравнения. Специальные задачи. - СПб: Изд-во СПбГУ, 2°°3. - 54° с.
4. Тертычный-Даури В.Ю. Галамех. Оптимальная механика. В 4-х томах. - М.: ФИЗМАТЛИТ, 2°°8. -Т. 4. - 6°7 с.
5. Бобцов А.А., Пыркин А.А. К задаче управления параметрически неопределенным линейным объектом с запаздыванием в канале управления // Научно-технический вестник СПбГУ ИТМО. - 2°П. -№ 3 (73). - С. Ш.
6. Бобцов А.А., Пыркин А.А. Компенсация гармонического возмущения в условиях запаздывания по управлению // Изв. РАН. Теория и системы управления. - 2°°8. - № 4. - С. !9-23.
7. Бобцов А.А., Колюбин С.А., Пыркин А.А. Компенсация неизвестного мультигармонического возмущения для нелинейного объекта с запаздыванием по управлению // Автоматика и телемеханика. -2°Ю. - № П. - С. Ш-Ш.
Музыка Дмитрий Александрович - Санкт-Петербургский национальный исследовательский универ-
ситет информационных технологий, механики и оптики, магистрант, [email protected]
Пещеров Руслан Олегович - Санкт-Петербургский национальный исследовательский универ-
ситет информационных технологий, механики и оптики, магистрант, [email protected]
Тертычньш-Даури Владимир Юрьевич - Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор физ.-мат. наук, профессор, [email protected]