УДК 517.977.8;517.977.58
РЕГУЛЯТОР С ДИСКРЕТНО ИЗМЕНЯЕМЫМИ ПАРАМЕТРАМИ1
В.Н. Афанасьев, A.A. Семион
Для класса динамических нелинейных объектов, подвергающихся неконтролируемым ограниченным возмущениям, предполагается возможность эквивалентного представления таких объектов в виде моделей с линейной структурой и параметрами, зависящими от состояния. Проблема управления формулируется в ключе дифференциальных игр, причем игра рассматривается с одним игроком, вторым же игроком является возмущение, действующее на объект. Линейность структуры преобразованной нелинейной системы и квадратичный функционал качества позволяют при синтезе оптимального управления перейти от необходимости поиска решений уравнения Гамильтона — Якоби — Айзекса к уравнению типа Риккати с параметрами, зависящими от состояния. Основной проблемой реализации полученных при синтезе управлений является невозможность (в общем случае) решения алгебраического уравнения типа Риккати с параметрами, зависящими от состояния, в темпе функционирования объекта.
Ключевые слова: нелинейная непрерывная динамическая система, дифференциальные игры, уравнение Гамильтона — Якоби — Айзекса, уравнение Риккати.
ВВЕДЕНИЕ
Сложность многих современных систем управления зачастую не позволяет получить заранее полное описание процессов, протекающих в системе, и ее взаимодействия со средой. Достаточно часто математическая модель системы управления учитывает лишь допустимые области изменения параметров управляемой системы и характеристик ее отдельных элементов без конкретизации самих этих параметров и характеристик. Указанные области могут определяться, например, интервальными ограничениями, соответствующими заданным техническим допускам на систему. В этих условиях получить аналитическое решение оптимальной задачи управления не представляется возможным.
Проблема управления при решении таких задач для получения гарантирующего результата может быть сформулирована в терминах дифференциальных игр, причем игра рассматривается с одним игроком, вторым же игроком служит возмущение, действующее на объект.
Начало развития теории дифференциальных игр относят к 1965 г., когда была опубликована работа Р. Айзекса (на русском языке — в 1967 г.) [1].
1 Работа выполнена при финансовой поддержке Программы «Научный фонд НИУ ВШЭ» в 2014/2015 гг.».
В работах Н.Н. Красовского и его учеников метод дифференциальных игр разрабатывался не только для задач преследования и наведения, но и для задач минимаксного управления [2, 3] — управления с гарантирующим результатом. В подобных работах игра рассматривается с одним игроком, вторым же игроком является возмущение, действующее на объект. Основная проблема, возникающая при реализации теоретических положений дифференциальных игр, связана с трудностями поиска решений уравнения Гамильтона — Якоби — Айзек-са — скалярного уравнения в частных производных. Поэтому в основных работах теории дифференциальных игр конфликтующие участники игры описываются линейными дифференциальными уравнениями и функционалы задаются квадрати-ческими [4]. Популярные методы синтеза управляющих воздействий для нелинейных систем связаны с приемами линеаризации нелинейных уравнений с помощью рядов Тейлора, представления нелинейных уравнений в эквивалентной форме линейных уравнений, но с параметрами, зависящими от состояния, линеаризацией нелинейных систем обратной связью по состоянию или по выходу. В настоящей статье проблема управления формулируется для класса нелинейных объектов, представимых в виде объектов с линейной структурой и параметрами, зависящими от состояния (State Dependent Coefficients — SDC). Линейность
структуры преобразованной нелинейной системы и квадратичный функционал качества позволяют при синтезе оптимального управления перейти от необходимости поиска решений уравнения Гамильтона — Якоби — Айзекса к уравнению типа Риккати с параметрами, зависящими от состояния (State Dependent Riccati Equation — SDRE). Это и составляет основу SDRE-метода синтеза субоптимальных нелинейных систем управления [5, 6].
Несмотря на имеющиеся достаточно убедительные примеры применения SDRE-метода [7—11], остается множество проблем, связанных с ограничениями, налагаемыми на систему, неоднозначностью эквивалентных преобразований исходной системы, построением эффективных алгоритмов решений матричных уравнений Риккати с параметрами, зависящими от состояния, в темпе функционирования системы управления.
В данной статье задача управления нелинейным объектом, подвергающимся воздействию неконтролируемых возмущений, будет рассматриваться в более общем виде, а именно в терминах дифференциальной игры, что позволит обобщить ряд ранее опубликованных теоретических результатов и получить достаточно конструктивные решения в ряде постановок задач управления. Реализацию полученных при синтезе управлений предложено осуществлять решением уравнения Риккати с постоянными параметрами в счетном количестве точек траектории системы. Таким образом, параметры регулятора находятся для каждого промежутка времени между текущим значением состояния и следующим за ним.
1. ПОСТАНОВКА ЗАДАЧИ
Пусть детерминированная нелинейная система описывается уравнением
|x(t) = fx) + D(x)w(t) + B(x)u(t), x(t0) = x0,
y(t) = Cx(t), (1)
u(t) e U, w(t) e W, t e [t0, T],
где x(-) e d([t0, T], Rn), и(-) e d([t0, T], Rr), w(') e Cx([t0, T], Rk). Здесь x(t) — состояние системы, x(-) e Qx; X0 e Qx — множество возможных начальных условий системы; y e Rm, m ,, n — выход системы; u(t) — управление; w(t) — возмущение; f(x), D(x) и B(x) — непрерывные матрицы-функции. Предполагается, что для всех x система (1) управляема и наблюдаема [12, 13]. Кроме того, будем полагать, что функции f(x), D(x) и B(x) достаточно гладкие такие, что из любых точек (t0, x0) e R+ s
выходило бы одно и только одно решение уравнения (1) х(?, ?0, х0) и был бы единственным соответствующий выход системы у(?) = Сх(?, х0).
Предполагается, что неконтролируемое возмущение которое может быть как детерминированным, так и стохастическим, характеризуется отношением:
И?)| < у(х(?)), V? > 0,
где |м^.(?)| < стг(х(?)), / = 1, к, ? > 0, стг(х(?)) > 0 для всех х(?) е 0.х или в общем виде е №.
Рассматривая возмущение как действие некоторого игрока, противодействующего успешному выполнению задачи управления, сформулируем задачу управления в терминах дифференциальной игры двух игроков Си и С^. Управления и(?) е и и е № будут организовываться с помощью принципа обратной связи по состоянию.
Цель управления и(?) при противодействии процесса состоит в построении такого управляющего воздействия ^ = (х(?), и(?), ^(?)), которое обеспечит выполнение заданного условия
|У(х(Т))| < й, й > 0, У(х(Т)) е Я
Введем функционал качества дифференциальной игры
т
/(х, И, *) = 1 I {/(?)ОК?) + ит(?)Яи(?) -
2 <0
- ^т(?)Рм<?)}Л. (2)
Здесь матрица О, по крайней мере, положительно полуопределенная, матрицы Я и Р — положительно определенные. Предполагается, что ограничения, наложенные на процессы и(?) и можно учесть соответствующим назначением матриц Я и Р. Относительно верхнего предела функционала (2) будем считать, что время Т задано, но такое, что задача дифференциальной игры в период [?0, Т] выполнена.
При таком назначении верхнего предела функционала (2) (интервала управления, в котором может быть завершена дифференциальная игра) задача построения управляющего процесса ^ = (х(?), и(?), ^(?)) может рассматриваться как задача синтеза оптимального управления с бесконечным интервалом управления (Т ^ да) [12].
Допустимыми элементами ^ = (х(?), и(?), ^(?)) в поставленной задаче будем считать функции
класса х(-) е Сх([?0, Т], Я"), и(-) е С([?0, Т], Яг),
*<•) е С([?0, Т], Як).
Определение. Будем называть управляющий процесс = (хг(?), иг(?), ^г(?)), ? е [?0, Тг], Тг < Т, гарантирующим выполнение задачи дифференци-
альнои игры, заключающейся в достижении цели |^(хг(Рг))| < С, С > 0, если доставляет локальный минимум функционалу (2) на решениях системы (1) при любых возмущениях удовлетворяющих ограничению |^(?)| < ст(х(?)), Уt > 0. ♦
Отметим что, /(^г) > /(^) для любых управляющих процессов ^ = (х(?), и(?), ^(?)), I е [?, Тг], для которых |У(хг(Рг))| - |У(х(Рг))| > 0.
В основе необходимого для дальнейших исследований преобразования математической модели объекта (1) лежит методология «расширенной линеаризации», называемой также как «параметризация системы коэффициентами, зависящими от состояния» (SDC-линеаризация) [10].
Предположение 1. Функции /(?) и д/(х)/дхр / = 1, ..., п, непрерывны по х е Ох и /(0) = 0.
Предположение 2. Матрицы П(х), В(х) и дП(х)/дхр дР(х)/дхг, / = 1, ..., п, непрерывны по х е Пх и Дх) ф 0, В(х) ф 0, х е 0.%. ♦
При выполнении предположений 1 и 2 с помощью SDC-линеаризации исходную нелинейную систему (1) можно представить в виде
с
dt
x(t) = A(x)x(t) + D(x)w(t) + B(x)u(t), x(t0) = x0, y(t) = Cx(t),
(3)
где А(х)х(?) = /(х), А(х), Дх), В(х): х е Пх ^ Яп.
2. УРАВНЕНИЕ РИККАТИ С ПАРАМЕТРАМИ, ЗАВИСЯЩИМИ ОТ СОСТОЯНИЯ
Предположение 3. Пусть /х), П(х) и В(х) достаточно гладкие функции такие, что функция Г(х), определенная как
V(x) = inf sup J(x, u, w),
и e Uwe W
(4)
дифференцируемая функция при любых допустимых стратегиях игроков <7^, < е Р2(0, да).
Предположение 4. Функция Г(х), определенная выражением (4), локально липшицева в Ох. ♦
Оптимальные стратегии с обратной связью в дифференциальной игре для игроков < и в задаче, в которой время окончания переходного процесса большое по сравнению с динамикой системы, определяются выражениями [12]
u(t) = -R-1BT(x) ^
w(t) = P-1DT(x) w WJ ax( t)
(5)
где вектор дГ(х)/дх определяется решением уравнения Гамильтона — Якоби — Айзекса
Ц/(х) + 2 ^«О*« - 1 ЦМ X
S [BT(x)R 1B(x) - DT(x)P 1D(x)] J ^ ^ =
0
с граничным условием V(0) = 0 при управлениях (5), обеспечивающих устойчивость системе,
lim x(t) = 0.
t
Исходная система с управлениями (5) определяется выражением
dtx(i) = fx) - [BT(x)R- 1B(x) -
- DT(x)P- 1D(x)]j|X(|j , x(t0) = x0, (6)
T
Если определить (dV(x)/dx(t)) как S(x)x(t), т. е.
T
(dV(x)/dx(i))J = S(x)x(t), то, как показано в работе [10], субоптимальные законы управления w(t) и u(t) с обратной связью в рассматриваемой задаче определяются выражениями
1
u(t) = -R 1B(x)S(x)x(t),
w(t) = P 1D(x)S(x)x(t),
(7)
где положительно определенная матрица ^(х) является поточечным решением матричного уравнения типа Риккати с параметрами, зависящими от состояния
адДх) + Ат(х)^(х) - ^(х)[Рг(х)Я- хР(х) -- Пт(х)Р- хП(х)]^(х) + Ст0С = 0. (8)
Тогда уравнение системы (6) можно переписать в виде
с|х(?) = /х) - П(х)^(х)х(?), х(?0) = х0,
где
y(t) = Cx(t),
n(x) = BT(x)R 1B(x) - DT(x)P 1D(x).
(9)
Отметим, что система (9) устойчива, если матрица П(х), по крайней мере, положительно полуопределена для Ух е Ох. Это нетрудно показать, применяя вторую теорему Ляпунова. Введем функцию Ляпунова VI(х) такую, что
ю^х|} < VI(х) < ю2{|х|>, С^(х)/С? < -ю3{|х|},
Vx е Q
X
где юг{|х |}, / = 1, 2, 3, ю;(0) = 0, ю;{|х |} > 0, скалярные неубывающие функции. Как следует из второй теоремы Ляпунова, что если выполняется условие
^ = ^ ¿т < -Юз{|х|}, (10)
й? дх й? 3
то система устойчива. Принимая во внимание выражение (9), перепишем условие (10):
dVi ( x)
3x
{fx) - n(x)S(x)x(t)} < -ю,{Х|}. (11)
Назначим функцию ^(х) в виде VI (х) = = хт(?)^(х)х(?) и Ю3{|х |} в виде ю3{|х |} = хт(?)СтОСх(?).
После ряда трансформаций неравенство (11) будем иметь вид
£ ^(х) = -хт^(х)[Вт(х)Я-1В(х) - £т(х)Р-1Дх)] х
X £(х)х(?) = -хт£(х)П(х)£(х)х(?)} < 0, Vx,
—1 т
что означает, что матрица П(х) = [#2(х)Я (х) —
—1 т
— ^1(х)Р (х)] должна быть для всех х е Ох, по крайней мере, положительно полуопределенной.
Таким образом, обеспечение положительной определенности матрицы П(х) благодаря соответствующему назначению в функционале качества (2) матриц штрафа Р и Я является ключевым для выполнения задачи управления в постановке дифференциальной игры, что гарантирует [2] успешное выполнение исходной задачи управления неопределенным нелинейным объектом.
Рассмотрим вопрос об использовании доступной информации о неконтролируемом возмущении. Эту информацию уместно использовать при назначении в функционале качества (2) матрицы штрафа Р. Если имеется такое ст*, что ст* > стг(х(?)),
/ = 1, к, то диагональные элементы матрицы Р для наименее благоприятного случая можно назначить в виде рй = 1/ст*, т. е. Р = Р(ст*) = Р*. Тогда, с учетом последнего, матрица Я должна назначаться так, чтобы выполнялось условие положительной полуопределенности матрицы П(х), Vx ^ 0.
Начальные условия системы х(0) следует принять во внимание при назначении матрицы О, т. е., с учетом того, что эта матрица должна быть, по крайней мере, положительно полуопределенной, то О = О(|х(0)|).
3. РЕГУЛЯТОР С ДИСКРЕТНО ИЗМЕНЯЮЩИМИСЯ ПАРАМЕТРАМИ
3.1. Стратегии дифференциальной игры
Как видно, реализация субоптимальных управлений вида (7) в задачах дифференциальных игр в нелинейной постановке задачи требует решения уравнения (8) в темпе функционирования объекта. Для задач достаточно большой размерности решение этого уравнения, матрицы которого являются функциями состояния объекта, представляется сложной проблемой.
Сделаем предположение о построении регулятора с дискретно изменяющимися параметрами. Разобьем интервал [?0, Т] на N отрезков. Начало каждого отрезка имеет номер /0, ..., _ 1, которому соответствует состояние системы х0, х1, ..., х^ _ 1. Значения состояния системы хг, соответствующие началу каждого из отрезков, определяют значения параметров матриц А(хг), -0(хг), Р(хг). Эти матрицы используются для вычисления положительно определенной матрицы £(х;):
^(хг)А(хг) + Ат(хг)£(хг) - ^(хг)[Вт(хг)Я-1Р(хг) -- ^т(хг)Р-1^(хг)]^(хг) + СтОС = 0. (12)
Таким образом, матрица £(х;) вычисляется в интервале [?0, Т] в счетном количестве значений траектории хр / = 0, 1, 2, ..., N - 1. Вычисленное значение матрицы в /-й момент используется в регуляторе на всем интервале у{ - у{ + 1, / = 0, 1, ..., N.
Управления на каждом интервале у,. - 1 - у,, у = = 1, ..., N определяются выражениями
w,.(t) = P 1DT(x)S(xi)x(i), u.(t) = -R-1BT(x)S(x.)x(t).
(13)
Траектория движения объекта с управлениями (16) определяется решением уравнения
dx(t) = fx) - [B(x)R-1BT(x) - D(x)P-1DT(x)] s s S(x;)x(t), x(t0) = x0, i = 0, ..., N - 1.
Отметим, что интервал [t0, T ] зависит от возможностей устройства, реализующего вычисление матрицы S(x;) по формуле (12).
Очевидно, что при т = t. + 1 - t. ^ 0, i = 0, 1, 2, ..., N - 1, т. е. при уменьшении интервалов разбиения, lim S(x(t;)) ^ S(x(t; + 1)), i = 0, 1, ..., N - 1.
т ^ 0
3.2. Задача управления с разомкнутым контуром по возмущениям
Рассмотрим влияние возмущений на результат управления объектом, используя его модель (3). Пусть в качестве возмущений, действующих на входе объекта, будет белый шум w(t) с характеристиками
M[w(t)] = 0, M[w(i)wT(x)j = W5(t - т), M[x(i0)wT(i)j = 0
и пусть решение уравнения, описывающее исходную систему с изменяющимися от интервала к интервалу значениями параметров регулятора, описывается выражением
(t) = f( x) - B(jc )R-1BT( x )S( xc,) x (t) +
+ D(x)w(t), x(t0) = x0, y(t) = Cxx(t) , i = 0, ..., N - 1,
где матрица S( хг-) вычисляется в каждый момент i в соответствии с уравнением
S( x )A( x) + AT( x, )S( x,) -
- S( x, )V( x, )R-1BT( x,- )S( x,) + CTQC = 0 и сохраняет свое значение в регуляторе u(t) =
_1 T Л /V /V
= -R B (x)S(хг-)x (t) до следующего момента i + 1. Уравнение для ковариационной матрицы
X(t) = M[x(t0)x(t0)] состояния объекта будет описываться соотношением [3]:
4. ПРИМЕР
JtX (t) = x) - B( x )R 1BT( x)
+ X (t) xc) - B( xx )R 1BT( xc)
1
N - 1
N -
Z S
i = 0
N - 1 -|
iZS'
1 i = 0
N - 1; 1
+
+
+ Д х )№£7( х),
ХГ (?0) = м[х(?0)хг(?0)]. Отметим, что при т = ti + 1 — ti ^ 0, / = 0, 1,
2, ..., N — 1 значения параметров матрицы X(0 будут стремиться к значениям матрицы Х(0, т. е.
X (0 ^ Х(0, которая определяется решением уравнения
X (о = {А(х) - я(х)я-1яг(х)ад}Х(о + + Х(!){А(х) - В(х)Р-1Вг(х)^(х)}г + Дх) №£г(х),
Рассмотрим пример из работы [14] (координатное управление спутником), усложнив его введением параметрических возмущений. Исследуемый нелинейный объект описывается дифференциальным уравнением
d
dt
С xi(
x2( t) V x3(t)
a i ( t) 3
X2 (t) x3( t)
-a2( t) x1( t) x3( t) a3( t) xi( t) X2( t)
+
( ¿i(t)«i(ол ' di( t)N
+ ¿2 (t) «2( t) + d2( t)
V b3(t)м3( t) у V d3( t) у
w(t),
х1(0) = 40, х2(0) = 30, х,(0) = 20.
Номинальные значения параметров объекта: а1 = 3, а2 = 1, а3 = 1, Ь1 = 25, Ь2 = 5, Ь3 = 20, = ^2(?) = = ^,(0 = 1.
Возмущение: м>(0 = 15ш(г), где ш(?) — белый шум. Функционал
1 Г
/(х, И, ®) = 1 I{||X(ОН2 + |и(ОН| - N(011р№ 2 0
О = ^[^(0)1, |Х2(0)|, |х,(0)|], Я = 1, Р = 1. 8БС-представление исходной системы:
d
dt
/ Л Xi( t) с 0 0 X2( t)N / л Xi( t)
x2( t) = -x3( t) 0 0 x2( t) +
V x3( t) у V 0 xi (t) 0 V x3( t)y
^ 25Mi(t)A f л 1
+ 5 м2( t) + 1 w(t)
V 20м3(t) у V 1 у
X(t0) = M[x(t0)xT(t0)].
Рис. 1. График изменения коэффициентов регулятора
ческим объектом с помощью решения уравнения Риккати с квазипостоянными значениями параметров на отдельных этапах переходного процесса. С увеличением вычислительной мощности процессоров интервалы, для которых вычисляются параметры регулятора, могут уменьшаться, приближая решение задачи управления нелинейным объектом к оптимальному.
ЛИТЕРАТУРА
Рис. 2. График изменения управления
Рис. 3. График изменения состояний системы
Без учета нахождения значения матрицы S(x0) регулятор описывается уравнением
и((1 + ^ + 2) = -Л-1^)^.^),
где матрица £( х;) отыскивается на отдельных интервалах переходного процесса решением уравнения
S(x)A(x) + ЛГ(х;№,.) - ад ,2Г (х,.)Л-1,2(х;) -- £ (х,.)Р-1,1(х,.)]^(х,.) + СтОС = 0,
в котором
' 0 0 Х2(. С \ 2 0 0
A(x) = -Хз( ti) 0 0 , в = 0 5 0
V 0 xi( ti) 0 у V 0 0 20 ,
Графики переходных процессов в системе представлены на рис. 1—3.
ЗАКЛЮЧЕНИЕ
Предложен метод реализации алгоритма управления нелинейным неопределенным динами-
1. Айзекс Р. Дифференциальные игры. — М.: Мир, 1967. — 479 с.
2. Красовский Н.Н., Третьяков В.Е. Задачи управления с гарантированным результатом. — Свердловск, 1986. — 64 с.
3. Субботин А.И. Минимаксные неравенства и уравнения Гамильтона — Якоби. — М.: Наука, 1991. — 216 с.
4. Понтрягин Л.С., Мишенко Е.Ф. Задача об уклонении от встречи в линейных дифференциальных играх // Дифференциальные уравнения. — 1971. — Т. 7, № 3. — С. 436—445.
5. Афанасьев В.Н. Концепция гарантированного управления в задачах управления неопределенным объектом // Изв. РАН: Теория и системы управления. — 2010. — № 1. — С. 16—23.
6. Afanasiev V.N. Guaranteed control of feedback linearizable nonlinear object // American Institute of Physics. Conference Proc. of 9-th Intern. Conf. on Mathematical Problems in Engineering, Aerospace and Science. — 2012. — Vol. 1493/1. — P. 13—19.
7. Mrasek C.P. SDRE autopilot for dual controlled missiles // Proc. 17th IFAC Sympos. ' on Automatic Control in Aerospace. Toulouse, France, 2007.
8. Friedland B. Quasi Optimal Control and the SDRE method // Ibid.
9. Salnci M.U., Gokbilen B. SDRE missile autopilot design using sliding mode control with sliding surfaces // Ibid.
10. Qimen Tayfun. On the Existence of Solutions Characterized by Riccati Equations to Infinite-Time Horizon Nonlinear Optimal Control Problems // Proc. 18th World Conf. IFAC, Milano (Italy) 28.08. — 2.09. 2011. — Р. 9620—9626.
11. Ruderman M., Weigel D., HoffmannF., Bertram T. Extended SDRE control of 1-DOF robotic manipulator with nonlineari-ties // Ibid. — Р. 10940—10945.
12. Афанасьев В.Н., Колмановский В.Б., Носов В.Р. Математическая теория конструирования систем управления. — М.: Высшая школа, 2003. — 615 с.
13. Афанасьев В.Н. Управление нелинейными объектами с параметрами, зависящими от состояния // Автоматика и телемеханика. — 2011. — № 4. — C. 43—56.
14. Федоренко Р.П. Приближенное решение задач оптимального управления. — М.: Наука,1978. — 487 с.
Статья представлена к публикации членом редколлегии
В.Ю. Рутковским.
Афанасьев Валерий Николаевич — д-р техн. наук, зав. кафедрой,
Семион Александр Александрович — студент 5-го курса,
Московский институт электроники и математики
Национального исследовательского университета —
Высшей школы экономики.