УДК 681.513
УПРАВЛЕНИЕ ДИНАМИЧЕСКИМИ СТОХАСТИЧЕСКИМИ НЕСТАЦИОНАРНЫМИ ОБЪЕКТАМИ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ С АКТИВНЫМ НАКОПЛЕНИЕМ ИНФОРМАЦИИ.
II. ОБЪЕКТЫ С БЫСТРЫМ ДРЕЙФОМ ПАРАМЕТРОВ
АДОНИН О.В., БОДЯНСКИЙЕ.В., КОТЛЯРЕВСКИЙ С.В.
Рассматривается проблема активно-адаптивного управления существенно нестационарным динамическим стохастическим объектом с запаздыванием в канале управления. Предлагаются алгоритмы, обеспечивающие качество управления выше, чем традиционные стохастически эквивалентные регуляторы..
В работе [3] рассматривалась задача инновационного дуального управления нестационарным объектом с дрейфом, описываемым соотношением
0(1) = V0(t -1) + |(t). (1)
Однако, во-первых, (1) описывает достаточно узкий класс дрейфов, во-вторых, предложенный алгоритм настройки предполагает использование
информации, неизмеримой относительно Ft. В [4] описана задача активно-адаптивного управления нестационарным объектом с коэффициентами, изменяющимися случайным образом, однако предложенный алгоритм сложен с вычислительной точки зрения и не исследован с точки зрения его оптимальности.
Запишем уравнение вспомогательного выхода в момент времени t:
y(t) = 0T(t)9(t) + u p(t) =
= m0 (t)u(t - d) + Й (t)y(t - d) + о p (t) (2)
и для описания нестационарных параметров введем непараметрическую форму дрейфа в виде [5]
0(1) = Ьл(1), л(1) = Vp(! - 1) + b£(!), (3)
В [1,2] рассмотрены алгоритмы адаптивного управления динамическими стохастическими объектами, использующие принцип стохастической эквивалентности, осторожности, активной адаптации. При этом неявно предполагалось, что объекты являются стационарными, т.е. их параметры не изменяются во времени.
В данной работе рассмотрена задача адаптивного управления с активным накоплением информации динамическим стохастическим объектом в условиях неопределенности относительно дрейфующих параметров.
В том случае, когда скорость дрейфа невысока, можно было бы воспользоваться экспоненциально взвешенным рекуррентным методом наименьших квадратов вида
0(t) = 0(t -1) +
Рф(t)(y(t) -0і (t- 1)ф(1))ф(1) a + 9T(t)P® (t - 1)9(t)
1 Рф (t - 1)ф(1)ФТ(1)Рф (t -1)
РФ (t) = - (Рф (t -1) ^----------5------)
a а + фТ(!)Рф (t - 1)ф(1)
либо экспоненциально взвешенной модификацией алгоритма Калмана-Мейна:
0(t) = 0(t -1) +
РФ(t)(y(t)-0і (t- 1)ф(1))ф(1) аст 2 +фТ(1)Рф (t - 1)ф(П ’
UP
р. (t)(t -1) -Р<р (2 - 1)фт,>фТ(,)Р-(| -11)
аСТ «р +ФТ(1)Рф (t_ 1)ф(1)
(здесь 0<а<1-коэффициент сглаживания), однако если параметры изменяются достаточно быстро, эти алгоритмы не успевают отслеживать дрейф.
где h, b и V -некоторые априорно заданные nе х nл, nл х 1 и nл х nл матрицы, определяющие структуру объекта и характер дрейфа, например, полиномиальный, полигармонический и т.д.; ц(1) -
nл х 1 вектор оптимальных настроек регулятора;
§(t) -непараметризуемая случайная составляющая дрейфа такая, что
Mg(t)Ft} = 0, Mg2 (t)|F,} = a\ < «,
Mg(tg(t + x)|Ft} = 0 при т + 0, M{o p(t)^(t)|Ft} = 0 .
Перепишем уравнение вспомогательного выхода (2) с учетом (3) в виде
y (t) = Ф T (t)hVp(t -1) + ф T (t)hb^(t) + о p (t)
и поставим ему в соответствие уравнение настраиваемого вспомогательного выхода
y(t) = фТ(1)0(1) = фТ(t)hV'n(t-1),
где 0(t), f)(t) - ne х 1, nл x 1 векторы настраиваемых
параметров, подлежащих уточнению на каждом такте t.
Используя для настройки рекуррентную процедуру минимизации квадратичного критерия
Л(1) = Vf|(t -1) + ТЦ (t)(y(t) - фТ (t)hVp(t -1)) х х VThT ф(1) = Vf|(t -1) + ТЦ (t)(y(t) - (4)
-cpT(t)fi(t - 1))cp(t),
68
РИ, 2001, № 1
запишем соотношение для ошибки настройки в виде:
y(t + d) = 0T (t + d)y(t + d),
0(t) = p(t) - p(t) = (V -Гл (t)VThTy(t)yT (t) x x hV)y(t -1) + (b - Гл (t)VThT y(t)yT(t)hb);(t) --Гл (t)VThT yT(t)o p(t),
где Г л (t) — матричный коэффициент усиления алгоритма.
Вводя в рассмотрение ковариационную матрицу ошибок настройки, выполняя усреднение по возмущениям Up(t) и |(t):
Pe (t) = M{0(t)0 T (t) | Ft} =
= (V -Гл (t)cp(t)yT(t))(Pe (t -1) +
+ ct|(V _1b)(V _1b)T) x x (V -Гл(t)y(t)yT(t))T + (5)
+ а^р (Гл (t)y(t))(Ep (t)y(t))T
и решая уравнение
5TrP6(t)
5ГЛ (t)
= 0
находим оптималь-
ное значение коэффициента усиления алгоритма (4):
y(t + d) = 0T(t + d)y(t + d) + o p(t + d) =
= yT(t + d)hVd p(t) +
+ yT (t + d)h | Vd_ib|(t + i) + op (t + d) i=1
может быть преобразован к форме
lNST = (уT (t + d)0(t + d))2 + yT (t + d)hVd x x Pe (t)(Vd)ThT y(t + d) +
+ (yT(t + d)h 2 Vd_ib)2aI+CT2 = i=1 >
= (yT(t + d)0(t + d))2 +
+ CT«р = u2 (t)Jmo (t+ d) + 2u(t)ino (t + d) x ( 8) x F (t + d)y(t) + (ЄT (t + d)y(t))2 +
+ u2 (t)Pmo (t) + 2u(t)Pmo/ (t)y (t) +
+ V T(t)P/ (t)y(t) + u2(t)H2 +
+ 2u(t)HiHT y(t)a2 + (HT y(t))2 a2 + F р,
гл (t) =
= VPe (t -1) +a2b(V-1b)T_______ (6)
yT (t)P0 (t - 1)y(t) + a f ((V-1b)T y(t))2 + a2p '
Несложно видеть, что уравнения (4)-(6) являются обобщением алгоритма Калмана-Мейна на нестационарный случай. Рассмотренный алгоритм был введен в [6] и использован для решения задачи адаптивного управления нестационарным объектом без запаздывания в канале управления [7].
Введем далее критерий управления вида
INST = M{y2(t + d) | Ft}, (7)
который с учетом очевидных соотношений . d , .
p(t + d) = Vd p(t) + £ Vd - 4(t + i), i=1
0(t + d) = hp(t + d), f|(t + d) = Vd 'q(t), 0(t + d) = h'r|(t + d),
0(t + d) = p(t + d) - f)(t + d) =
= Vd 0(t) + £ Vd _ib|(t + i),
i=1
где P11 (t) = hVdPe (t)(Vd)ThT
/ y ~t \
Pm0(t) PTmo/ (t) v Pmo^ (t) P£ (t) y
H = h£ Vd_ib = (^Ц i=1 H2
Pmo (t), H1 -скаляры.
Минимизация (8) по u(t) приводит к закону управления
uNSTCAUT(t) _
PmQf (t) + lhp (t + d)i T (t + d) + g I HtHT Pmo (t) + m2(t + d) + h2ct2
V(t)
5T(t + d) e(t + d)
Ft),
(9)
являющемуся алгоритмом осторожного управления для нестационарного объекта. Несложно видеть также, что стохастически эквивалентный алгоритм управления в этом случае имеет вид:
uNST CE
(t)
m2(t+d)
(10)
Закон управления (9) доставляет минимум критерию (7), который равен
Pe (t + d) = M{y(t + d)0 T(t + d)|Ft} =
= VdPe (t)( Vd )T + (£ Vd “ UT (Vd “i i=1
)VI,
iNST (uNST CAUT (t))
(§T(t+d)^(t))2 + o(t).
s(t + d)
в то время как закон (10) доставляет критерию значение
РИ, 2001, № 1
69
TNST
ч
(uNSTCE(t))
(^ T(t9+ d)v(t))2 B(t+d) -mo(t + d)
2 I T(t + d)y(t) g t imo(t + d)
(t + d)y(t) + 0(t).
Сравнивая эти значения
I
NST NSTCE t
(u
(t)) - iNST(u
NST.NSTCAUT
(t)) =
(^T(t + d)y(t))2 m° (t+d)
s(t + d) - 2
I T(t + d)y(t),
ino(t + d)
xS(t + dMt) + (§T(t + d)^(t))° = e(t + d)
= e(t + d)/T(t + dM4 _ 5T(t + d)y(t) )2 = mo(t + d) e(t + d)
= E(t + d)(uNST CAUT (t) - UNST CE (t))2 > 0,
приходим к выводу, что осторожный регулятор и в этом случае всегда лучше стохастически эквивалентного.
Рассмотрим далее критерий инновационного дуального управления
ItNST IDC = M{y 2 (t + d) - X(t)o PR (t + d)|Ft}, который с учетом соотношения
M{opR (t + d) | Ft} = M{(y(t + d) - ~(t + d))2 | Ft} =
= ФТ (t + d)P11 (t)9(t + d) + (фТ (t + d)H)2ст| + app (11)
может быть представлен в форме
ItNST IDC = (і -X(t))(9T(t + d)Pll9(t + d) +
+ (фТ (t + d)H)2 a I +a 1р) + (фТ (t + d)0(t + d))2 =
= (1 - ^(t))(U2 (t)Pm0 (t) + 2U(t)P,To/ (t)y(t) +
+ ф T(t)Pf (t)y(t) + u2(t)H2 a2 + 2u(t)HiHT a|v(t) +
+ (y T(t)H2)2 CT 2 +CT pp) + u2(t)in0(t + d) +
+ 2u(t)in0 (t + d)>T (t + d)y(t) + (F (t + d)y(t))2.
Минимизируя (11) по u(t), получаем закон управления:
u
NST IDC (t) _
(1 - X(t))(Pmo, (t) + H1h2 ct2 ) + in0 (t + d)F (t + d) (1 -Mt))(Pm (t) + H2ct2) + in2o(t + d)
mo
x (-y(t))
aT(t + d) T(t + d)
V(t),
(12)
обеспечивающий активное накопление информации по ходу процесса управления.
Подставляя (12) в (7) , получаем
T2
INST(uNSTIDC(t)) = (a (t + d)V(t)) S(t + d) -
У 2(t + d)
- 2 aT(t + d)^(t) + o(t). y(t + d)
После этого, вычисляя разность
INST (uNST CE (t)) _ ItNST (uNST IDC (t)) =
= (IT(t + dMt))2 £(t + d) _ 2^T(t + d)^(t) x
m°(t + d) ino(t + d)
x5T(t + d)y(t)- (aT(t?+ d)^(t))° s(t + d) +
У 2(t + d)
T
+ 2a (. + ЧЖ.)8T(, + d)^(t) =
y(t + d)
= s(t + d)((^T(t?+ d)^(t))° -mf° (t + d)
- 2-
' (t + d)V<t) -8T(t + d>v(t) -
rho (t + d)e(t + d)
(aT(t + d)y(t))2 + 2 _aT (t + d)y(t)
У (t + d) :5T(t + d)y(t) +
y(t + d)e(t + d) (5T(t + d)y(t))2
є 2(t + d)
(5T(t + d)y(t))2 e2(t + d)
) =
= e(t + d)(uNST CE(t)-uNST CAUT(t))2 --(uNST IDC(t)-uNST CAUT(t))2),
получаем, что при
(uNSTCE(t) -uNST CAUT(t))2 >
> (uNST IDC(t) - uNST CAUT(t))2 > o (13)
регулятор обеспечивает качество управления не хуже стохастически эквивалентного, активно влияя при этом на процесс настройки.
Чтобы определить требуемое значение весового множителя X(t), необходимо предусмотреть дополнительный контур адаптации, для чего переформулируем задачу управления следующим образом: в качестве основной цели адаптивной системы положим оптимизацию ошибок прогноза
IPR = M{uPr(. + d)|Ft}
при ограничениях на сигнал вспомогательного выхода
M{y2(t + d) | Ft} < Y2(t + d) и энергетику управления
u2(t) < U2(t).
70
РИ, 2001, № 1
Формируя лагранжиан
Lt = -ItPR + P(M{y2 (t + d) | Ft} - Y2 (t + d)) +
+ p(u2(t) - U2) =
= -Фт(t + d)PT|(t)9(t + d) - (фт(t + d)H)2CTj? -
-a 2 +p((фT(t + d)0(t + d))2 + u р
+ Ф T (t + d)PT| (tMt + d) + (ф T (t + d)H)2 a2 +
+ a2 - Y2(t + d)) + p(u2(t) - U2(t)) =
UP
= (p- 1)(u2(t)Pm0 (t) + 2u(t)PT0, (t)y(t) +
+ ф T(t)P!(t)y(t) + u2(t)H?a2 +
+ 2u(t)H1HTy(t)a2 + (H2y(t))2 a\ +a2p ) +
+ p(u2 (t)m0 (t + d) + 2u(t)ino (t + d) x x F (t + d)y(t) + (F (t + d)y(t))2 -- Y2(t + d)) + p(u2(t) - U2(t))
и оптимизируя его по u(t) с помощью процедуры Эрроу - Гурвица - Удзавы, получаем закон управления
dNST(t) =
(P(t) - 1)(PrT0r' (t) +°§HiHT) + p(t)imo (t + d)F (t + d)
=-----------—--------2---------------------------y(t),
(p(t) - 1)(Pmo (t) +^2h2) + p(t)rn0 (t + d) + p(t)
■ p(t +1) = [P(t) + Гр (t + 1)((9T (t + d)0(t + d))2 +
+ 9T (t + d)PT| (t)ф(t + d) + (фT (t + d)H)2 a2 +
+ a2p - Y2(t + d))]+,
p(t +1) = [p(t) + Гр (t + 1)((dNST(t))2 - U2(t))]+,
совпадающий при X_1(t) = p(t), p(t) = 0 с (12) и работающий при p(t) = 0 в режиме акселерации, p(t) = 1 — стохастической эквивалентности, p(t) ^ да — осторожности, поддерживая при этом ограничения на управляющий сигнал, благодаря настраиваемому параметру p(t).
Таким образом, предлагаемый регулятор позволяет обеспечить активно-адаптивное управление существенно нестационарным стохастическим динамическим объектом, превосходя по качеству традиционные процедуры, основанные на стохастически эквивалентном подходе.
Литература: 1. Адонин О.В., Бодянский Е.В., Котляревс-кий С.В. Управление динамическими стохастическими нестационарными объектами в условиях неопределенности с активным накоплением информации. ЕДостоверно-эквивалентный подход //Радиоэлектроника и информатика. 1999. N4. С.-76-81. 2. Адонин О.В., Бодянский Е.В., Котляревский С.В Адаптивный регулятор с активным накоплением информации // Радиоэлектроника и информатика. 2000. N3. С. 57-60. 3. Chan S, Zarrop M. A suboptimal dual controller for stochastic systems with unknown parameters // Int.J.Contr. 1985. 41. N2. P.507-524. 4. Ishihara J, Abe K, Takeda H. Active adaptive control based on ARX model with randomly varying coefficients // Trans. Soc. Instrum. 1985. 21. N7. P.698-705. 5. Катковник В.Я., Хейсин В.Е. Итеративные алгоритмы оптимизации для отслеживания дрейфа экстремума // Автоматика и вычислительная техника. 1976. N6. С.34-40. 6. Бодянский Е.В. Адаптивное оценивание параметров нестационарных объектов // Автометрия. 1989. N1. С.63-74. 7. Бодянский Е.В., Котляревский С.В. Адаптивное управление динамическим существенно нестационарным объектом // Автоматика и телемеханика. 1995. N6. С. 111-116.
Поступила в редколлегию 10.10.2000
Рецензент: проф. Любчик Л. М.
Адонин Олег Валерьевич, аспирант кафедры искусственного интеллекта ХТУРЭ. Научные интересы: адаптивные системы управления. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел.: 40-98-90
Бодянский Евгений Владимирович, д-р техн. наук, профессор кафедры искусственного интеллекта ХТУРЭ. Научные интересы: адаптивные системы, искусственные нейронные сети. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел.: 40-98-90.
E-mail: [email protected]
Котляревский Сергей Владимирович, канд. техн. наук, ведущий научный сотрудник ПНИЛ АСУ ХТУРЭ. Научные интересы: адаптивные системы управления. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел.: 40-98-90
УДК 517.21
СТАБИЛИЗАЦИЯ РАСПРЕДЕЛЕНИЯ НЕОДНОРОДНОЙ МАРКОВСКОЙ СИСТЕМЫ ПРИ ВЛИЯНИИ РАСПРЕДЕЛЕННЫХ СТАБИЛИЗИРУЮЩИХ ФАКТОРОВ
ГЕРАСИН С.Н, ГИБКИНА Н.В, ЛЕЗГИН В.А.
Рассматривается вопрос о приведении вероятностей состояний неоднородной марковской системы к заранее заданным значениям при воздействии на переходные характеристики системы непрерывно распределенных стабилизирующих возмущений
Как известно, стабилизация вероятностей состояний процесса обычно возникает из-за воздействия на него быстро изменяющихся факторов, локализованных на малых промежутках времени [1]. В модельной ситуации таким возмущениям подвергаются элементы переходной или инфинитезимальной матрицы системы. Довольно часто бывает, что эти факторы многократно воздействуют на процесс в течение некоторого промежутка времени и всякий раз вызывают сильные возмущения параметров процесса. Такое многократное повторение возмущений приводит к появлению на интервале времени множества точек стабилизации [2]. На практике приходится иметь дело с такими факторами, которые, непрерывно воздействуя на процесс, приводят к появлению на нем точек стабилизации, распределенных почти непрерывно, напри-
71
РИ, 2001, № 1