Естественные науки
УДК 519.2
ТЕОРЕМА РАЗДЕЛЕНИЯ В СЛУЧАЕ НАБЛЮДЕНИЙ С ПАМЯТЬЮ
Н.С. Демин, С.В. Рожкова*
Томский государственный университет *Томский политехнический университет E-mail: [email protected]
Приводится доказательство теоремы разделения в задаче оптимального управления стохастическими системами для случая, когда наблюдаемый процесс обладает памятью произвольной кратности относительно вектора состояния системы.
1. Введение
Теорема разделения [1] является базовым результатом в теории управления неполностью (частично) наблюдаемыми стохастическими системами. Являясь фундаментальным теоретическим результатом, она позволила решить ряд важных практических задач в различных предметных областях [2-4]. В данной работе с использованием результатов [5] на основе метода достаточных координат [6] получено обобщение теоремы разделения на случай, когда наблюдения обладают памятью произвольной кратности, то есть зависят не только от текущих, но и от произвольного числа прошлых значений вектора состояния системы, что характерно для случая наличия инерционных измерителей, либо задержек в каналах передачи информации.
Используемые обозначения: И{-} - математическое ожидание; Р{-} - вероятность события; ^у;Ь,В} - гауссовское распределение с параметрами Ь и В; 1г[А] - след матрицы; В>0 (В>0) - положительно (неотрицательно) определенная матрица; «Т» - транспонирование вектора или матрицы, если используется как правый верхний индекс.
2. Постановка задачи
На вероятностном пространстве (О,/,Г=(^)(>0,Р) ненаблюдаемый «-мерный процесс х,, являющийся вектором состояния, и наблюдаемый /-мерный процесс г., определяются стохастическими дифференциальными уравнениями (в смысле Ито, [7, 8])
¿х,, = /(,, х,, и,)Ж + х, , , е[0, Т], (2.1) = Н(г, х,, )сИ + Ф 2(ОйЧ , (2.2)
где 0<гдг<...<т1< ,, гк=сош1, к=1;Ы.
Предполагается:
1) и являются стандартными винеровскими процессами размеров г1 и г2 [7, 8];
2) х0, у,, V, - статистически независимы;
3) Д.), й(.), Ф1(.), Ф2(.) непрерывны по всем аргументам;
4) 0(.)=Ф1(.)Ф[(.)>0, Я(.)=Ф2(.)Ф2(.)>0;
5) задана начальная плотность р0(х)=^х;д,,Г0}. Ставится задача: на классе - измеримых
функционалов щ=щ[4], г0'={г5;0<^<,}, найти управление и ,0, обеспечивающее условие оптимальности
(<={и;, 0<я<Т})
J = Mjb(tT, xT ) + |Л(/, xt, ut )dt\
^ min. (2.3)
К} ( )
Для решения поставленной задачи воспользуемся методом достаточных координат [6], предполагая, что существует ¥1 - измеримый процесс Л=Л[г'], с одной стороны, полностью характеризующий апостериорную плотность
р,(х) = дР{х, < х | г0}/дх (2.4)
вектора состояния х системы, а с другой стороны, который может быть найден на основе р, (х).
Замечание 1. Считаем, что процесс оптимального управления начинается с момента времени ,0>т1. На интервале ,е[0, ,0] в качестве и используется произвольный - измеримый процесс.
3. Предварительные результаты
В соответствии с методом достаточных координат вводим функцию Беллмана
\ , =Ш3.1)
S(t, X) = rru^n M j b(T, xT ) + J Л(t, xt,, ut, )dt '
Теорема 1. Пусть выполняются следующие условия: 10) процесс А, является диффузионным марковским процессом с вектором коэффициентов сноса а((,А) и матрицей коэффициентов диффузии Д/,А), то есть
a(t, А) = limi М {AAt| At = А},
At^o At
D(t, А) = lim -1M{[ДА ][ДА ]T| А. = А},
At^0 At I
(3.2)
min
{u}
dt
- + L* >A[S (t, А)] +
= 0,
+M {A(t, xt, Mt )| а. = А} S(t, A)|t=T = M{b(T, xT )| AT = А}.
(3.3)
(3.4)
L* >A[S (t, А)] = a (t, А) +
+4tr
D(t, А)
дА д2 S (t, А)
дА2
(3.5)
а минимальное значение критерия качества /° имеет вид /°=Д(,0,А).
Доказательство. Пусть
р,(х | А) = дР{х, < х | А, = А}/дх. (3.6)
Тогда, раскрывая оператор М{.} в (3.1), получаем с учетом условия 20), что £ (,, А) =
= mm
W }
J pt (x | А) X
T
J Л(t, x , u) x
Xp(t', x, А 11, x, A)dx'dAdt' + +J b(T, x') X
*p(t', x', А 11, x, A)dx'dA
dx
(3.7)
Лемма 1. С точностью до o(At) функция S(t,A) удовлетворяет по At рекуррентному уравнению S (t, А) =
= min <
[J S(t + At, A")p(t + At, A" 11, A)dA" +(At )Jл(t, x, u)p(x | A)dx + o(At)
,(3.8)
где
p(t + At, A" 11, A) = dP{At+At < A" | A, = А}/дА" (3.9) есть переходная плотность марковского процесса At.
Доказательство Леммы 1. Разбивая интервал [t,T] в виде [t,7]=[t,t+At]u[t+At,7], из (3.7) получаем
S(t, А) = min nmin{S1(t, t + At) + S2(t + At, T)}, (3.10)
{ut } {ut+At }
J pt (x | A)
где ЛА-А^—А,;
20) пусть процесс {х,;А,} является марковским процессом с переходной плотностью р(, ,Х,А\1,х,А)= =д2Р{х(,<х/,А(,<А|х(=х,А(=А/}/дх/дА/.
Тогда уравнение Беллмана для £(/,А) имеет вид 'дБ (,, А)
S1(t, t + At) =
t+At
J Л (t', x', u) X
t
x p(t', x', A' 11, x, A)dx'd A dt' S2(t + At, T) =
X
dx, (3.11)
= J pt (x | A)
T
J Л(.' , x', u) x
(3.12)
Оператор Х*а[.] является обратным оператором Колмогорова, соответствующий процессу А,, то есть [7, 8]
xp(t', x1, А 11, x, A)dx'dAdt'dx + [dx. +J b(T, x') x
xp(t', x, A 11, x, A)dx'dA'
Так какp(t',x',A\t,x,A)=8(x'-x,A-A) при At^0, то из (3.11) следует (5(.) - дельта-функция Дирака)
S1(t,t + At) = (At)Jл(t, x,u)pt(x | A)dx + o(At). (3.13)
Для переходной плотности марковского процесса {x(;A} (см. условие 20)) имеет место уравнение Колмогорова-Чепмена [7]
p(t', x, А 11, x, А) = = Jp(t',x, A 11 + At,x", A') X Xp(t + At, x", A' 11, x, A)dx"dA". (3.14) Так как, с учетом (3.6, 3.9)
J p(t + At, x", A111, x, A) pt (x | A)dx =
= pt+At (x"|A') p(t + At, A|t, A), то из (3.12, 3.14, 3.15) следует, что
S2(t + At,T) = Jp(t + At, A" 11, A)x
'J pt+At (x"|A") x
T
J Л(.' , x', u) x
(3.15)
' t', x , A' 11 +
\
X p
+At, x' A'
dxd A dt +
J b(T, x у
X p
' t', x, A' 11 + +At, x', A"
Л
dx d A
dx
dA"
(3.16)
Из (3.10) с учетом (3.13) следует S (t, A) =
= min
min[ S2(t + At, T)] +
{ut+At )
+(Дt)Jл(t, x,u)pt(x | A)dx + o(At)
(3.17)
Подстановка (3.16) в (3.17) с учетом (3.7) приводит к (3.8). Лемма 1 доказана.
Раскладываем S(t+Дt,A//) в ряд в окрестности точки Я//=Я:
£ (/ + Д/, X") = £ (/ + Д/, X) +
\Т
+1
f dS (t + At, 1)
51
A1 +
+ ±Air d2S(t + 2At,1 A1 + o([A1]2). (3.18) 2 d1
Далее с учетом (3.2, 3.9) следует: J S (t + At, 1) p (t + At, 1" 11,1) d 1" =S (t + At, 1);
'dS (t + At, 1)л T
il
д1
A1p (t + At, 1" 11, 1) d 1" =
dS (t + At, 1)
д1
M {A1t 11t =1} =
JA1
= tr
(A.) f dS (t + At, 1) ^ ( 5) + (A
= (At ) l— d1 a (t, 1) + o (At );
r d2S(t + A,1) A1p(t + At, 1// 11, 1)d1" =
d1
d 2S (t + At, 1)
d12
M {[ A1t ][ A1t ] T| 1( t ) = 1}
= (At )tr
dS (t + At, 1)
d1
D (t, 1)
+ o (At );
J o([AI]2)p(t + At, X' 1t, X)dX" = = M{o([AXt]2) | X = X} = o(At).
Подстановка (3.18) в (3.8) с учетом последних формул и (3.5) приводит к соотношению (bTg=gTb, tr[BD]=tr[DB])
S (t, X) =
Г S (t + At, X) + (At) L'tx [S (t + At, X)] +1 = min\ . k (3.19)
u l+(At)J Л(t, x,u)pt(x | X)dx + o(At) |
Переходя в (3.19) к пределу при A^0, приходим с учетом (3.6) к уравнению (3.3). Граничное условие (3.4) и выражение для J следуют из (2.3, 3.1). Теорема 1 доказана.
Утверждение 1. Пусть
f (•) = F(t)xt + B(t)Ut, Ф.(-) = Ф1(t), Po(x) = N{x; /и0,r0},
h() = H o(t) xt +X Hk (t x, (3.20)
k=1
MO = M{xt | z0}, /л(Т, t) = M{x4 | z0}, k = Щ r(t) = M {[ xt -M(t)] [•]r| zO},
Гkk (Tk,t) = M{[xk — H-(Tk, t)] HT|z0}, Г 0k (Tk, t) = M {[ xt —M(t)] [ x — /л(тк, t)] T\z'0},
гл(t,,rt,t) = M{[xt_ ,t)][xIt - jT,/)]r|z:}. (3.21)
Тогда для апостериорной плотности (2.4) справедливо свойство
pt(x) = N{x; j(t), r(t)}, (3.22)
а параметры этой плотности определяются уравнениями
dj(t) = [F(t)j(t) + B(t)ut]dt + HT0 (t)R_1(t)dzt,
d j(xk, t) = HTk (t ) R-\t)dzt, (3.23)
d r(t )/ dt = F (t )r(t ) + Г (t )FT (t ) -
-Щ (t)R-l(t)È0(t) + 6(t), (3.24)
d Гкк (Tk, t)/dt = - Hk (t)R _1(t ) Йк (t), (3.25)
d Г0к (тк, 0/dt = = F (t )Го к (Тк, t ) - H T (t ) R-1 (t ) Йк (t ), (3.26) dГ,к(t,Тк,t)/dt = -H,T(t)R-'(t)4 (t), (3.27)
dZt = z(t) - [Ho(t)M(t)Нк (tj, t)]dt, (3.28)
к =1
H о (t ) = H о (t )r(t ) + X H к (t )Г Tk (Тк, t ), (3.29)
к=1
Нк (t) = Нк (t)Гкк (Тк, t) + X H (t)rT (T ,Tj, t). (3.30)
j *к
Данное Утверждение следует из [5]. Лемма 2. Вектором достаточных координат является оптимальная в среднеквадратическом смысле оценка j(t) процесса x,, то есть Aj[z0]=j(t), которая является марковским диффузионным процессом, локальные характеристики которого, см. (3.2), имеют вид a(t, j) = F (t )j + B(t )u,
D(t, f) = H T (t) R-'(t ) H 0(t ).
(3.31)
Доказательство. Так как Г(0, согласно (3.24), не зависит от 4 то из (3.22) следует, что Х=Ю Согласно [8] процесс дифференциал которого имеет вид (3.28), такой, что есть винеровский процесс с
M {ztzf|Ftz} = J R (r)dr.
(3.32)
Тогда свойство марковости [х,;/л(()} и формулы (3.31) следуют из (3.23, 3.32).
Утверждение 2. Совместный процесс является марковским диффузионным процессом.
Справедливость данного Утверждения следует непосредственно из (2.1, 3.20, 3.23) с учетом Леммы 2.
Замечание 2. Поскольку условия Теоремы 1 выполняются для Л=М0, то S(t,A)=S(t,/ц), и из (3.3-3.5) следует
'5£ (/, /л)
min
dt
- + L, JS (t, fi)] +
= 0,
+M {Л (t, xt, ut ) Z0} S (t, f) |t=T = M{b(T, Xt )| zT0},
(3.33)
(3.34)
L*[S (t, л)] = aT (t, л)
dS(t, л) дл
+2tr
D(t, ¡)
д2S(t, ¡)
дл2
(3.35)
где a(t,n) и D(t,n) имеют вид (3.31). Замена М{.|л=л} на Mj.jz'o} следует из Ff - измеримости процесса ¡(t), см. (3.21).
4. Теорема разделения
Теорема 2. Пусть, кроме (3.20), выполняются условия
Л(-) = xTtL(t)xt + utN (t )ut, b() = xI.STxT , (4.1)
где L(t), N(t), ST - симметричные матрицы, причем L(t)>0, Sj>0, N(t)>0.
Тогда уравнение Беллмана (3.33) и граничное условие (3.34) принимают вид
'дS^ + [F(t)л + B(t)u]i +
min
дt
+hr
дл
HI {t) R-\t) H 0{t)
дл
+ЛТ L(t )л + uTN (t )u + tr[L(t )Г (t)]
S(t, Л) ,=T = tr[Str(T)] + лTSт л.
= 0,
(4.2)
(4.3)
Доказательство. Из (4.1) с учетом (3.21) и Ff -измеримости щ получаем
M {K(t, xt, ut )\z'o} =
= M{xTL(t)xt + uTN(t)ut \ zt0} =
= M{xTL(t)xt \ z'0} + uTN(t)ut =
= лTL(t)л + tr[L(t )r(t)] + uTtN (t )ut. (4.4)
Аналогично
M{b(T, xT)| zI} = M{xlSTxT \ zT} =
= лт (T )St л(Т)+ti[Si Г (T)].
(4.5)
S(t) = -F (t)S(t) - S(t)F(t) + +S (t) B(t) N - (t )BT (t )S (t) - L(t) с граничным условием
(4.7)
S (t )\ ==Т = ST
(4.8)
а минимальное значение /° критерия качества имеет вид
30 = лт «0)Б (Г0)л(Г0) + Ч Бт Г(Т)] +
т т
11г[Щ)Г(№ +| 1г[Йт0 (Г)Я-'(Г)Н0(ОБ(№. (4.9)
Доказательство. Беря производную по и от левой части (4.2) получаем уравнение для нахождения оптимального управления
Bt (t) dS(i£l + 2N(t)u = 0. дл
(4.10)
Отсюда получаем выражение для оптимального управления через функцию Беллмана в виде
u °(t) = -| N-\t )BT (t) ■
(4.11)
Подставляя (4.11) в (4.2), получаем уравнение в частных производных второго порядка для функции Беллмана в виде
дБ а, л)+лтрт у)дБ л)
да
i (дБ (t, л) 4 [ дл
дл
B(t) N-\t) BT (t) -9S (t'л
дл
+ЛTL(t )л + tr[ L(t )r(t)] +
+ itr
HI (t) R-\t) H o(t)
д2 S (t, л)
дл2
= 0. (4.12)
Решение уравнения (4.12) находим по методу разделения переменных в виде [9]
S(t, л) = l(t) + лтs(t)л,
(4.13)
где ¡(¡) - неизвестная скалярная функция, а £(/) -неизвестная матричная (ихи) - функция, на которую накладываем условие симметричности. Тогда дБ (Г, л)
дt
■ = l(t) + л S(t)л,
Подстановка (3.31, 3.35, 4.4) в (3.33) приводит к (4.2), а подстановка (4.5) в (3.34) приводит к (4.3). Теорема доказана.
Далее точка сверху будет обозначать производную по ¡.
Теорема 3 (Теорема разделения). Оптимальное управление и0 имеет вид
и0 =-Ы ~1(Г)Бт (Г)Б (Г)л(О, (4.6)
где оптимальная в среднеквадратическом смысле оценка л(0 вектора состояния х определяется уравнениями фильтра (3.23-3.30) при и=и0, матрица £(/) -матричным дифференциальным уравнением Риккати
SS(t,л = 2S(t)л, = 2S(t).
дл
дл
(4.14)
Поскольку на S(t) накладывается условие симметричности, то с учетом (4.14) и того, что для скаляра b справедливо b=bT=(1/2)(b+bT), получаем
^ {t) ^ = 2^FT {t) S {t )л==
= л^т (t)S (Ол + л1 S (t) F (t)л. (4.15)
Подстановка (4.14, 4.15) в (4.12) приводит к соотношению
l(t) + лтS (t )л + лт FT (t )S (t )л + +ЛTS(t)F(t)л- ЛTS(t)B(t)N~\t)B (t)S(t)л + +ЛTL(t )л + tr[L(t )T(t)] +
+tr[ HI (t )R-l(t) H 0(t)S (t)] = 0.
(4.16)
Далее в соответствии с методом разделения переменных приравниваем в (4.16) коэффициенты при одинаковых степенях /. Тогда для S(t) получаем уравнение (4.7), а для l(t) уравнение
l(t) = -tr[¿(t)r(t)] -tr[ЙT (t)R-\t)Й0(t)S(t)]. (4.17)
Согласно (4.13)
S (t, / t==T = l (T) + /S (T)/. (4.18)
Из сопоставления (4.3) и (4.18) для уравнения (4.7) следует граничное условие (4.8), а (4.18) для уравнения (4.17) - граничное условие
l (t )| t=т = tr[ST Г(Т)]. (4.19)
Так как, согласно Теореме 1, /°=S(t0,A(t0)), а А=л, то из (4.13) следует, что
J0 = / (to)S (to)/(to) + l(to). (4.20)
Решение уравнения (4.17) с граничным условием (4.19) имеет вид
т
l(t) = tr[STГ(Т)] + J tr[¿(т)Г(т)] dT +
t
T
+Jtr[ЙT(T)R-'(T)Йo(t)S(t)] dT. (4.21)
СПИСОК ЛИТЕРАТУРЫ
1. Wonham W.M. On the separation theorem of stochastic control // SIAM J. Control. - 1965. - V. 6. - P. 312-326.
2. Богуславский А.И. Методы навигации и управления по неполной статистической информации. - М.: Машиностроение, 1970. - 256 с.
3. Брайсон А., Хо Ю Ши. Прикладная теория оптимального управления. - М.: Мир, 1972. - 544 с.
4. Квакернаак Х., Сиван Р. Линейные оптимальные системы управления. - М.: Мир, 1977. - 650 с.
5. Абакумова О.Л., Демин Н.С., Сушко Т.В. Фильтрация стохастических процессов по совокупности непрерывных и дискрет-
Подстановка (4.21) в (4.20) при t=t0 приводит к
(4.9). Использование (4.14) в (4.11) приводит к
(4.6). Теорема доказана.
5. Заключение
1. Из сравнения результатов Теоремы 3 с Теоремой разделения в классическом случае [1], когда наблюдения без памяти, следует, что выражение для оптимального управления uf имеет один и тот же вид (4.6). При этом матрица S(t), определяющая регулятор, также определяется одними и теми же соотношениями (4.7, 4.8). Различие заключается в том, что в классическом случае оценка ¡(t) вырабатывается фильтром Калмана, а в случае наблюдений с памятью - фильтром (3.23-3.30), который вырабатывает не только оценку фильтрации ¡ (t) для текущего значения вектора состояния x, но и оценки интерполяции ¡i(rk,t) для прошлых значений вектора состояния xT, k=1;N. Соответственно изменяется
hJ '
выражение для минимального значения критерия качества /°.
2. Обобщение результатов на случай, когда процесс управления начинается с начального момента t=0, очевидно.
ных наблюдений с памятью. II. Синтез фильтров // Автоматика и телемеханика. - 1995. - № 10. - С. 36-49.
6. Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления. - М.: Изд-во МГУ, 1966. - 319 с.
7. Гихман И.И., Скороход А.В. Введение в теорию случайных процессов. - М.: Наука, 1977. - 568 с.
8. Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов. - М.: Наука, 1974. - 696 с.
9. Кошляков Н.С., Глинер Э.Б., Смирнов М.М. Уравнения в частных производных математической физики. - М.: Высшая школа, 1970. - 710 с.