Научная статья на тему 'Теорема разделения в случае наблюдений с памятью'

Теорема разделения в случае наблюдений с памятью Текст научной статьи по специальности «Математика»

CC BY
642
97
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Демин Н. С., Рожкова С. В.

Приводится доказательство теоремы разделения в задаче оптимального управления стохастическими системами для случая, когда наблюдаемый процесс обладает памятью произвольной кратности относительно вектора состояния системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Демин Н. С., Рожкова С. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The paper proves the separation theorem for solving the task of the optimal control over stochastic systems in case when the observed process has the memory which is arbitrary to multiplicity relating to the vector of the system condition.

Текст научной работы на тему «Теорема разделения в случае наблюдений с памятью»

Естественные науки

УДК 519.2

ТЕОРЕМА РАЗДЕЛЕНИЯ В СЛУЧАЕ НАБЛЮДЕНИЙ С ПАМЯТЬЮ

Н.С. Демин, С.В. Рожкова*

Томский государственный университет *Томский политехнический университет E-mail: [email protected]

Приводится доказательство теоремы разделения в задаче оптимального управления стохастическими системами для случая, когда наблюдаемый процесс обладает памятью произвольной кратности относительно вектора состояния системы.

1. Введение

Теорема разделения [1] является базовым результатом в теории управления неполностью (частично) наблюдаемыми стохастическими системами. Являясь фундаментальным теоретическим результатом, она позволила решить ряд важных практических задач в различных предметных областях [2-4]. В данной работе с использованием результатов [5] на основе метода достаточных координат [6] получено обобщение теоремы разделения на случай, когда наблюдения обладают памятью произвольной кратности, то есть зависят не только от текущих, но и от произвольного числа прошлых значений вектора состояния системы, что характерно для случая наличия инерционных измерителей, либо задержек в каналах передачи информации.

Используемые обозначения: И{-} - математическое ожидание; Р{-} - вероятность события; ^у;Ь,В} - гауссовское распределение с параметрами Ь и В; 1г[А] - след матрицы; В>0 (В>0) - положительно (неотрицательно) определенная матрица; «Т» - транспонирование вектора или матрицы, если используется как правый верхний индекс.

2. Постановка задачи

На вероятностном пространстве (О,/,Г=(^)(>0,Р) ненаблюдаемый «-мерный процесс х,, являющийся вектором состояния, и наблюдаемый /-мерный процесс г., определяются стохастическими дифференциальными уравнениями (в смысле Ито, [7, 8])

¿х,, = /(,, х,, и,)Ж + х, , , е[0, Т], (2.1) = Н(г, х,, )сИ + Ф 2(ОйЧ , (2.2)

где 0<гдг<...<т1< ,, гк=сош1, к=1;Ы.

Предполагается:

1) и являются стандартными винеровскими процессами размеров г1 и г2 [7, 8];

2) х0, у,, V, - статистически независимы;

3) Д.), й(.), Ф1(.), Ф2(.) непрерывны по всем аргументам;

4) 0(.)=Ф1(.)Ф[(.)>0, Я(.)=Ф2(.)Ф2(.)>0;

5) задана начальная плотность р0(х)=^х;д,,Г0}. Ставится задача: на классе - измеримых

функционалов щ=щ[4], г0'={г5;0<^<,}, найти управление и ,0, обеспечивающее условие оптимальности

(<={и;, 0<я<Т})

J = Mjb(tT, xT ) + |Л(/, xt, ut )dt\

^ min. (2.3)

К} ( )

Для решения поставленной задачи воспользуемся методом достаточных координат [6], предполагая, что существует ¥1 - измеримый процесс Л=Л[г'], с одной стороны, полностью характеризующий апостериорную плотность

р,(х) = дР{х, < х | г0}/дх (2.4)

вектора состояния х системы, а с другой стороны, который может быть найден на основе р, (х).

Замечание 1. Считаем, что процесс оптимального управления начинается с момента времени ,0>т1. На интервале ,е[0, ,0] в качестве и используется произвольный - измеримый процесс.

3. Предварительные результаты

В соответствии с методом достаточных координат вводим функцию Беллмана

\ , =Ш3.1)

S(t, X) = rru^n M j b(T, xT ) + J Л(t, xt,, ut, )dt '

Теорема 1. Пусть выполняются следующие условия: 10) процесс А, является диффузионным марковским процессом с вектором коэффициентов сноса а((,А) и матрицей коэффициентов диффузии Д/,А), то есть

a(t, А) = limi М {AAt| At = А},

At^o At

D(t, А) = lim -1M{[ДА ][ДА ]T| А. = А},

At^0 At I

(3.2)

min

{u}

dt

- + L* >A[S (t, А)] +

= 0,

+M {A(t, xt, Mt )| а. = А} S(t, A)|t=T = M{b(T, xT )| AT = А}.

(3.3)

(3.4)

L* >A[S (t, А)] = a (t, А) +

+4tr

D(t, А)

дА д2 S (t, А)

дА2

(3.5)

а минимальное значение критерия качества /° имеет вид /°=Д(,0,А).

Доказательство. Пусть

р,(х | А) = дР{х, < х | А, = А}/дх. (3.6)

Тогда, раскрывая оператор М{.} в (3.1), получаем с учетом условия 20), что £ (,, А) =

= mm

W }

J pt (x | А) X

T

J Л(t, x , u) x

Xp(t', x, А 11, x, A)dx'dAdt' + +J b(T, x') X

*p(t', x', А 11, x, A)dx'dA

dx

(3.7)

Лемма 1. С точностью до o(At) функция S(t,A) удовлетворяет по At рекуррентному уравнению S (t, А) =

= min <

[J S(t + At, A")p(t + At, A" 11, A)dA" +(At )Jл(t, x, u)p(x | A)dx + o(At)

,(3.8)

где

p(t + At, A" 11, A) = dP{At+At < A" | A, = А}/дА" (3.9) есть переходная плотность марковского процесса At.

Доказательство Леммы 1. Разбивая интервал [t,T] в виде [t,7]=[t,t+At]u[t+At,7], из (3.7) получаем

S(t, А) = min nmin{S1(t, t + At) + S2(t + At, T)}, (3.10)

{ut } {ut+At }

J pt (x | A)

где ЛА-А^—А,;

20) пусть процесс {х,;А,} является марковским процессом с переходной плотностью р(, ,Х,А\1,х,А)= =д2Р{х(,<х/,А(,<А|х(=х,А(=А/}/дх/дА/.

Тогда уравнение Беллмана для £(/,А) имеет вид 'дБ (,, А)

S1(t, t + At) =

t+At

J Л (t', x', u) X

t

x p(t', x', A' 11, x, A)dx'd A dt' S2(t + At, T) =

X

dx, (3.11)

= J pt (x | A)

T

J Л(.' , x', u) x

(3.12)

Оператор Х*а[.] является обратным оператором Колмогорова, соответствующий процессу А,, то есть [7, 8]

xp(t', x1, А 11, x, A)dx'dAdt'dx + [dx. +J b(T, x') x

xp(t', x, A 11, x, A)dx'dA'

Так какp(t',x',A\t,x,A)=8(x'-x,A-A) при At^0, то из (3.11) следует (5(.) - дельта-функция Дирака)

S1(t,t + At) = (At)Jл(t, x,u)pt(x | A)dx + o(At). (3.13)

Для переходной плотности марковского процесса {x(;A} (см. условие 20)) имеет место уравнение Колмогорова-Чепмена [7]

p(t', x, А 11, x, А) = = Jp(t',x, A 11 + At,x", A') X Xp(t + At, x", A' 11, x, A)dx"dA". (3.14) Так как, с учетом (3.6, 3.9)

J p(t + At, x", A111, x, A) pt (x | A)dx =

= pt+At (x"|A') p(t + At, A|t, A), то из (3.12, 3.14, 3.15) следует, что

S2(t + At,T) = Jp(t + At, A" 11, A)x

'J pt+At (x"|A") x

T

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

J Л(.' , x', u) x

(3.15)

' t', x , A' 11 +

\

X p

+At, x' A'

dxd A dt +

J b(T, x у

X p

' t', x, A' 11 + +At, x', A"

Л

dx d A

dx

dA"

(3.16)

Из (3.10) с учетом (3.13) следует S (t, A) =

= min

min[ S2(t + At, T)] +

{ut+At )

+(Дt)Jл(t, x,u)pt(x | A)dx + o(At)

(3.17)

Подстановка (3.16) в (3.17) с учетом (3.7) приводит к (3.8). Лемма 1 доказана.

Раскладываем S(t+Дt,A//) в ряд в окрестности точки Я//=Я:

£ (/ + Д/, X") = £ (/ + Д/, X) +

+1

f dS (t + At, 1)

51

A1 +

+ ±Air d2S(t + 2At,1 A1 + o([A1]2). (3.18) 2 d1

Далее с учетом (3.2, 3.9) следует: J S (t + At, 1) p (t + At, 1" 11,1) d 1" =S (t + At, 1);

'dS (t + At, 1)л T

il

д1

A1p (t + At, 1" 11, 1) d 1" =

dS (t + At, 1)

д1

M {A1t 11t =1} =

JA1

= tr

(A.) f dS (t + At, 1) ^ ( 5) + (A

= (At ) l— d1 a (t, 1) + o (At );

r d2S(t + A,1) A1p(t + At, 1// 11, 1)d1" =

d1

d 2S (t + At, 1)

d12

M {[ A1t ][ A1t ] T| 1( t ) = 1}

= (At )tr

dS (t + At, 1)

d1

D (t, 1)

+ o (At );

J o([AI]2)p(t + At, X' 1t, X)dX" = = M{o([AXt]2) | X = X} = o(At).

Подстановка (3.18) в (3.8) с учетом последних формул и (3.5) приводит к соотношению (bTg=gTb, tr[BD]=tr[DB])

S (t, X) =

Г S (t + At, X) + (At) L'tx [S (t + At, X)] +1 = min\ . k (3.19)

u l+(At)J Л(t, x,u)pt(x | X)dx + o(At) |

Переходя в (3.19) к пределу при A^0, приходим с учетом (3.6) к уравнению (3.3). Граничное условие (3.4) и выражение для J следуют из (2.3, 3.1). Теорема 1 доказана.

Утверждение 1. Пусть

f (•) = F(t)xt + B(t)Ut, Ф.(-) = Ф1(t), Po(x) = N{x; /и0,r0},

h() = H o(t) xt +X Hk (t x, (3.20)

k=1

MO = M{xt | z0}, /л(Т, t) = M{x4 | z0}, k = Щ r(t) = M {[ xt -M(t)] [•]r| zO},

Гkk (Tk,t) = M{[xk — H-(Tk, t)] HT|z0}, Г 0k (Tk, t) = M {[ xt —M(t)] [ x — /л(тк, t)] T\z'0},

гл(t,,rt,t) = M{[xt_ ,t)][xIt - jT,/)]r|z:}. (3.21)

Тогда для апостериорной плотности (2.4) справедливо свойство

pt(x) = N{x; j(t), r(t)}, (3.22)

а параметры этой плотности определяются уравнениями

dj(t) = [F(t)j(t) + B(t)ut]dt + HT0 (t)R_1(t)dzt,

d j(xk, t) = HTk (t ) R-\t)dzt, (3.23)

d r(t )/ dt = F (t )r(t ) + Г (t )FT (t ) -

-Щ (t)R-l(t)È0(t) + 6(t), (3.24)

d Гкк (Tk, t)/dt = - Hk (t)R _1(t ) Йк (t), (3.25)

d Г0к (тк, 0/dt = = F (t )Го к (Тк, t ) - H T (t ) R-1 (t ) Йк (t ), (3.26) dГ,к(t,Тк,t)/dt = -H,T(t)R-'(t)4 (t), (3.27)

dZt = z(t) - [Ho(t)M(t)Нк (tj, t)]dt, (3.28)

к =1

H о (t ) = H о (t )r(t ) + X H к (t )Г Tk (Тк, t ), (3.29)

к=1

Нк (t) = Нк (t)Гкк (Тк, t) + X H (t)rT (T ,Tj, t). (3.30)

j *к

Данное Утверждение следует из [5]. Лемма 2. Вектором достаточных координат является оптимальная в среднеквадратическом смысле оценка j(t) процесса x,, то есть Aj[z0]=j(t), которая является марковским диффузионным процессом, локальные характеристики которого, см. (3.2), имеют вид a(t, j) = F (t )j + B(t )u,

D(t, f) = H T (t) R-'(t ) H 0(t ).

(3.31)

Доказательство. Так как Г(0, согласно (3.24), не зависит от 4 то из (3.22) следует, что Х=Ю Согласно [8] процесс дифференциал которого имеет вид (3.28), такой, что есть винеровский процесс с

M {ztzf|Ftz} = J R (r)dr.

(3.32)

Тогда свойство марковости [х,;/л(()} и формулы (3.31) следуют из (3.23, 3.32).

Утверждение 2. Совместный процесс является марковским диффузионным процессом.

Справедливость данного Утверждения следует непосредственно из (2.1, 3.20, 3.23) с учетом Леммы 2.

Замечание 2. Поскольку условия Теоремы 1 выполняются для Л=М0, то S(t,A)=S(t,/ц), и из (3.3-3.5) следует

'5£ (/, /л)

min

dt

- + L, JS (t, fi)] +

= 0,

+M {Л (t, xt, ut ) Z0} S (t, f) |t=T = M{b(T, Xt )| zT0},

(3.33)

(3.34)

L*[S (t, л)] = aT (t, л)

dS(t, л) дл

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+2tr

D(t, ¡)

д2S(t, ¡)

дл2

(3.35)

где a(t,n) и D(t,n) имеют вид (3.31). Замена М{.|л=л} на Mj.jz'o} следует из Ff - измеримости процесса ¡(t), см. (3.21).

4. Теорема разделения

Теорема 2. Пусть, кроме (3.20), выполняются условия

Л(-) = xTtL(t)xt + utN (t )ut, b() = xI.STxT , (4.1)

где L(t), N(t), ST - симметричные матрицы, причем L(t)>0, Sj>0, N(t)>0.

Тогда уравнение Беллмана (3.33) и граничное условие (3.34) принимают вид

'дS^ + [F(t)л + B(t)u]i +

min

дt

+hr

дл

HI {t) R-\t) H 0{t)

дл

+ЛТ L(t )л + uTN (t )u + tr[L(t )Г (t)]

S(t, Л) ,=T = tr[Str(T)] + лTSт л.

= 0,

(4.2)

(4.3)

Доказательство. Из (4.1) с учетом (3.21) и Ff -измеримости щ получаем

M {K(t, xt, ut )\z'o} =

= M{xTL(t)xt + uTN(t)ut \ zt0} =

= M{xTL(t)xt \ z'0} + uTN(t)ut =

= лTL(t)л + tr[L(t )r(t)] + uTtN (t )ut. (4.4)

Аналогично

M{b(T, xT)| zI} = M{xlSTxT \ zT} =

= лт (T )St л(Т)+ti[Si Г (T)].

(4.5)

S(t) = -F (t)S(t) - S(t)F(t) + +S (t) B(t) N - (t )BT (t )S (t) - L(t) с граничным условием

(4.7)

S (t )\ ==Т = ST

(4.8)

а минимальное значение /° критерия качества имеет вид

30 = лт «0)Б (Г0)л(Г0) + Ч Бт Г(Т)] +

т т

11г[Щ)Г(№ +| 1г[Йт0 (Г)Я-'(Г)Н0(ОБ(№. (4.9)

Доказательство. Беря производную по и от левой части (4.2) получаем уравнение для нахождения оптимального управления

Bt (t) dS(i£l + 2N(t)u = 0. дл

(4.10)

Отсюда получаем выражение для оптимального управления через функцию Беллмана в виде

u °(t) = -| N-\t )BT (t) ■

(4.11)

Подставляя (4.11) в (4.2), получаем уравнение в частных производных второго порядка для функции Беллмана в виде

дБ а, л)+лтрт у)дБ л)

да

i (дБ (t, л) 4 [ дл

дл

B(t) N-\t) BT (t) -9S (t'л

дл

+ЛTL(t )л + tr[ L(t )r(t)] +

+ itr

HI (t) R-\t) H o(t)

д2 S (t, л)

дл2

= 0. (4.12)

Решение уравнения (4.12) находим по методу разделения переменных в виде [9]

S(t, л) = l(t) + лтs(t)л,

(4.13)

где ¡(¡) - неизвестная скалярная функция, а £(/) -неизвестная матричная (ихи) - функция, на которую накладываем условие симметричности. Тогда дБ (Г, л)

дt

■ = l(t) + л S(t)л,

Подстановка (3.31, 3.35, 4.4) в (3.33) приводит к (4.2), а подстановка (4.5) в (3.34) приводит к (4.3). Теорема доказана.

Далее точка сверху будет обозначать производную по ¡.

Теорема 3 (Теорема разделения). Оптимальное управление и0 имеет вид

и0 =-Ы ~1(Г)Бт (Г)Б (Г)л(О, (4.6)

где оптимальная в среднеквадратическом смысле оценка л(0 вектора состояния х определяется уравнениями фильтра (3.23-3.30) при и=и0, матрица £(/) -матричным дифференциальным уравнением Риккати

SS(t,л = 2S(t)л, = 2S(t).

дл

дл

(4.14)

Поскольку на S(t) накладывается условие симметричности, то с учетом (4.14) и того, что для скаляра b справедливо b=bT=(1/2)(b+bT), получаем

^ {t) ^ = 2^FT {t) S {t )л==

= л^т (t)S (Ол + л1 S (t) F (t)л. (4.15)

Подстановка (4.14, 4.15) в (4.12) приводит к соотношению

l(t) + лтS (t )л + лт FT (t )S (t )л + +ЛTS(t)F(t)л- ЛTS(t)B(t)N~\t)B (t)S(t)л + +ЛTL(t )л + tr[L(t )T(t)] +

+tr[ HI (t )R-l(t) H 0(t)S (t)] = 0.

(4.16)

Далее в соответствии с методом разделения переменных приравниваем в (4.16) коэффициенты при одинаковых степенях /. Тогда для S(t) получаем уравнение (4.7), а для l(t) уравнение

l(t) = -tr[¿(t)r(t)] -tr[ЙT (t)R-\t)Й0(t)S(t)]. (4.17)

Согласно (4.13)

S (t, / t==T = l (T) + /S (T)/. (4.18)

Из сопоставления (4.3) и (4.18) для уравнения (4.7) следует граничное условие (4.8), а (4.18) для уравнения (4.17) - граничное условие

l (t )| t=т = tr[ST Г(Т)]. (4.19)

Так как, согласно Теореме 1, /°=S(t0,A(t0)), а А=л, то из (4.13) следует, что

J0 = / (to)S (to)/(to) + l(to). (4.20)

Решение уравнения (4.17) с граничным условием (4.19) имеет вид

т

l(t) = tr[STГ(Т)] + J tr[¿(т)Г(т)] dT +

t

T

+Jtr[ЙT(T)R-'(T)Йo(t)S(t)] dT. (4.21)

СПИСОК ЛИТЕРАТУРЫ

1. Wonham W.M. On the separation theorem of stochastic control // SIAM J. Control. - 1965. - V. 6. - P. 312-326.

2. Богуславский А.И. Методы навигации и управления по неполной статистической информации. - М.: Машиностроение, 1970. - 256 с.

3. Брайсон А., Хо Ю Ши. Прикладная теория оптимального управления. - М.: Мир, 1972. - 544 с.

4. Квакернаак Х., Сиван Р. Линейные оптимальные системы управления. - М.: Мир, 1977. - 650 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Абакумова О.Л., Демин Н.С., Сушко Т.В. Фильтрация стохастических процессов по совокупности непрерывных и дискрет-

Подстановка (4.21) в (4.20) при t=t0 приводит к

(4.9). Использование (4.14) в (4.11) приводит к

(4.6). Теорема доказана.

5. Заключение

1. Из сравнения результатов Теоремы 3 с Теоремой разделения в классическом случае [1], когда наблюдения без памяти, следует, что выражение для оптимального управления uf имеет один и тот же вид (4.6). При этом матрица S(t), определяющая регулятор, также определяется одними и теми же соотношениями (4.7, 4.8). Различие заключается в том, что в классическом случае оценка ¡(t) вырабатывается фильтром Калмана, а в случае наблюдений с памятью - фильтром (3.23-3.30), который вырабатывает не только оценку фильтрации ¡ (t) для текущего значения вектора состояния x, но и оценки интерполяции ¡i(rk,t) для прошлых значений вектора состояния xT, k=1;N. Соответственно изменяется

hJ '

выражение для минимального значения критерия качества /°.

2. Обобщение результатов на случай, когда процесс управления начинается с начального момента t=0, очевидно.

ных наблюдений с памятью. II. Синтез фильтров // Автоматика и телемеханика. - 1995. - № 10. - С. 36-49.

6. Стратонович Р.Л. Условные марковские процессы и их применение к теории оптимального управления. - М.: Изд-во МГУ, 1966. - 319 с.

7. Гихман И.И., Скороход А.В. Введение в теорию случайных процессов. - М.: Наука, 1977. - 568 с.

8. Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов. - М.: Наука, 1974. - 696 с.

9. Кошляков Н.С., Глинер Э.Б., Смирнов М.М. Уравнения в частных производных математической физики. - М.: Высшая школа, 1970. - 710 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.