Научная статья на тему 'Задача оптимального управления в марковских процессах'

Задача оптимального управления в марковских процессах Текст научной статьи по специальности «Математика»

CC BY
212
42
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Карелин В. В.

Рассматривается задача синтеза оптимальных стратегий для динамических систем, в которых от­сутствует часть основной информации, необходимой для построения оптимального управления. Пред­ложена процедура синтеза оптимальных стратегий, опирающихся на рекуррентный метод вычисления условных плотностей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The problem of optimum control in Markov processes

The problem of synthesis of optimum strategy is considered for Dynamic of systems where a part of basic information, required for the construction of the optimal control is lacking. A method for finding the synthesis of the optimal strategy, based on a recurrent algorithm for computing conditional densities is suggested.

Текст научной работы на тему «Задача оптимального управления в марковских процессах»

УДК 539.3

Вестник СПбГУ. Сер. 10, 2005, вып. 1

В. В. Карелин

ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ В МАРКОВСКИХ ПРОЦЕССАХ**

1. Введение. Рассматривается задача синтеза оптимальных стратегий для динамических систем, в которых отсутствует часть основной информации, необходимой для построения оптимального управления.

Предполагается, что система содержит хотя бы один неизвестный параметр, принадлежащий некоторому пространству параметров 0. Поэтому класс систем управления называется классом параметрических адаптивных систем. Здесь будет предложена процедура синтеза оптимальных стратегий, опирающихся на рекуррентный метод вычисления условных плотностей.

2. Постановка задачи. В данной работе предлагается байесовский подход к построению адаптивных оптимальных систем. Пусть объект описывается случайным процессом хг. Переходная функция наблюдаемого процесс хь принадлежит некоторому заданному семейству V, параметризованному параметром в С 0. Класс допустимых стратегий - совокупность произвольных измеримых функций предыстории, т. е. щ =

х1 = (жь...,ан).

Под стратегией будем понимать последовательность ф = Задание страте-

гии ф определяет при каждом в С 0 распределение вероятностей на Хь посредством систем условных плотностей Рв,ф(а^-нк*) = = 1,2,... . Плотность

распределения вектора хг относительно меры т{йх1) = т(с1х1)т(с1х2).--т(б1х1) определяется формулой

г

Рв,ф=]1Рв,фЫхк-1)Р1(х1). (1)

к=2

Пусть на реализациях процесса {ж*, и*} задана функция д(хг,щ). Тогда за критерий качества стратегии ф можно взять функцию

_! Т

3{в-ф) = 1пп -^Ев,фЯ(хищ), (2)

->0° г-1

где Ев,,}, ~ условное распределение по Ре^ определяемое соотношением (1); функция д(хг,щ) называется доходом или платой в зависимости от того, находится максимум или минимум критерия (2). Вместе с критерием (2) рассмотрим функционал

т

. Зт{0\Ф) = Ев,ф^2д(хищ). (3)

. <=1

Вообще говоря, не существует стратегии ф, которая минимизировала бы критерий (3) при каждом в С 0. Однако для критерия (2) существование такой стратегии обеспечивается существованием достаточных статистик — таких, что вь в с

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 03-01-00668).

© В. В. Карелин, 2005 1

вероятностью 1. Возможность определить в позволяет в принципе выбрать оптимальное управление, соответствующее этому'параметру. Стратегию ф, минимизирующую критерий (2) для каждого в С 0, будем называть адаптивной оптимальной стратегией; стратегию, минимизирующую-критерий (2) с точностью до величины е, - е-оп-тимальной стратегией. Общим методом определения оптимальных стратегий в задачах с конечным числом шагов является динамическое программирование. Пусть Vq -оценка оптимальной стратегии на отрезке [О, Т] Vq = supElY^J1 q(xt, щ) + г(хт)}, где г(хт) - финальная плата, и пусть 0 ^ s ^ t ^ Г. Обозначим Vq = supu q(xt, tit); Ur = q{xt.,ut) + Er(xt+i\xt,ut). Тогда г>£[г] = (V"U)t~sr на X. Отсюда следует, что при t из промежутка [О, Г] имеем

«о И = «о [wfM]. на (4)

Уравнение (4) выражает принцип динамического программирования, согласно которому для оптимизации управления на отрезке [О, Т] при финальной плате г можно сперва оптимизировать управление на промежутке [£, Г] (при той же финальной плате), а затем оптимизировать управление на. промежутке [0,£] при финальной плате vf[r].

Однако непосредственное применение этого метода для задач с бесконечным временем функционирования невозможно, так как полный «доход» в них бесконечен, можно ставить задачу оптимизации среднего дохода за единицу времени. Однако уравнения динамического программирования могут быть применены (с некоторой модификацией) и в этом случае.

Байесовская постановка задачи оптимального управления системой состоит в задании меры и(в) на множестве параметров и рассмотрении критерия (3). При этом выполняется соотношение [1]

т

Зт{ф\ v) = q(xt, и«), (5)

t=i

где - символ усреднения по распределению Prp(xt) [1]. Таким образом минимизация критерия (3) эквивалентна определению оптимального управления процессом {xt,vt} с переходной функцией, определяемой формулами [1]

P{xt+i\xuvt) = j Pe{xt+i\xt)vtiP)n{dB)y ©

и критерием (5). Для бесконечного времени критерием оптимальности в байесовском подходе является функционал «/oo(V') — limT-»oo jJт("Ф)• Этот подход использовался во многих работах, часто подвергался критике в виду того, что мера и(в), вообще говоря, не возникает естественно из сути задач. Однако алгоритмы управления, основанные на таком подходе, обладают многими интересными и полезными свойствами. В частности, влияние меры и(9) на Процесс управления убывает со временем, что следует из результатов [1].

3. Канонические стратегии. При построении оптимального адаптивного управления выбор стратегии осуществляется, максимизируя суммарный доход за все время управления. Если доход за промежуток времени [0,Т] неограниченно увеличивается при Т -*• оо, то следует выбирать ту из двух стратегий, для которой этот рост быстрее.

А. А. Юшкевич [2] ввел понятие канонической стратегии в задаче оптимизации среднего «дохода» за единицу времени. Для задачи минимизации критерия (2) это понятие выглядит следующим образом. Пусть существуют функции г(х) и ь(х) такие, что

Ы[Е{г(хг+1)\щ:х1,щ} + д(хь,щ)] =

ut

= E{r(xt+i)\vt,xt,il>(xt)} + q{xt,il>{xt)) = r(xt) + v(xt). (6)

Причем v(xt) является мартингалом E{v(xt+i)\xt,rf(xt)} = infUt E{v(xt+i)\xt,щ) = v(xt). Стратегия -0, входящая в уравнение (6), называется канонической, а совокупность трех функций ip(x),v(x),r(x) - канонической тройкой. Каноническая стратегия (если она существует) при каждом Т ^ 1 минимизирует сумму

т

jt = E{^2q(xt,ut) +г(жт)}. í=i

При этом оказывается, что J = infu Jj. имеет вид J = Tv(xi),r(xi).

Пусть, как и раньше, в - случайная величина и и(в) - распределение вероятностей для в. Предположим, что для каждого в С 0 существует каноническая тройка фв(х),Ув(х), гд(х) для критерия (2), причем ve(x) не зависит от х (т. е. все начальные состояния равнодоходны).

Введем в рассмотрение функционалы

h(x,u) = J rev{9)n{de), g(x,v) = J vev{d)n{dB). © е

Пусть переходная функция процесса (xt,i^t) задается соотношениями

P{xt+i\xuvuut) - J Po{xt+i\xt,ut)i>t{0)n{(Íe), ©

Вычислим для этого процесса величину

E{h{xt+i,vt+i)\xt,vt,ut} = E{J re{xt+i)vt+i{0)n(de)\xt,vt,Ut} =

в

У в

= J vt{e)n{(W) J re(y)P^(y\xt,ut)Tn{dy) — J vt(6)Ее{re{xt+i)\xt,ut}n((W).

в Y ©

Из (6). следует, что Ee{r9{xt+i)\xt,ut} + q(xt,ut) = re(xt) + ve(xt) + de{xuut), где inf«cr =0;

J vt{6){Ee(r0(xt+l)\xt,ut) +q{xt,ut)}n{d6) = e

= J vt{O)[ro(xt) + ve(xt) + defa,ut)]n(d0) = h(xt, ut) + д{щ) + d{xuvuut), e

где d{xt,vt,ut) = f i/t(9)de(xt,ut)n(d0). Введем l(xt,vt) = infUt d{xt,ut,ut) ^ 0. Оконча- . e

тельно получим miUt[E{(h(xt+i,vt+i)\xt,Ut,Ut) + {q{xt,ut)-l{xt,ut))}] = h{xt,ut)+g{vt). Так как g(ft) ~ мартингал [1], то из этого следует, что тройка (h,д,ф), в которой

ф = arg min[E{h(xt+i,i't+i)\xt,i't,Ut)} + q(xt,ut,ut)], (7)

Ut

является канонической для задачи минимизации

t=T+1

JT-E{ Q(xt,"t,ut) + h{xuvu)}, (8)

i=i

причем

J = inf JT = (T- l)g(Vl) + Eh(xT, ит).ч . (9)

ut

Сказанное выше сформулируем в виде теоремы.

Теорема 1. Стратегия ф, определяемая соотношением (7), минимизирует при каждом Т > 1 функционал (8). При этом минимальное значение функционала J определяется формулой (9).

Если дисперсия распределения vt(Q) мала, то добавка l(xt, ut) также мала. Предположим, что выполняется соотношение

t=T

(10)

¿=1

Тогда стратегия ф является ^-оптимальной для минимизации функционала (2). Так как I > 0, то для произвольной стратегии ф\ выполняются неравенства J^ ^ J^, J^ ^ «7^. Из соотношения(10) следует J1/,1 ^ J^ 4- е. Отсюда получаем ^ Зф — е.

4. Адаптивное стабилизирующее управление в линейной системе с нормальными возмущающими воздействиями. Рассмотрим линейное разностное уравнение n-го порядка

k=n—l k=m

xt+1= akxt-k+^2 ßkUt-k +ft+i, (11)

k=0 k=0

в котором ctk,ßk ~ постоянные коэффициенты, ft - последовательность независимых гауссовских величин с нулевым средним и дисперсией <т2,щуправление, ßo ф 0. Пусть коэффициенты ßk, известные величины xt и щ наблюдаются, коэффициенты а* неизвестны.

Предположим, что объект (11) - минимально-фазовый, т. е. корни многочлена Н^) = 1С!ь=(Г лежат вне единичного круга. Качество управления объектом оценим

с помощью функционала: ...

t—T

J= lim ^УЕх* ' ' (12)

T—>oo ¿—s

t= 1 .

Допустимые управления - произвольные измеримые функции щ = ф^х1).

Теперь;нужно установить, что стратегия ф, определенная соотношением (7) для абстрактной схемы, обеспечивает стабилизацию в среднем квадратическом траектории уравнения (11). Введем следующие обозначения: = РкЩ-к, 9' = оо,е*ь ...,а„_10). Тогда

хь+\ = в'гь + гиг + Л+ц А = {ри^г-и Переходная функция процесса, определяемая уравнением (13), имеет вид

Рв{х1+1\гиь)1) = - в'гг - «;«),

(13)

где Р(?/) - плотность распределения случайной величины Байесовскую конструкцию, связанную с семейством переходных функций Рв^-ц^ги*), представим следующим образом:

Р(®4+1 - 9'гь -

Пусть щ{9) - плотность нормального случайного вектора с средним значением 04 и корреляционной матрицей St. Тогда (в) - плотность нормального вектора с корреляционной матрицей 1 и средним значением 0*+1, причем справедливы рекуррентные соотношения, аналогичные соотношениям дискретного фильтра Калмана:

ар

0г+1 = Зн-Л^Г1^ -I--(ян-1

ар

го«)*«]-

(14)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Из (14) вытекает, что в случае гауссовских величин апостериорные плотности щ{9) распределения обладают интересным свойством - их корреляционные матрицы монотонно убывают : £¿+1 ^ 5*.

Уравнение (11) представим в следующем виде:

2Ь+1 = Ахь + Ь(9тгг + РкЩ-к + Л-и),

(15)

к=0

в котором

( 00...00 \ 10...00

^ 00...01 )

6 =

( 1,\

о

V о )

Пусть У(г) - произвольная квадратическая форма вектора г.

Вычислим условное математическое ожидание Вследствие уже

сказанного, чтобы вычислить условное распределение вектора 24+1 в байесовской конструкции, нужно впформуле (15) считать в случайным вектором с распределением щ (в). Поэтому

/тта

ПМ + Ь(втг1 + ^^Щ-к)Ы9)(Ю = к=0

= V(b)Ef?+1 + V(Azt + b(0Tzt + £/W*)) +T(b) / \(9- 9t)Tzt\2vt{9)d9,

k=о l

здесь

Ot = j 9ut{9)d9. (16)

в

Очевидно, что f \(9-9t)Tzt\2ut{9)d9 = zJStzu. St = J{9-9t)*{9-9t)Tvt(9)d9. Обозначим © ©

через V(b) = q, Ef2 = d?. Окончательно запишем '

m

E{V(zt+1)\x1} = qd2 + qzJStZt + V(Azt + b(9Ttzt + £ (3kut-k))• (17)

k=0

Пусть теперь квадратичная форма V(z) имеет вид V(zt) = пх2 4- (п — 1)х2_х + ... +

• Тогда V(Azt + bv) + zf = V{z) 4- nv2, V(b) = n. Перепишем соотношение (17):

m

E(V(zt+i)\xl) + [z2 - qzJStzt) = nid2 + \9jzt + YsP^t-A2) + V(zt). (18)

k=0

m

Теорема 2. Стратегия ^ РкЩ-к = —Ofzt минимизирует при каждом Т велика

т-1

чину Jt = ^ ~ Srn)zt + F(2t)}. Z7pu этом inf Зт = nTd2 + V(zo)-,• t=o "

Доказательство вытекает из соотношения (18).

Следствие 1. Пусть при некотором t выполняется неравенство I — qST > £о/. Тогда существует р, 0 < р < 1, при котором справедливо неравенство E{V(zt+1)\zt,ut} ^ pVM+nd2.

Следствие 2. Пусть \(9) - априорная плотность, удовлетворяющая неравенству

Т т

Х(9) ^ С 1/(9). Тогда справедливо неравенство E\(J2zt) ^ z2).

t t

m

Теорема 3. Пусть ¡3kut-k = —9jzt, где 9t определяется соотношением (16),

k=О

vt{9) - последовательность апостериорных распределений, соответствующих нормальному априорному распределению щ{9), причем nS\ < I. Пусть Х(9) - плотность распределения, сосредоточенного в ограниченной области, удовлетворяющая неравенству Х(9) < Си(9). Тогда выполняются неравенства E{z2} ^ const, Е{и2} ^ const.

Доказательство. Ввиду неравенства Ez2 < CE\z2 для доказательства ограниченности последовательности Ez2 достаточно показать ограниченность последовательности E\zПоследовательность матриц St монотонно убывает при всех t ^ 1, поэтому выполняется неравенство I — nSt ^ I — nSo ^ cqI, если величина ео достаточно ^ала. Следовательно, EV(zt+i) < pEV(zt) +псР, где р < 1. Отсюда EV(zt) < const, что эквивалентно ограниченности Ez2. Покажем ограниченность E(ut)2. Используем соотношение (18) для вычисления E{V(zt+î)!^*}- Получим E{V(zt+i-V(zt)+zf} = nd2+E{zfStzt+n\(9t-9^)Tzt[2}+V(zt). Вследствие ограниченности носителя распределения А* (в) векторы 9t и матрицы St равномерно ограничены.

Поэтому Е\(вг - Ot)Tzt\'2 ^ const, E\zj9t\2 ^ CE\zt\2 % const. Отсюда E\0jzt\2 ^ const. Доказательство закончено.

Поясним смысл утверждений теоремы. Процесс (х^щ), обусловленный переходной функцией P(xt+i\zt, ft, щ), можно трактовать как процесс, определяемый уравнением

т

xt+i = ejzt + Yj РкЩ-к + ft+i i где 6t - случайный вектор с распределением At(0).

к—О

Так как носитель распределения At(Q) сосредоточен в окрестности точки во, то при Vi выполняется неравенство \6t — 6Q\ < е. Таким образом, теорема утверждает, что стратегия гр стабилизирует траекторию уравнения (11) с «малым» случайным возмущением вектора коэффициентов уравнения (11). Естественно, можно надеяться, что эта стратегия стабилизирует траекторию и для уравнения с невозмущенным вектором параметров Qt = в о-

Summary

Karelin V. V. The problem of optimum control in Markov processes.

The problem of synthesis of optimum strategy is considered for Dynamic of systems where a part of basic information, required for the construction of the optimal control is lacking. A method for finding the synthesis of the optimal strategy, based on a recurrent algorithm for computing conditional densities is suggested.

Литература

1. Карелин В. В. Задача идентификации в управляемых марковских процессах //Вестн. С.-Петерб. ун-та. Сер. 10: Прикладная математика, информатика, процессы управления. 2004. Вып. 1. С. 60-69.

2. Дынкии Е. В., Юшкевич А. А. Управляемые марковские процессы и их приложения. М., 1975. 338 с.

Статья поступила в редакцию 21 апреля 2004 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.