УДК 539.3 В. В. Карелин
Вестник СПбГУ. Сер. 10, 2004, вып. 1
ЗАДАЧА ИДЕНТИФИКАЦИИ
В УПРАВЛЯЕМЫХ МАРКОВСКИХ ПРОЦЕССАХ*)
1. Введение. В последнее время в связи с предъявлением все более высоких требований к процессам управления в различных областях техники появилась необходимость в управлении такими объектами, для которых не только отсутствует адекватная математическая модель, но иногда даже общие качественные закономерности изучены недостаточно. Зародившийся подход к новым задачам управления основывается на идее приспособления управляющей системы к свойствам конкретного объекта, о котором заранее известно лишь к какому классу управляемых объектов он относится. Рассмотрим линейное разностное уравнение .п-го порядка:
71 — 1 т
к=0 к=0
где с^ь/З* - постоянные коэффициенты; - последовательность независимых гауссовых величин с нулевым средним и дисперсией сг2; г/* - управление; /Зо Ф 0. Будем предполагать, что коэффициенты а* неизвестны. Обозначим
т
Щ-^РкЩ-к, 0Т = (ао,в1, ...,а„_1).
Тогда
хх+х = Втг% + WtЛ^ Л+1, (2)
здесь г? = , ..., ж4_п). Переходная функция г^ги*) процесса, определяе-
мая уравнением (2), имеет вид
Ре(хг+х\гг, У)^ = Р{хг+1 - 9тг% - (3)
где Р(-) - плотность распределения случайной величины /(.
Постановка задачи. В реальных ситуациях переходная функция управляемого марковского процесса зависит от неизвестного параметра 9. При этом знание данного параметра для целей управления, вообще говоря, не обязательно, но желательна близость оценки распределения к истинному распределению.
Близость функций распределения (3) понимается в смысле метризованного расстояния между двумя распределениями, которое определяется следующим соотношением
р(Рх-, Р2) = зир ^(Л) - Р2(Л,)|. i
Будем предполагать, что распределение Р(йу\х, В) доминируется мерой т(ёу). Плотность распределения Р(-|а;, 9) относительно т(с1у) обозначим через Р(у\х, в). Считаем также, что на 0 задана сг-алгебра Т , т.е. что (0, Т) - измеримое пространство.
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 03-01-00668). © В. В. Карелин, 2004
Поставим задачу статистической идентификации закона распределения: Р(с1у\х,в), т.е. задачу построения такой последовательности оценок Р4(<й/|а:'), что при £ —» оо
РгШх*) ~^Р(с1у\х,,в)
в каком-либо смысле (по вероятности, с вероятностью 1 и т.д.).
Основным аппаратом при установлении факта сходимости в данной работе является информационная мера рассогласования между оцениваемым распределением и оценкой.
Пусть Р\ (у) и Рг (у) ~ две плотности распределения на измеримом пространстве У относительно положительной меры т(в,у). Информационным числом Кульбака-Лейблера называют величину
1Шу),ЫУ))= 1{1*Щ]Рг(у)гп(<1У), (4)
г .....'' У
:Она не является метрикой (так как,это не симметричная функция от Рх и Р2), но обладает некоторыми свойствами, благодаря которым может быть использована в качестве меры рассогласования между распределением Рг(у) и его оценкой Р\(у) .
Если интеграл (4) существует, то /(Рх(у), Р2(у)) > 0. При этом 1(Рх(у), Рг(у)) = 0 тогда и только тогда, когда Р1 = почти всюду. Справедливо неравенство [2]
. 1{Рх{уЬМу)) >\[/ IШ - Р2(у)\т(с1у)}2. у
Таким образом, метрику р можно оценить сверху величиной у/81, т.е. для стремления /9-4-0 достаточно, чтобы / -4 0.
Для семейства нормальных распределений выполняется еще одно свойство. Пусть Р0(х) - произвольное распределение в К" с центром в точке а и ковариационной матрицей V. Рассмотрим семейство <3 нормальных распределений в Жга; до(х) ~ нормальное распределение с тем же центром в точке а и ковариационной матрицей V. Теорема 1. Для любого q(x) € С? выполняется неравенство
./(Ро,«о)<ОД>,?).
Равенство достигается тогда и только тогда, когда д == до-
Доказательство. Ввиду того, что функция 1п(д0/?) - квадратичная форма,
то
[\\APodx = /"[Ш-Ы®. J Я 3 4
X X
/(Ро;<2) = 1(Ро;<?о)+%о;<г).
1(Ро-,Яо)= [[1п—]Р0<&, /(?о;?)= [[1п—]Р0йж, 3 Чо 3 ч
х х
1{Р0;д) = [ [ьД]Р0еЪ+ [ [1п^]Р0сЬ.
и Я * Я
Отсюда следует Так как
то
Поэтому
Л-Ро;?о) <ОД>;?),
причем равенство будет тогда и только тогда когда /(?о; ?) = 0) т-е- Чо =
Рассмотрим байесов подход к оцениванию параметров условного распределения. Пусть наблюдается процесс Предположим, что условное распределение в) зависит от параметра в € 0, значение которого неизвестно, но постоянно в течение всего эксперимента. В дальнейшем будем считать, что
. рв(х^1\х*) = р{ъ+1\х*,в).
Задачей этого раздела будет изучение байесовой оценки для переходной . .функции Рв(хг+1\хг). Процесс Хг, определяемый переходной функцией Рв(х^ 1 ¡ж*), можно трактовать как частично наблюдаемый управляемый марковский процесс в фазовом пространстве 0 х X. Воспользуемся известной конструкцией для построения вспомогательной модели процесса с полной информацией. В качестве фазового рассмотрим пространство {X, ЭД}, где ?П - пространство распределений на 0. Определим переходную функцию в пространстве {X, 91} следующим образом:
Р\хг+1\хищ) = ! Рв{х^1\щ)щ{в)п{йв), (4а)
©
где функция иг (0) ~ апостериорная плотность распределения параметра в, которая определяется формулой
Для задания*процесса задаются также начальное распределение и априорная плотность VI (в) = ёих/бп.
Отметим свойство последовательности 1^(0). Пусть ь(в) - произвольная функция, для которой существует интеграл
6 = У у{в)чф)п{<Ю).
0
Тогда существует (с вероятностью 1) интеграл
6+1 = I г;(0)1/*+1(0)п(с»),
и при этом выполняется соотношение
^(6+11^,1/0 = 6, (4в)
т.е. последовательность & является мартингалом (относительно Так как
то
х
= Jт{йхг+1) Jу{в)иг(в)Рв(хг+1Ып(с1е) = х ©
= J п(йв)у{в)1УЬ{в) ! Рв{х^1\хг)т(ах^1) ^ ^ у{9)щ{в)п{ае).
Пусть
©
Тогда справедливо соотношение
Е{<г?+1 \xuvt) ~ £{(6+1
Следовательно, последовательность сг^ является супермартингалом.
Пусть 0 - линейное множество в Еп, ~ среднее значение вектора в с плотностью распределения - корреляционная матрица. 'Будут справедливы соотношения
Щ+1щ) = 0«, Е{Бг+1\хи щ) < 5(.
Чтобы проверить последнее неравенство, положим (р{9) = сТ9, где ст - постоянный вектор. Тогда <т1 — ст3гс. Получим, что для любого вектора с выполняется неравенство
Е{стSt+lc\xt,vt} < ст54с.
Из (4в) следует
#(6+1 ~ О)2 = Еаг^ - Яо?+1. Как следствие из приведенных выкладок, вытекает неравенство
В частности, при 6 = ств имеем неравенство
оо
t=zl
Так как вектор с произвольный, то
оо
«=1
Рассмотрим асимптотические свойства последовательности щ. Определим переходную функцию процесса соотношениями
Р{х^1\хиХг) = ! Рв{х^1\хг)\г{в)п{йв), (5)
0
Предположим, что Xt наблюдается, но распределение Аг (в) неизвестно. В качестве оценки функции А4(0) выбирем распределение щ{в), определяемое рекуррентным соотношением
с произвольным начальным значением иг(в). Наша задача - установить, что при Т —>■ оо переходная функцияР(жг+1|ж(, щ) становится близкой к истинной, Р(ж4+1|з;4, Аг).
Теорема 2. Пусть {г*, А*} - марковский процесс, определяемый соотношениями (5) и (6). Тогда выполняется следующее неравенство:
¡нЩ] А1№И), *=1 6)
Доказательство. Введем последовательность случайных величин
Ы = /
©
Тогда имеет вид
] щ(9) ®(,Л«) ..........
0
©
В силу (5) находим
Гп{м) + .
(7)
Вычислим условное математическое ожидание при условии в силу соотно-
шений (5) и (6):
Е(Ы+1\хи А,) = I
4 + 1
Из выражений (5) и (6) следует, что
E(ht+1\xt,Xt) = Jln[^)M9)n(de)x ©
х J Pe(xt+1\xt,Xt)m(dxt+i) - I(P(xt+i\xt,\t)),
' T
P(xt+i\xt, Щ) = I ln[^|i)At(Ö)n(dö) - /, ©
E(ht+i\xt, At) = ht — It..
Отсюда получаем соотношение
Elt = Eht — Eht+x. Суммируя по t от 1 до T, запишем
■ г ••
EiJ^It) = - Ehr+1 < Shi. i
Переходя к пределу при Т -> оо, получим (7).
Следствие. С вероятностью 1 справедливы соотношения
оо
EIt < +оо, lim It = 0.
~~ t-J-co
t=l
Распределение Ai(6) произвольное. Например, в качестве Ai(ö) может быть взято любое распределение, сосредоточенное в сколь угодно малой окрестности ио точки 6q. Тогда и все распределения Лх (0) сосредоточены в этой окрестности.
Процесс {xt,At} можно трактовать следующим образом: 6t - случайная величина с распределением Ai(0), xt+i - случайная величина с условным распределением Pö(a;t+i|a:t), причем при всех t > 1 выполняется включение 6t € и0. Таким образом, процесс xt можно трактовать как процесс, переходная функция которого определяется параметром, подверженным малым возмущениям.
Итак, установлена сходимость оценки переходной функции к нестационарной переходной функции Pe(xt+i|xt). Если множество 0 конечно, то окрестность точки 0,- совпадает с точкой в{ (можно выбрать дискретную топологию). В этом случае интегральные соотношения принимают вид конечных или бесконечных сумм, а функции vt{9) превращаются в вероятностные последовательности ut{i), г = 1,2,.... Соотношение (7) принимает тогда вид
оо i=i
где г о - номер переходной функции, определяющий процесс xt;
оо
Jt = I(Pio;Pt), Pt = y£Pi(xt+i\xt)ut({), t=i
Вопрос, сходится ли распределение щ к ¿-распределению, сосредоточенному на истинном параметре #сь остается в общем случае открытым. Нетрудно привести пример, когда это не так.
В подходе, описанном нами, предполагается, что истинное распределение Р0(у|»*) принадлежит классу гипотез ф. Очевидно, что чем шире класс ф, тем более трудоемка реализация алгоритма. Возникает вопрос, как будет вести себя последовательность оценок переходной плотности, если истинная переходная функция не принадлежит классу ф. Рассмотрим случай, когда XI ~ последовательность независимых одинаково распределенных случайных величин.
Предположим, что выполняются следующие условия:
1) Зь0 € 0 : Щ = {©|Я {1п§} < +оо};
"в
р
2) а = Е{Ь-^}, 8 > 0. С г>о,
Ре
Я{вир 1(Р0;Рв) <а + 6]. При веу& ^{|1п§|2} < с < +оо, / щ(9)п{йв) > 0;
Гв VI
3) ЫРв имеют конечные математическое ожидание и дисперсию.
Обозначим 1(9,х^ — ^\\.пРв(у\х1)]Ро(у\х^т(йу). Приведем пример, иллюстрирую-у
щий введенные условия. Пусть
у{ = вт хг + /{,
где xt■lyt - наблюдаемые векторы; х* - независимый случайный вектор; /г - ненаблюдаемая последовательность случайных величин. Истинная гипотеза Р(у\хг,в) имеет вид
в котором (р - плотность /. Если плотность, / неизвестна и в качестве гипотезы взято семейство нормальных распределений, то условие 2) означает, что векторы Xt имеют конечные четвертые моменты.
Обозначим <р(в) = Е1(9, х^. Тогда можно сформулировать ряд утверждений. Теорема 3. Если <р(во) > ф(9\), то для любого N выполняется соотношение
> ЛГ} 1 при * оо. (8)
Доказательство. Используя соотношения (4а), (46), получим
1п;Т7й~Т ~ ~ёГ7-1—\ + °о = >, & + «о,
Ме1) Рв{Ук+1 Ы
где
Р${Ук+1\хк) ' УХ{9Х)'
Введем в рассмотрение случайные величины = — $ ~ сг-алгебра, натя-
нутая на (®1,..., г*). Очевидно, что (к - последовательность центрированных некоррелированных величин, причем £к — Е((к 15) = 1{9о, Хк}~1{&1, Хк); - последовательность
независимых одинаково распределенных случайных величин и Е£ = р(&о) — 'fii&i) = 1 т -
S > 0. Поэтому — —> S с вероятностью 1. Далее,
1 В 1 ^ 1
т1п[^Ш] = т S с* + у Е & ■■
1 ' 1 1/ (в } Так как — Т] Cfc 0 с вероятностью 1, то —Inf—тг-4) ^ с вероятностью 1, т.е. с Т к=1 ■ Т vt(0i)
вероятностью 1 lnf^*^?0)) ~ TS. Отсюда выполняется условие (8).
Теорема 4. Для V0 ^ выполняется щ(В) -4 0 по вероятности при t —» оо. Доказательство. Обозначим •
P(yt\xt) = I Pe{yt\xt)\{de),
Vc
где Л (¿в) - распределение на и^, т.е. / Х(с1в) = 1. По неравенству Иенсена ф(/) < / Ф,
¡■Об
в которой ф - выпуклая функция, имеем
= / (Ь^)ЛИ).
в :
Поэтому
/(Л;Р0) = I Ъ.^Р0гп{аУ)<
у
У в в ;
Введем величину = § щ(в)п(¿в). Пусть & - последовательность случайных величин, иг
где 6 Тогда
с . 1 /^Ы^К с . 1 Ро , Рэ
6+1 = 6 + 1п( .. ) = 6 + Ь-д- - 1п—,
так как
И
1, 1Л. Ро л , 1, ы») ,„\
= «- 7Еь^ + (9)
Рассмотрим второй член правой части равенства (9):
Ро Ро
Вычислим выражение ~ и получим
= {1п5- - Е{Ы^\Ъ)} + ро р^
Так как С* = --- последовательность ортогональных величин и если
Р
1 (
ЕО <сопв1;, то - Ос —► 0> 2 —>■ оо, по вероятности. Ввиду того, что * 1
Р =
! Мв)п{йв)Рв{уг\хг), ^ = Jut(0)n{dв),
«Л
имеем
= С, + = С» + 1(Р, Ро) <
Pt р
< с« + [ 1(Ре,Ро)ч(8)п[М) < вир / + } 9evs
Так как
I г 1 а
т.е. ИтуС« < 0) 0 то -оо, -» 0. Отсюда щ{в) 0 по
г & А4*
вероятности при < —> оо.
Теперь вернемся к рассмотрению уравнения (2).
Байесова конструкция, определяемая формулами (4а) и (46), связанная: с семейством переходных функций Рв{-будет иметь вид
0
- втzt - гиг)
4+1 {9) = и({9)-
P{Xt+l\l't,Zt,Wt)
Пусть 4 (9) - плотность нормального случайного вектора со средним значением 0« и корреляционной матрицей
щ(в) = Г,ехр{-^ - в^БГ1^-»*)}.
Тогда vt+\{в) - плотность нормального вектора с корреляционной матрицей и средним значением 9t+^, причем справедливы следующие рекуррентные соотношения, аналогичные полученным для дискретного фильтра Калмана:
с-1 — с-1 л. ^ *
— "Г" 2 >
(Ю)
Из формул (10) вытекает, что в случае гауссовых величин ft апостериорные плотности распределения щ(0) обладают интересным свойством -г их корреляционные матрицы монотонно убывают: St+i < St.
Summary
Karelin V. V. A problem of identification in controlled Markov processes.
Convergence and stability Bayes in identification of one class of stochastic of control systems is proven. The problem of synthesis of optimum strategy for dynamic systems, in which part of the main information, necessary for construction of optimum management absent is considered as well.
Литература
1. Аоки M. Оптимизация стохастических.систем/ Пер. с англ.; Под ред. Я. 3. Цыпкина. М., 1971. 424 с.
2. Karelin V. V. Adaptive optimal strategies in controlled Markov processes //Advances in Optimization Proceedings of 6th foench-German colloquium of optimisation. PRO. Berlin; Heidelberg; New York.. 1991. P. 518-525.
3. Липцер P. Ш., Ширяев A. H. Статистика случайных процессов. M., 1974. 696 с.
Статья поступила в редакцию 10 мая 2004 г.