Научная статья на тему 'Управление процессом измерения в динамических системах'

Управление процессом измерения в динамических системах Текст научной статьи по специальности «Математика»

CC BY
93
62
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЛУЧАЙНАЯ ВЕЛИЧИНА / НЕГЛАДКИЙ АНАЛИЗ / ДИНАМИЧЕСКОE ПРОГРАММИРОВАНИE / СТРОГИЙ ЭКСТРЕМУМ / НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ / RANDOM VARIABLE / NONSMOOTH ANALYSIS / DYNAMIC PROGRAMMING / STRICT EXTREMUM / NECESSARY AND SUFFICIENT CONDITIONS

Аннотация научной статьи по математике, автор научной работы — Карелин Владимир Витальевич, Фоминых Александр Владимирович

Рассматривается проблема оптимизации процесса наблюдения за движением динамических систем при случайных возмущениях. При этом все типы неопределенности (как внешние возмущения, так и погрешности измерений) трактуются как случайные величины с заданными статистическими характеристиками. Переходная функция рассматриваемого динамического процесса содержит вектор неизвестных параметров. С помощью метода Байеса исходная задача свелась к решению некоторой детерминированной задачи оптимального управления. В работе продемонстрирована возможность применения принципа динамического программирования Беллмана к задаче быстродействия с нелинейной системой. При рассмотренных ограничениях на управления определены необходимые и достаточные условия оптимального управления. Полученные результаты иллюстрируются на примере.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Measurement process control in dynamical systems

The problem of observation process optimization of dynamical system motion under random perturbations is considered. Moreover, all types of uncertainty (both external perturbations and measurement error) are treated as random variables with given statistical characteristics. The transition function of the considered dynamic process contains a vector of unknown parameters. Using Bayesian method the original problem is reduced to the solution of a determinate optimal control problem. The paper demonstrates the possibility of using Bellman’s principle of dynamic programming to the quick action problem with a nonlinear system. Under constrains on control examined the necessary and sufficient conditions of optimal control are found. The obtained results are illustrated on an example.

Текст научной работы на тему «Управление процессом измерения в динамических системах»

2013 ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА Сер. 10 Вып. 4

ПРОЦЕССЫ УПРАВЛЕНИЯ

УДК 539.3

В. В. Карелин, А. В. Фоминых

УПРАВЛЕНИЕ ПРОЦЕССОМ ИЗМЕРЕНИЯ В ДИНАМИЧЕСКИХ СИСТЕМАХ*)

Введение. Рассмотрим случайный процесс xt. Если время t принимает дискретные значения, то он может быть описан рекуррентным соотношением

xt+1 = O'xt + ft+i, (1)

yt = q(t)xt + nt+1, (2)

в котором ft и nt - гауссовские белые шумы с нулевым математическим ожиданием и корреляционными матрицами G(t) и a(t), характеризующие возмущения, действующие на объект и ошибки измерений, а в G © - вектор неизвестных параметров. В случае непрерывного времени процесс x(t) описывается стохастическим дифференциальным уравнением Ито

x(t) = e'x(t) + f(t), x(to)= x(0), (3)

y(t) = Q(t)xt + n(t). (4)

Здесь f (t) и n(t) - гауссовские белые шумы с нулевым математическим ожиданием и корреляционными матрицами G(t)S(t — s) и a(t)S(t — s).

Переходная функция процесса, рассчитываемая по уравнению (1), имеет вид P(xt+1\xt,e) = Pg(xt+1\xt) = F(xt+i — e'xt), где F(z) - плотность распределения случайной величины ft. В математической статистике существует много методов оценки параметров, например, такие как минимаксный подход, когда статистические решения оцениваются по «худшему» из возможных значений в, байесовский подход, при котором для неизвестного параметра в вводится V(dв) - некоторое распределение на (©, F), называемое априорным распределением, и др. В настоящей статье рассматривается байесовский подход.

Процесс xt, определяемый переходной функцией Pg(xt+1 \xt), можно трактовать как частично наблюдаемый марковский процесс в фазовом пространстве Xх© с переходной функцией для в: et+1 = et. Используя конструкцию, предложенную А. А. Юшкевичем

Карелин Владимир Витальевич — кандидат физико-математических наук, доцент, 199034, Санкт-Петербургский государственный университет; e-mail: [email protected].

Фоминых Александр Владимирович — студент, 199034, Санкт-Петербургский государственный университет; e-mail: [email protected].

*) Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант № 12-01-00752).

© В. В. Карелин, А. В. Фоминых, 2013

[1] для сведения задачи с неполной информацией к задаче с полной информацией, приходим к рассмотрению процесса в фазовом пространстве {X х№}, где N - пространство распределений на ©. Переходную функцию в пространстве {X х №} находим следующим образом [2]:

P (xt+i\xt,vt) = J Pg (xt+i\xt)vt (e)n(dO),

здесь плотность распределения vt+i(e) определяется формулой

Pg (xt+i \xt)

vt+i(0) = vt (в)

P(xt+i\xt, Vt)

с начальными распределениями Рх(х1), VI (в) =

Пусть щ(в) - плотность нормального случайного вектора с средним значением в4 и корреляционной матрицей щ{0) = Г4 ехр{ — — в г) ^ГЧ^ — #()}• Тогда \{д) -плотность нормального вектора с корреляционной матрицей $4+1 и средним значением в 1+1, причем справедливы рекуррентные соотношения, аналогичные соотношениям дискретного фильтра Калмана:

1

af2

¿'t+i — 1 + ^-xtx't. (5)

Из (5) вытекает, что в случае гауссовских величин ft апостериорные плотности vt(e) распределения обладают интересным свойством - их корреляционные матрицы монотонно убывают: St+i ^ St. С учетом (2) рекуррентное соотношение (5) примет вид

S-+\ = S- + qtG-qt + a-2i.

Используя байесовский подход для процесса, описываемого уравнениями (3) и (4), и учитывая [3], получим для вычисления матрицы ковариации D процесса x(t) систему дифференциальных уравнений

D = OD + De' - DQ'f-iQD + G, D(0) = D0.

Обозначим DQ'f-iQD = V(t) и перепишем эту систему уравнений так:

D = SD + De' - DVD + G, D(0) = D0. (6)

В (6) матрица V характеризует процесс наблюдения и зависит от состава измерений и их точности. Роль фазовых координат играют элементы ковариационной матрицы D. Будем считать, что можно изменять выбор наблюдаемых параметров, тогда матрицу V можно рассматривать как управляющую функцию, на которую наложены ограничения V € U(t), где U(t) - замкнутое множество матриц.

Постановка задачи. В дальнейшем будем предполагать, что матрица в' полностью известна и обозначим в' = A(t). Рассмотрим функционал

1

I = j fo(V,t)dt

c функцией fo(V,t) = 1. Тогда I = T представляет собой длительность наблюдения. Теперь можно сформулировать задачу оптимального по быстродействию управления наблюдением V

D(t) = A(t)D(t) + D(t)AT(t) - D(t)V(t)D(t) + K(t),

D(0) = Do, D(T) = Dt, I = T — mm, (7)

где Do - начальное условие; Dt - значение матрицы D в конечный момент времени T ; U - класс допустимых управлений.

Сведем задачу (7) к задаче оптимального управления в смысле демпфирования некоторой функции W. Тогда для решения задачи необходимо подобрать такое управление, при котором W убывает за кратчайшее время. В качестве функции W возьмем

W(t) = \\D(t) - D(T)||2, (8)

здесь W (T ) = 0, W> 0 VD(t) = D(T ).

Метод динамического программирования. Перейдем от матричного дифференциального уравнения (6) к векторному. Заметим, что этого всегда можно добиться, «вытягивая» матрицу D в столбец S = (Si,..., ¿2п). Перепишем (6) в виде

n

Sj+n(i-i) ^ dj = aidj + diüj - vl d + kj,

1=1 (9)

S(0) = So,

здесь ai - г-тая строка матрицы A, di - г-тая строка матрицы D, dj - j-й столбец матрицы D, ki - г-тая строка матрицы K, kj - j-й столбец матрицы K, vl - l-й столбец матрицы V, = l,n.

«Вытягивая» матрицу V в столбец u = (ui,...,u2n), получим Uj+n(i-i) ^ vj (t). Перепишем задачу в новых обозначениях (перешли от матричного уравнения к векторному)

n

Sj+n(i-i) ^ dj = aidj + diaj - di ^ vldj + kj,

1=1

S(0) = So, S (T ) = ST , I = T —> min, u&U, i,j=l,n.

Найдем

2n 2n

W\(9) = £2(Si - SiT)Si =Z2Si((u,gl(S))+ cl(a,S,k)) = i=i i=i

(10)

= (u, g(ö)) + c(a, ö, к).

Рассмотрим ограничение, задаваемое множеством U = {u G R | ||u II < ]щу}- Используя тождество max (u,g) = 1, получаем

1Н1<ТШТ

min (u,g(ö))+ c(a,ö,k) = (u* ,g(ö)) + c(a,ö,k) = -l + c(a,ö,k), (11)

IMI^tAT

* ~g(ö"> пол

u =¥F- (12)

По лемме [4] управление (12) оптимально в смысле демпфирования функции W. Кроме того, как было отмечено выше, W|^(т) =0, W > 0 VS = S(T). Очевидно также, что эта функция вещественна и непрерывна yt € [0, T], S € R2n. Тогда с учетом (8) по теореме Беллмана [4], если

W |и* = -1, (13)

то это управление и* оптимально по быстродействию.

Подставим управление (12) в (9). Получим нелинейную систему дифференциальных уравнений, правая часть которой зависит только от известных элементов а, к и от S. Это позволяет использовать численные методы решения систем обыкновенных дифференциальных уравнений. Применим метод Рунге-Кутта 4-го порядка. Известно начальное значение S(0) = So и конечное S(T) = St. Получив приближенные решения S(tm) системы в моменты tm, подставим их в зависимость (12), таким образом, найдем оптимальное управление u*(tm) в моменты tm, то = О, М, Mh = Т, h > 0.

Используем соотношение (13) для определения минимального времени T перехода системы из начального положения в конечное. Интегрируя (13) на промежутке времени от t0 до T, будем иметь W(T) - W(t0) = -T +10. Здесь t0 = 0, W(T) = 0, поэтому

IIS(to) - S(T)||2 = ||S0 - St||2 = T. (14)

Численный пример. Рассмотрим пример реализации построенного алгоритма, положив для простоты а, к = 0,n = 2. Пусть S0 = (1, 2,1, 3), S(T) = (0.1,0.2,0.1,0.3). Тогда сразу по формуле (14) T = 12.15. Имеем систему D(t) = -D(t)V(t)D(t) или в покомпонентной записи по формуле (9)

Si(t) = -(¿2д«1д + ¿1,1^2,1^1,2 + ^1,1^1,2^2,1 + di,2^2,1^2,2).

Аналогично выписываются Ö2(t), Ss(t), ¿4(t). Здесь dij ^ d^(t), ^¿j ^ vi(t)i ЬЗ = 1,2. Далее по формуле (10)

4 4

W|(9) =Y,2(Si - SiT)Si = Y,2(Si - SiT)(u,g1(S)) = (u,g(S)), (15)

i=1 i=1

в которой

g1(S) = -2 I d1,1d1,1 + d1,1d2,2 + d^d^ + ¿1^2,^2,2 - djT I .

V ' ' i,j=1 )

Аналогично вычисляются g2(S),g3(S),g4(S). Тогда из формул (11)-(13) следует, что

min (и, g(ö)) = (-■№, g(ö)) = -l,

IMK^r 11311

* _ -g(S)

u ~ 1U112 •

(16)

Перейдем к численному решению системы (15), замкнутой управлением (16). Вычислим, например, величину в конечный момент времени Т: ¿1(12.15) = 0.100000003. Как и ожидалось, она оказывается близкой к ¿ц*.

По вычисленным функциям ¿¿(t), г = 1,4, можно найти оптимальное управление в каждый фиксированный момент времени tm, то = О, М, используя формулу (16).

Аналогично близкими к , &3T, &4T в конечный момент времени оказываются и значения §2,53,64.

Итак, в этом примере выполнены условия теоремы Беллмана и удалось построить приближенные решения системы и оптимальное по быстродействию управление, переводящее систему в заданную точку. Конечный момент времени T вычислен аналитически.

Заметим, что в уравнении (11) выполнению условия (13) «мешает» функция c(a, 5, к). Можно показать, что при рассмотренном ограничении на управление данная функция обращается в 0, когда матрица системы (6) оказывается кососимметрической: A = -AT, а матрица K равной нулю. Последнее условие означает, что отсутствуют возмущения, действующие на систему (6).

Заключение. Таким образом, в настоящей работе продемонстрирована возможность применения принципа динамического программирования Беллмана к задаче быстродействия с нелинейной системой (6). При рассмотренных ограничениях на управления определены необходимые и достаточные условия оптимального управления, аналитически найден конечный момент времени T. Рассмотренный пример и другие проведенные численные эксперименты дают ожидаемые результаты попадания точки из начального положения в конечное за вычисленное время T. Поскольку результаты получены при достаточно жестких ограничениях на управление, представляет интерес смягчение этих ограничений и, кроме того, нахождение возможного множества U1.

Литература

1. Дынкин Е. Б., Юшкевич А. А. Управляемые марковские процессы и их приложения. М.: Наука, 1975. 338 с.

2. Karelin V. V. Adaptive optimal strategies in controlled Markov processes // Advances in Optimization Proceedings of 6th French-German Colloquium of Optimization. FRG. 1991. С. 518—525.

3. Черноусько Ф. А., Колмановский В. Б. Оптимальное управление при случайных возмущениях. М.: Наука, 1978. 352 c.

4. Беллман Р. Динамическое программирование / пер. с англ. И. М. Андреевой и др.; под ред. Н. Н. Воробьева. М.: Изд-во иностр. лит., 1960. 400 c. (Bellman R. Dynamic programming.)

Статья поступила в редакцию 30 мая 2013 г.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.