ISSN 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ №2(16), 2013, с. 3-20
УДК 517.977.5
К. А. Рыбаков
Оптимальное управление стохастическими системами при импульсных воздействиях, образующих эрланговские потоки событий
Аннотация. Рассматривается задача оптимального управления нелинейными стохастическими системами, математическая модель которых задается стохастическим дифференциальным уравнением Ито со скачкообразной компонентой, описывающей влияние случайных импульсных воздействий или помех. Предполагается, что закон распределения промежутков времени между последовательными импульсными воздействиями эрланговский. При управлении может использоваться информация только о части координат вектора состояния.
Ключевые слова и фразы: импульсные воздействия, неполная информация, принцип расширения, оптимальное управление, стохастическая система, эрланговский процесс.
Введение
Теория стохастических систем управления имеет много приложений в самых разных областях, например, при управлении техническими объектами и обработке информации в условиях помех. Одно из направлений в этой теории — синтез законов управления, обеспечивающих наилучшее качество в смысле некоторого заданного критерия. В этой работе рассматриваются системы управления, математические модели которых задаются нелинейными стохастическими дифференциальными уравнениями с диффузионной и скачкообразной компонентами, позволяющими учитывать действующие на систему случайные возмущения различной природы: непрерывные и импульсные.
Работа поддержана РФФИ (проект № 12-08-00892-а).
© К. А. Рыбаков, 2013
© Московский авиационный институт (национальный исследовательский университет), 2013
© Программные системы: теория и приложения, 2013
При импульсных воздействиях в случайные моменты времени вектор состояния получает детерминированное или случайное приращение согласно заданным условиям. Обычно в подобных задачах предполагается, что промежутки времени между последовательными импульсными воздействиями описываются показательным законом распределения, но такие ограничения можно снять, используя модели систем со случайной структурой [1—3]. С помощью введения дополнительного дискретного состояния системы управления появляется возможность формировать различные потоки импульсных воздействий, не ограничиваясь только пуассоновскими потоками, а рассматривая, например, эрланговские потоки, находящие применение в различных прикладных задачах [1,4—7]. Это позволяет описывать промежутки времени между последовательными импульсными воздействиями эрланговским законом распределения.
Задача синтеза оптимального управления заключается в нахождении пары функций: управления, входящего в коэффициенты стохастического дифференциального уравнения, составляющего основу математической модели системы, и плотности вероятности вектора состояния, минимизирующих заданный функционал качества. Предполагается, что при управлении используется информация о текущем времени и величине части координат вектора состояния, т.е. рассматривается управление по неполному вектору состояния при его точном измерении. При такой постановке задачи программное управление и управление с полной обратной связью (позиционное управление) являются частными случаями, когда число измеряемых координат соответственно нулевое или совпадает с размерностью вектора состояния.
С помощью достаточных условий оптимальности в задаче управления системами со случайной структурой [8,9] получены соотношения для определения оптимального управления в задаче управления стохастическими системами при импульсных воздействиях, образующих эрланговские потоки событий, рассмотрен частный случай нахождения оптимального в среднем управления. В основе применяемых достаточных условий лежит принцип расширения [10-12], позволяющий перейти от оптимизации в функциональном пространстве к конечномерной оптимизации и упростить исходную задачу. Аналогичный подход применялся ранее для синтеза оптимального управления стохастическими системами без учета импульсных воздействий [13-15].
1. Постановка задачи
Модель стохастической системы управления описывается уравнением Ито со скачкообразной компонентой [3]:
(1) ¿х (г) = / (г, х (г), и(г))л + а(г, х (г), и(г))ш (г) + ¿<э(г),
X (К) = Хо,
где X € Ж" — вектор состояния; и € и С К,9 — вектор управления; Ь € Т = [¿о, ^ 1], Т — промежуток времени функционирования системы, моменты времени ¿о и ¿1 заданы; ](Ь, х,и) : Т х К" х и ^ К" — вектор-функция размера п, а(Ь,х,и) : Т х К" х и ^ Кпхя — матричная функция размеров п х в; Ш(I) — в-мерный стандартный винеровский процесс, не зависящий от Хо; — случайный
процесс с кусочно-постоянными траекториями, заданный в виде
3 (4)
Я(г) = £ У (п).
г=1
Здесь .1 (I) — эрланговский процесс порядка N, У(т.¿) — независимые случайные величины из К", распределение которых задано плотностью вероятности ц(Ь,у) или в общем случае ц(Ь,х + у | х), т.е. вектор состояния получает случайные приращения в моменты времени 7*1, т"2, ..., образующие эрланговский поток событий [3,16,17]:
X(п) = X(п — 0)+ У(п).
Эрланговский поток событий формируется в результате пропуска подряд N — 1 события пуассоновского потока, который определяется интенсивностью Х(1) следования событий и задает пуассоновский процесс Р(£). С учетом введенных обозначений имеем:
р (г)
QO) = £ (В.), J(t) =
m
N
([ • ] — целая часть),
где величина используется для пропуска подряд N — 1 события пуассоновского потока и отбора каждого события с номером, кратным N:
1, i (mod N) = 0,
' 0, i (mod N) = 0; моменты времени в\, $2, ... соответствуют событиям пуассоновского потока: = т..
При управлении используется информация о времени и о величине т первых координат вектора состояния, 0 ^ т ^ п, т.е.
X = [Х(1) X(2)]T, u(t) = u(t,X{1)(t)),
где X(d = [Xi X2 ... Xm]T e Rm, X(2) = [Xm+1 ... X„]T e Rn-m. Для любой задачи управления по неполному вектору состояния можно упорядочить координаты именно таким образом.
Предполагается, что функции f(t,x,u), a(t,x,u) и u(t,X(i)) обладают следующими свойствами [18]: функции
fi,u(t,x) = fi(t,x,u(t,x(1))) и gij,u(t,x)= gij (t,x,u(t,x(1)))
кусочно-непрерывны по t для всех х e Ё"; при фиксированном t e Т fi,u(t,x) e С^Ё") и gij,u(t,x) e С'2(Ёп), где gij(t,x,u) — элементы матричной функции g(t,x,u) = a(t,x,u)aT(t,x,u), Cr(Ё") — пространство функций, имеющих непрерывные и ограниченные производные порядка 7 ^ г; i,j = 1,2,..., п. Кроме того, X(t) — непрерывная функция, а функция JRn yq(t, х + у | x)dy удовлетворяет условию Липшица по х. Далее такое множество функций u(t,X(i)), будем обозначать через Um.
Эти условия (иногда к ним добавляется дополнительное условие на матрицу диффузии g(t,x,u), требуемое для разрешимости приведенных ниже параболических уравнений) обеспечивают существование и единственность сильного решения уравнения (1), однако они вносят слишком много ограничений при решении прикладных задач. Вопросы, связанные с ослаблением условий, рассмотрены в [19,20]. В частности, можно рассматривать уравнения с разрывным коэффициентом сноса f(t,x,u) или вырожденной матрицей диффузии g(t,x,u), достаточно часто встречающиеся в задачах управления. Отметим, что в [19,20] рассмотрены стохастические дифференциальные уравнения без скачкообразной компоненты или с пуассоновской составляющей, тем не менее эти результаты могут быть обобщены и на эрланговский случай. Кроме того, можно рассматривать задачу оптимального управления слабым решением стохастического дифференциального уравнения.
Для дальнейшего изложения введем случайный процесс К(t) с конечным множеством состояний {1, 2,..., N}, которые сменяются последовательно, начиная с 1, интенсивность смены состояний — X(t). Состояние с номером N сменяется на состояние с номером 1: К(t) = 1 + Р(t) (mod N), при этом вектор состояния X системы
(1) получает случайное приращение, что соответствует разрыву траектории процесса X (£).
Введение дополнительного процесса К(1) позволяет представить плотность вероятности , х) вектора X в виде суммы:
N
< к)(
,Х)
к=1
где функции Щк) (1, х) удовлетворяют системе обобщенных уравнений Фоккера-Планка-Колмогорова [1,2]:
(2)
ду ' = Ли(г,Х(1))^ 1)(ъ,х) — 1)(г,х) +
+ Щ [ д(г,х | г)ЩN, г)сЬ, ./вл
^^,Х) = А^,ха))^к) ^, X) — \Ш(к) (г, х) +
+ х(г)Щк-1) (г ,х), к = 2,...,м,
в которой
п д
Аи^(г ,х) = — £ [т ,х,и)Щк)(г ,Х)] +
=1
1 п п -2
+ 2 Е Е -э^. Ь (*, х> и)^к) ^*)], к = 1, =1 =1
Начальное состояние Хо задается плотностью вероятности щ (х). Для процесса К (1) начальное состояние фиксировано условием К (¿о) = 1, поэтому
(3) щ1){Ъо,х)=фо(х), щк)(г0,х)=0, к = 2,..., N.
Решение уравнений (2) будем понимать в обобщенном смысле [21], поскольку такой подход позволит в дальнейшем охватить более широкий круг прикладных задач и применить методы приближенного синтеза оптимального управления, основанные на ортогональных разложениях [ ,23]. Таким образом, Щк)(г,х) €'№2,,1(Т х К"), а Щ0к)(х) € ^21(К"), где Ш1Л(Т х К") и ^(К") — соответствующие пространства Соболева.
Для последующих рассуждений соотношения (2) и (3) удобно переписать в векторной форме:
дфи,х) р - / \ - / \ - / \
~ х), р^о, х) = (ро{х),
(4) Ф(г,х) = [^1)(г,х) ^2)(г,х) ... ^*)(г,х)]т,
,х) = Г>^,х) ~'2>(г,х) ... >(г,х) фо(х) = [уо(х) 0 ... 0] т,
где Ли, = [Акт]^г=1 — матрица операторов, соответствующих уравнениям (2):
г) (г, х) - \(г)<р(г) (г, х), к = г, \(г)<р(г)(г,х), к - 1 = г,
\(Ь) /Вп я(г,х | г)^г\г,г)(1г, к =1 и г = М, 0, в остальных случаях.
Лкт ^ г'(£,х) = <
Обозначим через $ множество допустимых плотностей вероятности вектора состояния:
$ = { Ф(х)= [ <р{ 1](х) <р< 2)(х) ... <р<м >(х) ]т : <р< к)(х) е Wi(Mn), ^к)(х) > 0 (к =1, 2,..., N), V I <р(к)(х)<1х =Л.
1.-1 J
(5) J(фо(х),<1т)= I / ш(Ь, ф(Ь, х), и(Ь, Х(1)))дЫх + 6(ф(Ь1,х)), Jt0 ./вл
к = 1 •
Пусть Эт — множество пар ¿т = (ф(1,х),и(1,х(1))) таких, что ф(Ь,х) и и(Ь,Х(1)) е ит удовлетворяют уравнению (4), где ф(Ь,х) е $ для любого фиксированного Ь е Т. Введем на Эт функционал качества:
1р(Ъ, х), и(Ъ, Х(
Но
где ш(Ь, ф(Ь, х), и) : Т х Ж" х и ^ Ж — ограниченная функция, а 0(ф) : $ ^ Ж — ограниченный функционал. Функция ш(1,ф(Ь,х),и) и функционал 6(ф) заданы.
Введение нелинейного по плотности вероятности функционала качества усложняет соотношения для нахождения оптимального управления, но позволяет охватить задачи, для которых критерий оптимального в среднем управления неудачен (см., например, [24]).
Для многих задач достаточно рассмотреть зависимость функционала качества от p(t,х), а не от ip(t,х). Определяя дополнительно вектор 1 =[1 1 ... 1]T, dim 1 = N, получаем <p(t,х) = 1T<fi(t,х), т.е. зависимость от p(t,х) можно рассматривать как частный случай зависимости от ip(t,х). Кроме того, определение функционала в форме (5) предпочтительнее, поскольку p(t, х) несет не всю информацию о системе (2), а именно при переходе от 0(t,х) к p(t,х) теряется информация о процессе К(t).
задача 1. Требуется найти такой элемент Ка = (cP*(t ,х),и* (t ,х(!))) € Dm,
(6) J(срв(х), d*m)= min J(<р0(х),(1т).
rn.
задача 2. Требуется найти такую синтезирующую функцию и* (t,х{1),ф(х)) :Т х Rm х F ^и,
(7) J(p0(x),d*m) = min J(po(x), dm)
dm m
для любых допустимых po(x).
Если рассматривать управление решением уравнения (4), то оптимальная синтезирующая функция и*(t,x(i),p(x)) — это управление с обратной связью с учетом того, что состоянием системы, которое содержит всю информацию в текущий момент времени, является функция p(t,х). При заданной начальной плотности вероятности po(x) она порождает оптимальное управление решением уравнения (1) при неполной информации:
p(t,х) —> x{1)(t) 1 I
и* (t,x(i),p>(x)) -> и* (t,X(i)) -> n*(t).
Предполагается, что минимум в (6) и (7) существует, иначе задачи 1 и 2 можно сформулировать в терминах минимизирующих последовательностей [10,12].
что
что
2. Достаточные условия оптимальности
Рассмотрим множество 6 функций 3(1, ф(х)) : Т х $ ^ Ж, непрерывных и кусочно-дифференцируемых по переменной на множестве Т и имеющих непрерывные вариационные производные 53(1,ф(х))/5(р1'к)(х) для всех к = 1, 2,...,Ы [25]. Определим на 6 следующие конструкции:
(8)
R(t ,ф(х),и) = dS(t \Ф(Х)) +
+
/вл
SS(t ,ф(к)) 8ф(х)
dt
Аиф(х) — ш{Ь, ф(х), и)
(9) где
G(tф(х)) = S(11,ф(х)) + в(ф(х)),
ÖS(t,ф(к)) _ [JS(i,ф(к)) ÖS(t,ф(к)) ÖS(t,ф(к))
0ф(х) I Зф<1)(х) 6ф(2'>(х) ' '' 6ф<N)(х) _
Предположим, что при фиксированном 0 ^ m ^ п выполняются равенства
(dS (t ,ф(х))
max < -
Ф(х)еЗ {
+
(10)
max
Jв™ иеи 1Jв
d
фт(х)А*и
/Rm U^U ^ jRn-rn
— w(t, ф(х), и)
+
5S (t ,ф(к))
5ф(х) 0,
min {S(t 1,(ф(х)) +в((ф(х))} =0,
в первом из которых Д* = [A*rk\к r=i — матрица операторов, сопряженных по отношению к операторам Акт, т.е.
Аггк'Ф{к)(г ,х) =
А*иФ{к)(г,х) — х(г)ф<кЦг,х), r = k,
х(г)ф(к)(г, х), г — 1 = k,
X(t) fRn q(t, z \х)ф(-к') (t, z)dz, r = 1 и k = N, 0, в остальных случаях,
T
где
аФ^ ,Х) = ,х,и) дф1Мд(,,х) +
г = 1 г
+ 1 ± и— М.....
=1 =1
Если для некоторой функции Б(Ь,ф(х)) € 6 условия (10) не выполняются, то можно рассмотреть функцию Б(Ь, ф(х)) + ^(Ъ) € 6, где ^(Ъ) выбирается исходя из (10).
Нетрудно видеть, что для любой функции
(12) 'ф(г,х) — [ф<1> (г,х) ф12(г,х) ... ф<к>(г,х)]т,
где ф^(1 ,х) € IV\'2(Т х Ж"), справедливо равенство
/ фт(Ь, х)Аиф(Ь,х)(1х — фт(£,х)ЛиФ(£,х)(1х. ./в™ и в™
Теорема 1. Если существует функция ,ф(х)) € 6 такая, что элемент — (ф*(Ь ,х),и*(Ь, х(1))) € Эт при почти всех Ь€Т удовлетворяет условиям
к(г ,ф*(г ,х),и*(г ,х(1))) — о, с(г 1,ф*(г 1,х)) — о,
то справедливо условие (6) и J(фо(х), ¿*т) — -Б(1 о,фо(х)).
Доказательство. Применим принцип расширения [10,12]. Пусть V множество пар (ф(Ь ,х),и(Ь, х(1))), которые необязательно удовлетворяют уравнению (4), пусть также функции ф(Ь,х) и и(Ь,х(1)) могут иметь разрывы первого рода. Определим функционал качества на V:
ь(фо(х), ¿т) — с(г 1,ф(г 1,х)) -- ,ф(Ь,х),и(Ь,х(1)))& - Б(Ьо,фо(х)),
Л 0
тогда с учетом (8) и (9) имеем
ь(фо(х), ¿т) — Б (г 1,ф(г 1, х)) + в(ф(г 1,х)) -г 11 (дБ(г ,ф(г, х))
Б ^ о,фо (х)) | ^ +
+ /
ив.™
5Б(1, ф(Ь, х)) 5ф(х)
т
Аи(г,х(1})ф(*,х) - ,ф(г,х),и(г,х(1)))
¿х
Рассмотрим значения этого функционала на множестве Dm. Элементы dm G Dm удовлетворяют уравнению (4), поэтому
AU(t,X(1)Mt,х) = -gl-,
а полная производная функции S(t,<p(t,х)) по переменной t вычисляется по правилу [25]:
SS(t,<p(t, х)) T d<p(t,х)
dS(t,p(t,x)) _ dS(t,p(t,x)) f dt dt Jr
8Pp(x)
d
следовательно,
L(po(x),dm) = S (t, p(t i,x)) — S(t, фо(х)) — (4 dS( ^,X)) dt +
•J to
+ / u(t,p(t,x),u(t, x(i)))dtdx + 6(p(t i ,x)) = J(po(x), dm),
Jt0 JRn
т.е. значения функционалов J(po(x),dm) и L(po(x),dm) совпадают на множестве Dm.
Для вычисления минимума функционала L(po(x), dm) достаточно вычислить минимумы его слагаемых, что следует из свойств множества V. Тогда с учетом соотношений (10)
min L(po(x),dm) = min G(t 1 ,p(t 1,x)) — dmev dmev
— max R(t ,p(t ,x),u( t,xçi)))dt — dmEV Jto
— S(to, po(x)) > —S(to, po(x)),
так как
pti ft i
max R(t,p(t,x),u(t,x(1)))dt ^ rm(t)dt.
dmeV Jto Jto
Таким образом, если элемент d^ € Dm удовлетворяет условиям теоремы, то
L(po(x),d*m) = min L(po(x),dm),
dmev
следовательно,
J(po(x), d*m) = min J(po(x), dm) = —S(to,po(x)),
dm £ D m
так как Эт — это подмножество V и для произвольного dm € Эт справедливо равенство . (1ро(х),йт) = Ь((ро(х)^1т). □
Теорема 2. Если существуют Б(Ь,ф(х)) € 6 и и*(1 ,х(1),ф(х)) такие, что при любых ф(х) € $ и при почти всехЬ € Т выполняются условия
дБ (г ,ф(х)) дЪ
+
/ тах < /
ив.™ и^-и {Зв™
фТ(х)Аи
бБ(г ,ф(к))
5ф(х)
- , ф(х), и)
!х(
¿х(1) —0, Б (г 1,ф(х)) + 6(ф(х)) — о,
(2) (ах(1)
то справедливо условие (7).
Доказательство. Пусть и*(Ь, х(1), ф(х)) — оптимальная синтезирующая функция, а фо(х) — произвольная допустимая плотность вероятности начального состояния Хо. Тогда, решая (4) с учетом оптимальной синтезирующей функции, получаем функцию ф*(Ь,х).
Рассмотрим значение функционала J(фо(х),!т). Воспользуемся определением функционала Ъ(фо(х),!т), так как J(фо(х),!т) — — Ь(фо(х),!т) на множестве Эт (см. доказательство теоремы 1). Из условий теоремы следует, что
к(г ,ф*(г ,х),и* (г ,х(1),ф*(г ,х))) — о, с(г 1,ф*(г 1,х)) — о,
т.е. J(фо(х),!*т) — -Б(го, фо(х)), где — (ф*(г,х),и*(г,х(1),ф*(г,х))). Пусть элемент ¿'т — (ф'(Ь,х),и'(Ь,х(1))) € Эт такой, что функция ф'(1й, х) удовлетворяет (4) с тем же начальным условием, тогда
н(г,ф'(г,х),и'(г,х(1))) < о, с(г 1,ф'(г 1,х)) — о.
Следовательно, J(фо(х), !') ^ J(фо(х), !'т).
□
3. Соотношения для определения оптимального управления
Пусть
Щ ,х,и) — [ф* (I ,х)}ТА*и
5 Б (г ,ф*(г, х))
— , ф*(Ь, х), и).
5ф(х)
Тогда, используя соотношения (10) и первое условие теоремы 1, можно записать структуру оптимального управления:
(13)
, х^)) — argmax< ^^,х,и)!х^2) >.
^^ [ив.™-™ )
и
В частном случае оптимальное программное управление (то = 0) и управление с полной обратной связью (то = п) определяются выражениями
и* (t) = argmax< ,х,и) dx\, и* (t, х) = argmax{^(t ,х,и)\.
ueU 1 JRn ) ueU
Необходимые условия экстремума в (8) и (9) записываются в форме
SR(t ,ф*(Ь ,х),и* (t ,X(d)^=o öG(t u<p*(t ux)) = Q
или (14)
6ф(х) ' 6ф(х)
SSt(t,<p*(t ,х)) _ SH(t,ф*(Ь,х),и*(t,х(1)))
5 ф(х)
St(t,ф(х)) =
6ф(х)
dS(t,ф(х)) \ dt
(15) ss(t 1,ф*(г их)) = _ se(<p*(t их))
6ф(х) 5ф(х)
где функция H(t,ф(х),и) задается выражением
'S S(t ,ф(к))
H(t, ф(х), и)
фТ(х)А*и
6ф(х)
_ w(t, ф(х), и)
х.
В (13)—(15) функция ф*^,х) является решением (4). Окончательный вид уравнений (14) и (15) для нахождения оптимального управления зависит от решаемой задачи и, следовательно, от задания функции ,ф{х)) € 6.
4. Синтез оптимального в среднем управления
Пусть функция , ф^, х),и) и функционал в{ф{х)) в (5) заданы следующим образом:
t,ip(t ,х),и) = шT (t ,х,и)ф( t,x), 6(ф(х)) = / 9T (x)ip(x)dx,
J вл
где
)(t,х,и)= ,х,и) ш(Ь,х,и) ... ш(Ь,х,и)] = ш(Ь,х,и) 1, p(x) = [ в(х) в(х) ... в(х) ]Т =в(х) 1,
в
и, следовательно, функционал качества
J(po(x),dm) = / j(t ,x,u(t ,X(i) ))p(t ,x)dtdx + J t0 JRn
(16)
dm) = I I W(t ,X,U(t ,X(
lt0 JRn
+ 6(x)p(t i,x)dx JRn
является линейным по плотности вероятности p(t, x) вектора состояния X. Здесь предполагается, что функции
j(t,x,u):T х R" xU ^ R и e(x) : R" ^ R
ограничены.
Будем искать S(t,p(x)) € S в виде
(17) S(t,p(x))= ( 'jT(t,x)p(x)dx = V i Ф(к){*,x)p{k)(x)dx, JRn k=1JR"
где ij(t,x) — неизвестная функция вида (12), причем ф1,к> (t,x) является элементом пространства w2i''2(T х О) при любом О С R", непрерывна и кусочно-дифференцируема по переменной t, к = 1, 2,..., N.
Известно [25], что для функции S(t,p(x)), заданной выражением (17), справедливо равенство
SS(t ,р(к)) Spj(x)
поэтому
= j(t,x),
Н(t,p(x),u)= pjT(x) \A*u'ij(t,x) — jj(t,x,u)]dx = JRn
N |- N
= V/ p'k> (x) V A;Wy>(t,x) —ш(г,x,u)
= /R" Lr = l
Далее,
SSt(t, P(k)) _ d'jj(t, x) SH(t,P(k),u)
Spj(x) dt ' Spj(x)
•A*u'lj(t, x) — <jj(t, x, u),
ÖS (t 1,P(K)) = ja 1 x) 60(pj(K)) = j(x) ÖPp(x) =j( i,x) Sp(x) =U(x).
Принимая во внимание, что от управления зависят только диагональные элементы матрицы из (11) и (13) получаем
структуру оптимального управления:
и*{г,х(1)) = а^шах ^^ / [Л*иф{к) {г,х) — ,( к){
— , х, и)] ф(к) {1, х)(1х(2) |
N , Г п
и{г,х(1)) = ащшах^! /
и£и I /-1г>^_т
к=1 ^К
^ ' ГП хи) дФ(к){<,х) +
х,и) дхг +
1 ™ ™ д2ф(к){1 ,х)
(18) ,х,и) дХгдх0
г =1 з = 1
— , х, и)
ф* (к){г
,х)(1х(2)^1 .
В предельных случаях информированности получаем структуру оптимального программного управления (то = 0) и управления с полной обратной связью (то = п):
N
и* {¿) = аг?шах^^ I \Л*„'Ф(к) {г,х
, ч иеи
(19)
^ к ^Ли
{г) = а^шахУ{ [Л*и'Ф(к)^, х) —
— , х, и)] ф(к) {1, х)(х|
N
(20) и* {г, х) = ащ шахУ^ [Л*и'Ф(к) ^, х) — ш{Ь, х, и^ .
иеи
к=1
Учитывая полученные выражения и уравнения (4), (14), (15),
можно записать соотношения для определения функций ф*{Ь,х) и ф{ф,х):
дф*{Ь,х) - Л
= Аи*(I,х(1))ф ,х), ф 0,х) = ф0{х),
т ^ ,х(1)
дф{Ь, х)
д
—ли*( г ,х(1))ф{г ,х) + ш{г ,х,и*{г ,Х(1))), ф{11,х) = — e{х),
или
или в координатной форме
^(,Х) = А^,х) -Х(1)р<1)(1,х) +
+ х(г) [ ^,х | , гуь,
(21) д (к)(+ )
= Аи*^,х^<к)(г,Х) -Х(г)г<к)(г,х) +
+ х( г)ср<к-1) (г ,х), к = 2,...,ы,
р(Г)(го,х)=ро(х), р(к)(г0,х)=0, к = '2,..., N,
дф{к^,х) + А*(4 <Х(1))ф<к)(г, х) - х(г)ф<к) (г, х) + + х(г)р(-к+Г) (г, х) - ш( г, х, и(ь, х(1))), к = 1,2,...^ - 1,
(22) дф(Мд(,х) + КчЧ*,х) - х®ф<»)(г,х) +
+ Х(Ь) 1х)ф^1)(Ъ, х)(х - ш(Ь,х,и(Ь,х(1))),
)вп
ф(к)(г 1,х) = -в(х), к = 1, 2,..., N.
Таким образом, для определения оптимального управления необходимо решить систему (21), (22) с учетом (18). После определения функций ф1,к) (£,х) можно вычислить минимум функционала (16):
J(сро(х), (*т) = - фТ^о,х)фо(х)(1х = - ф1,1) ^о,х)ср01^ (х)(х.
Приведенные выше соотношения (19), (21), (22) аналогичны уравнениям стохастического принципа максимума для систем с фиксированной и случайной структурой. Для определения оптимального управления с полной обратной связью достаточно использовать соотношения (20) и (22), поскольку при т = п нет необходимости находить плотность вероятности вектора состояния, так как при управлении непосредственно используется результат точного измерения вектора состояния. Эти уравнения по структуре аналогичны уравнению Беллмана для стохастических систем. Соответствующие уравнения стохастического принципа максимума и уравнения Беллмана приведены в [2,8,9,23].
Отметим, что соотношения (14) и (15) получены с использованием только необходимых условий экстремума, поэтому после решения задачи (18), (21), (22) нужны дополнительные исследования, однако из теоремы 2 и (16), (17) при т = п следует, что для синтеза оптимального управления с полной обратной связью достаточно решить систему уравнений (20) и (22), так как в этом случае справедливы равенства
для произвольной функции ф{х) = [ф(1) {х) ф(2) {х) ... ф(^){х)]Т € У.
Аналогичная методика вывода соотношений для нахождения оптимального управления может быть использована в задачах, в которых поток импульсных воздействий не эрланговский, а гиперэрланговский или гиперэкспоненциальный.
Список литературы
[1] Артемьев В. М., Ивановский А. В. Дискретные системы управления со случайным периодом квантования. М. : Энергоатомиздат, 1986. 1
[2] Казаков И. Е., Артемьев В. М. Оптимизация динамических систем случайной структуры. М. : Наука, 1980. 4
[3] Пугачев В. С., Синицын И. Н. Стохастические дифференциальные системы. Анализ и фильтрация. М. : Наука, 1990. 1, 1
[4] Кожевников А. С., Рыбаков К. А. Математические модели динамики цены акций с эрланговскими скачками // Материалы VIII научно-практ. конф. молодых ученых и студентов «Инновационный менеджмент в аэрокосмической промышленности». Научный альманах — М. : Изд-во «Доброе слово», 2012. Т. 16, с. 156-161. |[]
[5] Горицкий Ю. А., Казаков В. А. Дискретизация случайных процессов с конечным множеством состояний и эрланговским временем пребывания // Известия РАН. Теория и системы управления, 2011, №6, с. 14-27. t
[6] Кудрявцев А. А., Шоргин В. С., Шоргин С. Я. Байесовские модели массового обслуживания и надежности: общий эрланговский случай // Информатика и ее применения, 2009. Т. 3, № 4, с. 30-34. ^
Оптимальное управление стохастическими системами
19
[7] Nielsen S.R. K., Iwankiewicz R., Skjffirbffik P.S. Moment Equations for Non-Linear Systems Under Renewal-Driven Random Impulses with Gamma-Distributed Interarrival Times // IUTAM Symp. on Advances in Nonlinear Stochastic Mechanics. Solid Mechanics and its Applications — Trondheim : Kluwer Academic Publishers, 1996. Vol. 47, p. 331-340. f[]
[8] Рыбаков К. А., Сотскова И. Л. Оптимальное управление нелинейными системами со случайной структурой при неполной информации о векторе состояния // Автоматика и телемеханика, 2006, №7, c. 62-75. f[], 4
[9] Рыбаков К. А. Достаточные условия оптимальности в .задаче централизованного управления стохастическими мультиструктурными системами // Вестник Московского авиационного института, 2008. Т. 15, № 2, c. 123131. f[], 4
[10] Гурман В. И. Принцип расширения в задачах управления. М. : Наука. Физматлит, 1997. f[], 1, 2
[11] Гурман В. И. Модели и методы теории управления // Труды межд. конф. «Программные системы: теория и приложения». — Переславль-Залесский. —М. : Физматлит, 2004. Т. 1, c. 101-116. f
[12] Кротов В. Ф., Гурман В. И. Методы и задачи оптимального управления. М. : Наука, 1973. f[], 1, 2
[13] Пантелеев А. В. Достаточные условия оптимальности управления непрерывными стохастическими системами по неполному вектору состояния // Известия вузов. Сер. Математика, 1990, № 11, c. 50-61. f[]
[14] Савастюк С. В., Хрусталев М. М. Оптимизация стохастических систем диффузионного типа с ограничениями на процесс управления-наблюдения.
I. Достаточные условия оптимальности // Автоматика и телемеханика, 1991, № 7, c. 89-96. f
[15] Савастюк С. В., Хрусталев М. М. Оптимизация стохастических систем диффузионного типа с ограничениями на процесс управления-наблюдения.
II. Необходимые условия оптимальности // Автоматика и телемеханика, 1991, №8, c. 94-100. f[]
[16] Кожевников А. С., Рыбаков К. А. Анализ нелинейных стохастических систем управления с импульсными воздействиями, образующими эрлан-говские потоки событий // Научный Вестник МГТУ ГА, 2012, № 184 (10), c.37-45. f1
[17] Iwankiewicz R., Nielsen S.R. K. Advanced Methods in Stochastic Dynamics of Non-Linear Systems. Aalborg : Aalborg tekniske Universitetsforlag, 1999. f1
[18] 0ksendal B., Sulem A. Applied Stochastic Control of Jump Diffusions. Berlin : Springer, 2005. f1
[19] Анулова С. В., Веретенников А. Ю., Крылов Н. В., Липцер Р. Ш., Ширяев А. Н. Стохастическое исчисление. Итоги науки и техники. Соврем. проблемы матем. Фундам. направл., Т. 45. Москва : ВИНИТИ, 1989. f1
[20] Веретенников А. Ю. О сильных решениях стохастических уравнений Ито со скачками // Теория вероятностей и ее применения, 1987. Т. 32, № 1, c. 159-163. f1
[21] Rybakov K.A., Sotskova I. L. Spectral Method for Analysis of Switching Diffusions // IEEE Transactions on Automatic Control, 2007. Vol. 52, no. 7, p.1320-1325. t1
[22] Пантелеев А. В., Рыбаков К. А. Синтез оптимальных нелинейных стохастических систем управления спектральным методом // Информатика и ее применения, 2011. Т. 5, №2, с. 69-81. t1
[23] Пантелеев А. В., Рыбаков К. А. Методы и алгоритмы синтеза оптимальных стохастических систем управления при неполной информации. М. : Изд-во МАИ, 2012. t1, 4
[24] Кибзун А. И., Кан Ю. С. Задачи стохастического программирования с вероятностными критериями. М. : Физматлит, 2009. t1
[25] Авербух В. И., Смолянов О. Г. Теория дифференцирования в линейных топологических пространствах // Успехи математических наук, 1967. Т. XXII, №6 (138), с. 201-260. t2, 2, 4
Рекомендовал к публикации д.т.н. В. И. Гурман
Об авторе:
Константин Александрович Рыбаков
„^ Кандидат физико-математических наук, доцент кафедры
математической кибернетики факультета «Прикладная ма-- - тематика и физика» Московского авиационного института
(национального исследовательского университета). Области научных интересов — анализ и синтез стохастических систем управления, спектральная форма математического описания систем управления.
e-mail: [email protected]
Образец ссылки на эту публикацию:
К. А. Рыбаков. Оптимальное управление стохастическими системами при импульсных воздействиях, образующих эрланговские потоки событий // Программные системы: теория и приложения : электрон. научн. журн. 2013. T. 4, №2(16), с. 3-20.
URL: http://psta.psiras.ru/read/psta2013_2_3-20.pdf
K. A. Rybakov. Optimal Control of Stochastic Systems with Impulses Generated by Erlang Flow of Events.
Abstract. The problem of optimal control for nonlinear stochastic systems given by Ito stochastic differential equation with a jump component, which describes the effects of random impulses, is considered. It is assumed that the time intervals between successive impulses can be described by Erlang distribution. An incomplete information about the state vector is used for the control.
Key Words and Phrases: Impulses, Incomplete Information, Extension Principle, Optimal Control, Stochastic System, Erlang Process.