УДК 517.977.5
К. А. Рыбаков
Московский авиационный институт
Оптимальное управление стохастическими системами со случайным периодом квантования
Рассматривается задача оптимального управления нелинейными стохастическими системами, математическая модель которых задается стохастическим дифференциальным уравнением Ито со скачкообразной компонентой, описывающей влияние случайных импульсных воздействий или помех. Предполагается, что появлением скачков в траекториях системы управляет марковский процесс с конечным множеством состояний. При управлении может использоваться информация только о части координат вектора состояния.
Ключевые слова: импульсные воздействия, неполная информация, принцип расширения, оптимальное управление, стохастическая система, эрланговский процесс, ги-перэрланговский процесс.
1. Введение
В работе рассматриваются системы управления, математические модели которых задаются нелинейными стохастическими дифференциальными уравнениями с диффузионной и скачкообразной компонентами, позволяющими учитывать действующие на систему случайные возмущения различной природы: непрерывные и импульсные [1,2]. На основе таких систем можно моделировать поведение довольно сложных объектов, учитывая как непрерывные случайные воздействия, так и импульсные, приводящие к разрывам траекторий.
Достаточно часто для описания скачкообразной компоненты ограничиваются общим пуассоновским процессом или пуассоновской случайной мерой [3,4]. Такой выбор обусловлен развитым математическим аппаратом (стохастические дифференциальные уравнения с пуассоновской составляющей, уравнения Колмогорова-Феллера), но следствием выбора общего пуассоновского процесса является использование только показательного закона распределения для промежутков времени между последовательными импульсными воздействиями (разрывами траекторий). Для того чтобы снять такие ограничения, можно использовать модели систем со случайным периодом квантования — упрощенный вариант систем со случайной структурой [1]. В них появлением разрывов траекторий управляет вспомогательный марковский процесс с конечным множеством состояний, задаваемый начальным распределением и интенсивностями переходов. Конечно, использование систем со случайной структурой не позволит охватить весь спектр случайных потоков импульсных воздействий, но даст возможность расширить модели, использующие только пуассоновскую составляющую. Методы анализа систем со случайным периодом квантования достаточно полно отражены в публикациях [1,5-8]. К сожалению, этого нельзя сказать о задачах синтеза оптимального управления.
Использование систем со случайной структурой приводит к ряду трудностей, в основном связанных со сложностью описания обобщенными уравнениями Фоккера-Планка-Колмогорова [1,9]. Вторая сложность связана с тем, что большое количество параметров модели (интенсивности, параметры распределений приращений, которые получает вектор состояния при разрывах траекторий для различных переходов между состояниями вспомогательного марковского процесса) затрудняет их идентификацию. Поэтому целесообразно, взяв за основу модель системы со случайным периодом квантования, рассмотреть некоторые частные случаи с обозримым числом параметров. Например, один из таких частных
случаев сводится к описанию промежутков времени между последовательными импульсными воздействиями эрланговским законом распределения, т.е. когда состояния вспомогательного марковского процесса последовательно сменяются «по кругу», а переход из некоторого, заранее выбранного, состояния в следующее сопровождается разрывом траектории: моменты появления разрывов траекторий образуют эрланговский поток событий. Достаточные условия оптимальности такими системами получены в работе [10].
Системы, описываемые стохастическими дифференциальными уравнениями с диффузионной и скачкообразной компонентами, в настоящее время активно используются для моделирования цен акций [4,11-14]. Однако задачи финансовой математики составляют только часть прикладных задач, при решении которых целесообразно использовать математический аппарат теории систем со случайным периодом квантования. Подобный класс систем находит широкое применение при решении различных технических задач [1,7,8].
Задача синтеза оптимального управления заключается в нахождении пары функций: управления, входящего в коэффициенты стохастического дифференциального уравнения, составляющего основу математической модели системы, и плотности вероятности вектора состояния, минимизирующих заданный функционал качества. Предполагается, что при управлении используется информация о текущем времени и величине части координат вектора состояния, т.е. рассматривается управление по неполному вектору состояния при его точном измерении. При такой постановке задачи программное управление и управление с полной обратной связью являются частными случаями, когда число измеряемых координат соответственно нулевое или совпадает с размерностью вектора состояния. В этом состоит существенное отличие от других постановок задачи оптимального управления (см., например, [9,14-16]).
На основе достаточных условий оптимальности в задаче синтеза систем со случайной структурой [17,18] получены соотношения для определения оптимального управления в задаче синтеза стохастических систем при импульсных воздействиях, образующих непуас-соновские потоки событий, рассмотрен частный случай нахождения оптимального в среднем управления. Детально разобраны примеры, в которых предполагается, что импульсные воздействия образуют эрланговский поток событий, а также гиперэрланговские потоки событий, задаваемые случайной смесью и чередованием эрланговских распределений. В основе применяемых достаточных условий лежит принцип расширения [19,20], позволяющий перейти от оптимизации в функциональном пространстве к конечномерной оптимизации и упростить исходную задачу, с успехом применяемый для более простых стохастических систем [21,22].
2. Постановка задачи
Модель стохастической системы управления описывается уравнением Ито со скачкообразной компонентой [2]:
йх(г) = /(г,х(г),и(г))<и + а{ъ,х(г),и(г))<т(г) + йд(г), х(^) = х0, (1)
где X £ Мга — вектор состояния; и £ и С М9 — вектор управленпя; £ £ Т = [£о,£1], Т
— промежуток времени функционирования системы, моменты времени ¿о и ¿1 заданы; $(I, х,и) : Т х Мга х и ^ Мп — вектор-функция размера п, а(1, х,и) : Т х Мга х и ^ МгаХ5
— матричная функция размеров п х в; Ш(Ь) — «-мерный стандартный винеровский процесс, не зависящий от Хо, Я^) — случайный процесс с кусочно-постоянными траекториями (ступенчатый случайный процесс).
Прежде чем описать процесс дополнительно определим случайный процесс К (Ь)
с конечным множеством состояний {1,2,...,И}. Он задается интенсивностями переходов \кг(I, х) : Т х Мга ^ [0, к, г = 1, 2,..., Ы, к = г, т.е. вероятность смены состояния к ^ г определяется выражением
Р(К (г + Аг) = г | к (г) = к, X (г) = х) = Хкг (г,х)Аг + о(А$, к,г = 1,2,...,Ы, к = г.
Для определенности будем полагать начальное состояние для процесса К (Ь) фиксированным: К (¿о) = 1. Процесс К (Ь) можно описать с помощью стохастических дифференциальных уравнений [2,14,24].
Случайный процесс Q(t) задается в виде
J (Г)
жъ = Е г (т*),
г=1
где ■](Ь) — считающий процесс [25], возрастающий на единицу при смене состояния процесса К(¿), У(ъ) — независимые случайные величины из Мга, распределение которых задано плотностью вероятности дкг(Ь,у) : Т х Мга ^ [0, +го) или в общем случае условной плотностью вероятности дкг (Ь, х + у | х) : Т х Мга х Мга ^ [0, +го) (здесь индексы к и г соответствуют смене состояний к ^ г для процесса К(Ь), í = т^. Таким образом, вектор состояния X получает случайные приращения в моменты времени п, 72, • • •, образующие случайный поток событий [2,25]:
X(тг)= X(тг — 0) + У(тг).
Промежутки времени = т% — 7^1, г = 1, 2,... (го = ¿о), описываются обобщенным показательным законом распределения с параметром Ю = \кг(Ь)). Отметим, что при некоторых переходах к ^ г можно положить дкг (^,у) = 5(у) и тогда вектор состояния не будет получать приращения. Это позволяет формировать различные законы распределения для промежутков времени между последовательными разрывами траектории процесса X(¿), представляя эти промежутки как суммы случайных величин, имеющих обобщенное показательное распределение. Например, переходы 1 ^ 2, 2 ^ 3, ..., N — 1 ^ Ж, N ^ 1 с постоянной интенсивностью Л при условии, что вектор состояния получает приращение только при переходе N ^ 1, позволяют задавать промежутки времени между последовательными разрывами траектории процесса X (¿) эрланговским законом распределения с параметрами Л и N. Если распределение случайных величин У(п) не зависит от времени, то будем использовать обозначение У^ (далее в примерах будет рассматриваться именно такой упрощенный вариант).
Случайный процесс определяется матрицей интенсивностей Л(1, х) = [\кг$, х)]^г=1 (Хкк(¿,х) = 0) и матрицей плотностей вероятности приращений вектора состояния 0(1, у) = [дкг^, у)\кг=1 (Укк&, у) = 0) или в общем случае матрицей условных плотностей вероятности 0(1, х + у | х) = [дкг&, х + у | х)]^г=1 (дкк^, х + у | х) = 0). Матрица Л(1, х) определяет стохастический граф К процесса К (¿) с вершинами 1, 2,... ^ и дугами с весами \кг- Простые циклы в этом графе, в которых только для одного из переходов происходит разрыв траектории вектора состояния, соответствует обобщенному эрланговскому закону распределения для промежутков времени между последовательными разрывами траекторий процесса X (¿). Если в такой цепи при нескольких переходах вектор состояния получает приращение, то такой вариант связан с чередованием обобщенных показательных и эрлан-говских законов распределения. Наличие нескольких простых циклов с общей вершиной соответствует смеси таких распределений (гиперэкспоненциальному или гиперэрланговско-му распределению). Наличие простых цепей (незамкнутых путей с попарно различными вершинами), не являющихся частью циклов, допускает только конечное число разрывов для траекторий процесса X(Ь), не превосходящее длины этой цепи, для произвольного времени функционирования системы.
Далее предполагается, что все вершины в К достижимы из вершины с номером 1. Если же граф К не является связным, то для разных траекторий процесса X(¿) могут быть выбраны разные законы распределения для промежутков времени между разрывами, в последнем случае начальное значение К (¿о) должно быть другим, а именно, К (¿о) может принимать разные значения, каждое из которых соответствует некоторой вершине, вхо-
К
Например, для части траекторий промежутки времени между разрывами могут описываться только эрланговским законом параметрами А1 = еопв^ N1, а для остальных траекторий — только эрланговским законом параметрами А2 = еопв^ и N2.
Заметим, что можно было бы рассмотреть случай с ненулевыми диагональными элементами матриц Л(Ь,х) и @(Ь,х + у | х), определяющими петли в стохастическом графе К процесса К (Ь), которым соответствует независимый поток разрывов траекторий процесса X(¿) с задаваемыми обобщенным показательным законом распределения промежутков времени между ними. Однако, следуя [1], ограничимся более простым случаем.
При управлении используется информация о времени и о величине т первых координат вектора состояния, 0 ^ т ^ п, т.е.
X = [Х(1) Х{2)]т, и^)= и(1,Х{ф)),
где Х(1) = [Х1 Х2 ... Хт]т £ Мт, Х(2) = [Хт+1 ... Хп]т £ Мга-т. Для любой задачи управления по неполному вектору состояния можно упорядочить координаты именно таким образом.
Предполагается, что функции f(Ь,х,и), а{Ъ,х,ь) и и(Ь,Х(1)) обладают следующими свойствами [4]: функции ¡\и^,х) = ¡^(Ь,х,и(Ь,Х(1))) и (Ь,х) = д^(Ь,х,и(Ь,Х(1))) кусочно-непрерывны по £ для всех х £ Мп; при фиксированном £ £ Т /г,и(1,х) £ С 1(Мга) и дц>и(Ь,х) £ С2(Мга), где д^(Ь,х,и) — элементы матричной функции д(Ь,х,и) = а{Ъ,х,ь) х х ат(Ь, х, и), С^(МП) — пространство функций, имеющих непрерывные и ограниченные производные порядка 7 ^ у, г,] = 1, 2,..., п. Кроме того, (к, ж) и /Кп ^, х + у | х)(1у — непрерывные или кусочно-непрерывные по Ь функции, удовлетворяющие условию Липшица по X] к, г = 1, 2,..., N. Далее множество таких функций и(Ь, Ж(1)) будем обозначать через Цт. Случайный вектор Хо имеет конечные моменты второго порядка.
Эти условия (иногда к ним добавляется дополнительное условие на матрицу диффузии д(Ь,х,и), требуемое для разрешимости приведенных ниже параболических уравнений) обеспечивают существование и единственность сильного решения уравнения (1), однако они вносят слишком много ограничений при решении прикладных задач. Вопросы, связанные с ослаблением условий, рассмотрены в [26]. В частности, можно рассматривать уравнения с разрывным коэффициентом сноса /(Ь,х,и) или вырожденной матрицей диффузии д(Ь,х,и), достаточно часто встречающиеся в задачах управления. Отметим, что в [26] рассмотрены стохастические дифференциальные уравнения без скачкообразной компоненты, тем не менее эти результаты могут быть обобщены. Кроме того, можно рассматривать задачу оптимального управления слабым решением стохастического дифференциального уравнения.
Пара (X(£),К(£)) описывается распределением ^(1, х,к) : Т х Мга х {1, 2,..., N} ^ ^ [0, или упорядоченной совокупностью ненормированных плотностей вероятности ^^(Ь^), <р(2)(Ь,х), ..., ">{Ь,х) (<р(к)(Ь,х) : Т х Мга ^ [0, удовлетворяющих системе
обобщенных уравнений Фоккера-Планка-Колмогорова [1,5,9]:
д^,х) = А^^^&х) - £ Хкг(1,х)<рЫ(г,х) +
г=1, г=к
N
+ V I Кк (г,г)дгк (Ъ,х | х)^{г)(г,х)йх, к = 1,2,..., И, — 1 „^„■¡М"
в которой
п я
(1,х) = - £ — [т X, (I, ж)] +
. дХг
г=1
1 п п я2
+ 2 ЕЕ э^. [за&х,и)^к)(г,х)1 к = 12,...,М.
г=1]=1 и
Начальное состояние Хо задается плотностью вероятности <ро(х). С учетом условия К (Ьо) = 1 получаем
р{1)(Ь,х) = <ро(х), р{к)(Ь,х) =0, к = 2,...,И. (3)
Плотность вероятности р (Ь, х) вектора состояния X представляется в виде суммы
N , N ,
ф,х) = ^2 Е / р<к)(1,х)йх = 1 .
к=1 ^к=1] /
Решение уравнений (2) будем понимать в обобщенном смысле, поскольку такой подход позволит в дальнейшем охватить более широкий круг прикладных задач и применить методы приближенного синтеза оптимального управления, основанные на ортогональных разложениях [27]. Таким образом, р^к)(Ь,х) € Ш2,'1(Т х Мга), а (х) € ^(М"-), где ш!'1 (т х мга) и (Мп) — соответствующие пространства Соболева.
Для последующих рассуждений соотношения (2) и (3) удобно переписать в векторной форме:
—^— = Аф'Х(1))tp(t, x), фо,х) = tpо(x), ^
0(1,х) = [ ^(1,х) ^2)(1,х) ... ^м)(1,х) ]т, фо (х) = [ ро(х)0 ... 0 ]т,
где Аи = [Акг"]1кг=1 """"""""' матрица операторов, соответствующих уравнениям (2):
N
Аккр{к)(^х) = Аир{к)(г,х) — Е хкг(ъ,х)1р{к)(г,х),
г=1, г=к
Акг ^т')(Ь,х)= Хгк (1,х)дгк (Ъ,х | к,г = 1, 2,..., И, к = г.
Умп
Обозначим через $ множество допустимых плотностей вероятности вектора состояния:
$ = {Ф(х) = [ р{1)(х) р{2)(х) ... ) (х) ]т : р{к)(х) € ^(М™),
М Г Л
р{к)(х) ^ 0 (к = 1, 2,..., И), V/ ^к\х)йх = 1 \.
к=1] )
Пусть &т — множество пар (1т = (ф(ь,х),и(1,х(1))) таких, что ф(Ь,х) и и(Ь,Х(1)) € ит удовлетворяют уравнению (4), где ф(Ь,х) € $ для любого фиксированного Ь € Т. Введем на Эт функционал качества:
J(<po(x),dm) = ( f w(t,0(t,x),u(t,x(i)))dtdx + d(0(ti,x)), (5)
Jt 0 JRn
где w(t, 0>(t, x),u) : T x Rra x U ^ R — ограниченная функция, а 0(ф(х)) : F ^ R — ограниченный функционал. Функция w(t, 0(t, x), и) и функционал 0(ф(х)) заданы. На функцию u(t,<0(t,x),u) можно накладывать дополнительные условия, обеспечивающие конечность величины J(po(x),dm).
Введение нелинейного по плотности вероятности функционала качества усложняет соотношения для нахождения оптимального управления, но позволяет охватить задачи, для которых критерий оптимального в среднем управления неудачен.
Для многих задач достаточно рассмотреть зависимость функционала качества от <p(t, х), а не от 0(t, х). Определяя дополнительно вектор 1 = [ 1 1 ... 1 ]T, dim 1 = N, получаем <p(t,x) = 1T0(t, x), т.е. зависимость от <p>(t,x) можно рассматривать как частный
случай зависимости от ф(Ь,х). Кроме того, определение функционала в форме (5) предпочтительнее, поскольку (р(Ь,х) несет не всю информацию о системе (2), а именно при переходе от ф(Ь,х) к ¡р(Ъ, х) теряется информация о процессе К(Ь).
Задача 1. Требуется найти такой элемент й*т = (ф*(Ь,х),и*(Ь,Х(1))) € Э ЧТО
J(<ро(х), d^) = min J(<po(x),dm). еэ m
(6)
Задача 2. Требуется найти такую синтезирующую функцию u*(t,x(i),<p(x)) : Т х х Rm х F ^ U, что
J(ро (х), d*m) = min J(ipo (x), dm) (7)
eD
ДЛЯ любых допустимых <ßo(x).
Если рассматривать управление решением уравнения (4), то оптимальная синтезирующая функция и*(t,x(i),<p(x)) — это управление с обратной связью с учетом того, что состоянием системы, которое содержит всю информацию в текущий момент времени t, является функция ip(t, х). При заданной начальной плотности вероятности ро(х) она порождает оптимальное управление решением уравнения (1) при неполной информации:
0(t,x)
I
U* (t,X(i),0(x))
и
X(i)(t) I
"(t,X{1))
u*(t).
Предполагается, что минимум в (6) и (7) существует, иначе задачи 1 и 2 можно переформулировать в терминах минимизирующих последовательностей [19,20].
3. Достаточные условия оптимальности
Рассмотрим множество б функций 5(Ь,ф(х)) : Т х $ ^ ^ непрерывных и кусочно-дифференцируемых по переменной £ на множестве Т и имеющих непрерывные вариационные производные (Ь,ф(к))/5^ к\х) для всех к = 1, 2,..., N [28]. Определим па б следующие конструкции:
R(t,V(X),«) = щш +
SS (Щх))
6ф(х)
Аиф(х) — w(t, ф(х), и)
где
G(t i,0(x))=S (t 1,ф(х))+9(ф(х)),
öS(t, ф(к)) _ ГÖS(t,ф(х)) ÖS(t,ф(х)) ÖS(t,ф(х))
0ф(х) = [ 5 <p(1> (х) Sр<2>(х) ... ö<р(N)(х)
(8) (9)
Предположим, что при фиксированном m (0 ^ m ^ п) выполняются равенства
maxi aS(t +
^MeF I dt
+
/ max< /
yRm ueu у JRr
фт(х)А*ь
S S(t ,ф(х)) ö ф(х)
— w(t, ф(х), и)
^ж(2)|^ж(1)| = 0, (10)
min {S(ti, ф(х)) + 0(ф(х))} = 0,
Ф(х)е$
в первом из которых AU = [А*к]Nr=i — матрица операторов, сопряженных по отношению к операторам Акг, т.е.
N
А*ккФ{к)(1 ,х)= AU^k>(t,x) — Хкг (t,x)^k>(t,x),
г=1, г=к
А*гк'ф{к>(г,х) = Хгк(г,х) qric(t,z\х)1р{к>(г, z)dz, к,г = 1, 2,...,N, к = г,
Jv,"
T
п
T
где
А*иф^к)(1,х) = £ №,х,и)
д^к)(г,х) 1
г=1
9Хг
+ ЗИ (*,х,и)
г=1 3=1
д 2^к)(г,х)
дХгдХу '
к = 1,2,... ,И.
Если для некоторой функции Б(Ь,ф(х)) € 6 условия (10) не выполняются, то можно рассмотреть функцию 5(Ь,ф(х)) + ^(Ь) € 6, где 7(Ь) выбирается исходя из (10). Нетрудно видеть, что для любой функции
Ф(г,х) = [ф{1)(г,х) ф{2)(г,х) ... )(г,х)]т,
где ф^к\1,х) € IV1 ' 2(Т х Мга), справедливо равенство
/ фт(1,х)Аиф(1,х)йх = фт(1,х)Аи ф(1,х)йх.
(12)
Теорема 1. Если существует функция Б(Ь,ф(х)) € 6 такая, что элемент, (I*т = (ф*(Ь,х),и*(Ь,Х(1))) € Ът при почти всех £ € Т удовлетворяет условиям
я(ЪФ*(г,х),и*(г,х{1))) = 0, с(и, ф*(ь,х)) = 0,
то справедливо условие (6) и 3(ро(х),й^) = —Б(Ьо,фо(х)).
Доказательство. Применим принцип расширения [19,20]. Пусть V — множество пар (ф(Ь, х), и(Ъ, Ж(1))), которые необязательно удовлетворяют уравнению (4), пусть также функции ф(Ь, ж) и и(Ь, Х(11)) могут иметь разрывы первого рода. Определим функционал качества на V:
ь(<ро (х),йт) = С(г1,ф(г1, х)) — [ Е(г,ф(г,х),и(г,х(1)))м — Б (го ,Фо(х)),
Л0
тогда с учетом (8) и (9) имеем
Ь&о (х),йт) = Б (1ъф(и, х)) + в(ф(и,х)) — Б (Ь, фо(х)) — Г | ^ (1,^,х)) +
Но
+
5Б(г,ф(г,х)) 6ф(х)
Аи^ , х(1))Ф(1, х) — ш(г, ф(г, х),и(г, ж(1)))
т
йх ><И.
Рассмотрим значения этого функционала на множестве &т. Элементы € &т удовлетворяют уравнению (4), поэтому
1 ч дф(Ъ,х)
Аи(1,Х(1)) Ф,х) = т ,
а полная производная функции Б(Ь,ф(Ь,х)) по перемен ной £ вычисляется по правилу [28]:
с1Б (г,ф(г,х)) дБ (г,ф(г,х))
(И
сЛ
+
5Б (г,ф(г,х)) 6ф(х)
дф(Ъ, х)
т
следовательно,
Ь(<ро(х),йт) = Б (г, ф(и ,х)) — Б (г, фо(х)) 41 ^ (1,^,х)) <и + + [ [ ш(1,ф(1,х),и(1,х(1)))(ийх + в(ф^1,х)) = 3(<ро(х), б,т),
Jt0
т.е. значения функционалов 3((ро(х), йт) и Ь((ро(х), йт) совпадают на множестве
п
п
т
п
п
Для вычисления минимума функционала L(<ßo(x),dm) достаточно вычислить минимумы его слагаемых, что следует из свойств множества V. Тогда с учетом соотношений (10)
min L(<p0(x),dm) = min G(ti,0(t\,x)) — dmev dmev
rt1
— max R(t,0(t,x),u(t,x(i)))dt — S(to,0o(x)) ^ —S(to,0o(x)), dm e® J tn
так как
Г1
ш&Х К(Ъ,ф(Ь,х),и(1,Х(1)))ЛЬ ^ 0.
у ¿0
Таким образом, если элемент й*т Е &т удовлетворяет условиям теоремы, то
L(^o(x),d*m) = min L(<po(x),dm), dm e®
следовательно,
J(ipo(x),d*m) = min J(ipo(x),dm) = —S(to,фо(х)),
dm eD
так как Dm — это подмножество V и для произвольного dm Е Dm справедливо равенство J (lfo(x),dm) = L(fo (x),dm)- <
Теорема 2. Если существуют S(t,0(x)) Е & и и*(t,x(i),0(x)) тлкие, что при любых ф(х) Е F и при почти всех t Е Т выполняются условия
9S(t, ф(х)) + dt
/ max< /
JRm ueU l Jw
фт(Х)л:
SS (t,0(*))
— w(t, ф(х),и)
dx(2) (dx(i) = 0,
5ф(х)
S (ti ,ф(х))+ в(ф(х))=0,
m,о справедливо условие (7).
Доказательство. Пусть и*(t,X(i),ф(х)) — оптимальная синтезирующая функция, а <^о(х) — произвольная допустимая плотность вероятности начального состояния Xq- Тогда, решая (4) с учетом оптимальной синтезирующей функции, получаем функцию ф*(t,x).
Рассмотрим значение функционала J(^q(x), dm). Воспользуемся определением функционала L((p0(x),dm), так как J(<po(x),dm) = L(<p0(х), dm) на множестве Dm (см. доказательство теоремы 1). Из условий теоремы следует, что
К(г,ф* (t,x),u* (t,x{i),0* (t,x))) = 0, С(Ь,ф* (ti,x)) = 0,
т.е. J(<po(x),dm) = -S(to,0o(x)), где dm = (Ф*(t,x),u*(t,X(i),ф*(t,x))). Пусть элемент d'm = (0'(t,x),u'(t,x(i))) E Dm такой, что функция ф> (t,x) удовлетворяет (4) с тем же начальным условием, тогда
R(t, ф1 (t, х), и'(t, х{1))) < 0, G(ti, ф'(ti,x)) = 0.
Следовательно, J(<p0(x),dm) ^ J(<Po(x),d'm)- <
4. Соотношения для определения оптимального управления
Пусть
- ■ tôs(t^*(t,x))] ^
— w(t, ф (t, х), и).
y(t,x,u) = [ф*(г,х)] TÀl
5ф(х)
Тогда, используя соотношения (10) и первое условие теоремы 1, можно записать структуру оптимального управления:
*
и
(t,X(i\) = argmaxi ^(t,x,u)dxt2\ (13)
UEU [ JRn-m J
В частном случае оптимальное программное управление (т = 0) и управление с полной обратной связью (т = п) определяются выражениями
и*(Ь) = ащшах< Ф(Ь ,х,и) йх\, и*(Ь, ж) = а^шах{Ф(£ ,х,и)\. иеи I Jмn ) иеи
Необходимые условия экстремума в (8) и (9) записываются в форме 5я(г, ф*(г, х), и*(г, х{1))) _ 0 6С(1 ъф*(гъх)) = 0
5ф(х) ' 5ф(х)
или
5,ф*(1 ,х)) _ 5Н(1 ,ф*(1 ,х),и*(1 ,Ж(1)))
5ф(х) 5ф(х)
б 1,ф*(г 1, х)) бв(ф* (г ъх))
5ф(х) 5ф(х)
где функция Н(Ь,ф(х),и) задается выражением
'б в (I ,ф(к))
,Ф(Х)) = тш}, (14)
(15)
Н (I ,ф(х),и) = [
Ф (х)А1
5 ф(х)
— ш(1, ф(х),и)
(1х.
В (13) - (15) функция ф*(Ь,х) является решением (4). Окончательный вид уравнений (14) и (15) для нахождения оптимального управления зависит от решаемой задачи и, следовательно, от задания функции ,ф(х)) € б.
5. Синтез оптимального в среднем управления
Пусть функция ,ф(Ь, х), и) и функционал 0(ф(х)) в (5) заданы следующим образом:
,ф(Ь ,х),и)=и Т(Ь ,х,и)ф(Ъ ,х), 6(ф(х)) = 9Т (х)ф(х)йх,
где
ш(1 ,х,и) = [ш(1 ,х,и)ш(1 ,х,и) ... ,х,и)] = ,х,и) 1, 0(х) = [ в(х) д(х) ... д(х) ]т = в(х) 1, и, следовательно, функционал качества
■] (р0(х),йт) = I / ,х,и(Ь ,Х(1)))^р(Ь ,х)(Ийх + в(х)(р(Ъ 1,х)йх (16)
Jt0 Jw,™ Jw,™
является линейным по плотности вероятности , х) вектора состояпия X. Здесь предполагается, что функции , х,и) : Т х Мга х и ^ М и 0(х) : Мга ^ М удовлетворяют условию конечности величины (16) (см., например, [27,29]). Будем искать 5(Ь,ф(х)) € б в виде
N
в (г ,ф(х))= фт(г, х)ф(х)йх = V/ ф{к)(г ,х)^{к) (х)йх, (17)
Jжn к=^ М"
где тр^ ,х) — неизвестная функция вида (12), причем
ф(к)(г, х) является элементом пространства Ш2,'2(Т х П) при любом ограниченном П С Мга, непрерывна и кусочно-дифференцируема по переменной к = 1,2,...
Известно [28], что для функции ,ф(х)), заданной выражением (17),
ПОЭТОМУ
Далее,
Н(Ь,ф(х),и) = фт(х) \А*иф(1 ,х) — со(Ь,х,и)1\йх =
Укп
N г N
= <р(к)(х) £Л*гкФ{г)(1,х) — ш&,х,и)
к=1] М |-г=1
ёБ^,ф(я)) дф(г, х) 5Н^,ф(к),и)
йх.
5ф(х) дЬ ' 5ф(х)
= .А*и-ф(Ь, х) — со(Ь, х, и),
Принимая во внимание, что от управления зависят только диагональные элементы матрицы А*, из (11) и (13) получаем структуру оптимального управления:
и*(1,хп)) = а^шах^< / [А^1'ф(к')^,х) — ш(1,х,и)\р*(кк)^,х)йх(2) >, иеи г^ I Ум«-™ )
или
иеи к=~1 { .1«"-т
*/, ч ^Г [ ,д'к)и, х) и (Ь,Х(1)) = ат^тах^'^ I У^(г,х,и)---+
-иеи {Ук™-™ I. дх%
п п (18)
+ 1 Е ,х,и)9 ' дх^ —ш(Ь ,Х,и) V*{к)(ь ,х)йх(2)\ .
1=1 ] = 1 г 3
В предельных случаях информированности получаем структуру оптимального про-т = 0 т = п
и*(t) = aтgmax^< / [А*иф(к')(1,х) — ,х,и)]р* ( к)(Ь ,х)с1х\, (19)
иеи к=11 Ук«-™ )
N
и*^, х) = а^ тах ^ [А*иф(к)(г,х) — ,х,и)]. (20)
-иеи е к=1
Учитывая полученные выражения и уравнения (4), (14), (15), можно записать соотношения для определения функций ф*(Ь,х) и ,х):
д'(£, х)
дф*и,х) л„, , л„, , „ , ,
—д^— = Аи*(^х(1))<Р V,х), (к,х) = <ро(х), = —А*и*(г,х(1))'(1,х) + ^,х,и*(Ь, х(1))), 1,х) = — ®(х),
дЪ и*(г 'х(1))
или в координатной форме
^ ^,Х) = МЬХ(1))<Р* (к)^ ,Х) — Е ^ ,Х)^ ^^ ,Х) +
г=1, г=к
N
(г),
+ V I Лгк (г, х) дгк (г ,х | г)(р*(г)(г, х)йх, к = 1, 2,..., И,
г=1, г=к]
р*(1)(Ь,х) =<ро(х), <р*(к)(Ь,х) = 0, к = 2,...,Ы,
дф{к)^х) + А:^Х(1))ф<к\г,х) — £ Ль.(г,х)ф{к)(г,х) +
г=1, г=к
N
+ Акгдкг(М | х)-ф{г)(г, — ш(г,х,и*(г,Х{1))) = 0,
1
г=1, г=к
........ (22)
Ы ж) § Чкг \1/, ¿< I ж) ^ ( ь, а, )и><, — Ъ, X, и
г=1,г=к
ф{к) (г 1, х) = —в (х), к = 1,2,...,Ж.
Таким образом, для определения оптимального управления необходимо решить систему (21), (22) с учетом (18). После определения функций ф{кк)(1 ,х) можно вычислить минимум функционала (16):
■] (ф0(х), в*т) = — фТ(1о,х)фо(х)(1х = — ф{1\1о,х)<ро(х)(1х.
Ум« У«™
Приведенные выше соотношения (19), (21), (22) аналогичны уравнениям стохастического принципа максимума для систем с фиксированной и случайной структурой. Для определения оптимального управления с полной обратной связью достаточно использовать соотношения (20) и (22), поскольку при т = п нет необходимости находить плотность вероятности вектора состояния, так как при управлении непосредственно используется результат точного измерения вектора состояния. Эти уравнения по структуре аналогичны уравнению Беллмана для стохастических систем. Соответствующие уравнения стохастического принципа максимума и уравнения Беллмана приведены в [9,17,18,22,27,29].
Отметим, что соотношения (14) и (15) получены с использованием только необходимых условий экстремума, поэтому после решения задачи (18), (21), (22) нужны дополнительные
т = п
мального управления с полной обратной связью достаточно решить систему уравнений (20) и (22), так как в этом случае справедливы равенства
£ Г ^{к)(х)\д^,хКтйх{ЕА*ГкФ{г)(г,х) — Ш(г,х,и)
йх = 0,
N
V/ ф{к)(х)[ф{к)(г 1,х) + е{к)( х)\йх = 0 к=1]
для произвольной функции ф(х) = [ф{1) (х) ф{2)(х) . . . ф^^(х) ]т €
6. Примеры
Рассмотрим более детально примеры, упомянутые во введении, в которых импульсные воздействия образуют эрланговский поток событий, а также гиперэрланговские потоки событий, задаваемые случайной смесью и чередованием эрланговских распределений. Такие модели изучались в работах [30-32] в общей постановке и в [11,12] для частного случая задач финансовой математики.
Пример 1. Импульсные воздействия образуют эрланговский поток событий. Случайный процесс Q(t) представляется в виде
J {Г)
Q(t) = Е1-=1
где ■](Ь) - эрланговский процесс порядка N У - независимые случайные величины из Мга,
( )
формируется в результате пропуска подряд N — 1 события пуассоновского потока, который определяется интенсивностью А следования событий.
При такой постановке задачи случайный процесс К(¿) имеет N состояний, допустимые переходы: 1 ^ 2, 2 ^ 3, ..., N — 1 ^ N и N ^ 1. Смена состояний происходит с интенсивностью А = сопв^ при переходе N ^ 1 вектор состояния X получает приращение Уг. Матрицы интенсивностей переходов и плотностей скачков имеют вид
0 X 0 ■ •• 0 " 0 ( ) 0 ■ ■ 0
0 0 А ■ 0 0 ( )
Л = 0 , @(У) = 0
0 •• А 0 • 5(у)
_ X 0 ••• ■ •• 0 _ ( ) 0 ■ 0
а элементы матрицы Ли задаются в форме
' Лиф{г) ^, х) — \ф{г)(г,х), к = г, Хф{г)(г ,х), к — 1 = г,
А д(х — х)ф{г\1, х)(1х, к = 1 и г = N,
0, ,
Лкгф{г)^ ,х) = <
т.е.
Ли—С 0 С и С
0
0 и
0
0 и
где
т.е.
Сф{г)(г,х) = \ф{г)(г,х), иф{г)(Ъ,х) = А [ д(х — г)ф{г)(г, х)(1х.
У«™
Следовательно,
' А*иф{к)^, х) — Хф{к)(г, х), г = к, \гр{к)^ ,х), г — 1 = к,
А /«„ д(г — х)ф{кк)(1, г)йг, г = 1 и к = N,
0, ,
А1—С С 0 ••• 0
Л* к Ф{к)(Ь ,х) =
А*
0 ли—с ■
0
*
0 С
0 ^и—с
где
и*ф{к)(г, х) = \[ ф — х)ф{к)(г, ¿)<и.
У«"
Соотношения для определения оптимального управления имеют вид
9ф*{1) (, х) = Ли* ф*{1) ^, х) — Хф*{1) (I, х) + Х [ д(х — г)ф*{1Я) (I, г)с!г,
У«"
м
дф*{к)(г, х)
дЪ
= Аи*ф*{к)(г,х) — \ф*{к)(г,х) + Хф*{к-1)(г,х), к = 2,...^,
ф*{1)(^,х) =фо(х), ф*{к)(^,х) = 0, к = 2,...^,
0
0
0
дф{к)^,х) + А*и*ф{к) (Ъ, х) - Аф{к) (г, х) + Ар{к+1)(Ь, х) - , х,и*) = 0, к = 1,- 1, дф{м )(г, х)
т
+ А*и«ф{и)(г, х) -Аф{м)(г,х) + \ [ ф -х)ф{1)(г, хуь -ш(г,х,и*) = о, ф{к)(г 1, х) = -0 (х), к = 1,2,...,Ы,
где и* = и*(Ь,х^1)) определяется выражением (18).
Пример 2. Импульсные воздействия образуют гиперэрлапговский поток событий, задаваемый случайной смесью эрланговских распределений. В данном случае процесс Q(t) представляется в виде
J (г)
Q(t) = yl + (1 - &)Г2,г),
г=1
где ■](¿) - считающий процесс, связанный со случайным потоком событий, состоящих в том, что вектор состояния X получает приращения У\гг £ Мга или У2г% £ Кга в случайные моменты времени п, Т2, • • • Случайный вектор У\г характеризуется плотностью вероятности Ц1(у), а - плотностью вероятности д2(у) ■ Выбор приращения У\г или У2г% зависит от случайной величины принимающей значения 1 с вероятностью А1ДА1 + А2) и 0 с вероятностью ^2/(^1 + А2) (случайные величины ^2, ■ ■ ■ имеют распределение Бернулли). Промежуток времени АТг описывается эрлапговским законом распределения с параметрами А1 и N1, если ^ = ^и А2 и N2, если ^ = 0.
Интенсивности переходов для состояний процесса К (Ь) с общим числом состояний N = N1 + N2 - 1 задаются следующим образом: смена состояний 1 ^ 2, 2 ^ 3, ..., N1 - 1 ^ N1 и N1 ^ 1 происходит с интенсивностью А1, а смена состояний 1 ^ N1 + 1, N1 + 1 ^ N1 +2, ..., N - 1 ^ N и N ^ 1 — с интенсивностью А2', другие переходы невозможны. При переходе N1 ^ 1 вектор состояния X получает приращение а при переходе N ^ 1 — У2,%- Таким образом, матрицы интенсивностей переходов и плотностей скачков задаются соотношениями
Л
0 0
0 А1 0
0
А2
А1 0
0 А1
0
0 А1 0
А2 0
0 0 0
0
0
0 А2
в(у) =
0 0
0
1( ) 0
0
2( )
0
( )
0
0
( )
00
0 А2 0
0
( )
0
ку) 0
0 0 0
0
( )
0
ку) 0
0
0
0
0
0
0
0
0
0
0
а элементы матрицы Au задаются в форме
AkrV^it ,х) = <
' AuV{r){t, х) - (\! + \2)f{r)(t, х), к = Г = 1, Au,p{r)(t, х) - Xip^r)(t, х), к = r = 2,...,Ni, AuP{r) (t, х) - (t, х), к = r = Nx + 1,...,N, Xip<r)(t, х), к - 1 = г, к = 2,..., Ni, \2Lp{r)(t, х), к = Ni + 1 и г = 1, \2y{r)(t, х), к- 1 = г, к = Ni + 2,...,N, X1 /к„ Я1(х - z)p(r)(t, z)dz, к = 1 и г = N1, X2 fïn Я2(х - z)p^r')(t, z)dz, к = 1 и r = N, 0 в остальных случаях,
т.е.
Ail
Au-Ci-С2 0 Ci Au-Ci
0 0
C2 0
Ci
■■■ 0 Hi 0 ••• 0
0
0 Ci Au-Ci 0 ■■■ ■■■ 0 0 Au-C2 0
0
C2
H2 0
0 C2 Au -C2
где
CmP^Ht,х) = XmP^Ht,х), Нтр(т\г,х) = Xm дт(х - z)p^(t, z)dz, m = 1,2.
Jï"
0
0
0
0
Следовательно,
A* k Ф{k)(t ,х) =
' A*u^k)(t, х) - (Xi + X2)tp{k) (t, х), r = к = 1, A*u^k)(t, х) - Xi^k)(t, х), r = к = 2,..., Ni, Au^{k) (t, х) - X2^{k)(t, х), r = к = Ni + 1,...,N, Xi^k\t, х), r- 1 = к, r = 2,..., Ni, X2^{k)(t, х), r = Ni + 1 и к = 1, X2^{k)(t, х), r- 1 = к, r = Ni + 2,..., N, Xi fï„ qi(z -х)ф^(Ь, z)dz, r = 1 и к = Ni, X2 /ï„ q2(z-х)ф^(1, z)dz, r = 1 и к = N, 0,
т.е.
А*
и
Ли-£1 -£2 £1
А*,-£1 £1
1
£2 о
0
1
и*
П.2
0 А*-£1 о о ... о о А*и-£2 £2 '•• I 00 £2
• •• о о ... о А*и-£2
где
п*тф{к) (г, х) = Ат[ дт(х - х)ф{к) (г, х)(1х, т = 1, 2.
Ук™
Соотношения для определения оптимального управления имеют вид
= Ли^{1)(1 х - {А1 + А2№{1)(1 ,х) + + А1i д1(х - г)<р*{М1)(1, + А^ Я2(х - г)<р*{м)(1, г)йг,
др*{к) (г, х)
д
= АиР*{к) ^, х) - А1р*{к) (г, х) + А1<р* {к-1)(г, х), к = 2,...,N1,
др*{М1+)(,х) = Аир*{М1+1)(г,х) - А2Ш*{М1+1)(г,х) + А2(№{1)(г,х), д
д<р*{к)(г, х)
д
= Аи^*{к) (Ь, х) - А2Р*{к) (I, х) + А2Р*{к-1) (I, х), к = N1 + 2,...^,
р*{1)(Ь,х) =<ро(х), <р*{к)(Ь,х) = о, к = 2,...^,
дф{1(, х\ + Ли*ф{1)^, х) - (А1 + А2)ф{1)(1, х) + А1ф{2) + А2ф{М1+1) - ш(1, х, и*) = о,
д
дф{к)(Ь, х)
ш
+ Аи*ф{к) (г, х) - А1ф{к) (г, х) + А1(р{к+1) (г ,х) -ш(г ,х,и*) = о, к = 2,...,^ -1
д
дф{м1 , х) + Аи*ф{М1) (I, х) - А1фШ ^, х) + А1 I Я1(г - х)ф{1) (г, ¿)(Ы - , х, и*) = о,
Ук™
дфд-,х) + ^ ,Н1))ф{к)а х - А2ф{к)а ,х) +
+ А2Р{к+1)(г, х) -ш(г, х, и*) = о, к = N1 + 1,...^ - 1,
дф{И )(г, х)
+ )ф{м)(г,х) - А2ф{")(г,х) +
д
{N),
+ А2 д2(г - х)ф{1\£, - ,х,и*) = о,
Ук™
ф{к) ^ 1, х) = -9 (х), к = 1,2,...^,
где и* = и*(Ь,х^1)) определяется выражением (18).
о
о
о
о
о
о
о
о
о
о
о
к
к
п
п
Пример 3. Импульсные воздействия образуют гиперэрланговский поток событий, задаваемый чередованием эрланговских распределений.
Случайный процесс Q(t) задается той же формулой, что и в предыдущем примере, но при условии = 1, если г — нечетное, и ^ = 0, если г — четное, т.е. приращения У^ и У2,г чередуются. Здесь число состояний N случайного процесса К(Ь) равно N1 + N2, а интенсивности переходов задаются так: смена состояний 1 ^ 2, 2 ^ 3, ..., N1 ^ N1 + 1 происходит с интенсивностью А1, а смена состояний N1 + 1 ^ N1 +2, ..., N — 1 ^ N и N ^ 1 — с интенсивностью А^; другие переходы невозможны. При переходе N1 ^ N1 + 1 вектор состояния X получает приращение У\г%-, а при переходе N ^ 1 — У2,%-
Следовательно,
Л
0 А1 0 0 0 А1
0
^2 0
•• \1 ••• ••• \1 ••• ••• ^2 •••
0
0
0
@(у) =
0 5(у) 0 0 0 6(у)
( )
Я1(У)
0
2( ) 0
( )
0
( )
0
а элементы матрицы Ли задаются в форме
Лкгф{г)^ ,х) = { \2ф{г) (г, х), к — 1 = г, к = N1 +2,
Лиф{г)(Ь,х) — \1ф{г)(Ь, х), к = г = 1,2,..., N1, Лиф{г) (г, х) — \2ф{г) (г, х), к = г = т + 1,...,^ \1ф{г) (г, х), к — 1 = г, к = 2,...,N1,
М,
А1 /к„ Я1(х — г)ф{г)^, х)(1х, к = N + 1 и г = N1]^, ^2 /Вп Я2(х — г)ф{г') (Ь, г)йг, к = 1 и r = N, 0,
0
т.е.
Аи
Поэтому
Аи-С\ 0 £1 Аи—£1 01
0 Н
£1 Аи—£1
Н* Аи—£-2 £2
0
0 £2 Аи—£2
,х) — \гф{к)(Ь ,х), г = к = 1,2,...,ИЪ А*иф^ ^, х) — \2ф{к) (г, х), г = к = т + 1,...,И, Ххф^^, х), г — 1 = к, г = 2,..., И, А* к ф{к)(Ъ ,х) = \ \2ф{к)(г, х), г — 1 = к, г = Ыг +2,..., И,
А1 /К„ д— х)ф(к)(1, г)йг, г = N + 1 и к = И, А2 /к„ д2(г — х)ф{к*)(Ь, г)йг, г = 1 и к = И, 0,
т.е.
А*
и
ли—£1 0
С1
0
А*, —£1 £1
£1
и1
Н *
А.и — £2 £2
и*
Н2
0
£2
0 Аи —£2
Операторы £т, Нтш Н*т., т = 1, 2, входящие в матрицы Аи и Аи, задаются так же, как и в предыдущем примере.
Далее приведем соотношения для определения оптимального управления:
др*^, х)
т
др* <к) (г, х)
т
др* м+Уу ,х)
Ш
др* (к)(г, х)
= Аи*<р*{1)(г, х) — А^*,х) + А2 I 42(х — г)<р*)(г, г)йг,
JVJ^
= Аи*р* {к)а, х) — А^* <к)(1, х) + \2Р* {к-1)(г, х), к = 2,..., Иг, = Аи*<р*(М1+1)(1 ,х) — А2Р*^+1)(1 ,х) + А1 [ Ч1(х — ^ (I, х)йх,
д
= Ли* 1р*{к) (г, х) — А2<р*{к) (I, х) + А2Р*{к-1)(1, х), к = N1 + 2,..., N1, р* {1)(Ь,х) =<ро(х), р* {к)(Ь,х) = 0, к = 2,..., И,
0
0
0
0
дф{к)^,х) + ,Х) ,х) +
+ Xip{k+l)(t, х) — w(t, х, и*) = 0, к = 1,2,...,Ni — 1, дф{^(,х) + A*u*4{Nl)(t,х) — X^{N)(t,х) +
+ \if qi(z — х)ф{^+1)^, z)dz — ш(t, х, и*) = 0,
Jin
9ф{к^,х) + A*u*4{k)(t х — X^{k)(t ,х) + + \2P{k+l)(t, х) — w(t, х, и*) = 0, к = Ni + 1,...,N — 1,
дф{^(1,х) + Áu*^{N, х) — x2lp{N)(t,х) + \2 í q2(z — х)ф{1)(t, z)dz — u(t, х, и*) = 0, Ж Ji"
ф{к)(ti,х) = —в(х), к = 1,2,..., N,
где и* = и*(t,х(11)) определяется выражением (18).
Работа выполнена при финансовой поддержке РФФИ (проект №12-08-00892-а).
Литература
1. Артемьев В.М., Ивановский А.В. Дискретные системы управления со случайным периодом квантования. — М.: Энергоатомиздат, 1986.
2. Пугачев B.C., Синицын И.Н. Стохастические дифференциальные системы. Анализ и фильтрация. — М.: Наука, 1990.
3. Hanson F.B. Applied Stochastic Processes and Control for Jump-Diffusions: Modeling, Analysis, and Computation. — SIAM, 2007.
4. 0ksendal В., Sulem A. Applied Stochastic Control of Jump Diffusions. — Springer, 2005.
5. Пантелеев А.В., Рыба,ков К.А., Сот,скова П.Л. Спектральный метод анализа нелинейных стохастических систем управления. — М.: Вузовская книга, 2006. (Дифференциальные уравнения и процессы управления. — 2013. — N 1. — http://www.math.spbu.ru/-diffjournal).
6. Аверина Т.А. Модифицированный алгоритм статистического моделирования систем со случайным периодом квантования // Вестник СГТУ. — 2011. — N 4 (62), вып. 4. — С. 212-218.
7. Nielsen S.R.K., Iwankiewicz R., Skj&rb&k P.S. Moment equations for non-linear systems under renewal-driven random impulses with gamma-distributed interarrival times // IUTAM Svmp. «Advances in Nonlinear Stochastic Mechanics» / Solid Mechanics and its Applications (V. 47). — Kluwer Academic Publishers, 1996. — P. 331-340.
8. Iwankiewicz R., Nielsen S.R.K. Advanced Methods in Stochastic Dynamics of Non-Linear Systems. — Aalborg tekniske Universitetsforlag, 1999.
9. Казаков И.Е., Арт,ем,ьев B.M. Оптимизация динамических систем случайной структуры. - М.: Наука, 1980.
10. Рыба,кое К.А. Оптимальное управление стохастическими системами при импульсных воздействиях, образующих эрланговские потоки событий // Программные системы: теория и приложения. — 2013. — Т. 4, N 2(16). — С. 3-20. — http://psta.psiras.ru.
11. Кожевников А.С., Рыба,ков К.А. Математические модели динамики цены акций с эр-ланговскими скачками // Материалы VIII научно-практ. конф. «Инновационный ме-
неджмент в аэрокосмической промышленности». — М.: Изд-во «Доброе слово», 2012. — С. 156-161.
12. Кожевников А.С. Математические модели динамики цены акций с гиперэрлапговски-ми скачками // Материалы IX научно-практ. конф. «Инновационный менеджмент в аэрокосмической промышленности». — М.: Изд-во «Доброе слово», 2013. — С. 180-186.
13. Zhao L. Portfolio selection with jumps under regime switching // International Journal of Stochastic Analysis. - 2010. - V. 2010, article ID 697257.
14. Zhang X., Elliott R.J., Siu Т.К. A stochastic maximum principle for a Markov regime-switching jump-diffusion model and its application to finance // SIAM Journal on Control and Optimization. - 2012. - V. 50, N 2. - P. 964-990.
15. Boucharda B. A stochastic target formulation for optimal switching problems in finite horizon 11 Stochastics. - 2009. - V. 81, N 2. - P. 171-197.
16. Zhu ,J., Chen F. Dividend optimization for regime-switching general diffusions // Insurance: Mathematics and Economics. - 2013. - V. 53, N 2. - P. 439-456.
17. Рыба,ков К.А., Сотскова, И.Л. Оптимальное управление нелинейными системами со случайной структурой при неполной информации о векторе состояния // Автоматика и телемеханика. — 2006. — N 7. — С. 62-75.
18. Рыба,ков К.А. Достаточные условия оптимальности в задаче централизованного управления стохастическими мультиструктурными системами // Вестник Московского авиационного института. — 2008. — Т. 15, N 2. — С. 123-131.
19. Гурман В.И. Принцип расширения в задачах управления. — М.: Наука, 1997.
20. Кротов В.Ф., Гурман В.И. Методы и задачи оптимального управления. — М.: Наука, 1973.
21. Пантелеев А.В. Достаточные условия оптимальности управления непрерывными стохастическими системами по неполному вектору состояния // Известия вузов. Математика. — 1990. — N 11. — С. 50-61.
22. Савастюк С.В., Хрусталев М.М. Оптимизация стохастических систем диффузионного типа с ограничениями на процесс управления-наблюдения // Автоматика и телемеханика. - 1991. - N 7. - С. 89-96; N 8. - С. 94-100.
23. Плотников М.Ю., Хрусталев М.М. Условия глобальной оптимальности стратегий управления диффузионными процессами с возможностью обрыва траекторий при неполной информации о состоянии // Известия РАН. Теория и системы управления. — 2005. — N 1. — С. 40-47.
24. Ghosh М.К., Arapostathis A., Marcus S.I. Optimal control of switching diffusions with application to flexible manufacturing systems // SIAM Journal on Control and Optimization. - 1993. - V. 31, N 5. - P. 1183-1204.
25. Daley D.J., Vere-Jones D. An Introduction to the Theory of Point Processes. V. 1. — Springer, 2003; V. 2. — Springer, 2008.
26. Анулова, С.В., Веретенников А.Ю., Крылов Н.В., Липцер Р.Ш., Ширяев А.Н. Стохастическое исчисление // Итоги науки и техники. Современные проблемы математики. Фундаментальные направления. Т. 45. — М.: ВИНИТИ, 1989.
27. Пантелеев А.В., Рыба,ков К.А. Методы и алгоритмы синтеза оптимальных стохастических систем управления при неполной информации. — М.: Изд-во МАИ, 2012.
28. Авербух В.П., Смоляное О.Г. Теория дифференцирования в линейных топологических пространствах // Успехи математических наук. — 1967. — Т. XXII, вып. 6(138). — С. 201-260.
29. Флеминг У., Ришел Р. Оптимальное управление детерминированными и стохастическими системами. — М.: Мир, 1978.
30. Кожевников А.С., Рыба,ков К.А. Анализ нелинейных стохастических систем управления с импульсными воздействиями, образующими эрланговские потоки событий // Научный вестник МГТУ ГА. - 2012. - N 184(10). - С. 37-45.
31. Кожевников А. С., Рыба,ков К.А. Спектральный метод анализа стохастических систем с разрывами траекторий, описываемыми случайной смесью эрланговских распределений // Управление большими системами. Вып. 45. — М.: 1111У РАН, 2013. — С. 47-71. — http: / / ubs.mtas.ru.
32. Кожевников А. С., Рыба,ков К.А. Спектральный метод анализа стохастических систем с разрывами траекторий, характеризуемыми чередованием эрланговских распределений // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. — 2013. — N 4. — С. 231-244. — http://technomag.edu.ru.
References
1. Artem'ev, V.M., Ivanovskiy, А. V. Discrete Control System with Random Sampling Period. Moscow: Energoatomizdat, 1986. (in Russian).
2. Pugachev, V.S., Sinitsyn, I.N. Stochastic Systems: Theory and Applications. World Scientific, 2001.
3. Hanson, F.B. Applied Stochastic Processes and Control for Jump-Diffusions: Modeling, Analysis, and Computation. SIAM, 2007.
4. 0ksendal, В., Sulem, A. Applied Stochastic Control of Jump Diffusions. Springer, 2005.
5. Panteleev A.V., Rybakov, K.A., Sotskova, I.L. Spectral Method of Nonlinear Stochastic Control System Analysis. Moscow: University Book, 2006. (in Russian).
6. Averina, T.A. Modified algorithm of statistical modeling of systems with a random quantization period. Bulletin of SSTU. 2011. № 4(62), I. 4. P. 212-218. (in Russian).
7. Nielsen, S.R.K., Iwankiewicz, R., Skj&rb&k, P.S. Moment equations for non-linear systems under renewal-driven random impulses with gamma-distributed interarrival times. IUTAM Svmp. «Advances in Nonlinear Stochastic Mechanics». Solid Mechanics and its Applications (V. 47). Kluwer Academic Publishers, 1996. P. 331-340.
8. Iwankiewicz, R., Nielsen, S.R.K. Advanced Methods in Stochastic Dynamics of Non-Linear Systems. Aalborg tekniske Universitetsforlag, 1999.
9. Kazakov, I.E., Artem'ev, V.M. Optimization of Dynamic Systems with Random Structure. Moscow: Nauka Publishers, 1980. (in Russian).
10. Rybakov, K.A. Optimal control of stochastic systems with impulses generated by Erlang flow of events. Program Systems: Theory and Applications. 2013. V. 4, № 2(16). P. 3-20. http://psta.psiras.ru. (in Russian).
11. Kozhevnikov, A.S., Rybakov, K.A. Mathematical models with Erlang jumps for the stock market. Innovation management in the aerospace industry. Proceedings of VIII Scient. Conf. Moscow: Dobrove Slovo, 2012. P. 156-161. (in Russian).
12. Kozhevnikov, A.S. Mathematical models of the stock price dynamics with hvper-Erlang jumps. Innovation management in the aerospace industry. Proceedings of IX Scient. Conf. Moscow: Dobrove Slovo, 2013. P 180-186. (in Russian).
13. Zhao, L. Portfolio selection with jumps under regime switching. International Journal of Stochastic Analysis. 2010. V. 2010. Article ID 697257.
14. Zhang, X., Elliott, R.J., Siu, Т.К. A stochastic maximum principle for a Markov regime-switching jump-diffusion model and its application to finance. SIAM Journal on Control and Optimization. 2012. V. 50, № 2. P. 964-990.
15. Boucharda, B. A stochastic target formulation for optimal switching problems in finite horizon. Stochastics. 2009. V. 81, № 2. P. 171-197.
16. Zhu, ,J., Chen, F. Dividend optimization for regime-switching general diffusions. Insurance: Mathematics and Economics. 2013. V. 53, № 2. P. 439-456.
17. Rybakov, K.A., Sotskova, I.L. An optimal control for random-structure nonlinear systems under incomplete state vector information. Automation and Remote Control. 2006. № 7. P. 1070-1081.
18. Rybakov, K.A. Sufficient optimalitv conditions in the problem of centralized control for switching diffusions. Bulletin of MAI. 2008. V. 15, № 2. P. 123-131. (in Russian).
19. Gurman, V.I. The Extension Principle in Problems of Control. Moscow: Fizmatlit, 1997. (in Russian).
20. Krotov, V.F. Global Methods in Optimal Control. Marcel Dekker, 1996.
21. Panteleev, A. V. Sufficient conditions of optimum control by continuous stochastic systems with respect to an incomplete state vector. Soviet Mathematics. 1990. V. 34, № 11. P. 62-75.
22. Savastyuk, S. V., Khrustalev, M.M. Optimization of stochastic diffusion systems with constraints on the control-observation process. Automation and Remote Control. 1991. V. 52, № 7. P. 958-963; № 8. P. 1109-1114.
23. Plotnikov, M.Y., Khrustalev, M.M. Conditions of global optimalitv of control strategies for diffusion processes with possible trajectory cut-off when the state information is incomplete. Journal of Computer and Systems Sciences International. 2005. V. 44, № 1. P. 35-42.
24. Ghosh, M.K., Arapostathis, A., Marcus, S.I. Optimal control of switching diffusions with application to flexible manufacturing systems. SIAM Journal on Control and Optimization. 1993. V. 31, № 5. P. 1183-1204.
25. Daley, D.J., Vere-Jones, D. An Introduction to the Theory of Point Processes. V. 1. Springer, 2003; V. 2. Springer, 2008.
26. Anulova, S.V., Veretennikov, A.Y., Krylov, N.V., Liptser, R.S., Shiryaev, A.N. Stochastic Calculus. A Fundamental Mathematical Problems. V. 45, Moscow: VINITI, 1989. (in Russian).
27. Panteleev, A.V., Rybakov, K.A. Methods and algorithms for synthesis of optimal stochastic control systems with incomplete information. Moscow: MAI Press, 2012. (in Russian).
28. Averbukh, V.I., Smolyanov, O.G. The theory of differentiation in linear topological spaces. Russian Mathematical Surveys. 1967. V. 22," № 6. P. 201-258.
29. Fleming, W.H., Rishel, R.W. Deterministic and Stochastic Optimal Control. SpringerVerlag, 1975.
30. Kozhevnikov, A.S., Rybakov, K.A. Analysis of nonlinear stochastic systems with jumps generated by Erlang flow of events. Open Journal of Applied Sciences. 2013. V. 3, № 1. P. 1-7.
31. Kozhevnikov, A.S., Rybakov, K.A. Spectral method for stochastic systems with discontinuous trajectories described by random mixture of Erlang distributions. Large-scale Systems Control. I. 45. Moscow: Institute of Control Sciences, 2013. P. 47-71. http://ubs.mtas.ru. (in Russian).
32. Kozhevnikov, A.S., Rybakov, K.A. Spectral method for stochastic systems with discontinuous trajectories described by alternation of Erlang distributions. Science and Education (BMSTU). 2013. № 4. P. 231-244. http://technomag.edu.ru. (in Russian).
Поступим в редакцию 02.06.2014-