УДК 681.5.011 +681.5.013 ББК 22.18
ДИССИПАТИВНОСТЬ И ЧУВСТВИТЕЛЬНОСТЬ К РИСКАМ В ЗАДАЧАХ УПРАВЛЕНИЯ1
Мазуров А. Ю.2
(Арзамасский политехнический институт Нижегородского государственного технического университета им. Р. Е. Алексеева, Арзамас)
Статья содержит обзор некоторых результатов, связанных с применением свойств диссипативности и чувствительности к рискам в задачах управления. Показано, что эти свойства являются мощными инструментами анализа и синтеза детерминированных и стохастических систем управления, а также обоснована актуальность исследования возможности их объединения.
Ключевые слова: диссипативность, чувствительность к рискам, стабилизация, С2-, Н2-, -управление, робастное управление,
дифференциальные игры.
Введение
Теория диссипативности принадлежит к числу относительно молодых направлений теории управления. Понятие диссипативных систем заимствовано из физики; на языке физиков диссипативная система теряет часть энергии, переданной ей извне. Примерами диссипативных систем служат электрические цепи, рассеивающие на резисторах электрическую энергию в виде тепла, а также термодинамические системы (диссипация постулируется вторым законом термодинамики). Математическая теория диссипативности впервые предложена для детерминированных
1 Работа выполнена при финансовой поддержке РФФИ, грант №08-01-97036_a.
2 Александр Юрьевич Мазуров, кандидат физико-математических наук, ([email protected]).
42
динамических систем Я. Виллемсом в работах [50, 51]; теория характеризует поведение системы на языке «вход-выход» с помощью так называемых функций запаса и накопления, которые выполняют роли обобщенной внешней и внутренней энергии соответственно. Виллемс доказал, что диссипативность тесно связана с устойчивостью по Ляпунову. Дальнейшие исследования продемонстрировали эффективность теории диссипативности при решении задач стабилизации детерминированных систем управления [13], а также при решении прикладных задач управления роботами [З4], электрическими двигателями [15], электрическими преобразователями [42], судами [23], дизельными двигателями [30], химическими процессами [41], энергосистемами [36] и др.
Безусловный успех детерминированной теории диссипатив-ности способствовал тому, что в последние годы были предложены ее многочисленные обобщения на стохастические системы. На основе стохастической теории диссипативности были развиты методы решения широкого круга задач управления: для стохастических систем — стабилизация [22] и синтез ^-управления [7], синтез Н2-управления и робастного управления [45], синтез эр-годического управления [12], синтез -управления [40, 52], для детерминированных систем — робастная одновременная стабилизация множества систем с неопределенными параметрами [3, 4].
С другой стороны, в современной теории управления достаточно широкое распространение получила теория чувствительности к рискам. Чувствительность к рискам введена в пионерской работе Д. Джейкобсона [27] при решении т. н. «задачи линейно-экспоненциально-квадратичного регулятора» (LEG problem). Оказалось, что использование экспоненциального критерия качества позволяет получить регулятор, зависящий от статистики (ковариационной матрицы) гауссовского шума. Регулятор с подобными свойствами существенно отличается от классического линейно-квадратичного регулятора, который, как известно, совпадает для систем с гауссовским шумом и без него [9]. Модели с экспоненциальным критерием качества были эффективно применены при решении многих прикладных задач, например,
задачи наведения ракет [44] и экономических задач [26], что и закрепило за данным направлением название теории чувствительности к рискам. В 1990-е гг. было доказано, что теория чувствительности к рискам является «мостиком» между стохастическим и детерминированным подходами к моделированию возмущений (например, см. [19]). Чувствительность к рискам по-прежнему приковывает внимание многих ученых.
К сожалению, в литературе на русском языке диссипатив-ности и чувствительности к рискам уделяется крайне мало внимания. Необходимо отметить замечательный обзор [5], посвященный пассивности (частному случаю диссипативности) и пассифи-кации (обеспечению свойства пассивности) нелинейных детерминированных систем управления. Данная статья преследует три цели. Во-первых, рассматривается концепция диссипативности применительно к стохастическим системам управления (раздел 2). Во-вторых, приводятся основные достижения современной теории чувствительности к рискам (раздел 3). В-третьих, обосновывается актуальность исследования возможности объединения свойств диссипативности и чувствительности к рискам (раздел 4). Результаты подобного исследования для аффинных по управлению диффузионных процессов Ито с квадратичной по управлению функцией запаса опубликованы в [2]3.
1. Стохастическая теория диссипативности
Одной из первых явилась работа П. Флорчингера [22]. Автор расширил понятие пассивности на стохастические дифференциальные системы Ито
(1) Г йхг = f(хг,п)<И + д(хг)йЩ,
\ У = й(х*,«),
3 Соответствующая научная работа, выполненная А. Ю. Мазуровым под руководством д.ф.-м.н., профессора П. В. Пакшина в Арзамасском политехническом институте Нижегородского государственного технического университета им. Р. Е. Алексеева, удостоена диплома конкурса научных работ молодых ученых по теории управления и ее приложениям (ИПУ РАН) за 2009 г. в номинации аспирантов.
где — стандартный т-мерный винеровский процесс на вероятностном пространстве (О, Т, Р). Символы х, и и у обозначают соответственно п-мерный вектор состояния, р-мерный вектор измеримого управления и к-мерный вектор выхода. Начальное состояние хо задано детерминированным образом.
Определение 1 [22]. Система ( 1 ) называется пассивной, если существует функция Ляпунова на Мга (функция накопления) такая, что неравенство
верно V (х, и) е Мга х Мр, где А — генератор процесса х* при заданном и.
Флорчингер предложил необходимые условия пассивности ( 1 ), а также показал, что свойство пассивности эквивалентно нелинейной версии критерия Калмана-Якубовича-Попова в частном случае при /(х*,и) = /(х*) + /(х*)и, Л,(х*,и) = Л,(х*). Кроме того, используя стохастическую теорию устойчивости [6], он обосновал, что пассивную систему можно сделать локально асимптотически устойчивой по вероятности с помощью управления и = —у * в (у), где у * в (у) > 0 Vy = 0, 8(0) = 0. Полученные результаты применены для решения задачи локальной асимптотической стабилизации по вероятности стохастических систем вида
Работе Флорчингера идейно близко исследование [7]. М. Д. С. Алию расширил теорию диссипативности на класс нелинейных систем с запаздыванием по состоянию, подверженных случайному изменению структуры в соответствии с эволюцией марковской цепи с конечным множеством состояний:
А У (х) ^ Н(х, и) * и
Обозначения стандартны: т — показатель запаздывания; ф(Ь) является начальной функцией, а т(Ь) суть однородный марковский процесс с конечным множеством состояний Б = {1, 2, ..., 1} и матрицей вероятностей перехода Л = [\^]г,уез.
Определение 2 [7]. Система (2) называется диссипативной относительно функции запаса в(и^), у(£)), если существуют положительно-определенные функции (накопления) ^(1, х(1), х(1 — т), т(£)) такие, что неравенство
Е1Ф(гг,хг1 ,хь—т,пЛ) — Ъ(г0,х*0,х*0-т,п0) ^Е [ в(и(г),у(г))м
■По
справедливо для любых моментов времени ^ ^ 10, режимов Гг0, Гг1 е Б и любых начальных условий (х(10 — т), х0), где
х*1 = x(tl, ^, x0, х*о—т, т0, и').
Символ Е соответствует оператору математического ожидания относительно начальных условий (2). В частном случае при /(х(£), х(£ — т), и(£), т(£)) = /(х(£), х(Ь — т), т(£)) + д(х, т(Ь))и(£) ученый доказал, что система (2) обладает нормой £2, которая не превышает 7, если и только если она диссипативна относительно функции запаса в(и(Ь), у(Ь)) = 212(||и(£)||2 + ||и(£ — т)\\2) — 1 ||у(£)||2. Здесь ||д||2 = %г[ддт]. Приведены необходимые и достаточные условия диссипативности в терминах решения уравнения Гамильтона-Якоби и показано, что из дисси-пативности следует локальная асимптотическая устойчивость в среднем квадратическом.
Существенный интерес вызывает диссертация У. Х. Тигесена [45]. Автор строит теорию мультидиссипативности (диссипатив-ности относительно нескольких функций запаса) для стохастических систем управления
(3) dxt = /(х*, и*) + д(х*, щ)<£Мг, хо = х.
Определение 3 [45]. Система (3) называется диссипативной относительно функции запаса т(х(£),и(£)), если существует положительно-определенная функция накопления V (х) такая,
что неравенство
е|V(хт) — J т(xs,us)ds^ ^ V(х)
выполняется для любых ограниченных моментов остановки т и любых решений х*,щ системы (3) с произвольными начальными условиями.
Ученый показал некоторые элементарные свойства диссипативных систем (внутренняя выпуклость, замкнутость относительно взаимосвязи, устойчивость автономных систем как следствие диссипативности), вывел выражение для функции доступного накопления, сформулировал необходимые и достаточные условия диссипативности в дифференциальной форме, а также разработал алгоритм вычисления функций накопления, основанный на выпуклой оптимизации. В линейно-квадратичном случае им получены критерии диссипативности в терминах линейных матричных неравенств, которые можно эффективно проверять с помощью средств пакета МАТЬАБ. Одним из наиболее значимых результатов [45] явились доказанные связи стохастической теории диссипативности и целого ряда задач синтеза стохастических систем с заданными критериями качества: норма £2, норма Н2, вероятность отказа, ожидаемое время для завершения миссии. Кроме того, рассмотрены стохастические системы, подверженные мультидиссипативным возмущениям; доказано, что анализ диссипативности номинальной системы может обеспечить достаточные условия для робастного качества возмущенной системы. В частности, предложенная Тигесеном процедура включает три шага:
) провести моделирование физической системы как результата взаимосвязи номинальной системы Т и возмущения А, которое является мультидиссипативным относительно функций запаса —Т1, г = 1,... ,р;
2) сформулировать критерий качества на языке диссипатив-ности, т. е. найти такую функцию запаса т, при которой общая система Т имеет удовлетворительный уровень качества, если и только если теряет т;
3) провести анализ на предмет диссипации в системе £, т. е. выяснить, теряет ли £ запас т в некоторой области, или £ теряет запас т + (й\Т\ + ... + йртр), где ^ ^ 0.
В работе [ 1 2] понятие диссипативности расширено на управляемые диффузии
Здесь х0 суть случайная переменная с заданным законом п0. Предложенное В. С. Боркаром и С. К. Миттером определение функции накопления основано на понятии супермартингалов (подробнее о мартингалах см., к примеру, [ 1 ]). Обозначим через . непрерывное расширение а(х3, в ^ Ь) для £ ^ 0 и будем рассматривать управление щ, согласованное с .г, т. е. управление в форме щ = /г(х[0,г\), где / — измеримая функция. В частности, управление может быть марковским щ = и(хг).
Определение 4 [12]. Измеримая функция V(х) называется функцией накопления, связанной с функцией запаса д(х, и), если она ограничена снизу и V(хг) + /0д(х3,иа)йв,1 ^ 0 есть .супермартингал для любых решений (4).
Ученые показали, что функция доступного накопления определяется соотношением
где первый супремум берется по всем ограниченным моментам .г-остановки, а второй супремум — по всем .^-согласованным управлениям щ при произвольных начальных условиях. Если Vc(x) < ж, то верна эквивалентная запись
В [12] доказано, что функции накопления являются кандидатами в функции Беллмана для задачи эргодического управления системой (4) с критерием качества
(5)
Рассмотрен также случай с частичными наблюдениями.
Очередным этапом развития стохастической теории дисси-пативности можно считать работы [40, 52], в которых на основе свойства диссипативности были решены задачи синтеза Нте-управления. Н. Берман и Ю. Шакед исследовали систему
Ахг = [I (хг) + д(хг )щ + д1(хг)уг]АЬ + д(хг)щ АИг+ +д2(хь]Уьд?М(2) + С(хг)АИ(1\
(3)
Ау г = [Ь.2(хг) + дз(хг)Уг]М + С2(хг)АЩ ), гг = [Н(хг,г) щ]Т, где уг и гг суть векторы наблюдаемой величины и управляемого выхода, а — случайный процесс внешнего возмущения. Символы АИг и АИ<г) (г = 1, 2, 3) есть независимые винеровские (2)
процессы, причем АИг является одномерным.
Задача синтеза -управления системой (5) сформулирована в [40] следующим образом. При наличии управляемого выхода гг, требуется найти закон управления щ = и(ув, 8 ^ Ь) такой, что для заданного числа ^ > 0 неравенство
Е У |г*|2 АЬ ^ 72Е | |хо|2 + J |%|2 Аь|
выполняется для любых Т ^ 0 и любых допустимых возмущений
V € Еи. Пара (щ, ) принадлежит области допустимых значений 2, если уравнение (5) имеет единственное строгое решение, удовлетворяющее Е{| хг|2} < ж при любых Ь € [0, то). При этом Еи суть все допустимые пары (щ,кг) для фиксированного щ.
Для решения задачи Берман и Шакед в качестве основы использовали теорию диссипативности с функцией запаса т(ь, г) = 72 |-и|2 — |г|2.
Определение 5 [40]. Система (5) называется диссипативной с функцией запаса г (у, г), если существует неотрицательноопределенная функция (накопления) V (х), V (0) =0 такая, что неравенство
EV(хг) < EV(х3)+ Е I (72 К|2 — |гт|2)Ат.
J в
справедливо для любых t ^ s ^ 0 и любых допустимых возмущений vt G Eu.
Ученые вывели неравенство Гамильтона-Якоби и установили необходимые и достаточные условия, при которых данное неравенство гарантирует свойство диссипативности системы (5) с функцией запаса r(v,z) = y2 |v|2 — |z|2, что позволило получить аналог т. н. «леммы ограниченной вещественности» (bounded realness lemma) и развить теорию H. Кроме того, в [40] получены достаточные условия устойчивости замкнутой системы по вероятности и в среднем квадратическом.
В свою очередь, В. Жанг и Б.-С. Чен ввели понятие диссипа-тивности для аффинных по управлению диффузий с одномерным винеровским процессом:
dxt = [f (xt) + g(xt)u] dt + [h(xt) + l(xt)u] dWt,
\ уг = т(хг), I(0) = И,(0) = 0, т(0) = 0.
Определение 6 [52]. Система (6) называется диссипатив-
ной на [в, ж) с функцией запаса г(и, у), если существует неотрицательно-определенная функция V (х) такая, что V Ь ^ в ^ 0 и любых детерминированных хв верно неравенство
(7) EV(хг) — V(хв) ^ Е / т(и,в,Ув)Ав.
в
Исследователи записали неравенство диссипации (7) в дифференциальной форме, вывели выражение для функции доступного накопления, а также сформулировали необходимые и достаточные условия диссипативности системы (6) с квадратичной функцией запаса г(и, у) = ут<^у + 2утБи + итЕи. Используя свойство диссипативности с функцией запаса г(и, у) =
72ити — уту, Жанг и Чен решили задачу синтеза -управления
стохастической системой
Ахг = [I(хг) + д(хг)и + к(х)в] АЬ + [Н(хг) + 1(хг)в] АИг, уг = [т(хг) и]т, I(0) = Ь(0) = 0, т(0) = 0.
Здесь в = вг — внешнее возмущение. Под -управлением они понимали допустимое управление, при котором ||у||£2 ^ 7 ||в||£2,
где ІМІ£2 = (е/0~ Ы2
1/2
норма на Гильбертовом про-
странстве. Аналогичная задача разрешена для конечного интервала времени; показано, как расширить теорию на случай многомерности И^.
Среди недавних работ — статьи Пакшина П. В. [3, 4]. Изучены системы, заданные дифференциальными уравнениями Ито с марковскими переключениями
Обозначения совпадают с введенными ранее: тг — однородная марковская цепь с пространством состояний N = {1, 2,... ,и} и матрицей вероятностей перехода Р(т) = ехр(Пт), П = [п^}\; Ж = [И1г,..., Им] — стандартный винеровский процесс. Начальные условия хг0 = х и тго = і0 детерминированные, процессы И и т независимы, — некоторые числа. Для данного класса систем дано
Определение 7 [3]. Система (8) называется диссипативной на [8, ж) с функцией запаса ,ш(и,і,г), если существует неотрицательно-определенная функция накопления V(х,і) такая, что У і ^ і0 ^ 0, хг0 = х, т0 = і верно неравенство
Пакшин вывел соотношение для функции доступного накопления, а также установил необходимые и достаточные условия диссипативности (8) с квадратичной функцией запаса ,ш(и, г, г) = гТQ(г)z + 2гТБ(г)и + иТЕ(г)и. В [3] рассмотрены пассивные системы (8) (т(и,г,г) = гТи); показано, что обязательным условием пассивности является С1(х,г) = 0. Доказано, что управление и = -^>(г), где гт^(г) > 0 Уг = 0, <р(0) = 0, обеспечивает локальную асимптотическую устойчивость по вероятности решения хг = 0 пассивной системы (8). Теория диссипативности применена для решения задачи робастной одновре-
EV(хг, тг) — V(х,і) ^ Е -ш(ит, іт, хт)йт.
менной стабилизации множества детерминированных систем
(9) IXг=(^(хг)+Б^хг)щ) М +£^07(^ (1и(хг)+Ои(хг)щ), \гь = вг(хг), £ ^ £о, г е М,
управлением и = —ф(г). Здесь (£), £ ^ 0 — неопределенные параметры такие, что
(10) |аг(г)| ^ ё1.
Задача робастной одновременной стабилизации рассмотрена и для линейного случая.
В [4] для системы (8) строится теория экспоненциальной диссипативности.
Определение 8 [4]. Система (8) называется экспоненциально диссипативной на [8, ж) с функцией запаса ■ш(и,г,г), если существуют неотрицательно-определенная функция накопления
V (х,г) и непрерывная по х У г е N функция ц(х,г) > 0, х =
0, ц(0, г) = 0 такие, что У£ ^ £0 ^ 0, хг0 = х, гго = г верно:
Е< V(хг,гг)+ ц(хТ,тт)(1т ( — V(х,г) ^ Е гш(ит,гт,гт)(1г.
I Jt0 ) Л0
Теория экспоненциальной диссипативности также включает соотношение для функции доступного накопления и необходимые и достаточные условия экспоненциальной диссипа-тивности (8) с квадратичной функцией запаса гш(и, г, г) = ггТ^(г)г + 2гТБ(г)и + иТЕ(г)и. Показано, что если система (8) экспоненциально диссипативна с квадратичной функцией запаса ,ш(и, г, г) = гТQz + 2гТБи + иТЕи и квадратичной функцией ц = хтМх, М = МТ > 0, то управление и = —<р(г), где zTQz — гТБ(р(г) + (р(г)Т Е(р(г) ^ 0 У г = 0, <р(0) = 0, обеспечивает локальную экспоненциальную устойчивость в среднем квадратическом решения хг = 0 системы (8). Теория экспоненциальной диссипативности использована для оценки возможных вариаций управления и = —ф(г), при которых множество детерминированных нелинейных систем (9)-(10) остается робастно устойчивым.
2. Теория чувствительности к рискам
Основополагающей работой по праву считается [27]; автором была рассмотрена задача линейно-экспоненциальноквадратичного регулятора (LEG problem), которая (применительно к случаю с непрерывным временем) состояла в следующем. Пусть система задана линейным дифференциальным уравнением
где х е Кга, и е Кт — векторы состояния и управления, а е Мк суть гауссовский шум
Здесь Р-1 есть ковариационная матрица, 5 — дельта-функция Дирака. Необходимо найти закон управления в виде измеримой функции
(12) u(a\X,t) = C(a\X,t), tЄ [t0,t/], X = {x(т),т Є [t0,t/]},
который минимизирует экспоненциальный критерий качества
Для сокращенной формы записи зависимость параметров от Ь опущена; матрицы Q ^ 0, Е > 0, Р > 0 для всех Ь е [Ь0,Ь/], матрица Qf ^ 0, а а = ±1.
Замечание 1. Нужно подчеркнуть, что в силу а = ±1 речь
(11)
x(t) = A(t)x(t) + B(t)u(t) + r(t)a(t), x(to) = xo, t Є [to,t/},
E [a(t)] = G, t Є [t0,t/], E [a(t)aT(s)] = P-15(t — s), t,s Є [t0,t/].
to
идет о двух задачах оптимального управления; значения V( ) и
V (+) критерия качества удовлетворяют
В [27] показано, что функция Беллмана
3(а\х, Ь) = аЕх(^ ехр |а 1 ^ (xTQx + и(ст)ТЕи(а'))йз+
+1 х(Ь, )TQf х(Ь,)
для задачи (11),(13) является решением уравнения Гамильтона-Якоби-Беллмана
д3(а), , Г1
иТ
dt
l
-(x,t) = min < -a(xTQx + uTRu)J(a')(x,t) + u2
l
+[JXXa')(x,t)]T(Ax + Bu) +-tr JX^^x^^P 1Гг
2
Оптимальное управление (12) есть линейная функция состояния:
(14) и(а\х,Ь) = — Е-1БТБ(а)х, Ь е [t0,tf],
— Б(ст) = Q + Б (а)А + АТБ(ст) — 5(ст) (БЕ-1БТ — аГР-1ГТ)Б(а),
Б М (ь,) = Я,.
Минимальное значение критерия качества (13) равно
3(а\х,Ь) = аГ(ст) ехр |а1 хТБ(ст)х| , где матрица Г И удовлетворяет уравнению
—F(a) = -aF(a)tr ^S^P-1^ , F(a)(t/) = l.
Нетрудно убедиться, что регулятор (14) явно зависит от ковариационной матрицы P-1, и при использовании экспоненциального критерия качества (в задаче LEG) не выполняется принцип полной эквивалентности линейно-квадратичного регулятора и линейно-квадратичного регулятора с гауссовским шумом (LQG). Джейкобсон показал, что для шумов малой интенсивности (малой ковариационной матрицы) решения задач LEG и LQG 54
близки; однако, в случае значительной интенсивности решения указанных задач принципиально отличаются. При а = —1 коэффициент усиления оптимального управления стремится к нулю при бесконечной интенсивности; практически невозможно повлиять на уменьшение критерия качества (13). При а = +1 оптимальное управление прекращает существовать для некоторых достаточно больших интенсивностей; критерий качества становится бесконечным независимо от закона управления.
Еще одним важным результатом [27] явилась доказанная эквивалентность задачи LEG и детерминированных линейноквадратичных игр с нулевой суммой. Если рассматривать гауссовский шум в (11) как игрока, то оптимальное управление (14) при а = —1 представляет оптимальную стратегию кооперативной игры (11) с ценой
ftf 1
(15) S (-\u,a) = min -(xTQx + uT Ru + aTPa)dt+
u,a Jto 2
+ 1 x(tf )TQf x(tf).
С другой стороны, оптимальное управление (14) при а = +1 — оптимальная стратегия некооперативной игры (11) с ценой
(16) S(+\u,a) = minmax f 1(xTQx + uTRu — aTPa)dt+
u a Jto 2
+1 x(tf )TQf x(tf *).
Задачи управления стохастическими системами с экспоненциальным критерием качества привлекли внимание многих исследователей. Вслед за пионерской работой [27] ряд ученых предложили обобщения идей Джейкобсона на другие классы систем управления. В числе первых работ необходимо упомянуть [43, 44]. В [43] рассмотрена задача оптимального управления системой (11) с экспоненциальным критерием (13) в том случае, когда регулятор не имеет полной информации о векторе состояния (частичные наблюдения), а наблюдаемая величина z зашумлена:
(17) z(t) = H (t)x(t) + u(t).
Другая принципиальная модификация в [43] — использование а в качестве некоторого (не равного по модулю единице) параметра. Кроме того, начальное состояние xo системы (11) было принято гауссовской переменной, не зависящей от а и и.
Спейер, Дейст и Джейкобсон показали, что оптимальное управление данной задачи определяет матрица усиления, линейно зависящая от сглаженной истории вектора состояния от начального момента времени до текущего момента времени и (в явном виде) включающая ковариацию ошибок оценивания всей истории состояния.
Идеи [43] во многом использованы в более поздней работе [44]. Модель (11), (17) с критерием качества (13) применена Спей-ером для построения адаптивной схемы наведения ракет на конечном участке траектории (adaptive terminal guidance scheme). В [44] продемонстрировано, что если дисперсия измерения оценивается в режиме «онлайн» (т. е. в данном режиме вычисляется и дисперсия ошибки), то матрица усиления закона управления может быть вычислена в реальном времени и является адаптивной по отношению к значению дисперсии ошибки. Адаптивная схема эффективно применена для решения прикладной задачи о самонаводящейся ракете.
Задачи оптимального управления линейными системами с экспоненциальным критерием качества и неполными наблюдениями были также рассмотрены в [11, 47].
Возможно, одним из наиболее серьезных достижений явилось применение теории оптимального управления с экспоненциальным критерием качества в экономических задачах [26, 46, 47]. Оказалось, что в экономической интерпретации закон управления, представляющий решение задачи LEG, можно понимать как (не)склонность к рискам, в зависимости от знака параметра а. В случае а < 0 оптимальное управление (14) системой (11) есть стратегия инвестора-рискофила (который при условии равного математического ожидания доходности альтернативных проектов предпочитает инвестиционный проект с большим риском). При а < 0, напротив, указанное управление — стратегия не склонного
к риску инвестора, при условии равной ожидаемой доходности выбирающего инвестиции с меньшим риском. Более того, связь с экономическими задачами предопределила название теория чувствительности к рискам для данного направления в теории оптимального управления.
Некоторые ученые предложили применение моделей с чувствительным к рискам критерием качества в прикладных задачах планирования производства в стохастических производственных системах [21], а также в групповых задачах (team problem) [32]. В последние годы круг задач управления, при решении которых можно использовать свойство чувствительности к рискам, был расширен за счет задачи «синтеза попятного регулятора» (backstepping controller design) [35] и задачи синтеза адаптивной следящей системы (adaptive tracker) [8].
Как известно, в теории управления существуют различные подходы к моделированию внешних возмущений. В теории стохастического управления используется аппарат стохастических процессов (случайных шумов). В теории робастного управления, напротив, возмущения моделируются детерминированным образом. Важным этапом развития теории чувствительности к рискам явились 90-е гг. XX века; оказалось, что чувствительность к рискам позволяет связать стохастический и детерминированный (робастный) подходы к моделированию внешних возмущений.
В случае линейных систем с квадратичным критерием качества одним из методов синтеза робастного управления служит теория Н^>. Среди задач этой теории можно выделить так называемую «задачу ослабления возмущений» (disturbance attenuation problem)[10]. Пусть система описывается обыкновенным дифференциальным уравнением
( x(t) = A(t)x(t) + B(t)u(t) + r(t)£(t),
\ x(0) = x0, t e [0, ж), где x(t) e Rn,u(t) e Rm,£(t) e R — векторы состояния, управления и возмущения, которые заданы на некоторых гильбертовых пространствах; начальное состояние x0 = 0 произвольно (дополнительное возмущение). Пусть выбран скаляр Y> °.
Задача ослабления возмущений состоит в том, чтобы найти закон управления
такой, что при любых возмущениях и> и любых начальных условиях хо верно:
Здесь Q0 ^ 0 — некоторая матрица, tf — конечный момент времени.
В книге [10] доказано, что задача (18)-(19) сводится к «дифференциальной игре с мягким ограничением» (soft-constrained differential game), которая аналогична играм (11), (15)-(16). Таким образом, стохастическая задача LEG эквивалентна детерминированной задаче ослабления возмущений. Используя так называемый «принцип минимальной энтропии» (minimum entropy principle), К. Гловер и Д. Дойл [24] более детально установили связь между задачей LEG и -управлением; см. также работу
Установленные связи данных задач в линейно-квадратичном случае заинтересовали исследователей нелинейных систем управления и неквадратичных критериев качества. П. Уиттл [48, 49] предложил оригинальный подход к проблеме связи теорий чувствительности к рискам и -управления. А именно, для более общего (чем марковские диффузии) случая и конечного интервала времени автор использовал идеи «теории больших отклонений» Фрейдлина-Вентцеля (large deviation theory) и «асимптотику малых шумов» (small-noise asymptotics), что позволило ученому получить обобщение классического принципа максимума Понтряги-на на стохастический случай — так называемый «чувствительный к рискам принцип максимума» (risk-sensitive maximum principle). В работах [20, 29] формула Уиттла для оптимального показателя
u = u(l\x),
o2
[38].
больших отклонений была выведена с помощью методов «вязких решений» (viscosity solution) дифференциальных уравнений в частных производных в том случае, когда динамика системы описывается стохастическим дифференциальным уравнением.
Ряд результатов для нелинейных систем получены и в случае бесконечного интервала времени. В работе [37] изучена задача синтеза оптимального чувствительного к рискам управления дифференциалыной системой Ито
dxt = g(xt, ut)dt + a(xt)dWt,
(20) 1 x0 = x, t e [0, ж).
с критерием качества
(21) 3 (и) = ^Иш 11п Ех exp^J с(х3,и3)Л^ ^ шт .
С помощью идей теории больших отклонений доказано, что решение задачи (20)-(21) эквивалентно стохастической дифференциальной игре для некоторой вспомогательной системы. В [37] разобран и случай неполной информации о векторе состояний (частичные наблюдения). Для конечного интервала времени связь задачи чувствительного к рискам управления и стохастической дифференциальной игры получена в книге [10]. Значимость этих результатов была в полной мере установлена позднее. Дело в том, что указанные стохастические игры в некотором смысле в пределе сходятся к детерминированным играм, связанным с задачами робастного управления, см. содержательное исследование [19]. Авторами решена следующая задача синтеза оптимального, чувствительного к рискам управления:
\ йхг = /(хг,щ)йЬ + (2^) 1 ЛЩ,
{ х0 = х, Ь е [0, ж),
-^шш.
(22) \(е\и)= е ^Нш 11п Ехехр |е 1J Ь(х3,и3)йв
Обозначения стандартные, е > 0 и 7 = 0 — параметры, представляющие интенсивность рисков и уровень ослабления возмущений. Доказано, что оптимальное значение критерия качества
(22) является оптимальным значением некоторой стохастической игры, которая зависит от е. Наиболее существенно то, что в пределе е ^ 0 (пределе малых шумов) указанная стохастическая игра стремится к детерминированной игре, связанной с задачами робастного управления. Таким образом, было продемонстрировано, что функции Беллмана для стохастических задач синтеза оптимального чувствительного к рискам управления стремятся в пределе малых шумов к функциям Беллмана для задач синтеза (робастного) -управления.
Аналогичные результаты получены и в других работах (например, [31]—[33]). Многие авторы провели исследования чувствительности к рискам для систем со скачкообразным изменением структуры согласно эволюции марковской цепи [25]-[39]. В этих системах можно рассматривать чувствительность как по отношению к интенсивности шумов, так и по отношению к рискам изменения структуры самой системы.
3. Обсуждение: диссипативность и чувствительность к рискам
В разделах 2 и 3 автор постарался охватить как можно больше работ, посвященных стохастическим теориям диссипативности и чувствительности к рискам. Поэтому повествование во многих случаях носило несколько поверхностный характер, без упоминания деталей. Список литературы не претендует на абсолютную полноту, исследования природы диссипативности и чувствительности к рискам продолжаются. Тем не менее, на основании изученных работ можно отметить следующее:
1) современная стохастическая теория диссипативности позволяет эффективно решать многие представляющие существенный интерес задачи как детерминированной, так и стохастической теории управления (стабилизация, синтез £2-, Н2- и Нте-управления, синтез робастного управления, одновременная робастная стабилизация множества систем с неопределенными параметрами);
2) существующие на сегодня подходы к обобщению свойства
диссипативности на стохастический случай не изучают зависимость функций накопления от интенсивности внешних возмущений (рисков), которые, как правило, моделируются с помощью винеровских процессов. В то же время теория чувствительности к рискам представляет собой одно из интенсивно развивающихся направлений современной теории управления и имеет множество применений (в т. ч. в задачах синтеза управления);
3) представляется актуальным изучение возможности объединения свойств диссипативности и чувствительности к рискам, т. е. построение стохастического обобщения диссипативности с неотъемлемым свойством чувствительности к рискам функции накопления, а также исследование того, что может дать указанное свойство в задачах синтеза управления (детерминированными и стохастическими) системами.
Ключевые результаты подобного исследования для аффинных по управлению диффузионных процессов Ито
( йхг = [/1(хг) + Ь&^и^М + еБ(хг)<1Щ,
\ х0 = х, Ь е [0, +ж)
с квадратичной по управлению функцией запаса
Ь(хг,щ) = Ьо(хг) + |и4|2
опубликованы в [2].
4. Заключение
В статье в обзорной форме рассмотрены некоторые результаты, связанные с применением концепций диссипативности и чувствительности к рискам в задачах управления. Показано, что диссипативность и чувствительность к рискам являются мощными инструментами анализа и синтеза детерминированных и стохастических систем управления. Обоснована актуальность исследования возможности объединения теорий диссипативности и чувствительности к рискам.
Литература
1. ЛИПЦЕР Р. Ш., ШИРЯЕВ А. Н. Теория мартингалов. - М.: Наука, 1986.
2. МАЗУРОВ А. Ю. Диссипативность стохастических систем с функцией накопления, чувствительной к рискам: Дисс. канд. физ.-мат. наук. - НГТУ им. Р. Е. Алексеева, 2010.
3. ПАКШИН П. В. Диссипативность диффузионных процессов Ито с марковскими переключениями и задачи робастной стабилизации // Автоматика и телемеханика. - 2007. -№9. - С. 38-55.
4. ПАКШИН П. В. Экспоненциальная диссипативность диффузионных процессов случайной структуры и задачи робастной стабилизации // Автоматика и телемеханика. -2007. - №10. - С. 134-154.
5. ПОЛУШИН И. Г., ФРАДКОВ А. Л., ХИЛЛ Д. В. Пассивность и пассификация нелинейных систем // Автоматика и телемеханика. - 2000. - №3. - С. 3-37.
6. ХАСЬМИНСКИЙ Р. З. Устойчивость систем дифференциальных уравнений при случайных возмущениях их параметров. - М.: Наука, 1969.
7. ALIYU M. D. S. Dissipative analysis and stability of nonlinear stochastic state-delayed systems // Nonlinear Dynamics and Systems Theory. - 2004. - V. 4. - P. 243-256.
8. ARSLAN G., BASAR T. Risk-sensitive adaptive trackers for strict-feedback systems with output measurements // IEEE Trans. Autom. Control. - 2002. - V. 47. - P. 1754-1758.
9. ATHANS M. The role and use of the stochastic linear-quadratic-Gaussian problem in control system design // IEEE Trans. Autom. Control. - 1971. - V. 16. - P. 529-552.
10. BASAR T., BERNHARD P. H^-optimal control and related minimax design problems: a dynamic game approach. -Boston, Bazel, Berlin: Birkhauser, 1995.
11. BENSOUSSAN A., VAN SCHUPPEN J.H. Optimal control
of partially observable stochastic systems with an exponential-of-integral performance index // SIAM J. Control Optim. -1985. - V. 23, No. 4. - P. 599-613.
12. BORKAR V.S., MITTER S.K. A note on stochastic dissipativeness // Directions in Mathematical Systems Theory and Optim, Lecture Notes in Control Inform. - V. 286. -Berlin: Springer, 2003. - P. 41-49.
13. BYRNES C.I., ISIDORI A., WILLEMS J. C. Passivity, feedback equivalence, and the global stabilization of minimum phase nonlinear systems // IEEE Trans. Autom. Control. -1991. -V. 36. - P. 1228-1240.
14. CAVAZOS-CADENA R., FERNAnDEZ-GAUCHERAND E. Controlled Markov chains with risk-sensitive criteria: Average costs, optimality equations, and optimal solutions // Math. Methods Oper. Res. - 1999. - V. 49. - P. 299-324.
15. DAWSON D.M. Nonlinear control of electric machinery. -London: Marcel Dekker, 1998.
16. FLEMING W.H., HERNANDEZ-HERNANDEZ D. Risk-sensitive control of finite state machines on an infinite horizon
I // SIAM J. Control Optim. - 1997. - V. 35, No. 5. - P. 17901810.
17. FLEMING W.H., HERNANDEZ-HERNANDEZ D. Risk-sensitive control of finite state machines on an infinite horizon
II // SIAM J. Control Optim. - 1999. - V. 37. - P. 1048-1069.
18. FLEMING W. H., JAMES M. R. The risk-sensitive index and
the H2 and norms for nonlinear systems // Math. Control
Signals Systems. - 1995. - V. 8. - P. 199-221.
19. FLEMING W.H., MCENEANEY W.M. Risk-sensitive control on an infinite time horizon // SIAM J. Control Optim.
- 1995. - V. 33, No. 6. - P. 1881-1915.
20. FLEMING W.H., MCENEANEY W.M. Risk sensitive control and differential games // Springer Lecture Notes in Control and Info. Sci. - V. 184. - N.Y.: Springer-Verlag, 1992. -P. 185-197.
21. FLEMING W. H., ZHANG Q. Risk-sensitive production
planning of a stochastic manufacturing system // SIAM J. Control Optim. - 1998. - V. 36. - P. 1147-1170.
22. FLORCHINGER P. A passive system approach to feedback stabilization of nonlinear control stochastic systems // SIAM J. Control Optim. - 1999. - V. 37. - P. 1848-1864.
23. FOSSEN T. Nonlinear backstepping design: application to mechanical systems and ship control. - N.Y.: Springer-Verlag, 1999.
24. GLOVER K., DOYLE J. C. State-space formulae for all stabilizing controllers that satisfy an H^-norm bound and relations to risk sensitivity // Systems Control Lett. - 1988. -V. 11. - P. 167-172.
25. HERNANDEZ-HERNANDEZ D., MARCUS S. J. Risk sensitive control of Markov processes in countable state space // Systems Control Lett. - 1996. - V. 29, No. 3. -P. 147-155.
26. HOWARD R.A., MATHESON J.A. Risk-sensitive Markov decision processes // Manage Sci. - 1972. - V. 18. - P. 357370.
27. JACOBSON D. H. Optimal stochastic linear systems with exponential performance criteria and their relation to deterministic differential games // IEEE Trans. Autom. Control. - 1973. - V. 18. - P. 124-131.
28. JAMES M. R., BARAS J. S. Partially observed differential games, infinite-dimensional Hamilton-Jacobi-Isaacs equations, and nonlinear H^> control // SIAM J. Control Optim. - 1996. - V. 34. - P. 1342-1364.
29. JAMES M. R. Asymptotic analysis of nonlinear stochastic risk-sensitive control and differential games // Math. Control Signals Systems. - 1992. - V. 5. - P. 401-417.
30. JANKOVIC M., jankoviC M., KOLMANOVSKY I. Constructive Lyapunov control design for turbocharged diesel engines // Proc. 17th American Control Conf. Philadelphia. -1998. - P. 1389-1394.
31. KAISE H., NAGAI H. Bellman-Isaacs equations of ergodic
type related to risk-sensitive control and their singular limits // Asympt. Anal. - 1998. - V. 16. - P. 347-362.
32. KRAINAK J., SPEYER J., MARCUS S. Static team problems
— Part I: Sufficient conditions and the exponential cost criterion // IEEE Trans. Autom. Control. - 1982. - V. 27.
- P. 839-848.
33. MCENEANEY W. M. Connections between risk-sensitive stochastic control, differential games and H^>-control: the nonlinear case. PhD thesis. R.I.: Brown University, 1993.
34. ORTEGA R., SPONG M. W. Adaptive motion control of rigid robots: a tutorial // Automatica. - 1989. - V. 25, No. 6. -P. 877-888.
35. PAN Z., BASAR T. Backstepping controller design for nonlinear stochastic systems under a risk-sensitive cost criterion // SIAM J. Control Optim. - 1999. - V. 37. - P. 957995.
36. POGROMSKY A.YU., FRADKOV A.L., HILL D.J. Passivity based damping of power system oscillations // Proc. 35th IEEE Conf. on Decision and Control. Kobe, 1996. - P. 3876-3881.
37. RUNOLFSSON T. The equivalence between infinite-horizon optimal control of stochastic systems with exponential-of-integral performance index and stochastic differential games // IEEE Trans. Autom. Control. - 1994. - V. 39, No. 8. - P. 15511563.
38. RUNOLFSSON T. Stationary risk-sensitive LQG control and its relation to LQG and H^-control // Proc. 29th IEEE Conf. on Decision and Control. - 1990. - P. 1018-1023.
39. RUNOLFSSON T. Risk-sensitive control of stochastic hybrid systems on infinite time horizon // Math. Problems in Engineering. - 2000. - V. 5. - P. 459-478.
40. SHAKED U., BERMAN N. H^> control for nonlinear stochastic systems: The output-feedback case // Preprints 16th IFAC World Congr. Prague, 2005. - CD-ROM. - P. 1-6.
41. SIRA-RAMIRES H., ANGULO-NUNEZ M. I. Passivity-
based control of nonlinear chemical processes // Int. J. Control.
- 1997. -V. 68. - P. 971-996.
42. SIRA-RAMIRES H., ORTEGA R. Passivity-based control of DC to DC converters // Proc. 34th IEEE Conf. on Decision and Control. - New Orleans. - 1995. - P. 3471-3476.
43. SPEYER J.L., DEYST J., JACOBSON D.H. Optimization of stochastic linear systems with additive measurement and process noise using exponential performance criteria // IEEE Trans. Autom. Control. - 1974. - V. 19. - P. 358-366.
44. SPEYER J. L. An adaptive terminal guidance scheme based on an exponential cost criterion with applications to homing missile guidance // IEEE Trans. Autom. Control. - 1976. -V. 21. - P. 371-375.
45. THYGESEN U. H. Robust performance and dissipation of stochastic control systems. PhD thesis. - Copenhagen: Technical University of Denmark, 1998.
46. VAN DER PLOEG F. Economic policy rules for risk-sensitive decision making // Zeitschrift fur Nationalokonomie. - 1984.
- V. 44. - P. 207-235.
47. WHITTLE P. Risk-sensitive linear/quadratic/Gaussian control // Adv. Appl. Prob. - 1981. - V. 13. - P. 764-777.
48. WHITTLE P. A risk-sensitive maximum principle: the case of imperfect state observation // IEEE Trans. Autom. Control. -1991. - V. 36, No. 7. - P. 793-801.
49. WHITTLE P. A risk-sensitive maximum principle // Systems Control Lett. - 1990. - V. 15. - P. 183-192.
50. WILLEMS J. C. Dissipative dynamical systems. Part I: General theory // Arch. Rational Mech. Analysis. - 1972. -V. 45. - P. 321-351.
51. WILLEMS J. C. Dissipative dynamical systems. Part II: Linear systems with quadratic supply rates // Arch. Rational Mech. Analysis. - 1972. - V. 45. - P. 352-393.
52. ZHANG W., CHEN B.-S. State feedback H^> control for a class of nonlinear stochastic systems // SIAM J. Control Optim. - 2006. - V. 44. - P. 1973-1991.
DISSIPATIVITY AND RISK-SENSITIVITY IN CONTROL PROBLEMS
Alexander Mazurov, Polytechnical Institute of Nizhni Novgorod State Technical University, Arzamas, Cand.Sc. ([email protected]).
Abstract: The paper reviews some results regarding application of dissipativity and risk-sensitivity in control design problems. These concepts are shown to be effective in solving the problems of analysis and synthesis for deterministic and stochastic systems. The research of possibility of dissipativity and risk-sensitivity integration is shown to be promising.
Keywords: dissipativity, risk-sensitivity, stabilization, L2-, H2-, H^-control, robust control, differential games.
Статья представлена к публикации членом редакционной коллегии А. П. Курдюковым