УДК 517.977.58 ББК 22.18
ГРАДИЕНТНЫЕ МЕТОДЫ УЛУЧШЕНИЯ ДЛЯ ЗАДАЧ ОПТИМАЛЬНОГО ИМПУЛЬСНОГО УПРАВЛЕНИЯ1
Гончарова Е. В.2, Старицын М. В.3
(Учреждение Российской академии наук Институт динамики систем и теории управления СО РАН, Иркутск)
Рассмотрена задача оптимального управления системой, динамика которой описывается дифференциальным уравнением с мерой при ограничении на полную вариацию управляющей меры. На основе метода разрывной замены времени проведена расшифровка процедур слабого варьирования управления во вспомогательной редуцированной задаче и разработаны новые методы улучшения импульсных процессов. Исследованы свойства методов. Рассмотрен пример.
Ключевые слова: дифференциальные уравнения с мерами, импульсное управление, разрывная замена времени, методы улучшения.
Введение
Исследуется задача оптимального импульсного управления при ограничении на полный импульс управляющего воздействия [4]-[6]. Подобные задачи имеют широкий спектр технических и экономических приложений (см., например, [3]-[5]).
На сегодняшний день известны вычислительные методы приближенного решения задач оптимального импульсного управле-
1 Работа выполнена при финансовой поддержке РФФИ (проекты 0801-00156, 08-08-00292)
2 Гончарова Елена Владимировна, кандидат физико-математических наук, старший научный сотрудник ([email protected])
3 Старицын Максим Владимирович, младший научный сотрудник ([email protected])
ния, использующие различные способы преобразования к классической задаче с ограниченными управлениями [1], [2]. В данной работе предлагаются методы улучшения обобщенных управлений, использующие редукцию на основе разрывной замены времени [6].
1. Постановка задачи
Рассмотрим задачу (Р) минимизации целевого функционала I = ^(х(Т)) при ограничениях
(1) йх = /(£, х, и)й£ + 0(Ь, х)йц, х(0-) = х0,
(2) п(г) е и,
(3) Г \йц\ < М.
Jо
Здесь £ е [0,Т]; управления п(-) е Ь^([0,Т]; И-) — измеримые ограниченные вектор-функции, множество и С И/- компактно; траектории х( ) е БУ([0, Т], И”) являются непрерывными справа функциями ограниченной вариации; йц — регулярная векторная мера, порожденная функцией ц( ) е BV([0,T], Ит); ц(0-) = 0, \йц\ есть мера, порожденная полной вариацией функции ц(-), и М > 0.
Под решением дифференциального уравнения с мерой (1) при заданных допустимых управлениях и, йц будем понимать непрерывную справа функцию ограниченной вариации х, удовлетворяющую интегральному соотношению
[ 0(в,х(в))йцс(0) +
Jо
+ ^2 (^(1) - хЫ-)).
певирр^^},
Здесь йцас, йцзс и йца есть, соответственно, абсолютно непрерывная, сингулярная непрерывная и дискретная составляющие меры йц, йцс = йцас + йцзс. Множество 8ирр(йц} есть носитель меры йц. При каждом т = т% функция является решением 36
х(Ь) = х0 +
/(в, х(в),п(в))йв +
I
0
предельной системы
(4) х(гд) = 0(т,х(гд))[ц(т)], •& е [0,1], г(0) = х(т—).
Здесь [ц(т)] есть скачок ц(т) — ц(т—) функции ц в точке т.
Будем предполагать выполненными условия, обеспечивающие глобальное существование решения системы (1)-(3) (см., например, [6]). Предположим, что система удовлетворяет условию корректности Фробениуса [4], [6].
Обозначим через п = (х, и, йц) допустимый импульсный управляемый процесс задачи (Р) и рассмотрим задачу улучшения управления. Пусть п0 = (х°,и°,йц°) — некоторый заданный допустимый процесс задачи (Р), который мы будем называть опорным. Требуется найти допустимый управляемый процесс п такой, что I(п) < I(п0).
Наша цель состоит в разработке методов улучшения импульсных процессов.
2. Замена времени
Мы применяем подход, связанный с преобразованием задачи (Р) импульсного управления к задаче с ограниченными управлениями на основе метода разрывной замены времени [6]. При таком преобразовании «быстрые» движения, описывающие скачки траектории, мгновенные с точки зрения исходной временной шкалы, становятся соизмеримыми по продолжительности с непрерывной динамикой.
Определим функции
(5) г(г) = г +1 \йц(в)\,г е [0,Т), Г(Т)= т + м,
{(в) = М{г е [0,Т] : Г(г) > в}.
Функция Г(г) монотонно возрастает и имеет на отрезке [0,Т] ограниченную вариацию; функция {(в) абсолютно непрерывна и не убывает на отрезке [0, Т + М]. Справедливы соотношения [6]:
{(г(г)) = г для всех г е [0,т] и г({(в)) = в, если г = {(в) — точка непрерывности функции Г(г).
В результате замены времени задача (P) преобразуется к следующей задаче оптимального управления [6]
(RP) J = F(y(S)) ^ inf,
У = af (С, y, v) + (1 - a)G(C, y)e, y(0) = xo,
(6) С = a, С(0) = 0, C(S ) = T,
v(s) G U, a(s) G [0,1], e(s) G B, s G [0, S].
Здесь S = Г(Т) = T + M; управления v, a и e — измеримые и ограниченные функции; траектории С и y абсолютно непрерывны. Множество U С Rr — то же, что и в задаче (P), а B есть m-мерный единичный шар в норме | ■ |, где |e| = |ej|. Положим
j
Y = (С, у), ш = (v, a, e) и обозначим через ( = (у, ш) допустимый управляемый процесс редуцированной задачи (RP). Далее мы предполагаем, что управления и и ш в исходной и редуцированной задачах определены всюду на соответствующих интервалах времени.
Вообще говоря, метод замены времени сводит задачу (P) к задаче на нефиксированном отрезке времени [0, Г(Т—)]. Однако с помощью продолжения допустимых процессов на максимальный отрезок [0, Г(Т)] мы получим эквивалентную ей задачу оптимального управления (RP). В самом деле, множество скоростей редуцированной системы содержит нуль. Тогда искомое продолжение можно получить путем доопределения управлений a(s) = 0 и e(s) =0 на интервале (Г(Т—), Г(Т)]. При этом значения целевого функционала совпадают на соответствующих процессах задачи (RP) и задачи на нефиксированном отрезке времени. Для того чтобы восстановить оптимальное управление в задаче на нефиксированном отрезке времени, следует переопределить управления из (RP) сдвигом влево по всем интервалам, где одновременно a(s) = 0 и e(s) = 0.
Траектории x и y исходной и редуцированной задач связаны соотношением x(t) = y(r(t)), t G [0,Т].
3. Градиентные методы улучшения импульсных процессов
Для решения задачи (ЯР) будем применять методы слабого варьирования управлений [7]. Поскольку в задаче (ЯР) присутствует терминальное условие {(Б) = Т, мы дополним эти методы процедурой параметрического поиска. Предположим, что
(Н) функция Г непрерывно дифференцируема, функции / и О непрерывны по совокупности своих переменных вместе со своими частными производными, производные Гх, /г, /х, /и, О г, 0х удовлетворяют условию Липшица по своим переменным в любой замкнутой области их изменения.
Пусть п0 = (х0,и0, йц0) — допустимый начальный процесс задачи (Р). Тогда в задаче (ЯР) ему соответствует допустимый процесс £0 = (70, и0). Определим функции Л0,10 соотношениями
Л0(г) = {0(г0(г)),
'0<г)=■г е 5црр{йц0ь
10(г) = 0, г е [0, т] \ 8ирр{йц0},
где {0 и Г0 задаются с помощью (5) при йц = йц0. Положим п0 = (и0,Л0,10). При этом справедливо п0(г) = и0(Г0(г)), г е [0,Т], где и0 (в) — опорное управление в редуцированной задаче.
Для задачи (Р) введем функции Понтрягина
нх(г, х, д,р, и) = {р, /(г, х, и)) + д, н0(г, х,р, I) = {р, о(г, х)1),
и рассмотрим их выпуклую комбинацию
Н(г,х,д,р,п) = ЛН 1(г,х,д,р,и) + (1 — Л)Н°(г,х,р,1), Л е [0,1],
где п = (и,Л,1). Максимизирующее управление и = (и, Х,1) определяется одним из следующих способов:
i) (в методе условного градиента)
А = агг шах(Н.1 ,и), I = агг тах Н0,
иєи' ІЄдБ
( = 1, Н1 > Н0,
А ( =0, Н1 < Н0,
( Є [0,1], Н1 = Н0.
Здесь функции Н1, Н0 и Н1 подсчитываются при и = и0 (і) и I = 10(і). Очевидно,
(Нп(і, х, д,р, п0(і)),п(і, х, д,р)) = шах(Нп(і, х, д,р, п0(і)), п),
пЄМ
где и = и х [0,1] х В.
ii) (в методе проекции градиента)
п(і,х,д,р) = Ри (п0(і) + Нп(і,х,д,р,п0(і))^ ,
где Ри ( ) — оператор проектирования на множество и.
Опишем схему метода улучшения в задаче (Р).
• Сопряженная система
Обозначим через р0 = (ф0,ф0) решение системы дифференциальных уравнений с мерами
(_) dф = -Н}(И — Н01^°|, ф(Т) = —в,
(7) (ф = —Н^і — Н°х1й^01, ф(Т) = —Рх(х0(Т)).
Здесь производные функций Понтрягина вычисляются при
х = х0, и = и0 и I = I0.
• Построение нового управления
а) Вспомогательные управления. Положим
п(і) = А(і, х0(і),ф0(і), ф0(і)), при всех г Є [0, Т].
Для каждого т е О0 := {т е [0, Т] : [ц0(т)] =0} и всех $ е [0,1] определим
Пт ($) = (и(т),Л(т,^0($),90($),р0 ($)) ,Г(т)),
где функции ^0 удовлетворяют на [0,1] предельной системе вида (4):
(8) т = 0(т, г($))[ц°(т)], г(0) = х0(т—),
а функции р0 и ^0 — сопряженной предельной системе
т = —Н0 \[ц0(т)]\, 9(1) = Ф0(т),
(9) т = —нх \[ц0(т)]\, р(1) = ф0(т).
Здесь производные функции Понтрягина Н0 вычисляются в точке (т, 2Г($),р($), I0(т)).
Ь) Критерий остановки. Рассмотрим неотрицательную величину
(10) Д(п0) = / {Нп(г,х0,р0,п0),п — п0) йг0(г) + 0
Итеративный процесс заканчивается, если Д(п0) = 0.
с) Управления варьирования. При а е [0,1] введем семейство {п, пт} управлений варьирования
п(г) = п0(г) + а(п(г) — п0(г)), г е [0, т], пт($) = п0(т) + а(пт($) — п0(т)) $ е [0,1].
ё) Новое преобразование времени. Пусть {* — решение задачи Коши
{(в) = Л({0(в)), в е [0, Т + М] \ о0,
{(в) = Лт ($т(в)) ,в е о0, {(0) = 0,
где
(s):= S —^) , s e Q0 := [Г0(т-), Г0(т)],
и Q0 = UTeDoQ°. Определим r:(t) = inf{s : ^(s) > t}, t e [0,T].
Из условия Г1(Т) = T + M можно найти значение параметра в.
Обозначим D1 = {т : [Г1(т)] > 0}, Q1 = UTeDi Q^, Q^ =
[Г1(т-), Г1(т)].
e) Улучшающее управление. Определим функции и1, Л1 и I1 соотношениями:
u1(t) = u(st), t e [0, T] \ D0, и1(т) = uT(вт), т e D0, Л1^) = Л^), 11(t) = l(st), t e [0, T] \ (D0 U D1),
Л1(т) = Лт(вт), 11(т) = 1т(вт), т e D0 \ D1,
ап
Л1(т)=0, 11(т)=[Г1^, т e d1.
Здесь
Пт = [ l((0(s))ds + ^ / lv(dv(s))ds,
JQ i\П0 v eDJ Qi ПП0
st = С0(r1(t)) — модифицированное преобразование времени, представляющее собой результат «варьирования» временных шкал и отвечающее в конечном итоге за изменение носителя управляющей меры. Значения вт = $т (Г1(т)) имеют аналогичный смысл, но соответствуют траекториям предельной системы.
Построим на отрезке [0, T] векторную меру
d^1(t) = l1 (t)(dr1(t) — dt).
• Новая траектория исходной системы
Найдем на отрезке [0,Т] решение х1 уравнения (1) при управлениях и1, д^1. Обозначим через п1 = (х^и1,^1) новый управляемый процесс.
В итоге сформулированы методы улучшения в исходной задаче (Р), в основе которых лежат процедуры, соответственно, условного градиента и проекции градиента.
4. Свойства методов: улучшение и сходимость
Отметим, что для алгоритмов слабого варьирования критерием остановки является равенство нулю невязки Д(£0) линеаризованного принципа максимума в редуцированной задаче. Выражение (10) для Д(п°) получено в результате расшифровки Д(£°) с помощью соотношений замены времени, причем величины Д и Д на соответствующих процессах совпадают. Для каждого из построенных методов улучшения импульсных процессов справедлива следующая
Теорема 1 (об улучшении). Пусть допустимый процесс П° = (х0,и0,д,цР) не удовлетворяет условиям:
(11) и°(£) = &rgm&x(Hl(t,x0(t),ф0(t),'ф0(t),u0(t)),u) и
иЕи
(12) I°^) = а^шахН°(^ х°^), ф0^), I)
почти всюду по мере Лебега и по мере на [0, Т],
(13) Н1 ^ Н° при t </ 8ирр{й^°},
(14) Н1 ^ Н° при t е 8ирр{й^°},
где функции Н1, Н° подсчитываются в точке
(t,x0(t),ф0(t),ф0(t),u0(t)), и при каждом т е 8ирр{й^°} и всех § е [0,1]
(15) Н 1(т,г°(§),д°(§),р°(§),и°(т)) < Н°(т,г°(§),р°(§),1°(т)).
43
Здесь 1° — плотность меры йур; ф° = (/ф°,ф°) есть решение на [0, Т] сопряженной системы (7); при каждом т е 8ирр{й^} функция г° удовлетворяет предельной системе (8), а р° и д° — сопряженной предельной системе (9). Тогда метод улучшения импульсного управления определяет новый допустимый управляемый процесс п1 = (х1,и1,й^1) со свойством I(п1) < I(п°).
Доказательство. В силу соотношений замены времени [6] приращения целевых функционалов исходной и редуцированной задач совпадают. Другими словами, улучшение в задаче (Р) имеет место одновременно с улучшением в редуцированной задаче. Покажем, что из условия Д(п°) = 0 и представления (10) следуют соотношения (11)-(15). В самом деле, равенство Д(п°) = 0 эквивалентно условиям
(16) п°^) = П(Ь) п.в. на [0,Т] по мере дГ°, и
(17) при всех т е (и°(т), 0,1°(т)) = Пт(§) п.в. на [0,1].
Поскольку дГ° есть по определению сумма мер Лебега и |й^°|, выполнение соотношения (16) почти всюду по мере дГ° равносильно его выполнению почти всюду как по мере Лебега, так и по мере й^°. Тогда
(18) и°^) = и(^, 10(t) = Щ п.в. и й^°-п.в. на [0,Т].
Далее,
( =1, Н1 > Н°,
л0(t) = Щ { =0, Н1 < Н°,
{ е [0,1], Н1 = Н°,
где Н1, Н° подсчитаны вдоль опорного процесса и соответствующей сопряженной траектории. Применяя замену переменной под знаком интеграла Лебега-Стилтьеса в (6), заключаем, что Л°(^ = 1 п.в. на [0, Т] \ 8ирр{й^°}, и Л0(t) е [0,1) вдоль носителя меры й^°, что равносильно неравенствам (13) и (14). С другой стороны, поскольку а0^) = 0 при § е , имеем Л°(т) = 0 при т е 8ирр{й^^}. Рассмотрим условие (17). В силу определения
функций ит и 1т, равенство (17) означает, что и(т) = и°(т) и
44
1(т) = 10(т) при всех т e supp{d^0}. Комбинируя с (18), получим: u0(t) = U(t) и l0(t) = l(t) п.в. и d^-п.в. на [0,T], а это эквивалентно соотношениям (11) и (12). При т e supp{d^0} имеем Лт($) = 0, •& e [0,1]. Последнее равносильно неравенству (15).
Отметим, что параметр в определяется из условия r(T) = T+M. Поясним смысл соотношений (11)-(15). В целом эти условия можно интерпретировать как соотношения линеаризованного принципа максимума в задаче (P). Условие (11) дает линеаризованный принцип максимума для ограниченного управления u. Однако в отсутствие обычного управления u соотношения (12)-
(15) эквивалентны принципу максимума для импульсных процессов.
Отметим, что при решении редуцированной задачи улучшения могут возникать особые участки управлений а и е. Методы слабого варьирования (базовые алгоритмы) не улучшают управления (а, е), особые на всем отрезке [0, S]. Впрочем, импульсный процесс, отвечающий таким особым режимам в задаче (RP), удовлетворяет соотношениям (12)-(15).
Напомним, что используемые базовые алгоритмы [7] сходятся по невязке линеаризованного принципа максимума. Тогда справедлива
Теорема 2. Пусть пк — последовательность допустимых управляемых процессов задачи (P), генерируемая методом улучшения импульсных управлений. Тогда А(пк) ^ 0 при k ^ то.
Подведем итог: в случае отсутствия ограниченного управления u в задаче (P) базовые процедуры слабого варьирования порождают в исходной задаче улучшения итеративный процесс, который сходится к выполнению принципа максимума для импульсных управлений.
5. Пример
На практике часто удобнее применять базовый метод улучшения в редуцированной задаче, расшифровывая в терминах за-
дачи (Р) лишь траектории и управления, полученные в итоге работы алгоритма. Однако построенные нами методы могут применяться непосредственно для анализа ситуаций, когда начальное управление-мера содержит сингулярную непрерывную компоненту.
Рассмотрим задачу максимизации функционала I = х(1) при условиях
йх = tdц,, х(0-) = 0, t е [0,1],
(19) /1 М < 1.
°
В силу (19) имеем х(1) = / td^(t) ^ / й^(Ь) ^ 1.
°°
Проиллюстрируем этапы обобщенного аналога метода условного градиента. В качестве начального управления выберем сингулярную непрерывную меру, порожденую функцией ^°(^ = С (^, где С(t) — классическая функция Кантора. Тогда соответствующая опорная траектория имеет вид х°(^ =
Ю({) — [ С(в)йв, и I0 = 1 — [ С(t)dt = 1/2. Запишем со°° пряженную систему
ф = 0, ф(1) = 1, йф = —ф^)йц°, ф(1) = —в.
Ее решение имеет вид: ф°^) = 1, ф°^) = ^°(1) — ^°^) — в = 1 — в—С^). Функция Г°(t) = t+C(t) непрерывна и строго монотонно возрастает. Зафиксируем значение параметра варьирования а = 1 и построим управление
( =1, г°ед < 1+ в,
Л(0 { =0, г°со > 1 + в,
{ е [0,1], г°со = 1 + в.
Функция £° является обратной к функции Г°, и для любого в выполняется равенство Г°(£°(в)) = в. Следовательно,
( = 1, в < 1 + в,
Л(£°(в)) { =0, в> 1+ в,
{ е [0,1], в = 1+ в.
Обозначим в = в (в) = 1 + в. Решая задачу Коши {(в) = Л({°(в)), {(0) = 0, найдем функцию {1: {1(в) = в, в е [0, в), {1(в) = в, в е [в , 2]. Определим параметр в и момент времени в из терминального условия 1 = {1(2) = в = 1 + в. Получим, что в = 0, в = 1. Окончательно, {1(в) = в, в е [0,1) и {1(в) = 1, в е [1, 2]. Теперь мы можем построить новое обратное преобразование времени
Г1^) = t, t е [0,1), Г^)=2, t = 1.
Определим функцию Л1^) = Л^^Г1^))), то есть Л1^) = 1, t е [0,1), Л1(t) = 0, t = 1. Аналогично найдем управление 11({) = 1. В итоге, новые управляющая мера и траектория имеют вид
d^1(t) = ^(^^Г1^) — dt) = 6^ — 1),
х‘« = { 1 t ЦЛ)'
На полученном процессе достигается верхняя грань значений целевого функционала: 11 = 1.
6. Заключение
В работе построены новые методы улучшения импульсных процессов. Методы представляют собой результат расшифровки базовых алгоритмов слабого варьирования, т. е. градиентных процедур улучшения управлений в редуцированной задаче. Расшифровка проводится с помощью соотношений разрывной замены времени. Сформулированные нами методы могут применяться непосредственно для исследования задачи оптимального импульсного управления.
Литература
1. ГУРМАН В. И. Вырожденные задачи оптимального управления. - М.: Наука, 1977.
2. ГУРМАН В. И., БАТУРИН В. А., ДАНИЛИНА Е. В. И ДР. Новые методы улучшения управляемых процессов. - Новосибирск: Наука, 1987.
3. ДЫХТА В. А. Импульсное оптимальное управление в моделях экономики и квантовой электроники // Автоматика и телемеханика. - 1999. - №11. - С. 100-113.
4. ДЫХТА В. А., САМСОНЮК О. Н. Оптимальное импульсное управление с приложениями. - М.: Физматлит, 2000.
5. ЗАВАЛИЩИН С. Т., СЕСЕКИН А. Н. Импульсные процессы: модели и приложения. - М.: Наука, 1991.
6. МИЛЛЕР Б. М., РУБИНОВИЧ Е. Я. Оптимизация динамических систем с импульсными управлениями. - M.: Наука, 2005.
7. СРОЧКО В. А. Итерационные методы решения задач оптимального управления. - М.: Физматлит, 2000.
GRADIENT ALGORITHMS FOR OPTIMAL IMPULSIVE CONTROL
Elena Goncharova, Institute for System Dynamics and Control Theory, Siberian Branch of RAS, Irkutsk, ([email protected]).
Maxim Staritsyn, Institute for System Dynamics and Control Theory, Siberian Branch of RAS, Irkutsk, ([email protected]).
Abstract: We consider an optimal control problem for a measure-driven dynamic system under constraint on the total variation of a control measure. Parent algorithms based on weak variation of control are employed to solve a reduced optimal control problem with bounded controls. By applying discontinuous time reparameterization technique we translate the parent methods to formulate new algorithms for optimal impulsive control. The methods’ properties are investigated. An example is given.
Keywords: differential equations with measures, impulsive control, discontinuous time reparameterization, algorithms for optimal control.
Статья представлена к публикации членом редакционной коллегии А. П. Курдюковым