Вычислительные технологии
Том 15, № 2, 2010
Алгоритмы решения задач оптимального управления
с фазовыми ограничениями*
А. Ю. Горнов
Институт динамики систем, и теории управления СО РАН, Иркутск, Россия
e-mail: [email protected]
Рассматривается набор алгоритмов решения задачи оптимального управления с ограничениями типа неравенства, наложенными на траектории системы на всем интервале времени. Предлагаются модификации известных методов, приводятся детальные конструкции алгоритмов, обсуждаются их вычислительные характеристики. Алгоритмы использованы в качестве базовых для построения многометод-ных вычислительных технологий при реализации нескольких программных комплексов, ориентированных на задачи оптимизации динамических систем.
Ключевые слова: задача оптимального управления, фазовые ограничения, численные методы.
Введение
В практических задачах оптимального управления (ЗОУ), как правило, присутствуют ограничения не только на управляющие воздействия, но и на фазовые переменные. Традиционные подходы предполагают выделение двух классов ЗОУ с траекторными ограничениями: задачи с терминальными ограничениями (см. [1]), налагаемыми в конечный момент времени, и задачи с фазовыми (смешанными, интервальными) ограничениями, действующими на всем временном интервале. Задачи с промежуточными ограничениями, накладываемыми во внутренних точках интервала изменения независимой переменной, легко приводятся к одному из этих классов путем простых математических редукций и поэтому в отдельный класс не выделяются. Задачи с фазовыми ограничениями постоянно возникают в случаях, когда в процессе построения модели в систему дифференциальных уравнений не были внесены некоторые естественные тре~ бования: неотрицательности переменных, нахождения траекторий в некоторой "трубке", отсечения областей нефизичности модели и др. К задачам с фазовыми ограничениями формально может быть отнесен интенсивно исследуемый в настоящее время класс алгебро-дифференциальных (в других источниках дифференциально-алгебраических) систем.
Традиционно при реализации алгоритмов оптимизации динамических систем для учета траекторных ограничений применяется метод штрафов (см., например, [2-4]). Будучи простым и удобным в использовании этот метод, как известно, имеет существенные вычислительные трудности при решении вспомогательных задач и значительную потерю точности решения. В настоящей статье рассматриваются другие подходы
* Работа выполнена при финансовой поддержке РФФИ (грант № 09-07-00267), РГНФ № 09-02-00650 и Междисциплинарного интеграционного проекта СО РАН № 4.
© ИВТ СО РАН, 2010.
к построению численных алгоритмов для задач оптимального управления с фазовыми ограничениями и предложенные на их основе вычислительные методы.
1. Канонические постановки задач оптимального управления
Пусть имеется управляемый процесс, описываемый системой обыкновенных дифференциальных уравнений с начальными условиями х = /(х(Ь),п(1),1), х(Ь0) = х°, определенный на интервале Т = [¿0,¿1]. Здесь Ь — независимая переменная (чаще всего время); х(Ь) — п-вектор фазовых координат; п(Ь) — г-вектор управляющих функций; п-вектор-функцпя /(х(Ь),п(1),1) предполагается непрерывно-дифференцируемой по всем аргументам, кроме Начальный фазовый вектор х(Ь0) = х0 задан. Допустимыми будем называть управляющие функции п(Ь) и С Ег для V где и — выпуклое замкнутое множество из соответствующего пространства.
Задача оптимального управления со свободным правым концом траектории (ЗОУСК) состоит в поиске вектор-функции п(Ь), удовлетворяющей ограничениям и доставляющей минимум функционалу 10(п) = ф0(х(1\)). В задаче оптимального управления с терминальными ограничениями (ЗОУТО) присутствуют также ограничения вида I)(п) = ф^(х(Ь\)) = (<) 0 ] = 1,ш. В задаче оптимального управления с фазовыми ограничениями (ЗОУФО) на траектории системы имеются фазовые ограничения типа неравенства I)(п) = д^(х(Ь), п(Ь),Ь) < 0, ] = ш + 1, шЬ. Все функции ф^(х(Ь\)), ] = 0,ш, и д^(х(Ь),п(1),1), ] = ш + 1,шЬ, предполагаются непрерывно-дифференцируемыми по всем аргументам.
2. Специфика задач оптимального управления с фазовыми ограничениями
В отличие от задач оптимального управления с терминальными ограничениями по-ДсШЛЯЮТЦвв большинство ЗОУФО формулируется с ограничениями в виде неравенств. Появление в задаче фазовых ограничений-равенств типа д(х,п,Ь) = 0 чаще всего говорит о методической незавершенности модели; в такой ситуации уместно предварительно рассмотреть целесообразность сохранения в формулировке ЗОУ такого типа критерия. Если ограничения-равенства необходимо учитывать, можно воспользоваться одним из способов редукции задачи либо применить метод штрафования. Фазовые ограничения-равенства в силу вышесказанного не включены в каноническую постановку задачи, и в дальнейшем будут рассматриваться только методы учета фазовых неравенств.
Задачи оптимального управления с фазовыми ограничениями типа д(х,Ь) < 0 пли д(х, п,Ь) < 0 всегда считались сложными. Существенным фактором при решении таких задач является инерционность управляемой системы (индекс ограничения). При большой инерционности оптимальные траектории содержат на временном интервале участки "предварительного подхода" к ограничению ("сингулярная мера" при касании), на которых любые методы сходятся плохо. В терминах аппроксимирующей задачи математического программирования фазовое ограничение после поточечной дискретизации переходит в набор ограничений большой размерности. Многие аппроксимации задач с фазовыми ограничениями могут трактоваться как переопределенные задачи оптимизации, так как число ограничений в них может сильно превышать число переменных. Кроме того, фазовые ограничения могут быть причиной большого числа "паразитических" локальных экстремумов, возникающих во вспомогательных экстремальных задачах.
Возможности методов, хорошо изученные теоретически, существенно различаются по критериям точности, надежности и эффективности. Метод внешних штрафных функционалов несмотря на многочисленные критические замечания обладает (см. [5]) рядом очень привлекательных теоретических свойств и может быть весьма полезен на начальных этапах расчетов. Методы модифицированных функционалов Лагранжа (см., например, [6]) значительно более точные и могут расходиться при отсутствии хороших начальных приближений по прямым и двойственным переменным. Области сходимости методов ньютоновского типа еще меньше, однако при хороших приближениях они позволяют получать высокоточные решения. Таким образом, возникает естественная комбинация методов (мультиметодная схема), комплексные свойства которой превышают возможности каждого из методов, в нее входящих. Для задач оптимального управления с фазовыми ограничениями такая комбинация выглядит следующим образом: метод внешних штрафных функционалов — метод модифицированного функционала Лагранжа — метод приведенного градиента [7].
3. Метод внешних штрафных функционалов
При отсутствии априорной информации о задаче "метод штрафов" является наиболее разумным подходом на начальных стадиях расчетов, так как в силу своей простоты не вызывает никаких непрогнозируемых вычислительных эффектов.
Для сохранения свойства непрерывности второй производной, как и в задачах с терминальными ограничениями, используются кубические штрафные функции. Штрафом за нарушение ограничений д(х,и,Ь) < 0 является добавление к целевому функционалу слагаемого
¿1
д3(х,и,1), д(х,и,£) > 0
о, д(х,и,г) < о
¿0
производимое путем увеличения числа фазовых переменных:
х Г д3(х,и,г), д{х,и,г) > 0\ х ( )
Хп+1 = \0, д(х,и,г) < о }' хп+1(г°)-0-
Тогда суммарный функционал будет иметь вид 1(и) = 10(и) + в ■ хп+\(1\), где в — коэффициент штрафа. В целях экономии памяти при реализации алгоритмов можно не вводить дополнительную переменную в явном виде и вычислять штрафные добавки, используя одну из формул численного интегрирования. Схемы алгоритмов внешних штрафных функционалов тривиальны и различаются только стратегиями увеличения
в
4. Метод модифицированного функционала Лагранжа
Для более точного учета фазовых ограничений может быть использован метод модифицированного функционала Лагранжа. Впервые подобные конструкции для задач оптимального управления были исследованы в работах Ф.Л. Черноусько в 1980 -X ГГ. Рассмотрим модификацию этого популярного метода, ориентированную на ЗОУФО.
Введем функционал
tl
L(u, X, s) = Io(u) + j
to
1 (max{0, X(t) + s • g(x, u, t)}2 - X2(t))
2 ■ s
dt,
где Х(1) — множители Лагранжа (точнее, двойственные переменные), зависящие в данном случае от времени, в — коэффициент штрафа. Как и в предыдущем случае, строится метод типа последовательной безусловной минимизации, в котором формула пересчета двойственных переменных имеет вид Хк+1(£) = Хк(1) + в-шах{0,д(хк($),пк(1),1)}. Необходимо ОТМСТИТЬ^ Ч!ТО коэффициент штрафа носит для данного метода совершенно другой смысл, чем для метода внешних штрафных функционалов, являясь не столько основным средством достижения точности решения, сколько коэффициентом регуляризации, придающим свойство квазимонотонности процессу сходимости по двойственным переменным. Вычислительной практикой хорошо подтверждается теоретически известный факт, что для получения решения данным методом не требуется устремлять ков
значения, после чего уточнение решения производится за счет изменения двойственных переменных Х(1).
Для ЗОУФО алгоритм имеет следующий вид.
0. Задаются алгоритмические параметры:
Ал — коэффициент допустимого изменения двойственных переменных;
в — коэффициент увеличения штрафов;
7 — коэффициент допустимого изменения невязок.
1. Выбираются начальное приближение по прямым и двойственным переменным и
Щ, в1У
начальные значения коэффициентов штрафа u°(t), X°(t), Sj, j = 1,mt.
2. С имеющимися XK(t), sK, используя uK(t) в качестве начального приближения, решается задача
min L(u(t),XK(t),sK) = L(uK+l(t),XK(t),sK).
uEU
3. Вычисляется HOBOG приближение по двойственным переменным
XK+l(t) = XK(t) + sK • max{0,g(xK+l(t),uK+l(t),t)}, t e T, j = 1^1.
4. Определяется относительное изменение двойственных переменных
\xK+l(t) - xk(t)\ _
AXmax = max —--\ K+l, .\—, t e T, j = 1,mt.
1 + \ Xj (t) \
5. Если AXmax > A\, то увеличиваются все коэффициенты штрафа:
sK+l = ß • sK, j = T,mtt.
6. Если AXmax < Д, увеличиваются те коэффициенты штрафа, которые не позволили существенно уменьшить соответствующие невязки!
s
K+l I sK • ß, max{0,g(xK+l(t),uK+l(t),t)} >y • max{0,g(xK(t),uK(t),t)},
j 1 sK, max{0, g(xK+l(t),uK+l(t),t)} < y • max{0,g(xK(t),uK(t),t)},
j = 1,mt.
7. Производится переход на шаг 2.
Алгоритм завершен.
Сценарий работы алгоритма легко просматривается из его конструкции: на первом этапе корректируются как двойственные переменные, так и коэффициенты штрафа, при этом увеличиваются только те компоненты вектора штрафных коэффициентов, которые соответствуют наиболее "трудным" фазовым ограничениям. Затем, на втором этапе расчетов, все в^, 3 = 1,тЬ, фиксируются и дальнейшие коррекции касаются только (Ь), 3 = 1,тЬ.
5. Нелинейный метод приведенного градиента
Другим способом получения высокоточных решений ЗОУФО является применение методов типа "приведенного градиента". Основная идея данного подхода заключается в предварительном аналитическом или итеративном поиске управления, позволяющего найти траектории, точно скользящие вдоль фазового ограничения. Из равенства д(х,и,Ь) = 0 аналитически находится один из компонентов управления как функция фазовых переменных, остальных переменных управления и времени: ир(Ь) = п(х, и^ ,Ь), 3 = 3 = Р- Если управления явно отсутствуют в формуле для ограничения (т. е. для ограничений вида д(х,Ь) < 0), можно взять от уравнения д(х,Ь) = 0 несколько производных по времени и, привлекая уравнения системы, получить искомый аналитический вид ир(Ь). В общем случае, не привлекая пользователя к аналитической работе с моделью, для поиска ир(Ь) можно применить численные методы решения нелинейных уравнений, хотя такой подход, конечно, значительно влияет на время расчетов и точность результата. Далее строится двухуровневый алгоритм, верхний уровень которого составляет итерационное уточнение Зд (Ь), Ь Е [Ь0 ,Ь\], участков активности ограничения д(х,и,Ь) < 0, а нижний — оптимизацию системы при управлениях, фиксированных на участках Зд (Ь). Свойства рассматриваемого алгоритма, как и других высокоточных методов, не являются регулярными. Во-первых, возможен локальный "конфликт ограничений", который выражается в том, что получаемые на итерациях алгоритма щ(Ь) те удовлетворяют ограничениям и Е и. Выходом из такой ситуации может стать конструирование методов, допускающих локальное нарушение ограничения и Е и и обеспечивающих попадание управлений в допустимый параллелепипед только в конце итеративного процесса. Во-вторых, генерируемая двухуровневым алгоритмом последовательность значений суммарного функционала в общем случае не является монотонной, при каждом изменении Зд (Ь) происходит скачкообразное изменение управления, так как вариация первого уровня принципиально не обладает свойствами малости. Это свойство алгоритма можно считать критическим, поскольку чаще всего в таком виде не наблюдается сходимости последовательности управлений к оптимальному. Для получения свойства квазимонотонности последовательности улучшаемых управлений и, следовательно, корректно работающего алгоритма требуется регуляризация процесса. В качестве регуляризатора можно использовать стандартный квадратичный штрафной функционал, коэффициент штрафа в котором должен сразу выбираться ДОВОЛЬНО большим. Вышеописанный подход легко обобщается на случай двусторонних и многомерных фазовых ограничений и позволяет сконструировать эффективные высокоточные алгоритмы для ЗОУФО широкого класса.
Ниже рассмотрен алгоритм интегрирования прямой системы, применяемый при реализации нелинейного метода приведенного градиента.
1. Выбирается ик(Ь), Ь Е Т.
2. Вычисляется вспомогательное управление ир(Ь) = п(х,и^,Ь), 3 = 1,т, 3 = Р-
3. В цикле по т от Ь0 до Ь1 с шагом к:
3.1. Выбирается у(т) = ик(т);
3.2. Делается один шаг метода интегрирования, получается х(т + к);
3.3. Если д(х(т + к),у(т),т) < 0, то производится переход на шаг 4 (см. ниже);
3.4. Если д(х(т + к),у(т),т) > 0, то корректируется управление; полагается ь(т) =
иР(т);
3.5. Снова делается один шаг метода интегрирования; вычисляется х(т + к).
т
Алгоритм завершен.
Результатами работы такого алгоритма являются: а — управление, состоящее из кусков ик(Ь) на участках временного интервала, где фазовые ограничения неактивны, и кусков ир(т) на участках, где фазовые ограничения нарушаются; б — соответствующая траектория, незначительно нарушающая фазовые ограничения. Построенное кусочно-непрерывное управление при условии улучшения целевого функционала используется на следующей итерации общего алгоритма оптимизации в качестве ик+1(Ь). Кроме мощного регуляризатора, метод нелинейного приведенного градиента для сходимости требует наличия хорошего начального приближения. В результате получаются траектории, аппроксимирующие оптимальные и нарушающие фазовые ограничения с точностью порядка погрешностей метода интегрирования.
6. Метод параметризации ограничений
Требования к точности удовлетворения фазовых ограничений в практических задачах редко бывают очень высокими. Во многих случаях, особенно на начальных стадиях работы с моделью и при проведении качественных исследований, вполне достаточно решать ЗОУФО ДОВОЛЬНО грубо. Уточнение решения, зачастую производимое с целью подтверждения адекватности модели и работоспособности алгоритма, редко приводит к значительному изменению качественной картины решения и значений оптимизируемого функционала. Задачи с высокими требованиями к точности удовлетворения ограничений, очевидно, являются более сложными, требуют специальных подходов и могут рассматриваться как специальный подкласс ЗОУФО; для таких задач хороший вычис-лительныи эффект обычно дает параметризация ограничений.
Для ограничения д(х,и,Ь) < 0 строится вспомогательный функционал качества, опирающийся на ограничение вида д(х,и,Ь) < £д, где £д — коэффициент параметризации. Далее решается последовательность из к задач при £0 < £1д < ... < = 0, где начальным управлением в каждой последующей задаче является наилучшее приближен-
£д0
одну вспомогательную задачу оптимального управления методом штрафных функционалов с небольшими штрафными коэффициентами и положив £0 = тах{д(х(Ь),и(Ь),Ь), Ь Е [Ь0,Ьд]}. Для учета параметризованных ограничений можно использовать один из описанных выше стандартных методов, например, алгоритм модифицированных функционалов Лагранжа. Такой комбинированный метод погружения исходной задачи в ряд
аппроксимирующих задач, как правило, позволяет значительно повысить точность удовлетворения фазовых ограничений и достичь регулярности при сходимости алгоритма.
Заключение
Предложенные модификации алгоритмов стали основой функционального наполнения нескольких программных средств, реализованных автором для задач оптимального управления: пакет прикладных программ мапр, блок "Нелинейное оптимальное управление" (1981-1989 гг.), программный комплекс ()РТО( ).\-1)()Я (1987-1990 гг.), программный комплекс ортссж-раеаьь (1999-2002 гг.), вычислительный сервер ортссж (2000-2003 гг.), программный комплекс ортсоы-ш (2004-2008 гг.). с применением предложенных алгоритмов был решен ряд прикладных задач оптимизации в следующих областях: динамика полета, космонавигация, робототехника, электроэнергетика, экономика, экология, социология, медицина.
Список литературы
Ц Горнов А.Ю. Алгоритмы решения задач оптимального управления с терминальными ограничениями // Вычисл. технологии. 2008. Т. 13, № 4. С. 44-50.
Федоренко Р.П. Приближенное решение задач оптимального управления. М.: Наука, 1978. 488 с.
Еремин И.И. Метод штрафов в выпуклом программировании // Докл. АН СССР. 1967. Т. 173,№ 4. С. 748-751.
Евтушенко Ю.Г. Методы решения экстремальных задач и их применение в системах оптимизации. М.: Наука, 1982. 432 с.
Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983. 382 с.
6] Бертсекас Д. Условная оптимизация и методы множителей Лагранжа. М.: Радио и связь, 1987. 400 с.
[7] Горнов А.Ю., Диваков А.О. Комплекс программ ОРТССЖ для решения задач оптимального управления. Руководство пользователя. Иркутск: ИрВЦ СО АН СССР, 1990. 36 с.
Поступила в редакцию 30 апреля 2009 г.