ВЕСТН. МОСК. УН-ТА. СЕР.1, МАТЕМАТИКА. МЕХАНИКА. 2008. №6
49
Механика
УДК 531.36
МЕТОД ОХОЦИМСКОГО-ПОНТРЯГИНА В ТЕОРИИ УПРАВЛЕНИЯ И АНАЛИТИЧЕСКОЙ МЕХАНИКЕ. ЧАСТЬ 1: МЕТОД ОХОЦИМСКОГО-ПОНТРЯГИНА В ТЕОРИИ УПРАВЛЕНИЯ
Ю. Ф. Голубев
Введение. Острая необходимость решать задачи оптимального управления возникла в середине 40-х гг. XX века в связи с проектами запуска баллистических ракет и выведения на орбиту искусственных спутников Земли. В отличие от задач классического вариационного исчисления множество допустимых фазовых кривых в задачах оптимального управления должно было удовлетворять заданным дифференциальным уравнениям движения, тогда как искомое управляющее воздействие входило в правую часть этих уравнений как выбираемая с достаточным произволом функция. Критерием качества управления могли быть функционалы, выражающие энергетические затраты, расход топлива, время движения, а зависимость функционала от управления оказывалась опосредованной в силу заданных уравнений движения. Кроме того, траектории обязаны были удовлетворять заданным краевым условиям, связанным с преследуемой целью управления. Это был совершенно новый класс задач, для решения которых в то время не существовало регулярной эффективной техники решения, аналогичной той, что была разработана для классических вариационных задач. В связи с этим разными авторами было исследовано несколько подходов, позволяющих с той или иной степенью эффективности изучать задачи указанного класса. Среди них наибольшую популярность получили метод первой вариации Охоцимского, известный также как метод множителей Лагранжа [1], принцип максимума Понтрягина [2] и метод Айзекса-Беллмана [3, 4]. Литература по методам теории управления огромна. Современное состояние этих методов отражено в книге [5]. Идея метода первой вариации наиболее близка к идее классического вариационного исчисления о нахождении дифференциала функционала на заданном множестве функций, что роднит ее также с основной идеей математического анализа исследования свойств функции по дифференциалу. Поэтому метод первой вариации обладает значительной гибкостью в смысле возможности учета разнообразных дополнительных к базовой модельной постановке ограничений, свойственных проектным задачам. Д. Е. Охоцимский, разработавший метод первой вариации для задач управления, сформулировал стандартную процедуру, позволяющую найти дифференциал функционала в пространстве управлений при весьма необременительных ограничениях на свойства функционала. Однако эта процедура не была строго формализована и допускала различные равносильные варианты ее реализации. Формализм Л. С. Понтрягина, связанный с введением сопряженных переменных и гамильтоновой системы в расширенном за счет сопряженных переменных пространстве состояний, обеспечивает однозначность процедуры дифференцирования функционалов и позволяет учесть при решении задач оптимального управления хорошо изученные свойства гамильтоновых систем. Соединение метода дифференцирования функционалов, предложенного Д. Е. Охо-цимским, с формализмом Л. С. Понтрягина для задач оптимального управления будем в дальнейшем называть методом Охоцимского-Понтрягина.
В данной статье прослеживается связь метода Охоцимского-Понтрягина с другими походами к решению задач управления и методами классического вариационного исчисления. Предлагается обобщающее обоснование интегральных вариационных принципов механики, которое позволяет установить полезные аналогии некоторых общих положений теории управления с известными результатами аналитической механики.
Метод Охоцимского-Понтрягина. Возьмем некоторую систему дифференциальных уравнений ^ = хеГ, и еКк, х = (жь... ,хт), и = (щ,... ,ик), (1)
где скаляр Ь £ [¿о — е, + е] — время; х — вектор переменных, для которых могут быть заданы краевые условия: х(£о) = хо, х(Ь\) = хх; и(£) — управление, выбираемое так, чтобы были выполнены условия существования и единственности решения системы (1).
Обозначим через 7 опорную вектор-функцию в пространстве Кк:
7 = {и е Ек : и = и(£), ¿0 — е < £ < + е}, е > 0.
50
ВЕСТН. моек. УН-ТА. СЕР.1, МАТЕМАТИКА. МЕХАНИКА. 2008. №6
Пусть 7' — другая вектор-функция:
7' = {и' е Кк : и' = и(£) + 5и(г), ¿о - е < í < ¿1 + е].
Представим ее в виде 7' = 7 + 5. Зададим некоторый функционал Ф(7,¿о,¿1,хо,х1)- Изучим свойства приращения
ДФ = Ф(7 + 5, ¿о + + (¿1, хо + dxо, Х1 + (х1) - Ф^,^,^, хо, Х1).
Определение. Функционал Ф называется дифференцируемым на некотором множестве вектор-функций 7 и параметров ¿о, ¿1, хо, Х1, если ДФ представляется суммой двух функционалов: ДФ = (Ф + К, где (Ф = (Ф(5, (¿о, (¿1,(хо,(х1, ^,¿0, ^ 1., хо, х1) зависит от 5, (¿о, , (хо, (х1 линейно при фиксированных 7, ¿о, ¿1, хо, х1 и называется дифференциалом функционала Ф, а К есть малая более высокого порядка относительно ||5||, (Но, (¿1, ||(хо||, ||(х11|. Слагаемое 5и(£) называется изохронной вариацией вектор-функции.
Найдем дифференциал функционала
ч
Ф(7,*о,*1,хо,х1) = J W(x, и,Ь) сМ
¿0
по всем аргументам. Обозначив ф = (Ф1,... ,фт), составим вспомогательный функционал
¿1
Л
¿0
г=1
8=1
Функционал Л совпадает с функционалом Ф для функций х(£), удовлетворяющих системе уравнений (1). При этом коэффициенты фг{Ъ), 2 = 1,...,ш, можно выбирать совершенно произвольно. Воспользуемся произволом с целью преобразования дифференциала функционала к виду, в котором будут присутствовать только 5п^, j = 1,...,к, (Мо, (¿1, (хо, (х1. Выполним дифференцирование в предположении, что х(Ь) удовлетворяет системе (1):
(Ф =
дН
дН
Е ш ** + Е Е **
г=1
3=1
ди
г=1
(И
г=1
(И
(2)
Внеинтегральным членом выражается приращение функционала из-за изменения пределов интегрирования. Символ "5" означает изохронное варьирование (при фиксированном времени) соответствующих функций. Полное варьирование (полный дифференциал), учитывающее возможность изменения параметра Ь вместе с изохронным варьированием, выражается формулой
(Хг = 5хг + /г(х, и, ¿)
(3)
Меняя порядок вхождения символов изохронного варьирования и дифференцирования по времени в последнем слагаемом подынтегрального выражения в (2) и выполняя интегрирование по частям, найдем
(Ф =
3 = 1
г=1
¿1
¿0
Фг 5хг
г=1
0
Учитывая равенство (3), получим
¿1
(Ф =
дН
§ (Ш++ е ^■5щ)м+Iя 1- §'^1
1
0
(4)
Теорема 1 (метод Охоцимского—Понтрягина). Дифференциал функционала Ф для опорного управления и(Л) дается формулой
к дНН ( т
У^ --5щ ( Н (М - Фг (1х,
¿0 3 = 1 3 V
¿1
¿0 5=1
Й = Ш + Е иЛ (5)
при условии, что вектор-функция ф(Л) = (^1 (Л),..., фт(¿)) удовлетворяет совместно с вектор-функцией х(Л) системе дифференциальных уравнений
(1x1 _ дН_ _ _дН_ . _
(М дфг' (М дхг' '''''
Доказательство непосредственно следует из формулы (4), которая справедлива независимо от выбора вектор-функции ф [1].
Компоненты вектора ф, определенные системой уравнений (6), называются сопряженными переменными, а соответствующая им система дифференциальных уравнений — сопряженной системой. Функция Н называется функцией Гамильтона или гамильтонианом задачи управления. Система (6) при заданном управлении представляет собой гамильтонову систему дифференциальных уравнений [2].
1.1. Необходимые условия экстремальности. Пользуясь произволом в выборе начальных и конечных значений сопряженных переменных, обнулим внеинтегральные члены выражения для дифференциала в (5), т.е. потребуем выполнения условий трансверсальности [2]
Я(х(Ло), и(Ло), Ф(Ло)) ¿¿о - Фг(Ло) (1хг(Ьо) = 0,
г=1 т
Я(х(*1), и(Л1), ф(Л1)) ¿¿1 -22 Фг(Л1) сХ^Ь) = 0,
которые подходящим выбором ф и и в точках ¿о и ¿1 должны быть удовлетворены для любых допустимых в этих точках условиями задачи дифференциалов сМ и йх. Условия трансверсальности обусловливают краевые значения вектор-функции ф. При выполнении условий трансверсальности в формуле (5) останутся члены, содержащие только вариацию управления:
/к т т ^т
¿0 3=1 3 5=1
Замечание. В приведенных выше рассуждениях не требовалось каких-либо жестких ограничений на функции Ш(х, и,Л) и и(Л). Достаточно лишь, чтобы выполнялись условия существования решений сопряженной системы, а функция У^ —— би* была интегрируемой в смысле исходного функционала. Напри-
^ ди3
3=1
мер, функция Ш может быть кусочно-дифференцируемой по управлению, а и(Л) — кусочно-непрерывной вектор-функцией.
В технических приложениях управление, как правило, принадлежит замкнутой ограниченной области. По этой причине понятие экстремали функционала было соответствующим образом обобщено [1]. Экстремалью функционала Ф называется функция 7, для которой дифференциал СФ не улучшает в выбранном смысле значения функционала при любой допустимой вариации 5.
В частности, если на управление не наложено никаких ограничений, то экстремалью будет вектор-функция 7, для которой СФ = 0 при любой вариации 5, что влечет дН/ди = 0. Если управление принадлежит замкнутой ограниченной области О, то экстремаль может быть как внутри области, так и на границе. Для участков экстремали внутри области для соответствующих компонент из должно быть дН/диз = 0, а для участков, принадлежащих границе, дифференциал не обязан равняться нулю, но никакая допустимая вариация управления не должна улучшать функционал.
Различные компоненты вектора управления могут преследовать противоположные цели в смысле улучшения величины функционала, и тогда получаются постановки теории дифференциальных игр.
Пример 1. Рассмотрим задачу быстродействия в нуль для линейной системы
^ = Ах + Ви, х£Й" йЬ
и е Кк, \щ\ < йг > 0,
где А(Ь), В(Ь) — матрицы размерности (т х т) и (т х к) соответственно. Требуется за минимальное время Т из заданного в фиксированный начальный момент времени Ьо состояния х = х(Ьо) привести систему к моменту ¿1 = Ьо + Т в состояние х(Ь1) = 0. Такая постановка задачи используется при стабилизации объектов.
В данном случае функционалом служит время:
¿1
йф
Ф= 1М, Я = 1 + ф (Ах + Ви), = —А ф, (1Ф = ф^биМ,
¿о
¿0
а условия трансверсальности с учетом условий задачи сводятся к одному уравнению [1 + фт(Ь1)В(Ь1 )и(Ь1)] = 0. Экстремали выражаются формулами
иг = ^йг фу Ьуг , ,
Кз=1
т
г = 1,...,к,
где знак выбирается в зависимости от того, должна данная компонента уменьшать время попадания в нуль или увеличивать его.
1.2. Динамическое программирование. Воспользуемся принципом оптимальности, гласящим, что любой кусок оптимальной траектории есть также оптимальная траектория. Пусть на отрезке [Ьо ,Ь1] управление и(Ь) в том или ином смысле оптимально. Зафиксируем его, положив §и(Ь) = 0. Тогда Ф = Ф(Ьо, хо ,Ь1, Х1). Если сопряженные переменные совместно с переменными состояния удовлетворяют уравнениям (6), то, как следует из (5), дифференциал йФ выражается формулой
йФ = [и йЬ Фг ОхЛ
^ г=1 '
¿1
¿0
которая проясняет смысл сопряженных переменных. Если зафиксировать управление и взять ф(Ь1) так, чтобы было выполнено
Я(Ь1) йЬ1 Фг (Ь1) йхг (Ь1) =0,
г=1
то тогда
или
йФ = -Й(Ьо) йЬо + ^Фг(Ьо) йхг(Ьо),
г=1
9Ф
Ж
= Я(хо, ио, Фо,Ьо),
= 0
ЭФ
дХг
= Фг(Ьо).
= 0
Имеем аналог уравнения Гамильтона-Якоби для начальных условий
—- Ь Я I х^,..., хт, и\,..., и^у тг ) • • •) т: ) ^ дЬ \ дх1 дхт
0,
= 0
что можно переписать также в виде соответствующего уравнения Айзекса-Беллмана [3, 4]
= -Ъ^ и,Ь)|4=о.
дФ т дФ 8=1
(7)
= 0
Аналогичная процедура может быть выполнена и для момента времени Ьь Левая часть (7) имеет смысл полной производной по времени в силу уравнений (1) от функционала Ф, рассматриваемого в виде функции от начальных значений времени и координат: Ф = Ф(Ьо, хо).
Отметим, что если Ф = Ф(х) (не зависит явно от времени), то тогда должно быть
Я(х(Л), и(Л), ф(¿),Л) = 0
вдоль траектории, соответствующей управлению и(Л), т.е. функция Н(х(Л), и(Л), ф(¿),Л) будет первым интегралом системы уравнений (6).
К соотношению (7) можно отнестись как к уравнению в частных производных первого порядка и ввести понятие полного интеграла [6] 5 = 5(х1,..., хт, а1,..., ат, ¿), т.е. функции, зависящей от произвольных постоянных а1,..., ат и удовлетворяющей (7), причем
/ д2Б \
е \dxidaj )т
Если такая функция известна, то полная совокупность первых интегралов системы (6) дается формулами
дБ дБ .
Т— = Рг, Т— = -щ, 1 = 1,..., т. даг дхг
Доказательство этого факта вполне аналогично приведенному в [6].
Пример 2 (одномерная задача о быстродействии). Движение системы задано уравнением
д = и, —1 < и < 1,
где и — управление, выбираемое произвольно в указанном диапазоне, но так, чтобы уравнение движения имело решение. В начальный момент времени ¿о =0 система имеет координату д(0) = до и скорость д(0) = до. Управление требуется выбрать так, чтобы перевести точку из начального заданного положения в положение д(Т) = 0, д(Т) =0 за кратчайшее время. Решение этой задачи можно посмотреть в [2] или, например, в [6]. Обозначим Х1 = д, Х2 = д. Быстродействие достигается управлением
+1, х1 < Х1;
|Х2|Х2
и = < — эщпжг, х\ = х\; х\ =---—,
— 1, х1 > Х1,
а функция Ф(Х1,Х2)|4=о на этом управлении принимает вид
2\/х\/2 — х\ — х2, х\ < Х\\
Ф(Х1 ,Х2)|4=о = { |Х21, Х1 = Х1;
/2 + Х1 + х2, Х\ > Х\. Уравнение (7) можно записать следующим образом:
( дФ дФ дФ
-Т7Г + Т—Ж 2 + Т—, Х1<Х1]
дЬ дх1 дх2
дФ дФ дФ -1 = -ттг + т— - т— вщпжг, Х1=Х1] т дх1 дх2
дФ дФ дФ
-Т7Г + Т—Ж 2-Т—, Х1>Х1.
т дх1 дх2
Функция Ф(х1, Х2) |¿=о, очевидно, этому уравнению удовлетворяет. Поскольку Ф от времени явно не
зависит, замечаем, что для оптимального управления справедливо тождество Н = 1 + Ф1Х2 + ф2и = 0. Полный интеграл уравнения Беллмана в данном случае имеет вид
а4(х2 — ¿) + а1{х1 — хУ2) — х2, х1 < Х1;
5 = ^ —аг(|х21 + + а^Х1 + |х2Х2/2) + |х2|, Х1 = Х1; —а4(х2 + ¿) + а1{х1 + х2/2) + х2, х1 < Х1.
1.3. Методы терминального управления. Зададим конечный момент времени каким-нибудь условием. Пусть задача управления состоит в том, чтобы обеспечить при Ь = заданное значение хд некоторой характеристики х(х(Ь),Ь)). Предположим, что в начальный момент времени т заданы исходные значения вектора х(т) и выбрано управление и(Ь), которому соответствует значение х(^\) = Хи. Возьмем Ьо — текущий момент процесса управления: т < Ьо < Ьь Этому моменту в результате интегрирования системы (1) с управлением и(Ь) соответствует значение х(Ьо). В реальном процессе из-за несовершенства модели движения и ошибок возникнут отклонения бх(Ьо). Влияние управления в интервале времени [Ьо ,Ь 1] на величину Х(^) оценим с помощью функционала Ф = х(^1) — х(Ьо). Задав конечные условия для сопряженных переменных так, чтобы было
т
#(¿1) бъ — ^ Фг(Ь1) бхг(¿1) = 0,
г=1
получим выражение для дифференциала функционала
к
дип
/к д j j j
Y^ ÖU3 dt + Y ФгЫ dXi(to). to j=1 Uj i=1
Здесь компоненты вектора ф(Ьо) характеризуют влияние наблюдаемых отклонений вектора х на конечное значение функционала. Влияние управления выражается интегральным членом. Положив бФ = Хд — Хи, найдем интегральное уравнение для приращения 5и(Ь), устраняющее в первом приближении рассогласование Хд — Хи:
/к сдИ ^т
д^- М = Хд-Хи-^2 ^¿^о).
г0 з=1 Пз г=1
Решение этого уравнения неоднозначно. Однако ясно, что если хд = Хи, а Ьо близко к то с ограниченным управлением возникнут проблемы. Выбрав опорное управление так, чтобы было хд = Хи, окончательно получим
/к д И ^т
• 1 9из " 3
to j=1 J i=1
Чтобы разрешить неопределенность, можно параметризовать управление с помощью модулирующих функций [7]. Назначим 5и] = в]Ф] (Ь), где в] не зависят от времени, а ф] (Ь) — специально подобранные функции. Одним из возможных решений уравнения (8) может быть
т
^2фг(Ьо) бхг(Ьо) н
ßj = fJbj, ß = ---1-, bj = j (pj(t) dt.
b2 to 3
b3
J2b2
3=1
Применяя подходящие модулирующие функции, можно организовать многошаговый процесс выбора управления [7].
Работа выполнена при поддержке РФФИ, грант № 07-01-00134.
СПИСОК ЛИТЕРАТУРЫ
1. Охоцимский Д.Е., Энеев Т.М. Некоторые вариационные задачи, связанные с запуском искусственного спутника Земли // Успехи физ. наук. 1957. 63, вып. 1. 5-32.
2. Понтрягин Л.С., Болтянский В.Г, Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. М.: Наука, 1961.
3. Айзекс Р. Дифференциальные игры. М.: Мир, 1967.
4. Беллман Р. Динамическое программирование. М.: ИЛ, 1960.
5. Александров В.В., Болтянский В.Г, Лемак С.С., Парусников Н.А., Тихомиров В.М. Оптимальное управление движением. М.: ФИЗМАТЛИТ, 2005.
6. Голубев Ю.Ф. Основы теоретической механики: Учебник. 2-е изд., перераб. и дополн. М.: Изд-во МГУ, 2000.
7. Охоцимский Д.Е., Голубев Ю.Ф., Сихарулидзе Ю.Г. Алгоритмы управления космическим аппаратом при входе в атмосферу. М.: Наука, 1975.
Поступила в редакцию 26.03.2008
УДК 531.396
МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ФОРМИРОВАНИЯ ВЫХОДНОЙ ИНФОРМАЦИИ В ГРАВИТОИНЕРЦИАЛЬНОМ МЕХАНОРЕЦЕПТОРЕ ПРИ ПАДЕНИИ
В САГИТТАЛЬНОЙ ПЛОСКОСТИ
В. А. Садовничий, В. В. Александров, Т. Б. Александрова, Р. Вега, Г. Кастильо Кироз, М. Рэйес Ромеро, Э. Сото, Н. Э. Шуленина
Данная статья является продолжением статьи [1], где было введено понятие гравитоинерциального механорецептора. В соответствии с определением вторичного механорецептора (в физиологии) понятие гравитоинерциального механорецептора уточняется введением понятий первичной и вторичной выходной информации. Представляются математическая модель формирования этих выходных информационных процессов и сравнительный анализ с физиологическим экспериментом, выполненным на поворотном стенде в лаборатории нейрофизиологии Автономного университета штата Пуэбла (Мексика).
1. Рассмотрим экстремальную ситуацию — начальный этап неуправляемого падения человека в сагиттальной плоскости (порядка 100 мс), когда еще возможно стабилизировать вертикальную позу. Как показано в статье [2], наибольшая реакция волосковых клеток на механический стимул, приводящий к падению, наблюдается в клетках, расположенных по оси чувствительности макулы саккулюса, ортогональной местной вертикали в начальный момент (рис. 1).
Саккулюс, так же как и утрикулюс, является многоразмерным акселерометром, позволяющим получать информацию о кажущемся ускорении отолитовой мембраны по многим направлениям чувствительности. Нас интересует только одно из этих направлений, определенное выше. В связи с этим в дальнейшем речь пойдет не о математической модели динамики отолитовой мембраны в плоскости, параллельной плоскости макулы, и реакции на этот механический стимул многих волосковых клеток и афферентных первичных нейронов, а только о динамике по определенной выше оси чувствительности. Так как по рассматриваемой оси чувствительности (рис. 1) расположены волосковые клетки, у которых положительное направление совпадает с направлением падения вперед (они расположены перед стриолой (reversal line)), и волосковые клетки, у которых положительное направление совпадает с направлением падения назад (они расположены за стриолой), то будем учитывать реакции двух волосковых клеток с противоположными положительными направлениями чувствительности. Совокупность волосковой клетки с афферентным первичным нейроном, согласно статье [3], будем называть вестибулярным механорецептором. Вестибулярный механорецептор является базовым элементом всех сенсорных образований вестибулярного аппарата.
Гравитоинерциальным механорецептором для стабилизации вертикальной позы в сагиттальной плоскости будем называть совокупность трех математических моделей, первая из которых описывает динамику отолитовой мембраны по рассматриваемой оси чувствительности, а две другие — реакцию на смещение отолитовой мембраны вестибулярных механорецепторов с противоположными положительными направлениями (рис. 2). На рис. 2 для простоты представлен один вестибулярный механорецептор, второй имеет аналогичную структуру. Математическая модель вестибулярного механорецептора состоит из четырех блоков: первый блок, соответствующий механизму механоэлектрической трансдукции, объединен со вторым блоком динамики общего ионного тока и мембранного потенциала волосковой клетки при наличии общей обратной связи, соответствующей процессу адаптации; третий блок соответствует механизму си-наптической трансмиссии; четвертый блок описывает активность афферентного первичного нейрона.
Ввсрх
Рис. 1. Схема макулы саккулюса с направлениями чувствительности волосковых клеток