X ИНФОРМАЦИОННО-УПРАВЛЯЮЩИЕ СИСТЕМЫ
УДК 62-50:531.8
МЕТОД ОБЪЕДИНЕННОГО ПРИНЦИПА МАКСИМУМА В ПАРАМЕТРИЧЕСКИХ ЗАДАЧАХ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
А. А. Костоглотов,
доктор техн. наук, доцент
Ростовский военный институт ракетных войск им. Главного маршала артиллерии М. И. Неделина
А. И. Костоглотов,
доктор техн. наук, профессор
Ростовский государственный университет путей сообщения А. В. Чеботарев,
старший офицер-инженер
Пограничный научно-исследовательский центр ФСБ России
Предлагается новый подход к решению задачи синтеза оптимального управления. Показано, что применение игольчатой вариации Л. С. Понтрягина к инвариантным признакам действительного движения системы позволяет получить условие минимума параметрического функционала в форме принципа максимума.
Ключевые слова — оптимальное управление, объединенный принцип максимума, асинхронно-игольчатое варьирование.
Введение
В настоящее время трудно представить направления в науке и технике без использования достаточно развитой теории оптимального управления. Однако применение на практике классических методов вариационного исчисления, динамического программирования и принципа максимума вызывает ряд затруднений, связанных с необходимостью решать двухточечную краевую задачу и применять мощные вычислительные средства [1-5]. Кроме того, полученные на их основе алгоритмы представляют собой лишь программы оптимального управления, а для решения задач синтеза требуются дополнительные, сложные построения [6, 7].
Возможен и другой подход, основанный на использовании экстремальных свойств истинных траекторий [8, 9]. При этом условия оптимальности могут быть получены из условия минимума расширенного функционала, объединяющего интеграл действия и интегральный функционал меры качества. Процедура приводит к требованию максимума для функции обобщенной мощности Ф(и, q, д), которая является трансформацией гамильтониана Л. С. Понтрягина. В результа-
те получается прямое решение задачи синтеза оптимальных управлений, а не решение задачи оптимального программного управления. В этом заключается отличительная особенность результата, получившего название объединенный принцип максимума [1]. Он является дальнейшим развитием идеи Л. С. Понтрягина о принципе максимума и его приложении к практическим задачам.
Постановка задачи синтеза оптимального управления
Примем принцип Гамильтона — Остроградского в качестве исходного положения динамики материальной системы, интеграл действия которой имеет вид
%
R = f (Т + А)&, (1)
0
где Т — кинетическая энергия системы; А — работа внешних обобщенных сил.
При движении системы из начального состояния 1 ^ q(t0) = ..., q0J, (ЦЦ) = [до1>---> У0п~\
в конечное 1 ^ q(t1) = ^ . qln], 5^) = [5П,51„]
под действием внешних сил ф = [фр ..., ф,,] и управлений и = [и1, ..., ит] принцип Гамильтона — Остроградского записывается [3] в виде
1
5 ' R = J (8T + 5 'A)dt
= 0,
(2)
где 5!А — элементарная работа обобщенных сил:
5 ’А = ^ТЯ3 5$,, (3)
3=1
здесь Q = [01 (д, д, и),..., Q3 (д, д, и)] — непрерывный по совокупности переменных вектор обобщенных внешних сил; и = [и1, ..., ит] — вектор управления:
пт е ои. (4)
Из принципа Гамильтона — Остроградского (2) вытекают уравнения Лагранжа второго рода
дТ_ _дТ_ = 0
dt д4а дqa 3’
s = 1,n; t = to, qs(to) = qQs; t = ^ qs (tl) = qis •
(5)
Пусть задана непрерывная вместе с частными производными во всей области определения определенно-положительная функция F(q, q, и, ^. Тогда имеет место следующая формулировка задачи синтеза оптимального управления: определить вектор управления и = и(д, <д), ии Gu как функцию обобщенных координат и обобщенных скоростей (д, д) е R и соответствующую ему траекторию q(t)eRn перевода фазовой точки из начального состояния в конечное такие, что обеспечивается минимум целевого функционала <1
*1 =f Пя, д, и, ^)d^ ^ ш1п (6)
<0
при условии (5) и ограничениях на управления (4).
Необходимые и достаточные условия оптимальности управления
Поиск минимума целевого функционала (6) проведем методом неопределенных множителей Лагранжа. Рассмотрим задачу поиска минимума расширенного функционала
%
J = ХЯ + J1 =f [Х(Т + А) + ^ шт, (7)
где X — неопределенный множитель Лагранжа, XeR1.
Пусть и(#) е Gu — произвольное допустимое управление. Если и доставляет минимум функ-
ционалу (7), то первая и вторая вариации этого функционала должны быть неотрицательными (5J > 0, 5^ > 0) для любых допустимых вариаций управления.
Введем в рассмотрение скалярную функцию
П
Ф(д, д, и, X) =^ [Х03 (д, д, и) + Vs (д, д)}д3, (8)
8=1
5 ’¥
где У3 = — фиктивная обобщенная сила, за-
5<1з
висящая от способа задания функционала (6).
Функция Ф(д, <д, и, Х) непрерывна по совокупности переменных и определена на области
(д, д, и, X) е (9)
Предположим, что функция Ф имеет максимум
Ф(д, д, иД) = ша^ Ф(д, д, ы(д, д)Д), (10)
ы(д, д)^и
где q(t), 4^) принимают значения в области R2n, а и(д, q) — в облает и Gu.
Положим
Q(q, д) = X {ц3(д, q)qs~Vs}, s = s
(11)
где (q, q) — знакоотрицательная функция, ц8 < 0, что устанавливается подстановкой (11) в (8):
max_ Ф(д, q, u, X) = ^.3<д2 < 0. (12)
u,(q, q)eGu
Теорема о необходимых и достаточных условиях оптимальности: для того чтобы управление u(q, q) е Gu и соответствующая ему траектория (q, q) доставляли минимум расширенному функционалу (7) при ограничениях (4), необходимо и достаточно выполнение условия максимума для функции Ф переменных (q, q) е R2n, u(q, q) е Gu.
0(q, q, u, X) = max_ {(XQ + V)q}, (13)
u,(q, q)eGu
при этом множитель Лагранжа постоянен:
X = Xq = const, (14)
а на концах траектории t = t0, t = t1 выполняются условия трансверсальности
ЦЛ-T) + F = 0. (15)
Доказательство теоремы и способ нахождения функции |j,(q, q) приведены в прил. 1, 2.
Поскольку при получении условий оптимальности (13) использовалась вторая вариация функционала, то эти условия являются необходимыми и достаточными. А так как управление оказалось явно зависящим от обобщенных координат, то доказанная теорема позволяет решить задачу синтеза.
t
t
0
Исследование режимов в однопараметрической задаче оптимального управления
Рассмотрим отличительные особенности оптимальных управлений с нефиксированным временем и интегральным функционалом, зависящим от параметра. Алгоритм определения параметров кривой переключения для управлений с учащающимися переключениями получен в работе [8] для случаев, когда управления выбираются из классов кусочно-непрерывных функций.
Поставим задачу синтеза оптимального управления объектом:
1 91
д = и(д_,ф-, 0 < #< Т = — д2, 5А = f udg;
9о
д(0) = до; д(0) = до; q(tl) = 0; д(%) = 0;
и0 < и < щ, (16)
где 11 — нефиксированный момент окончания процесса; и — скалярный управляющий параметр. Целевой функционал зависит от управления:
J1 = f (1 + = f (1 + ku)F(q)dt, k > 0. (17)
Допустимым управлением считаются кусочно-непрерывные функции и е , итах <_к_1.
k
При условии и < -к-1 не существует минимума функционала.
Решение задачи методом объединенного принципа максимума (ОПМ) запишем в виде
'м-£
и(д, д) = w(a) = w
(18)
где w(a) = а, если ^-1 < а < и1; w(a) = -к-1, если а < -k-1; w(a) = и1, если а > и1.
Для построения знакоотрицательной функции ц(д, д) приведем уравнение (16) к закону изменения кинетической энергии Т и воспользуемся условиями трансверсальности (15):
dT цд2 1 dF(q)
—=ид = ^—±-------------------—.
dt X + X + dt
(19)
■ Рис. 1. Структура управления (слева) и линия переключения (справа): а — q0 = -10; qo = 10; k = 0,5; X = 2; L = 2; ие [-2, 7]; б — q0 = -20; qo = 10; k = 0,25; X = 0,125; L = 2; ие[-4, 7]
а)
■ Рис. 2. Решение задачи Фуллера: а — переходной процесс; б — поведение условия устойчивости (21); в — структура управления с учащающимися переключениями; г — линия переключения
dF
Из условий трансверсальности имеем =
- dT
= Л и, применив правило Уиттекера [10], полу-
d^
чаем выражение
|4Ч Ч) = _ |2Х + Щ\^~,
а искомое управление в классе кусочно-непрерывных функций имеет вид
u(q, q) = w
( lqlq12К+н q 1
1 rn q\ (К + kq)
(20)
Из (19) также вытекает, что процесс управления будет устойчивым при условии
X + kq > 0. (21)
Результаты численного моделирования для различных случаев управления показаны на рис. 1, а, б.
Если управление выбирается из класса кусочно-постоянных функций ие [—1, 1], то проблема сводится к обобщению решения Фуллера
для управлений с учащающимися переключениями и с участками разрежения (рис. 2, а—г), причем в точке t = *т (см. рис. 2, б) система находит-
уст
ся на границе устойчивости.
Заключение
Полученный на основе объединения принципов Гамильтона — Остроградского и принципа максимума Л. С. Понтрягина метод ОПМ отличается универсальностью, простотой, обладает высокой точностью и быстродействием [8, 9]. Математическое моделирование подтверждает универсальность и простоту предлагаемого метода.
Приложение 1
Доказательство теоремы. Для доказательства теоремы исследуем результат игольчатого варьирования траектории [1-3]. Выберем произвольное допустимое управление u(t) е Gu и рассмотрим вариацию расширенного функционала (7) с учетом выражения для асинхронной вариации [1, 2], получим
18 f ИНФOРMAЦИOННO-УПРAВЛЯЮШИЕ СИСТЕМЫ
№ 4, 2010
ч
AJ = А § [Х(Т + А) + Т^г = [Х(Т + А) + Т]х
10 и
х Аг^1 + § [Х(5Т + 5 А) + 5 Т^. (22)
го
Определим синхронную вариацию кинетической энергии Тq) через вариации обобщенных координат и обобщенных скоростей. Для элементарной действительной работы примем выражение (3), а для элементарной работы фиктивных сил — выражение
5 ¥ = £ ^5д3,
3=1
тогда асинхронная вариация функционала
(23)
ДЛ = [Х(Т + А) + F] Д^0 +
-VsЪqs Аг. (24)
Производя интегрирование по частям, преобразуем (28) к виду
ДJ = [Х(Т + А) + Л Д^ +С X д—
0 3=1 д<?8
дТ
П t1
Ос §
Ь0
3=1
dt
дТ
“дЧз
+ X
дТ ^
д + ®з
дЧз
-V3 8qзdt. (25)
В краевых условиях (25) синхронную вариацию заменим асинхронной. Тогда второе слагаемое краевого условия примет вид
п і дТ х
0з
П і дТ .
=С1 д~ А0
3=1 д0з
п дТ *
-С 1 ^0зА> =-21ТА< .
3=1 иЧ.а
(26)
Результат (26) получен в силу того, что должно быть выполнено необходимое условие прохождения траекторий (действительных и виртуальных) через одни и те же точки q0s, q1s фазового пространства, а второе слагаемое приводится к удвоенной кинетической энергии в соответствии с теоремой Эйлера об однородных функциях [10].
Теперь подставим (26) в (25) и после очевидных преобразований получим
AJ = [Х(А - Т) + F]^t\t^ +С§
° *= % ■
5д3 + ^. (27)
дТ
-XдТ Ьа -
дЧз
- X
d дТ -дТ_- _
л ^3
у ^ д4з ^з
Соотношения на концах траектории являются условиями трансверсальности
Х(А — Т) + ¥ = 0 при t = t = (28)
Асинхронная вариация для функционала примет вид
X
дТ
‘дЧз
-X
дТ
д<!з
Яз
- V 5д3йі. (29)
Выберем теперь из допустимой области другое управление иг^)є Gu, но полученное из произвольного и(£) игольчатым варьированием. Асинхронная вариация функционала для этого управления будет иметь вид, аналогичный (28):
d дТ ХдТ +х дТ л Т + Фея + +^ез
dt . д^. я я
5д^.(30)
В силу произвольности синхронных вариаций примем условие их стыковки
5д3 (#) = ^гз (t) при t = т, (31)
а обобщенные силы будем считать зависящими и от обобщенных координат, и от управлений:
Qs = Qs (ь, Ь и);
(Чг,Ь, иг )■ (32)
Распорядимся выбором неопределенного множителя Лагранжа так:
^Х = 0, X = Х0 = const dt
(33)
и сравним значения асинхронных вариации для траекторий q(t) и qs(t), полученных для управлении и(^), иН) соответственно. Получаем
п Ч
82J = AJЄ - AJ = С /> — д(Т - Т)
з=1 § 1 д^
д(Т - Т) - (Оз - (^з )1 + (^з - Тз )[^з&. (34)
д<1з
Разность обобщенных сил вычислим так:
Яга -®з = ®з (и£> Ъ’ Чз)-®з(и’ Ъ’ Чз) +
+ д{и'Ч‘-"•> (,з,-,з) + аЯз(1Чз■ М (^-„з) (35)
дЧз дЧз
Выражение под знаком интеграла будет представлено двумя частями уравнения
А д(Т - Т) д(Т - Т) дяз (и, qs, 43)
dt д^
х (Язг - qs ) +
^з ^з
дЯз (и qз, <їз),
д<1з
-(Яз2 - <1з ) = 0- (36)
0
8 = 1 £
о
ь
£
0
У ИНФOРMЛЦИOННO-УПРЛBAЯЮШИE СИСТЕМЫ У
Это уравнение Лагранжа второго рода в вариациях. Вторая часть вариации функционала будет неотрицательнои и примет вид
п <1
Ь23 = -'£/) + (^ —V >0. (37)
8=1 <о
Разобьем отрезок [t0, ^] на три подынтервала. На интервале te[t0, т) произвольное и варьируемое управления совпадают: и^) = u(t). Поэтому вторая вариация функционала равна нулю. На интервале te [т, т + 5^| us(t) Ф u(t), причем us(t) получается из и^) игольчатым варьированием. На интервале te[т + 5t, t1] us(t) = u(t). Вторая вариация функционала в целом теперь может быть определена формулои
п т+8^
52 J = 'Ё ^ [(^^ев + Уы)— (ЛQs + ^ )]§^ ^ +
s=1
Е f (Vs - Vs )Sqsdt.
s=1 т+St
(38)
Положим теперь, что произвольное управление и(Ь) является оптимальным и выберем на интервале іє[х, т + 5і] синхронную вариацию так, чтобы асинхронная равнялась нулю, а на интервале іє[т + 5і, і1] асинхронная вариация являлась решением уравнения (36) при начальных условиях
t = т + 5^ 5д(т + 5^ = (qє - q)8t,
5q(т + 5t) = (qє - q)5t, (39)
и рассмотрим предельный переход 5t ^ 0, qє ^ q,
4г ^ 4, 4г ^ 4. Тогда
lim б2 J = -Е [(Q + V£s) - (IQs + Vs )]qs8t2 +
б— s=1
Е f (V* - Vs )5qsdt > 0.
(40)
s=1
Из этого выражения следует, что вариация функционала 52J разрывная функция: при 0 < < t < т 52J = 0, а при t > т удовлетворяет дифференциальному уравнению
- п
—^ = Е (Уез — V (41)
в=1
с начальными условиями t = т:
S2J = [(А#м + ^) - ^ )]д35#2 > 0. (42)
3=1
В дифференциальном уравнении (41) вариации 5qs(t) являются решением уравнения (36). При t — т, 5t — 0 Иш 8д3 (т) = [5дез (т) - д3 (т)] Ы > 0.
t—tt
Поэтому при t > т
lim S2J(t) = 82 J(t) = const > 0. (43)
t^x
Условие минимума расширенного функционала запишется в виде
lim б2 J | St2 = 6t—>0
= -Е(#)} + ) -
8=1
- (КЯ(П8 (#)) + У8 Ш8 > 0. (44)
Из этой формулы следует необходимое и достаточное условие оптимальности управления
Ф(“з, X) = тах[Х<3(щ (#)) + Vs(45)
Щ е&и
Поскольку для любой точки т < t < t1 управления и^) оптимальным образом переводят фазовую точку из положения ^(т),д(т)) в конечную ), q(t1)), то имеет место соотношение и(т) = и^(т), q(т)) [7].
Таким образом, формулировка объединенного принципа максимума получает вид
ф(и(я, 4), 4з, 4з, X) =
п
= тах _ Е \-KQiUs 4 4)) + К ] 4з■ (46)
щ (4,4)^из=1
Выражение для оптимального управления имеет вид
Жиз> ъ 4) = X-1 {ц 3 (я, 4)48-^ }• (47)
Теорема доказана.
Приложение 2
Способ построения знакоотрицательной функции. Подставим оптимальное управление (47) в уравнение Лагранжа в форме (8), получим
d дТ дТ
-----------------= Q(us).
dt dq3 dqs
(48)
Выделим часть оптимальной траектории, выпущенной при t = V из точки стыка на линии переключения и заканчивающейся при t = У’ в точке стыка на линии переключения. В точках стыка выполняются условия трансверсальности (15). Определим из этих условий функцию
Fs =dL X(T-)
dqs
(49) дА
и учтем, что на истинной траектории щ3 = ,
дч3
дТ 8
----= р3 — обобщенный импульс. Тогда вместо
д4з
(48) будем иметь
2G
ИНФOРMАЦИOННO-УПРАBЛЯЮЩИE СИСТЕМЫ
№ 4, 2010
т
т
т dps • ї—
К КQs , * 1,Пш
dt
(50)
В точке стыка должен выполняться закон изменения импульса для неуправляемой системы. Тогда следует положить
т dps
а#
(51)
Заменяя по способу Уиттекера [10] производную по времени производной по обобщенной координате, получим выражение
Литература
1. Костоглотов А. А., Костоглотов А. И., Лазаренко С. В. Объединенный принцип максимума в задачах оценки параметров движения маневрирующего летательного аппарата // Радиотехника и электроника. 2009. Т. 54. № 4. С. 450-457.
2. Костоглотов А. А. Метод идентификации параметров голономных систем на основе аппарата асинхронного варьирования // Изв. РАН. Теория и системы управления. 2003. № 2.С.86-92.
3. Лурье А. И. Аналитическая механика. — М.: Гос. изд-во физ.-мат. лит., 1961. — 824 с.
4. Справочник по теории автоматического управления / Под ред. А. А. Красовского. — М.: Наука, 1987. — 712 с.
5. Понтрягин Л. С. и др. Математическая теория оптимальных процессов. — М.: Наука, 1983. — 392 с.
6. Беллман Р. Динамическое программирование. — М.: ИЛ; Наука, 1960. — 400 с.
йРз
, в = 1, п,
которое по физическому содержанию является модулем углового коэффициента касательной к фазовой траектории с коэффициентом деформации X.
При расчетах можно перейти к конечным разностям
\Рз
' ' , з = 1, п,
(53)
^ |
где Ls — коэффициент, зависящий от формы линии переключения.
7. Наумов Г. В. Построения кривой переключения для задач оптимального управления с учащающимися переключениями // Изв. РАН. Теория и системы управления. 2003. № 3. С.46-51.
8. Костоглотов А. А., Костоглотов А. И., Лазаренко С. В. Объединенный принцип максимума в задаче синтеза оптимального управления нелинейными системами // АВТ. 2007. № 5. С. 52-61.
9. Костоглотов А. А., Костоглотов А. И., Лазаренко С. В. Синтез оптимальных по быстродействию систем на основе объединенного принципа максимума // Информационно-измерительные и управляющие системы. 2007. № 12. С. 34-40.
10. Маркеев А. П. Теоретическая механика. — М.: Наука, 1990. — 416 с.
УВАЖАЕМЫЕ АВТОРЫ!
Каждому из Вас необходимо зарегистрироваться на сайте РУНЭБ (http://www.elibrary.ru) с тем, чтобы Вам присвоили индивидуальный цифровой код (при регистрации код присваивается автоматически), что обязательно для создания корректной базы данных РУНЭБ, объективно отражающей информацию о Вашей научной активности, а также для подсчета Вашего индекса цитирования (РИНЦ).