УДК 62-5
СИНТЕЗ АЛГОРИТМА АВТОНОМНОГО УПРАВЛЕНИЯ МАТЕМАТИЧЕСКИМ МАЯТНИКОМ НА ОСНОВЕ ОБЪЕДИНЕННОГО ПРИНЦИПА МАКСИМУМА
© 2010 г. А.А. Костоглотов , А.А. Кузнецов , Д.С. Андрашитов , И.В. Дерябкин , С.В. Лазаренко
*Ростовская академия сервиса *Rostov Academy of Service
"Ростовский военный институт "Rostov Military Institute
ракетных войск of the Rocket Troops
Предлагается метод синтеза оптимальных управлений. В его основе лежит доказанная с использованием аппарата негладкого анализа теорема объединенного принципа максимума, справедливая для гильбертовых функциональных пространств. Ее применение позволяет получить решение обратной задачи динамики в замкнутой форме с точностью до синтезирующей функции, на базе рассмотрения приемов построения которой показываются преимущества нового метода. Синтезированные автономные управления отличаются простотой, высокой динамической точностью, универсальностью. Это демонстрируется путем численного моделирования при решении тестовой задачи управления математическим маятником.
Ключевые слова: обратная задача; негладкий анализ; объединенный принцип максимума; математический маятник; оптимальное управление.
The method of synthesis of optimal controls. It is based on proven using the apparatus of nonsmooth analysis theorem combined-maximum principle holds for Hilbert functional spaces. Its application provides a solution of the inverse problem of dynamics in closed form up to a synthesizing function, based on the consideration of methods of construction which are showing the benefits of the new method. Synthetic autonomous control are simple, high dynamic accuracy, versatility. This is demonstrated by numerical modeling for solving the test problem of the control pendulum.
Keywords: a return problem; the rough analysis; the combined-maximum principle; a mathematical pendulum, optimum control.
Введение
Конструктивное решение задачи синтеза оптимальных управлений может быть основано на методологии обратных задач динамики [1 - 3]. Её применение позволяет синтезировать алгоритмы управления, которые осуществляют декомпозицию модели системы на независимые уравнения и характеризуются высокой динамической точностью.
Однако в настоящее время отсутствует комплексный подход к синтезу алгоритмов управления на основе указанной методологии. Так, например, при получении в [3] закона управления возникают сложности, связанные с выбором вида функции Ляпунова, который определяет обратную связь. Универсальных рекомендаций, позволяющих осуществить выбор, не отмечено [2]. Несмотря на значительные достижения в этой области, актуальность разработки новых эффективных методов управления движением нелинейных динамических систем сохраняется [2].
В работе рассматривается новый метод синтеза оптимальных управлений, базирующийся на объединенном принципе максимума (ОПМ) [4, 5]. Его идея состоит в следующем. Если из принципа Гамильтона -Остроградского вытекают все уравнения динамики объекта, то, объединив с помощью множителя Ла-гранжа интеграл действия по Гамильтону и целевой функционал, можно найти необходимые условия минимума целевого функционала и получить решение обратной задачи динамики в замкнутой форме.
Решения такой экстремальной задачи выбираются из множества интегрируемых вместе со своим квадратом функций [6]. Это требует использования аппарата негладкого анализа [7]. Его применение позволяет найти необходимое условие минимума целевого функционала в форме ОПМ, справедливое для гильбертовых функциональных пространств и определяет отличия от известного результата [4].
Синтезированные на основе ОПМ алгоритмы автономного управления осуществляют декомпозицию системы на независимые подсистемы, структура которых в точности идентична структуре эталонных моделей динамической системы. Они отличаются простотой, высокой динамической точностью, универсальностью [4, 5].
Постановка задачи синтеза оптимального управления
Примем принцип Гамильтона - Остроградского в качестве исходного положения для описания динамики материальной системы, интеграл действия которой
ч
имеет вид [8] К = | (Т + A)dt, где Т - кинетическая
¿о
энергия системы, А - работа внешних обобщенных сил. При движении системы из начального состояния I = ¿о дОо) = ^о^-%пЬ д(^о) = Йо^-%п] в конечное ^=¿к, я(гк) = [ди,•••,ЯкпЬ Шк) = [qи,•••,дкп] под
действием внешних сил Q = [Q1(д,д,и),...,Qn(д,д,и)] и
управлений и = [и1,...,ип] соотношение, аналогичное принципу Гамильтона - Остроградского, записывается в виде
SR = J (ST +5'A)dt = 0,
(1)
u e
Ln2 [tc,tk ]
(2)
qs (tc) = %s, qs (tk) = qks
(3)
J = 0,5 J( q (t )- y (t ))2 dt
^ min,
(4)
где y (t ) - заданный закон движения.
Мерой качества управляемого процесса определен интегральный функционал (4).
С помощью сопряженных функций у5, 5 = 1, п известным способом составим расширенный функционал и преобразуем его по следующему правилу:
где знак 8 ' обозначает бесконечно малую величину, зависящую от вектора вариаций обобщенных координат 8q = [8qj(/),...,8qn(/)], но не являющуюся вариа-
n
цией величины A - 8 A = ^ Qs8qs ; здесь n - число
s=1
степеней свободы динамической системы.
Вектор управлений рассматривается как элемент Лебегова пространства [6, 9, 10]
tk
J ext = J
tc
n
ZVs (qs - fs ) + Vc0,5 (qs - ys )
.s=1
tk
= J
n ( v A n
Z — (qs - fs)qs +vc0,5(qs -ys)n
dt =
dt =
n (v A
= Z Vs (Ts - As )ltc +
s=1 V q s J
Согласно принципу Гамильтона - Остроградского из условия (1) вытекают уравнения движения системы в форме уравнений Лагранжа второго рода [8]:
d дТ дТ — ----= Qs , 5 = 1, П ,
^ дЧ 5 д^5
tk
+ J
Л,, \
Z - d ~ (Ts - As ) + V cc,5 (qs - ys )n s=i dt V q s J
где As = J fsqsdt - обобщенная работа,
dt ^ min,
(6)
соответст-
Поставим задачу синтеза оптимального управления: необходимо найти вектор управления и е [t0, tk ] как функцию обобщенных координат и
обобщенных скоростей (д, д) е R2п, а также соответствующую ему траекторию д^) е Rn , обеспечивающие минимум целевого функционала
вующая обобщенной координате д5.
Для динамической системы (5) существует первый интеграл, являющийся следствием принципа Гамильтона - Остроградского [8]
Z Ts-Z As = const
(7)
Из (6), (7) следует: для того, чтобы минимумы функционала меры качества (4) и расширенного функционала (6) были эквивалентны, и при этом выполнялся закон сохранения (7) необходимо, чтобы для сопряженных функций и обобщенных скоростей всюду на траектории выполнялось условие пропорциональности [12]
d_ dt
vs
Необходимые условия оптимальности управления
Анализ теоремы принципа максимума, вытекающий из знакопостоянства всюду на траектории скалярного произведения [10, 11] (у,Ад) = (у,д)At < 0,
показывает, что между сопряженными функциями и фазовыми координатами существует пропорциональная связь во всех точках траектории.
Эту связь для объектов, уравнения движения которых вытекают из принципа стационарности Гамильтона - Остроградского для истинных траекторий движения, устанавливают следующим образом. Пусть объект описывается системой обыкновенных дифференциальных уравнений второго порядка:
д5 - /5 (д5 , д5, ит ) = 0, 5 = 1 п , т = 1 Р ,
р < п, д5 (to) = д05, д5 (to) = д05, д5 (ч) = д^. (5)
= c; ^ = ^ ; Vs = aq
qs qk
X = const, s , k = 1, n .
Доказанное утверждение показывает, что условия оптимальности могут быть получены из условия минимума расширенного функционала, объединяющего интеграл действия и интегральный функционал меры качества:
Jext = J + ^ .
(8)
Минимизация (8) с использованием аппарата негладкого анализа приводит к установлению теоремы объединенного принципа максимума: для того чтобы управление и е L2 tк ] и соответствующая ему
траектория (д, д)е R2п доставляли минимум целевому функционалу (4), необходимо выполнение условия максимума функции
c
s=1
s
c
и
c
s=1
s=1
s
Ф (q, q, ü ) = max Ф (q, q, А,, и ) =
ueL, [to,tk]
Щ I q, q,ü | + [ qs - ys ]
max £
UEL2[t0,tk] S=1
где X - постоянный множитель Лагранжа.
Доказательство теоремы приведено в приложении 1.
Из теоремы следует, что максимум Ф (С, С, й) определяется пропорциональностью сомножителей
[Щ (д,й)+[с, - у, ]] = ц, (с) , откуда с точностью до синтезирующей функции ц, (с, С) получим
Qs (q,q,й) = Х-1 [ц, (q,д)с[-[д, -у,]] . (9)
Определить функцию /и, (с, С) можно через интеграл движения или кинематические характеристики фазовой траектории точки. К примеру, в [4] на основе
метода фазовых траекторий получено: ц, = -X
dqs
где ps - обобщенный импульс [8].
В теории АКОР при синтезе управлений используется метод выбранных траекторий [13]. Метод выбранных траекторий применяется также при синтезе оптимальных управлений с помощью принципа максимума Л.С. Понтрягина [10]. Задача сводится к нахождению точек переключения на линии переключения. Указанные подходы имеют известные трудности с обоснованием асимптотической устойчивости, громоздкостью функционалов. Методом ОПМ задача решается значительно проще. Единственным требованием к выбранной траектории является прохождение ее через терминальную точку. Пусть, например, уравнения линий, проходящих через терминальную точку
фазового пространства, имеют вид: qass -kqb = 0, где
а , b , k - const. Тогда
d (Vs - Ф)
= asqas-1 - kbsqbs= 0,
s bs-1
dq s
dqs
dqs
~-.a,,-1
~-.a„-1 i
¿д, = а, 1 = а, 'с, = а±.С±. ь, kqb/-1 ь, С ь, '
Поскольку обобщенные импульсы и кинетическая энергия стационарных динамических систем определяются следующими выражениями [8]: рs = —— и
дСС,
1 п % Т = - X С, , то [4] 2 ,=1
^ s =-Я
dq s = -A, qs
dq s Lqs
L = Ь±
Ls - ,
a„
(10)
где Ls - константа, зависящая от формы линии переключения [5].
Пример. В качестве тестового управляемого объекта рассмотрим математический маятник [1, 13]. Поставим задачу синтеза оптимального управления, обеспечивающего минимум функционалу (4) при условии, что уравнение движения определяется уравнением Лагранжа второго рода, представленным в следующей форме:
q = sin q + U, U = U1, (11)
а заданный закон движения определяется уравнением
y + к2У + V = 0. (12)
Оптимальное управление в соответствии с (9), (10) определяется выражением
U (q, q ) = -X-1 (XL_1 \q\|q| 1 q + (q - y ))-sin q . (13)
Оценим качество синтезированного на базе теоремы ОПМ закона управления (13) путем его сравнения с решением, полученным на основе синергетиче-ской теории управления
U1 (t) = -T_1 (k1 + p1p-1signqsign^) q - (k1 + T_1k21 + +P1P-1signqsigns - T ^P^P^ignqsigrn + cos q) --(U + sinq)(k2 + T_1 + P-1P2signqsigns)q ,
s (t) = -P-1 (T "^signq -P2 ^signq ) q +
+ (p1signq -P2 k2signq + T _1P2signq) q]signs , (14)
где k1, k2 - коэффициенты дифференциального уравнения (12), Pb P2, P3; T - параметры настройки [13]. При проведении численного моделирования использовались следующие начальные условия и безразмерные параметры законов управления [13]: q = 1, q = 1,
k1 = 2 , k2 = 3 , Pi = P2 = P3 = 1, T = T1 = T2 = 0,2, a = T2k1 = 0,01, X-1 = 5-104 , L = 0,17. Результаты численного моделирования представлены на рисунке, где обозначено: 1 - кривая, соответствующая (14), 2 -кривая, соответствующая (13), 3 - заданный закон движения y (t). q0, V
1,35 1,08 0,81 0,54 0,27 0
/ \ / \ 1 1-
* \ ♦ * \ \
• \ 2 —
, 3
1,2 2,4 3,6
Переходный процесс
4,8
s
t
Качество управления характеризуется целевым функционалом (4), который на интервале времени t е[0,б] принимает значение, равное J1 = 3 -10-6 -для закона управления (13) и J2 = 0,9 - для закона управления (14). Сравнительный анализ полученных результатов показывает, что решение задачи синтеза (2) - (4) на основе ОПМ приводит к получению закона управления, вид которого для любой Лагранжевой динамической системы не зависит от обобщенных сил правой части (11). Этим обусловлена его универсальность. Кроме того, он осуществляет декомпозицию системы на независимые подсистемы, отличается простотой и обеспечивает более высокую скорость сходимости, чем (14).
Выводы
Доказанная на основе аппарата негладкого анализа теорема ОПМ в совокупности с приемами построения синтезирующей функции составляют новый метод синтеза оптимальных управлений. Приведенный тестовый пример подтверждает, что получаемые на его основе алгоритмы автономного управления отличаются простотой, высокой динамической точностью, универсальностью.
Приложение 1. Пусть ))5 (/) - обобщенная сила, доставляющая минимум целевому функционалу (4), а обобщенна сила АQ5 (/, Аt) определяет направление
[7] в ^ [^ tk ]
АQ5 = ^ (А/,/)-) (t), t е [т,т + А/], (П. 1) I 0, / е [х,т + А/],
где те [/0,/к], А/ > 0 - некоторый заданный малый конечный интервал времени. Тогда произвольную обобщенную силу назначим следующим образом:
Q5 (/, А/) = (?5 (/) + еА)5 (/, А/),
Qs (/, А/) е L2 [/0,/к ], (П.2)
где еА)5 (/, А/) - вариация обобщенной силы, е > 0 .
Поиск необходимых условий минимума целевого функционала (4) проведем на основе аппарата негладкого анализа. Согласно его положениям, ))5 (/) доставляет минимум (4), если [7]
= Jext ) (/, А/))- Jext ()5 (/)) =
= Jxt ) (/) + еА)5 (/,А/))-+ех/ ) (0) > 0 , (П.3)
где А1ех/ - приращение расширенного функционала, которое обусловлено действием силы е)5 (А/, /). На основе асинхронного варьирования (П.3) запишем [8]:
s=1
j=z w+а)+°'5 q - Xs )2 ч*+
(П.4)
+ } [X(ST + S'A) + S'Fe]dt,
где 5'_Ре - приращение подынтегральной функции (4).
На полуоткрытом интервале [/0, х) А!ех1 = 0 поскольку ) (/)5 = еА)5 (/, А/). На ограниченном замкнутом интервале [т, т + А/] )5 ^еА)5 (/, А/). Вариация обобщенной силы еА)5 (/, А/) определяет вариацию обобщенной координаты - 5де5, элементарное приращение механической работы - 5 ' Ае и приращение подынтегральной функции, которые определяются следующими выражениями:
5 ' Ае =[5 '4-5 А] + 5 'А = = Е [) (/, А/)- )5 (/)] + )5 (/ ^ =
= £ (t, л) + Qs (t)]5qes ,
S=1
SF = £ |[qes (t)-^ (t)]-[?, (t)-Xs (t)]}8qs
s=1
-£ \ßs (t)-Xs (t)]Sqes ,
s=1
st = £
ST я ST . + т^г" Sq&
dqs dqs
(П.5)
На полуоткрытом интервале [т + А/, /к) приращения обобщенной координаты определяются решением дифференциальных уравнений в вариациях, определяемых структурой системы (3) при начальных условиях в момент времени / = т + А/.
С учетом (П.5) приращение расширенного функционала (П.4) записывается в следующем виде
s=1
k(T + A) + °,5[q&s (t)-Xs (t)]2 Лt|
- к {X(ST + S A)} dt + к £ [qs (t) - Xs (t)] Sqsdt +
t° s=1
т+лt
+ | Е^еА)5 (/, А/) + {[де5 (/)- л (/)]-
т 5=1
-[<?5 (/)-У5 (/)]}}5д^/. (П.6)
Слагаемое в (П.6), содержащее приращение кинетической энергии Т, проинтегрируем по частям. Тогда
0
+
+
0
Jx = ü
X(T + A) + 0.5[qs (t)-Xs (t)]2
At|'k +
n ST +Xü TirS
s=1 S4s
tk т+At +
t°
+At n ,
к z{^ßs(t,лt)-
т s=1l
{[q^s (t)-Xs (t )]-[qs (t)-Xs (t )]}}SqEsdt
'k n | .ST
+ к ü к ST-+x
'°t s=1 I S4s
d_ dt
f ST Л
Sqs
ST
+Qs (t)
Sqs
+ [<?s (t)- Xs (t)]fSqesdt
(П.7)
X( As - Ts ) + °,5[q&s - Xs ]2
трансверсальности. Тогда, поскольку при малости А/ справедливо 5де5 = -д5А/ [8], то знак (П.3) будет определяться
т+Л'
J't = lim lim e
e—0 л' —0
J„
(Qs (t)-
+ eAQs (t,At))-Jext (Qs (t))] . (П.9)
Из (П.4) вытекает: чтобы найти необходимые условия минимума целевого функционала (4), необходимо получить условие неотрицательности (П.9), которое вследствие (П.8) определяется выражением
т+At n
lim lim-e-1qs (т)Л' к ü{XeAQs (t,At) +
e—0 At—0
s=1
-{[qes (t)- Xs (t )]-[qs (t)- Xs (t)]} dt > 0. (П.10)
При Л' — 0 пределом ЛQS (t, Л') в смысле обобщенных функций является S-функция [14]. Исходя из физического смысла подставим AQs (t, At) при Л' — 0 в следующее выражение [9]:
+ад т+At +ад
к lim к AQs (', At) dtdT=kSQs (т)Хт = ßs (т)-Qs (т).
-ад 0 т -ад
(П.11)
Поэтому для Лагранжевых динамических систем, подчиненных стационарным связям, вариация обобщенной ¡координаты, обусловленная действием AQs (t, At) при At — 0 , определяется выражением
Sqes =eG (t, т), G (t, т) =
Из знакоположительности подынтегральной функции целевого функционала (4) вытекает, что условие (П.4) не будет определяться последним слагаемым (П.7) [4, 5].
Распорядимся выбором множителя Лагранжа следующим образом: X = 0 . В краевых условиях (П.7) синхронную вариацию заменим асинхронной [8] 5де5 = Аде5 - д5А/. В соответствии с теоремой Эйлера об однородных функциях [8] получим, что
0,' <т, t-т,t > т.
(П. 12)
= 0, s = 1, n , - условия
-<?5 (т)А/ I Е{ХеА)5 (/, А/) +
т 5=Г
+{[д^ (/) - У5 (/)] - [д 5 (/) - У5 (/ )]}}dt. (П. 8)
В соответствии с аппаратом негладкого анализа, для того чтобы получить необходимые условия минимума целевого функционала (4) для любого т е[/0, /к ], в (П.4) необходимо устремить е ^ 0 . Дополнительно потребуем, чтобы А/ ^ 0 и рассмотрим функциональную производную по направлению [7]
Из (П.5) при At — 0 в соответствии с (4), (П.12) вытекает, что
[qes (') - Xs (')] - \ qs (') - Xs (')] = qes (') - qs (') =
= qs (t) + Sqes - q.s (t) = Sqes = eG (t,т), (П.13)
где G (т, т), исходя из (4), по физическому смыслу
есть обобщенная координата, от которой по аналогии с (П.11) потребуем
+ад т+At +ад
к lim к G (т, t) dtdт = к G (т) Хт =
-ад л'—0 т -ад
= [qes (т) - X (т)] - [<?s (т) - X (т)] . (П.14)
В силу того, что lim At = +0 , то знак (П.10) в си-
At—0
лу (П.13) определяется неравенством
-qs (т)lim e_1
e—0
+ e lim
At—0
e lim
At—0
т+At n X к üAQs (t, At)dt
т s=1
"т+At
к G (т, t) dt
> 0.
которое, в соответствии с (П.11), (П.14), принимает ви д
£ [X)5 (т) + [д5 (т)- У5 (т)]] ¿¡5 (т)>
5=1
> £ [Х)5 (т) + [д5 (т) - У5 (т)]] д5 (т). (П.15)
5=1
Поскольку ))5 (т), )5 (т) являются решениями обратной задачи динамики, то с точки зрения причинно-следственных связей ))5 (т) = ))5 (д, д) и )5 (т) = )5 (д, д). Из (П.15) в силу произвольности т следует, что
s=1
+
+
+
Ф (Ч, Ч )= max Ф (q, q, X) =
ugL4 [t0,tk ]
= max (q,q)+[qx -ys]]4s, xe[io,ik]
ugLI[t0,tk] s=1
Теорема доказана.
Литература
1. Крутько П.Д., Палош В.Е. Стабилизация равновесия двойного маятника, нагруженного следящей и консервативными силами // Изв. РАН. Теория и системы управления. 2009. № 2. С. 3 - 17.
2. Крутько П.Д. Обратные задачи динамики в теории автоматического управления : цикл лекций. М., 2004. 576 с.
3. Матюхин В.И. Непрерывные универсальные законы управления манипуляционным роботом // Автоматика и телемеханика. 1997. № 4. С. 31 - 44.
4. Костоглотов А.А., Костоглотов А.И., Лазаренко С.В. Объединенный принцип максимума в задаче синтеза оптимального управления нелинейными системами // Автоматика и вычислительная техника. 2007. № 5. С. 52 - 62.
5. Костоглотов А.А., Костоглотов А.И., Лазаренко С.В. Объединенный принцип максимума в задачах оценки параметров движения маневрирующего летательного аппарата // Радиотехника и электроника. 2009. № 4 (54). С. 1 - 8.
6. Математика на службе инженера / составитель Н.Х. Розов. М., 1973. 224 с.
7. Демьянов В.Ф., Васильев Л.В. Недифференцируемая оптимизация. М., 1981. 384 с.
8. Лурье А.И. Аналитическая механика. М., 1961. 824 с.
9. Владимиров В.С. Обобщенные функции в математической
физике. М., 1979. 318 с.
10. Понтрягин Л.С. Математическая теория оптимальных процессов. М., 1971. 384 с.
11. Справочник по теории автоматического управления / под ред. А.А. Красовского. М., 1987. 712 с.
12. Костоглотов А.А., Костоглотов А.И., Лазаренко С.В. О связи принципа максимума Л.С. Понтрягина и объединенного принципа максимума // Исследование, разработка и применение высоких технологий в промышленности : сб. тр. 7 междунар. науч.-практич. конф. СПб., 2009. Т. 2. С. 60 - 64.
13. Колесников А.А. Синергетическая теория управления. М., 1994. 343 с.
14. Гельфанд И.М., Шилов Г.Е. Обобщенные функции и действия над ними. М., 1959. 470 с.
Поступила в редакцию
9 февраля 2010 г.
Костоглотов Андрей Александрович - д-р техн. наук, доцент, Ростовская академия сервиса. Тел. 8-918-55-39-224. E-mail: [email protected]
Кузнецов Антон Александрович - канд. техн. наук, старший преподаватель, Ростовский военный институт ракетных войск. Тел. 8-903-40-31-274. E-mail: [email protected]
Андрашитов Дмитрий Сергеевич - адъюнкт, Ростовский военный институт ракетных войск. Тел. 8-906-18-62039. E-mail:Dima-andrahitov@rambler. ru
Дерябкин Игорь Владимирович - аспирант, Ростовская академия сервиса. Тел. 8-928-22-90-790. E-mail: [email protected]
Лазаренко Сергей Валерьевич - преподаватель, Ростовский военный институт ракетных войск. Тел. 8-905-4568-660. E-mail: [email protected]
Kostoglotov Andrey Aleksandrovich - Doctor of Technical Sciences, assistant professor, Rostov Academy of Service. Ph. 8-918-55-39-224. E-mail: [email protected]
Kuznetsov Anton Aleksandrovich - Candidate of Technical Sciences, senior lector, Rostov Military Institute of the Rocket Troops. Ph. 8-903-40-31-274. E-mail: [email protected]
Andrashitov Dmitry Sergeevich - adjunct, Rostov Military Institute of the Missile Troops. Ph. 8-906-18-62-039. E-mail:[email protected]
Derjabkin Igor Vladimirovich - post-graduate student, Rostov Academy of Service. Ph. 8-928-22-90-790. E-mail: [email protected].
Lazarenko Sergey Valerevich - senior lector, Rostov Military Institute of the Missile Troops. Ph. 8-905-45-68-660. E-mail: [email protected]