1. Управляемые системы и методы оптимизации
УДК 517.97
© Е.А. Трушкова
ПРИБЛИЖЕННЫЙ СИНТЕЗ УПРАВЛЕНИЯ НА ОСНОВЕ АЛГОРИТМА ГЛОБАЛЬНОГО УЛУЧШЕНИЯ1
Рассматривается проблема построения приближенного синтеза управления в задачах оптимального управления динамическими системами. Предложена процедура поиска приближенного синтеза с помощью соотношений глобального алгоритма Кротова улучшения управления.
Ключевые слова: динамическая система, синтез управления, глобальный алгоритм улучшения.
© Е.А. Trushkova
APPROXIMATE FEEDBACK CONTROL BASED ON ALGORITHM OF GLOBAL IMPROVEMENT
We consider the problem of constructing an approximate feedback control in optimal control of dynamic systems. The procedure of finding the approximate feedback control using the relations of the Krotov global control improvement algorithm is proposed.
Keywords: dynamic system, feedback control, global control improvement.
Введение
Проблема приближенного синтеза управления для непрерывной задачи оптимального управления
х = f(t,x,u),te[tI,tP],x(tI) = xI,ueU,F(x(tP)^^>-mm (1)
заключается в построении последовательности функций •
такой, что для любых г е | /,. /, ). хг е R" справедливо
F(xs_l(tF;xT))>F(xs(tp;xT)),s = 2,3,..., где xs(t;xz) - решение задачи Коши х = f(t,x,us(t,xj), х(т) = хг. При этом каждую функцию us{t,x) искомой последовательности, следуя [1], будем называть приближенным синтезом управления.
Известен метод последовательных приближений для поиска приближенного синтеза управления с использованием соотношений Беллмана [2, 3], который состоит в следующем.
1 Работа выполнена при частичной финансовой поддержке Российского фонда фундаментальных исследований (проект № 12-01-00256-а).
4
0) Имеем начальный приближенный синтез и' (/. х), т. е. такую функцию, для которой при любом хг е И" процесс (х'(/:хг).?/(/:хг)) является допустимым. Здесь через х' (/: хг) обозначено решение задачи Коши х = /^,х,г/(У,х)), х(У7) = хг, а и1 ^;хг) = и1 .
1) Ищем </)(/. хг) из соотношений Беллмана:
х)) = (рТх (г,х)/^,х,и'(г,х)) + (р,(г,х) = 0, (2)
в(х)±Р(х) + <рЦр,хт) = 0, (3)
при х = х1 . Выразив хг = , находим <р°(У,х) = <р(7,£(У,х)) .
2) Строим новый приближенный синтез: и(У,х) = аг§ тах И (/. х.и:ср"^ .
В результате итерационного повторения описанных шагов получаются последовательности и^,х) и </), (/.х). если процесс построения этих последовательностей оказывается возможным [3]. Здесь функции </),(/.х) строятся сложным образом, что связано в первую очередь с интегрированием исходной системы при управлениях, зависящих от фазовых координат. Избавиться от этой сложности, а также упростить соотношения Беллмана (2), (3) для поиска разрешающей функции позволяет глобальный алгоритм улучшения управления.
1. Приближенный синтез
Нетрудно видеть, что равенства
(')) + %(',*) = о,
глобального алгоритма улучшения управления [4] являются аналогами соотношений Беллмана (2), (3) для поиска приближенного синтеза управления методом последовательных приближений. Разница заключается лишь в том, что вместо начального управления в форме синтеза и' (/. х) в соотношениях (4) используется начальное управление в виде функции времени — программное управление и1 (!). Одна итерация предлагаемого метода поиска приближенного синтеза управления состоит в следующем.
0) Имеем начальное допустимое управление и' (/). т. е. такую функцию, для которой при любом хг ей° процесс (х'(7:хг).?/(/)) является допустимым. Здесь через х' (/: хг) обозначено решение задачи Коши
х = /(У,х,г/(0),х(Л) = хг •
1) Ищем </)(/.хг) из соотношений (4) при х = х' (7:хг). Выразив хг=Е,(V,х), находим ср°(V, х) = £(V, х)) .
2) Строим приближенный синтез: u(t,x) = argmaxi?(i,x,H;<p°), который, в силу свойств метода глобального улучшения, гарантирует выполнение неравенства 1,'(х1 (l,,:xI)] > 1,'(х" (l,,:xI )j для любого xr е R". Здесь
хп(t;xz) - решение задачи Коши х = f(t,x,u(t,xj),x(tI) = xi.
Таким образом, соотношения Беллмана для определения следующего приближения к синтезу управления существенно упрощаются и позволяют на некоторых классах задач отойти от приближенного задания искомой разрешающей функции cp(t,x) в виде интерполяционного полинома для функции нескольких переменных, как было независимо предложено в работах различных авторов (например, [1-3, 5]).
Однако найденное управление u(t,x) гарантирует улучшение начального программного управления лишь на одной итерации, т. к. выбор подходящего программного управления для следующей итерации оказывается в общем случае неочевидным.
2. Линейная система с управляемыми коэффициентами
Остановимся подробнее на случае непрерывной задачи х = A{t,u(t))x, t е [tj,tp], x(tj) — Xj ? M
F(x(tp)) = rjTx(tP) + xT{tF)px{tp) min, где матрица p неположительно определена. Сформулируем для этой задачи теорему об улучшении начального программного управления на одной итерации с помощью построенного управления в форме синтеза из соотношений глобального алгоритма улучшения.
Теорема. Пусть и1 (t) - некоторое допустимое управление задачи (5), т — любое число из интервала [tj,tF), хг — произвольный n-мерный вектор, Ф(/) - фундаментальная матрица решений системы
х = A(t,u'(tfjx, такая, что Ф(т) есть единичная матрица, a -
фундаментальная матрица решений системы х = -АТ (t,u'(tfjx, такая, что ) есть единичная матрица. Справедливо неравенство
F{xII{tp))<F{xI{tp)),
где х1 (t) - решение задачи Коши х = A{t,u'(tfjx, t е [т,^], х(т) = хг, хя(t) - решение задачи Коши х = A{t,u{t,x)~)x, t е [т,^], х(т) = хт,
u(t,x) = argmax|-(2xr (o~40f ®T(tP)pT (t)A(t,u)x^.
Доказательство. Выберем произвольным образом допустимое управление и1 (! ), момент времени тип -мерный вектор хг. Проведем одну итерацию метода глобального улучшения управления для задачи (5) с на-
чальным управлением и1 (t) и начальным условием х(т) = хг. А именно, сначала найдем функцию q>(t,x) = y/T(t)x, где i//(V) - решение задачи Ко-ши ц/ = -АТ {t,u'(tfjy/,y/(tF) = -rj -2рх'(tF), что следует из [4, 6]. Заметим, что х1 (tp) = Ф(^)Ф_1(т)л:т, следовательно, можно записать y(t) = -4>(t) (tj + 2pO(tp )ФЧ (т)хт ) .
Тогда получим, что улучшение гарантирует функция ü(t,x;r,xT) = argmax(i//r (t)A(t,u)x) =
u<eU ^ '
= arg max ( - (77 + 2рФ(^ )Ф4 (t)xX (t)A(t,u)x\ =
ueU \ ^ ' J
= argmax|-(2xf (ф1^ <$>T(tP)pT + (t)A(t,u)x^ .
Для доказательства теоремы осталось показать, что й(т,хг;т,хг) = и(т,хг). Убедимся в этом простой подстановкой
и(т, хг) = arg пюх(-{lxTz (ф1 (т))Г Фт (tP)рт + rf (t)A(t,u)x^ =
= й(т,хг;т,хг).
Теорема доказана.
3. Процесс поиска приближенного синтеза
Вышеизложенная теорема позволяет организовать вычислительный процесс поиска приближенного синтеза управления в заданной области изменения начальных условий х,е1,сй°. Будем предполагать, что поставленная задача поиска приближенного синтеза в заданной области решена, если известно приближенно оптимальное по функционалу управление в некоторой достаточно частой сетке узловых точек множества Х7. Очевидно, поставленная задача может быть решена как задача улучшения для каждого узла заданной сетки, что потребовало бы вычислений разрешающей функции для каждого узла на каждой итерации. С помощью вы-шедоказанной теоремы эти вычисления можно существенно сократить.
Для этого задается начальное управление u'(t), для которого проводится одна итерация алгоритма глобального улучшения с целью получения управления в форме синтеза u(t,x). Обозначим это управление через
и1 (t,x). В силу вышеоказанной теоремы управление и1 (t,x) улучшает начальное управление и1 (t) для любого х, е Xf. и, следовательно, на первой итерации процесса нахождение разрешающей функции удалось провести одновременно для всех узловых точек. Далее, разбив сетку узловых точек на достаточно крупные подмножества, можно выбрать в каждом подмножестве начальную точку х7 и построить для второй итера-
ции программное управление и11 (t), решая систему с начальным условием x(tj) = xj, замкнутую управлением и' (/.х). Теперь вторая итерация проводится отдельно в каждом подмножестве узловых точек для своего программного управления и11 (t). Это позволяет на второй итерации процесса найти разрешающую функцию одновременно для всех узловых точек текущего подмножества. Для следующей итерации каждое текущее подмножество опять разбивается на части, после чего шаги алгоритма повторяются аналогичным образом. Отметим, что в каждом подмножестве текущая итерация проходит независимо и при программной реализации может проводиться параллельно, сокращая тем самым время работы компьютерной программы.
Заключение
Показана возможность применения соотношений глобального алгоритма Кротова улучшения управления к поиску приближенного синтеза управления для динамических систем. Для случая линейной по состоянию динамической системы (линейной системы с управляемыми коэффициентами) при квадратичном критерии качества найдено аналитическое выражение синтеза управления на итерации алгоритма. Представленный вычислительный процесс позволяет существенно сократить число операций для поиска разрешающей функции на каждой итерации.
Литература
1. Кротов В.Ф., Букреев В.З., Гурман В.И. Новые методы вариационного исчисления в динамике полета. — М.: Машиностроение, 1969.
2. Беллман Р., Калаба Р. Динамическое программирование и современная теория управления. — М.: Наука, 1969.
3. Зубов В.И. Лекции по теории управления. - М.: Наука, 1975.
4. Трушкова Е. А. Алгоритмы глобального поиска оптимального управления//Автоматика и телемеханика. — 2011. — №6,— С. 151-159.
5. Букреев В.З. Об одном методе приближенного синтеза оптимального управления // Автоматика и телемеханика. — 1968. — № 11. С.5-13.
6. Кротов В.Ф., Булатов А.В., Батурина О.В. Оптимизация линейных
систем с управляемыми коэффициентами // Автоматика и телемеханика. —
2011,- №6,- С. 64-78.
Трушкова Екатерина Александровна, кандидат физико-математических наук, старший научный сотрудник Института проблем управления РАН, Москва, тел. (495) 334-79-51, e-mail: [email protected]
Trushkova Ekaterina Alexandrovna, candidate of physical and mathematical
sciences, senior researcher, Institute of Control Sciences RAS, Moscow.