УДК 517.977+ 62-50
DOI 10.19110/1994-5655-2018-3-8-12
АДАПТИВНАЯ СУБОПТИМАЛЬНАЯ СТАБИЛИЗАЦИЯ ДИСКРЕТНОГО МИНИМАЛЬНО-ФАЗОВОГО ОБЪЕКТА С НЕОПРЕДЕЛЕННОСТЬЮ В КАНАЛЕ ВЫХОДА
В.Ф. СОКОЛОВ
Физико-математический институт ФИЦ Коми НЦ УрО РАН, г. Сыктывкар
Рассматривается задача адаптивной оптимальной стабилизации дискретного минимально-фазового объекта с неопределенностью в канале выхода. Для оптимального онлайн оценивания неидентифицируемых параметров объекта и неизвестных верхних границ неопределенности и внешнего ограниченного возмущения используются их конусные оценки. Использование простых конусных оценок для синтеза адаптивного субоптимального управления оказывается возможным благодаря тому, что показатель качества в задаче стабилизации является дробно-рациональной функцией неизвестных конструктору системы управления верхних границ внешнего возмущения и неопределенности. Конусное оценивание базируется на методе рекуррентных целевых неравенств, обеспечивающем дополнительно онлайн верификацию используемой для синтеза управления модели.
Ключевые слова: адаптивное управление, оптимальное управление, робастное управление, онлайн верификация модели, ограниченное возмущение
V.F. SOKOLOV. ADAPTIVE SUBOPTIMAL STABILIZATION OF DISCRETE-TIME MINIMUM-PHASE PLANT UNDER OUTPUT UNCERTAINTY
The paper addresses the problem of adaptive suboptimal stabilization of linear, time-invariant discrete-time minimum-phase plant under output uncertainty and bounded exogenous disturbance. The control criterion is taken in the form of the worst-case upper limit of the absolute value of the plant output. The parameters of the plant, the upper bound on the disturbance, and the induced norm of the uncertainty are assumed to be not known to the designer. Conventional gradient or projection type estimation algorithms are of no use in this problem in view of the non-identifiability of the unknown parameters of the plant as well as the upper bounds on the disturbance and the uncertainty. The statement of the problem is based on the known results in the theory of robust control in the l\ setup, and the solution of the problem is based on set-membership approach and optimal estimation where the identification criterion is taken in the form of the control criterion. The control criterion in the specific problem under consideration is a linear-fractional function of the upper bounds on the disturbance and the uncertainty. This peculiarity enables use of simple cone estimates composed of p linear inequalities with respect to p estimated parameters and reduces online optimal estimation to the selection of the best estimate among p candidate estimates. Cone estimates are based on the method of recurrent objective inequalities and additionally provide online model validation.
Keywords: adaptive control, optimal control, model uncertainty, online model validation, bounded disturbance
1. Введение
го адаптивного управления [1], основанные на градиентных и проекционных алгоритмах оценивания. Постановка задачи адаптивной оптимальной стабилизации базируется на результатах теории робаст-ного управления в ^-постановке [2, 3], а ее решение требует использования множественного оценивания неизвестных параметров и оптимального оценивания, в котором идентификационным критерием служит показатель качества задачи управления [4]. Специфика рассматриваемой в статье проблемы за-
Рассматривается задача адаптивной оптимальной стабилизации линейного стационарного дискретного минимально-фазового объекта с ограниченным внешним возмущением и неопределенностью в канале выхода. В силу неидентифицируемости параметров объекта и верхних границ неопределенности и внешнего возмущения для ее решения не пригодны традиционные методы синтеза робастно-
ключается в том, что показатель качества в задаче оптимальной стабилизации является дробно-рациональной функцией верхних границ внешнего возмущения и неопределенности в канале выхода. Это обстоятельство позволяет, во-первых, использовать максимально простые конусные оценки неизвестных параметров и, во-вторых, сводит задачу онлайн оптимизации оценок к выбору наилучшей оценки из р кандидатов, где р - число оцениваемых параметров. Конусный алгоритм оценивания был предложен в [5] для задач с линейными показателями качества и обобщается в данной работе на задачу с дробно-рациональным показателем качества. Линейные неравенства для конусных оценок основаны на методе рекуррентных целевых неравенств [6] и обеспечивают дополнительно онлайн верификацию настроенной модели.
2. Постановка задачи
Пусть объект управления описывается моделью
Vt + агу—1 + ... + апу—п = = biUt-i + ... + bmut-m + vt, t = 1,2,... ,
(1)
где вещественные числа обозначают соот-
ветственно выход объекта, управление и суммарное возмущение в момент времени £ Введем обозначение д-1 для оператора сдвига назад (д_Х := х—1) и определим полиномы
а(А) = 1 + а1\ + ... + апАп , Ъ(А) = Ь1 + Ъ2А + ... + ЪтАт-1.
В этих обозначениях уравнение модели (1) принимает вид
а(я-1)у(г) = д-1Ъ(д-1 )п(г) + v(í).
Априорная информация об объекте состоит из предположений А1, А2.
А1. Неизвестный столбец коэффициентов модели
£ := (а1 ,...,ап,Ъ1 ,...,Ът)Т
принадлежит известному ограниченному многограннику
£ е 2 = {£ | р£ > р} с жп+т, Р е ш1х(п+ш),
(2)
Ъ1 = 0 для любого £ из 2 и корни полинома
b(A) = bi + b2 А + ... + bmA
г-1
лежат вне замкнутого единичного круга {г е С | 1г1 < 1} (такие полиномы называются устойчивыми, а соответствующие им модели - минимально-фазовыми).
А2. Суммарное возмущение V имеет вид
V = ш + 5у Ду, (3)
где ш е - неизвестное конструктору внешнее возмущение с неизвестной нормой
5W := \\w\\ := sup\wt\
t
Д - неизвестный строго причинный оператор на удовлетворяющий при всех £ ограничениям
|(Ду)(£)| < ру(£):= тах ^ . (5)
Оператор Д называется нормированной неопределенностью (или операторным возмущением) в канале выхода. Предполагается известной верхняя граница 6у < 1 неизвестного коэффициента усиления неопределенности 5у :
0 < 5у < 5у < 1.
Параметр / в неравенстве (5) характеризует память неопределенности Д и может быть выбран сколь угодно большим, но не бесконечным, без ущерба для гарантируемого качества управления. Ограниченность памяти возмущений обеспечивает независимость асимптотического качества замкнутой системы управления от начальных данных [3], что необходимо для синтеза адаптивного управления.
Для модели с известным вектором коэффициентов £ и любыми начальными значениями уо,..., У_п+1, Щ,..., и_т+1 регулятор
b(q )ut = (a(q ) - 1)ym
(6)
обеспечивает равенство yt+1 = vt+1 и тем самым гарантирует минимизацию показателя качества
Jß(öy,5w) := sup sup lim sup \yt\ ,
A w
где супремумы берутся по возмущениям w и неопределенностям Д, удовлетворяющим предположению A2. Точная верхняя оценка показателя Jß(öy,öw) при / — следует из теорем 6 и 8 [3]:
J„(ö yw ) ^
öw
1 öy
(/ — +гс>), öy < 1, (7)
где знак ^ означает монотонную сходимость снизу. Верхняя оценка (7) характеризует качество стабилизации для объекта с известным вектором коэффициентов £.
Задача. При априорной информации А1,А2 требуется построить обратную связь для модели (1), гарантирующую с наперед заданной точностью неравенство
sup sup lim sup \yt\ < J(öy,öw) :=
öw
t—^o
1- Öy
(8)
(4)
для модели с неизвестным вектором коэффициентов £ при неизвестных конструктору 5у.
Поставленная задача является задачей адаптивного субоптимального управления с показателем качества 1 (6у). Ее сложность заключается в том, что адаптивный регулятор должен гарантировать с заданной точностью то же качество управления, что и для известной модели в условиях неидентифицируемости вектора коэффициентов £ и верхних границ 5у и . Поскольку даже желаемое оптимальное значение 1 (6у, ) показателя качества неизвестно конструктору, для решения задачи необходимо онлайн оценивание не только вектора коэффициентов £, но и норм возмущения и неопределенности.
A
w
3. Адаптивное субоптимальное управление
Для решения поставленной задачи будем оценивать по данным измерений вектор неизвестных параметров модели
е = (iT aе
ив = и + m + 2 .
Jyi wwJ
Из уравнения модели и предположения A2 следуют неравенства
\a(q-1 )yt - q-1b(q-1)ut\ < 5W + SyPy(t), t е N,
(9)
несущие информацию о неизвестном векторе е. Можно показать, что система неравенств (9) эквивалентна уравнению модели (1) с предположением A2, т.е. если для некоторого вектора е и последовательностей y и u выполнены неравенства (9), то существуют удовлетворяющие предположению A2 возмущение w и оператор А, при которых справедливо уравнение (1). Каждое из неравенств (9) представляет собой пару линейных неравенств относительно вектора е. Для произвольного вектора е в момент времени t может нарушаться только одно из этих линейных неравенств, и именно нарушаемые неравенства будут задействованы в алгоритме оценивания. Введем обозначения
= (£, Syt, öwt)T
для векторной оценки неизвестного вектора е в момент времени t,
Фt := (-yt, -yt-1, ■■■, -yt-n+i,ut,■■ .,ut-m+i )T , nt+i := sign(yt+1 - фТCt), Фг+1 : = (%+1фТ,Py(t), 1)T ,
(t+1 : = nt+1yt+1 ■
Неравенство (9) относительно еt в момент времени t + 1 эквивалентно неравенству
nt+1(yt+1 - ^& < öwt + öytPy(t) и может быть переписано в виде
CA > Zt+1 ■
Таким образом, для выполнения неравенства (9) в момент t + 1 необходимо и достаточно, чтобы оценка еь удовлетворяла линейному неравенству
^е > Zt+1, е е жп* ■ (10)
Если неравенства (10) выполняются для не изменяющейся оценки еь при всех достаточно больших t, то выход y и управление u удовлетворяют уравнению модели (1) с вектором параметров еt и тогда регулятор (6), соответствующий вектору коэффициентов £t, гарантирует в силу (7) справедливость неравенства
lim sup \yt\ < J(Syt, Swt) ■
Следовательно, для достижения цели управления (8) достаточно гарантировать выполнение неравенств
J (Syt, Swt) < J (Sy ,Sw) (11)
с неизвестными Sy и Sw. Этого можно достичь применением множественного оценивания и выбором наилучших точечных оценок в множественных оценках.
В качестве множественных мы будем использовать максимально простые конусные оценки, а в качестве оптимальных точечных оценок - вершины конусов. Введем обозначение
в:= { е = (е,Sy, Sw)T |
Pi > p,Sy > Sy > о,Sw > 0}
(12)
для априорного множества допустимых значений вектора в. Показатель качества 1 будем рассматривать как функционал на априорном множестве в:
I (S) := J (Sy ,Sw) =
1- Sy
See ■
Использование простых конусных оценок для обеспечения неравенства (11) оказывается возможным благодаря тому, что
I(е) = C & CSy + Sw = C,
(13)
т.е. поверхностями уровня дробно-рациональной функции I являются полосы 6у > 5у > 0, > 0
на гиперплоскостях + С5у = С в Ж"0. В каждый момент времени £ конусная оценка Сг будет иметь вид
С = { в |Ф40 > 2г }, Ф4 € Ж"0 Х"0 , det Фг = 0,
(14)
в котором каждое из ив скалярных неравенств является одним из неравенств (10), полученных до момента £ + 1, или неравенством из описания (12) априорного множества в. Представление (14) можно переписать в виде
Ct = {е = е% + ф-1а |а = (аь.
где
^ := Ф-zt
,Апв)T > 0 } , (15)
- вершина конуса Сг, а столбцы матрицы Ф^1 - его ребра. Обозначим через егк нормированное к-ое ребро конуса и перепишем представление (15) в виде
Сг = { в = вг + £ Аке\ | Ак > 0, \вк\ = 1 Ук } .
к=1
(16)
В (16) и далее \х\ обозначает евклидову норму вектора х. В качестве начального конуса С0 выбирается конус с вершиной , 0, 0)т, £0 € 2, составленный из и + т линейно независимых неравенств из априорной системы неравенств (2) и двух неравенств 6у > 0, > 0 (все неравенства рассматриваются относительно расширенного вектора параметров в).
Конус Сг обновляется в момент £ + 1 по следующему алгоритму Выберем параметр мертвой зоны е > 0 и положим
^+1 := еt, Ct+1 := Ct, если C^t > Zt+1 - e\^t+1\ ■
w
В противном случае новые оценки находятся следующим образом. Обозначим через Пг+1 полупространство, задаваемое неравенством (10):
:= { в\ ФТ+10 > 0+1 }
и положим
6t+1 := argmin I(в),
êectnQt+ine
(18)
где вг+1 - вершина многогранника СгП Пг+1 П в, являющаяся решением задачи дробно-линейного программирования (18). Вершина вг+1 является точкой пересечения границ ив линейных неравенств из описания множества Сг П Пг+1 П в, которые и задают обновленный конус Сг+1.
Во избежание зацикливания в случае не единственности выбора вершины вг+1 в (18) уточним этот выбор следующей лексикографической процедурой. Положим
Ut+1 := (0,..., 0,I (в+), 1)T
(19)
- вектор нормали к гиперплоскости { в | I(в) = I(вг+1)}. Дополним нормированный вектор с1 := иг+1/\\иг+1\\ до ортонормированного базиса
с1 ,с2,... ,спд пространства Жпе. Если вершина, доставляющая решение задачи (18), не единственна, выберем ту из них, на которой достигается минимум дополнительного линейного функционала сТв (в случае очередной неоднозначности - еще одного дополнительного линейного функционала сТ в и т.д.).
Необходимые для синтеза адаптивного управления свойства конусного алгоритма сформулированы в следующей лемме.
Лемма 1. Пусть объект управления удовлетворяет уравнению модели (1) и выполнены предположения A1, A2 с неизвестным вектором параметров в = (£Т ,5у )Т. Пусть и1,и2,... -произвольная последовательность управлений при любых начальных значениях у0,..., у_п+1,и0,..., и_т+1, и последовательность конусов €1 с вершинами вг вычисляется согласно описанному выше алгоритму с параметром мертвой зоны 0 < е < 1 — 5у. Тогда
I(et) S In < I(в) =
Öw
1- Öy
(t ^ +rc>) . (20)
Если существует е* > 0 и индекс к* такие, что при всех достаточно больших £ выполнены неравенства
nt+1ek,. ^ e*
(21)
и в описание конусов Ct не входят априорные ограничения (12), то число обновлений конусов Ct и оценок et конечно, и для финальной оценки выполнены неравенства
ФТ+i вп > Ct+1 - Фт!. (22)
Доказательство. Докажем сначала справедливость (20). Из алгоритма обновления конусов Ct следует, что для всех t
I(et) = min I(в)
e ect
и тогда из (18) и включения Сг с Сг П Пг+1 П в следует
I(вг) < I(вт) .
Поскольку вектор в е в удовлетворяет неравенствам (10), т.е. в е при всех то в е Сг и, следовательно,
I(вг) < I(в)
при всех Из возрастания и ограниченности последовательности I(вг) следует справедливость (20).
Справедливость неравенств (22) при выполнении неравенств (21) при всех достаточно больших £ докажем индукцией по размерности ив. Не уменьшая общности, случай ив = 1 можно считать соответствующим задаче, в которой неизвестна только одна из верхних границ 5у или и известен вектор коэффициентов £ (при этом следует должным образом переопределить фг+1 и (г+1). В этом случае все конусы Сг имеют вид [вг, +гс>). Условие
фÏ+Iet < Ct+1 — e^t+A
(23)
изменения оценок вг означает, что расстояние от вг до множества Пг+1 больше е и, следовательно, оценки вг монотонно возрастают на величину не меньше е при каждом своем изменении. С другой стороны, последовательность вг ограничена, т.к. неравенства (9) заведомо выполняются (и тем самым неравенства (23) не выполняются), если оценка 5уг или 5^ превышает 5у или соответственно. Из этого следует, что число изменений оценок вг конечно и при всех достаточно больших £ выполнены неравенства (22).
Предполагая, что число обновлений конусов конечно для размерности ив — 1, докажем его конечность для размерности ив. Для этого воспользуемся неравенством
I((£Т, 5у + еу, ^ + еш)Т — I(в) > 1 (в)еу + ^
(1 - Öy )
(24)
которое следует из цепочки неравенств
Öw + ew
1 - Ö — e
1 Öy ey
1- Öy
Sw + ew
1 — Sy — ey
Sw + ei
H
Sw + eu
1- Öy
1- Öy
(Öw + ew )ey
+
(1 — Sy — ey)(1 — Sy) 1 — Öy
+
I (e)ey + ew (1 — Sy)
(1 — йу)(1 — ¿у) 1 — 5у
Из предположения леммы, что в описание конусов Сг при всех достаточно больших £ не входят априорные ограничения (12), следует, что оценка вг+1 является вершиной многогранника Сг П Пг+1 и при обновлении конусов Сг происходит замена одного из неравенств из описании конуса новым неравенством, задающим полупространство Пг+1. Оценка вг+1 получается из оценки вг смещением вдоль
w
)
w
e
w
e
e
w
y
w
одного из ребер егк, к = 1,... до пересечения с границей Пг+ь Покажем, что это смещение не может происходить вдоль ребра в*к . Предположим противное, т.е.
= вг + Хв1,
где Л > е, поскольку вг+1 находится на границе полупространства Ог+1, а расстояние от вг до Пг+1 превосходит е в силу условия обновления (23). Тогда с учетом неравенств (21) и (24) имеем
I(вг+1) - I(вг) >
1 (вг)(вг+1 — вг) по — 1 + (вг+1 - вг) по
1-5.
yt
ut+1Xe T
> \ut+i\ee* > ее* > 0.
Полученное неравенство для приращения I(6t+1) — I(et) противоречит доказанной выше сходимости последовательности I (dt).
Изменение оценки dt вдоль ребра, отличного от el означает, что неравенство с номером к* в описании конусов Ct остается неизменным при всех достаточно больших t. Тем самым все обновления конусов происходят в подпространстве размерности ид — 1, и их число конечно в силу индукционного предположения. Лемма доказана. □
Основной результат статьи представлен в следующей теореме.
Теорема 1. Пусть объект управления удовлетворяет уравнению модели (1)и выполнены предположения A1, A2 с неизвестным вектором параметров в = (£T, 5y, 5w)T. Пусть управление объектом осуществляется адаптивным регулятором
bt(q-1)ut = (at(q-1) — 1)ym , (25)
в котором полиномы at(X) и bt(X) имеют вектор коэффициентов £t, вычисляемый описанным выше конусным алгоритмом с параметром мертвой зоны 0 < е < 1 — 5y. Если в замкнутой системе управления (1), (25), (17), (18) конусные оценки Ct удовлетворяют предположениям леммы 1, то число обновлений конусных оценок Ct и векторных оценок et конечно и
lim sup\yt \ < J (5уЖ, 5wTO)+ Се < J (5y, 5w)+ Се,
(26)
где 5yx>, 5wx, - компоненты установившейся оценки
вх, = (вT ) 5yx>, 5wx,)T и
С = Щ±1 е.
1—6,
Доказательство теоремы сводится к применению леммы 1 и вычислению постоянной С на основе неравенств (22) и (24).
Замечание 1. Неравенство (26) означает решение поставленной оптимальной задачи (8) с гарантированной точностью Се, в которой параметр мертвой зоны е можно выбирать достаточно малым.
Замечание 2. Вопрос о конечной сходимости конусного алгоритма оценивания без условий "невырожденности" конусов (21) и отсутствия априорных
ограничении в описании конусов остатется открытым. Следует однако подчеркнуть, что легко проверяемое в процессе управления "ненарушение" этих условии в течение длительного отрезка времени гарантирует верхнюю границу из неравенства (26) для текущих выходов (а не для верхнего предела), т.е. дает решение задачи оптимальной стабилизации с практической точки зрения. При этом, в отличие от традиционных методов синтеза адаптивного управления [1], выполнение неравенств (10) означает онлайн верификацию модели с установившимся вектором параметров 6t и дает согласованную с измерениями оценку качества адаптивной системы.
Литература
1. Ioannou P., Sun J. Robust adaptive control. Prentice-Hall Inc. Upper Saddle River. N.J., 1995.
2. Khammash M., Pearson J.B. Performance robustness of discrete-time systems with structured uncertainty // IEEE Trans. Autom. Control. 1991. Vol. 36. No. 4. P. 398-412.
3. Sokolov V.F. l\ robust performance of discrete-time systems with structured uncertainty // Syst. Control Lett. 2001. Vol. 42(5). P. 363-377.
4. Соколов В.Ф. Адаптивное робастное управление дискретным скалярным объектом в 1\-постановке // АиТ. 1998. № 3. С. 107-131.
5. Соколов В.Ф. Адаптивное минимаксное управление на основе рекуррентного линейного программирования // АиТ. 1993. № 12. С. 127139.
6. Фомин В.Н., Фрадков А.Л., Якубович ВА. Адаптивное управление динамическими объектами. М.: Наука, 1981.
References
1. Ioannou P., Sun J. Robust adaptive control. Prentice-Hall Inc. Upper Saddle River. N.J., 1995
2. Khammash M., Pearson J.B. Performance robustness of discrete-time systems with structured uncertainty // IEEE Trans. Autom. Control. 1991. Vol. 36. No. 4. P. 398-412.
3. Sokolov V.F. l\ robust performance of discrete-time systems with structured uncertainty // Syst. Control Lett. 2001. Vol. 42(5). P. 363-377.
4. Sokolov V.F. Adaptive robust control of a discrete scalar object in the l\-statement // Autom. Remote Control. 1998. Vol. 59. N. 3. Part. 2. P. 392-411.
5. Sokolov V.F. Adaptive minimax control based on recursive linear programming // Autom. Remote Control. 1993. Vol. 54. N. 12. P. 18351845.
6. Fomin V.N., Fradkov A.L., and Yakubovich V.A. Adaptivnoe upravlenie di-namicheskimi ob'ektami [Adaptive control of dynamic plants]. Moscow: Nauka, 1981.
Статья поступила в редакцию 21.03.2018.