Системы управления с идентификатором. Ч. I

Бунич А. Л.

УДК 007(061.3)

СИСТЕМЫ УПРАВЛЕНИЯ С ИДЕНТИФИКАТОРОМ. Ч. I

А. Л. Бунич

Институт проблем управления им. В. А. Трапезникова, г. Москва

Дан анализ исследований по дискретным стохастическим системам с идентификатором, используемым для решения задач проектирования и обслуживания систем управления в условиях неполной априорной информации об объекте и характеристиках внешних возмущений. Рассмотрены вопрос о месте идентификационного (непрямого) подхода среди альтернативных методик синтеза с учетом сложности вычислительной реализации алгоритмов и проблема предельно достижимого быстродействия идентификатора.

ВВЕДЕНИЕ

В классической теории регулирования рассматриваются методы синтеза систем управления в условиях достаточно полной априорной информации о характеристиках объекта. При более реалистичной, ориентированной на запросы приложений постановке задачи проектирования устранение дефицита априорной информации становится самостоятельной проблемой. Частично дефицит информации преодолевается уже на этапе проектирования при построении модели объекта управления. Если выборка наблюдений достаточно велика, а оценки параметров объекта состоятельны, то неточность модели несущественна. Однако высокая стоимость измерений и потери качества в период накопления информации, а также параметрический дрейф объекта на больших временных интервалах лимитируют объем выборки наблюдений. В этих условиях применение традиционного двухэтапного подхода с разделением во времени этапов проектирования и эксплуатации не обеспечивает выполнения требований к качеству и надежности проектируемой системы.

Пример 1. Цель управления состоит в стабилизации скалярного объекта + 1 = + ир + + 1, х0 = 0 с не-

известным параметром - е [—(, (], ( > 0 — заданная константа, управлением ир и белошумным возмущением . Замкнем объект некоторым П-регулятором ир = —

кх, по наблюдениям х* = (т1, ..., х*) с фиксированным объемом выборки * сформируем оценку параметра -* = -* (х*) и расчетный регулятор определим законом и( = — -*хр , > N. Устойчивость замкнутой системы, т. е. накрытие точки - случайным интервалом (-* — 1, -* + 1), представляет собой статистическую гипотезу, принятие которой сопряжено с ошибками первого и второго рода.

В предположении состоятельности оценки параметра lim Рэ т = 1, где Рэ т — вероятность накрытия, т. е. для

Т of , 5

любого коэффициента доверия % е (0, 1) при Т > N* выполняется неравенство Рэ т O %, где порог N* зависит от оцениваемого параметра, значения %, неизвестного распределения возмущения и алгоритма оценивания. С другой стороны, надежное функционирование системы требует выполнения неравенства Рэ N O % для фиксированных значений N, % и, очевидно, в рамках двухэтапного подхода проблема надежного функционирования системы управления не решается. ♦

Разумеется, проблема надежности лишь обостряется для более содержательных задач проектирования многомерных систем в условиях помех измерений с более сильными целями синтеза. На практике недостатки двухэтапного подхода преодолеваются периодической перенастройкой регулятора, т. е. реально процессы проектирования и эксплуатации не разделены во времени.

Альтернатива двухэтапному подходу состоит в функциональном разделении процессов оценивания и формирования управления (рисунок). Система управления включает в себя автономный блок (идентификатор), вычисляющий в реальном времени оценки параметра объекта по наблюдениям, и являющийся управляющим по отношению ко второму блоку — настраиваемому регулятору. Идея применения беспоисковых идентификаторов, корректирующих оценки параметров по ошибке прогноза выхода объекта, высказывалась еще в 1950-е гг. [1]. Замкнутую систему можно представить как обобщенный настраиваемый объект (комплекс “объект — настраиваемый регулятор”), управляемый идентификатором. Обоснование алгоритма идентификатора опирается на концепцию “медленной адаптации” [2] с разделением движений на медленные (в алгоритме идентификатора с малым шагом) и быстрые, обусловленные воздействием координатных возмущений, а при иссле-

Помеха

Система управления с идентификатором

довании сходимости алгоритм идентификатора заменяют упрощенной моделью, полученной его усреднением относительно быстрых переменных.

Зависимость настроек регулятора от параметра объекта определяется при синтезе основного контура управления, а идентификатор выполняет роль датчика параметрических возмущений объекта. Суть идентификационного подхода к задаче синтеза заключается в применении в законе управления вместо неизвестного параметра объекта эмпирических оценок, вычисляемых идентификатором на соответствующих тактах. Один из возможных подходов к задаче синтеза систем с идентификатором состоит в применении “переплетенных” стратегий, когда настройки регулятора “замораживаются” на циклах идентификации с коррекцией в конце цикла.

Идентификатор и сам по себе может быть иерархической системой для разнотемповых параметрических возмущений объекта. Основной контур может проектироваться на основе принципа управления по возмущению, когда идентификатор применяется для настройки компенсатора [3].

Идентификационный подход к задаче синтеза регулятора называют также непрямым, в отличие от прямого подхода, когда настраивается не модель объекта, а непосредственно коэффициенты регулятора. В отличие от альтернативных схем системы с идентификатором более универсальны. Идентификатор в качестве датчика параметрических возмущений может применяться для решения ряда важных задач обслуживания систем управления, например, для диагностики медленных параметрических отказов.

Фиксация структуры системы с разделением процессов оценивания параметров и формирования управлений для упрощения вычислительной реализации алгоритмов синтеза сужает класс допустимых стратегий управления, и проблема компромисса между приемлемыми потеря-

ми качества и сложностью вычислительной реализации одна из центральных в современной теории управления. По классификации Саридиса системы управления с идентификатором относятся к классу самоорганизующихся систем с параметрической адаптацией. Одна из первых промышленных систем с идентификатором для управления трубопрокатным агрегатом была внедрена в 1967 г. Идентификатор в цепи обратной связи по стабилизируемому выходу использовался для настройки компенсатора наблюдаемых возмущений линейного статического объекта [3]. Обоснование идентификационного подхода к задаче синтеза систем управления динамическими объектами потребовало преодоления значительных технических трудностей, и первые результаты в этой области были получены лишь к началу 1980-х гг.

Выбор алгоритма идентификатора должен обеспечить компромисс между помехоустойчивостью и качеством отслеживания. В ряде случаев, например, когда дрейф параметров линейного объекта с конечно зависимой помехой описывается линейным разностным уравнением с известными коэффициентами и неизвестными начальными данными, можно построить алгоритмы состоятельного оценивания расширенного вектора параметров, включающего в себя постоянные параметры порождающего возмущение фильтра и отслеживаемые параметры [4]. Если дрейф описывается моделью с шумом, то алгоритм идентификатора можно конструировать по типу фильтра Калмана. В более типичной для приложений ситуации квазистационарных объектов динамикой дрейфа пренебрегают, считая, что высокая скорость затухания переходных процессов в идентификаторе для стационарного объекта свидетельствует о его работоспособности и в условиях медленного дрейфа. В любом случае проблема качества переходных процессов в идентификаторе является центральной и может рассматриваться в контексте общей задачи оптимизации в условиях помех.

Если градиент гладкой выпуклой функции ф(-),

- е Rn, измеряется без помех, то для решения задачи

выпуклого программирования ф(-) o inf, - е Rn, можно применять алгоритмы с экспоненциальной и в ряде случаев даже конечной сходимостью [5]. Существенно иная ситуация возникает, когда измерение градиента целевой функции сопровождается помехами. Пусть, например,

ф(-) = (- — -*)2/2, - е R1, и на каждом такте t в точке

-t результат измерения производной yt = -t — -* + vt + 1 где помеха {vt} — центрированная последовательность независимых случайных величин с общей плотностью распределения ру, -* — неизвестный параметр. При некоторых условиях регулярности плотности распределения pv порядок скорости сходимости Е(-т — -*)2 = о(Т~1) относительно объема выборки наблюдений Т недостижим, а предельно достижимая скорость сходимости в рассматриваемой и более общей регулярной задаче оценивания (многомерного параметра нелинейного объекта) определяется нижней границей информационного неравенства [6]. Достаточно низкий (по сравнению с оптимизацией при отсутствии помех) “барьер быстродействия” характерен и для широкого класса задач идентификации и адаптивного управления. Например, для объекта из примера 1 можно построить идентификатор

и настраиваемый регулятор ut = __ -[xt _ 1 где _ 1 — оценка параметра на такте t — 1, обеспечивающие предельную оптимальность стратегии в смысле соотноше-

2 2

ния lim Еэ xt = Evt и неулучшаемую оценку скорости

t Of

затухания переходного процесса в системе управления:

т

T~j £ E3(xt _ vt)2 = 0(lnT/T) (более точная оценка пре-t = 1

дельной скорости переходных процессов приведена в работе [7, с. 287]). Для задачи отслеживания эталонного сигнала многомерным авторегрессионным объектом a(V)yt = ut _ 1 + v,, a(0) = I, достижимые нижние границы качества переходного процесса в замкнутой системе получены в работе [8]. Таким образом, для широкого класса возмущений барьер быстродействия ограничивает предельно достижимое качество управления независимо от выбора конкретного алгоритма идентификатора.

Плата за универсальность систем с идентификатором состоит в их избыточности по отношению к целям синтеза, достижимыми и для более простых неидентифицирующих стратегий. Например, состоятельное оценивание настроек оптимального регулятора в системах, синтезированных на основе прямого подхода, обеспечивает предельную оптимальность стратегии управления, в то время как для типичной в приложениях ситуации, когда разностный порядок объекта выше порядка регулятора, проверка условий идентифицируемости объекта в замкнутом контуре достаточно затруднительна. Кроме того, реализация алгоритма идентификатора более громоздка и требует, вообще говоря, специальных мер обогащения спектра процесса управления. Возможны и альтернативные методы синтеза с частичным устранением неопределенности объекта, например, на основе “функциональной идентификации”, обеспечивающей близость выходов объекта и модели при одинаковых входах и реализуемой конечно-сходящимися алгоритмами решения рекуррентных целевых неравенств. Наконец, можно полностью отказаться от снижения неопределенности объекта, заданной в интервальной форме, ограничившись наиболее слабой стабилизационной целью, и используя дискретные аналоги известной теоремы В. Л. Харитонова. Идейно такой подход близок к известной проблеме Айзермана об абсолютной устойчивости системы Лурье в гурвицевом угле и ее обобщению — робастной абсолютной устойчивости [9]. Отметим, что теорема Харитонова не имеет прямого дискретного аналога (известны контрпримеры для систем четвертого порядка) и, кроме того, интервальная форма задания неопределенности адекватна лишь по отношению к физическим параметрам объекта с заданными допусками. Самостоятельной проблемой являются и значительные вычислительные затраты, например, задача построения стабилизирующего регулятора заданной структуры.

Универсальность идентификационного подхода и возможность его реализации в системах реального времени с использованием рекуррентных стохастических процедур оценивания стимулировала интенсивные исследования в этой области, и в настоящее время число публикаций по этой тематике составляет многие тыся-

чи. Тем не менее, несмотря на значительный прогресс в решении частных проблем идентификации, связанных преимущественно с исследованием сходимости алгоритмов оценивания, остро стоит вопрос об области применимости идентификационного подхода в целом и его месте среди альтернативных схем синтеза систем управления.

Несмотря на запросы приложений, высокие требования к современным системам автоматического управления и прогресс в элементной базе и теоретических разработках, доля простых регуляторов с постоянными настройками среди реально действующих систем управления неоправданно высока. Настоящая статья адресована широкому кругу инженеров и научных сотрудников, интересующихся проектированием и обслуживанием систем прямого цифрового управления объектами с параметрической неопределенностью. В ней отсутствуют “строгие” формулировки условий оптимальности стратегий управления и сходимости алгоритмов идентификации, что в определенной степени является ее недостатком. Вместе с тем отметим, что такие формулировки имеют характер достаточных условий, причем разрыв между достаточностью и необходимостью часто объясняется не существом проблемы, а техникой доказательств. Кроме того, ограничения на класс адаптивности (включая, например, условия регулярности распределений возмущений и вещественной положительности порождающего фильтра) часто неадекватны прикладным задачам синтеза и проверка их выполнения сама по себе является сложной проблемой. Перечисленные трудности, а также ориентация идентификационного подхода преимущественно на линейные номинальные модели привели за последние 10—15 лет к ослаблению интереса специалистов по автоматическому управлению к работам по данной тематике, что особенно заметно на фоне резкого роста числа публикаций по методам синтеза нелинейных систем и нейросетевым моделям.

Статья не претендует на универсальность охвата тематики и не является обзором публикаций по идентификации, исчисляемых многими тысячами. Многие частные вопросы построения и исследования сходимости различных алгоритмов идентификации и многочисленные примеры применения идентификационного подхода в приложениях подробно рассматриваются в материалах последних конгрессов и специализированных симпозиумов ИФАК по идентификации, регулярно проводимых Институтом проблем управления им. В. А. Трапезникова РАН конференциях “Идентификация систем и задачи управления” и симпозиумов “Теория адаптивных систем” в Санкт-Петербурге, а также в работах, приведенных в библиографическом списке в конце статьи.

Принятые сокращения:

п. ф. — передаточная функция;

д. р. ф. — дробно-рациональная функция (без полюсов в замкнутом единичном диске) над полем вещественных чисел (устойчивая); с. в. — случайная величина; п. н. — почти наверное;

V — оператор задержки на такт.

1. ОПТИМАЛЬНЫЕ СТРАТЕГИИ УПРАВЛЕНИЯ И ИХ АППРОКСИМАЦИЯ

Если параметры объекта представляют собой с. в. с известным распределением, то задачу синтеза можно сформулировать для объекта с расширенным состоянием, интерпретируя вычисление апостериорных распределений параметров относительно наблюдений как “изучение объекта”. Естественно ожидать, что для задач синтеза с большим горизонтом управления вычислительно менее затратная идентификационная стратегия аппроксимирует оптимальную при существенно более слабых требованиях к необходимому объему априорной информации.

Как известно, оптимальные системы классифицируются в зависимости от способов использования информации о неопределенности объекта при формировании управления, и задача оптимизации стратегии рассматривается для каждого их этих классов [10]:

1) системы без обратной связи (системы программного управления);

2) системы с пассивной обратной связью (“разомкнутой обратной связью” по классификации Дрейфуса и Цзе);

3) системы дуального управления (с активной обратной связью, используемой для снижения неопределенности объекта).

Ко второму классу относятся, например, линейноквадратичные гауссовы (ЛКГ) системы. С другой стороны, можно привести простые примеры объектов, не являющихся нейтральными по А. А. Фельдбауму, для которых оптимальная стратегия определяется теорией дуального управления [11]. Активность обратной связи проявляется, например, при управлении наблюдениями с целью снижения будущих рисков из-за неустраненной неопределенности объекта (риска действия), в то время как для нейтральных систем расширение класса стратегий управления не приводит к уменьшению суммарного риска действия и изучения. В системах третьего класса оптимальная стратегия минимизирует суммарный риск действия (издержек на текущем такте) и изучения (суммарных издержек на последующих тактах), являясь по А. А. Фельдбауму направляющей и в известной степени изучающей.

Фиксация структуры системы с автономизацией оценивания и формирования управлений аналогично теореме разделения для ЛКГ систем (по типу структуры, представленной на рис. 1) упрощает вычислительную реализацию алгоритмов синтеза, но одновременно сужает класс стратегий, причем в более узком классе стратегий глобальный минимум функционала издержек, вообще говоря, не обеспечивается. С другой стороны, можно привести примеры простых линейных объектов, для которых оптимальная стратегия управления необязательно обладает идентифицирующим свойством.

Пример 2. Скалярный объект с белошумным возмущением у“ описывается уравнением у( _ -(V)(и, _ 1 —

- у, _ 1) = у, -(V) = -0 + -1г + ... + -„г", с. в. у,, - = со1(-1, ..., -„) независимы в совокупности с известными гаус-

совыми плотностями распределений, начальные данные фиксированы. Независимо от выбора неупреждающей

2 2

стратегии Еу( О Е у( , , > п, равенство выполняется для неидентифицирующего селектора и( = у,. Для построения идентифицирующей стратегии используем обратную связь и( = у( + е,, рандомизированную независимым от возмущения измеряемым белошумным сигналом “, е{ ~ *(0, а2). Идентификация сводится к стандартной задаче оценивания параметров объекта у( = -(")е, _ 1 + у,.

Так как Е у2 — Е у2 = а2! ||-||2, то для устранения потерь качества из-за рандомизации необходимо использовать тестовые сигналы с достаточно медленно уменьшающейся мощностью, обеспечивающей выполнение идентифицирующего свойства. ♦

Зависимость темпа накопления информации от выбора стратегии управления характерна и для статических объектов с мультипликативным вхождением неопределенности.

Пример 3 [11, с. 426 — 434]. Объект у( = х( + у, х( = -и, с независимыми гауссовыми белошумным возмущением у, и случайным коэффициентом усиления -, плотности распределения которых известны. Качество отслеживания известного детерминированного задающего воздей-

т

ствия х* определяется критерием Т 1 ^ !(-и, _ х*)2.

р = о

Апостериорное распределение параметра гауссово ^-(’|у‘, и‘) ~ *(т,, а,) с рекуррентно вычисляемыми по наблюдениям (ур, и‘) достаточными статистиками т,, а,. Оптимальный закон управления имеет вид и^1 =

= и°р1 (т, _ 1, а, _ 1, х*, Т _ ,). Вычисление функций в правой части требует привлечения численных методов. ♦ Свойство нейтральности, в частности, приводимости системы к эквивалентной разомкнутой, значительно упрощает процедуру синтеза.

Пример 4 [11, с. 410—414]. Объект с аддитивной неопределенностью у( = х( + у,, х( = - + и,, где гауссова с. в.

- независима относительно белошумной гауссовой помехи измерения у , качество управления определяется

т

функционалом -т = Т 1 ^ !(х, _ х*)2 с детерминиро-

р = о

ванным ограниченным задающим воздействием х,*, , = 1, 2, ..., Т. Оптимальная стратегия порождается обратной связью и, = х,* _ -,, , > 0 с байесовской оценкой

р -1

2 2 _1

параметра -, = (, + ау /а-) ^ (ук _ ик). В рамках

к = 0

структуры (см. рис. 1) аппроксимирующую стратегию можно получить заменой -, выборочным средним, либо любой другой состоятельной рекуррентной оценкой, вычисление которой не использует значений дисперсий

22

ау , а- . Очевидно, способ аппроксимации существенно влияет на качество переходного процесса. Однако для

больших выборок различия в качестве управления пре-небрежимы и резко ослабляются требования к объему априорной информации о распределениях параметра и помехи. Кроме того (для негауссовских распределений), процедура вычисления байесовской оценки сложна и не допускает, вообще говоря, рекуррентного представления. ♦

Перейдем к рассмотрению более общей ситуации, когда объект и измеритель описываются уравнениями

X, + 1 = /,(Х,, и,, -) + у,, , = 0, ..., Т _ 1, Х0 = у0,

6 = с,(4,, -) + , = 0, ..., Т. (1)

Все переменные и параметр объекта - е Л, где Л — априорно заданное множество неопределенности, принимают значения в евклидовых пространствах соответствующих размерностей: Х( — состояние, — измеряемый выход, и( — управление, у( и — неизмеряемые возмущения в объекте и канале наблюдения, функции {/, }0 -1 и {С0}0 известны, Т — горизонт управления. Независимые в совокупности системы с. в. {у,, щ,, -} имеют распределения с известными независимыми от плотностями.

Используемые при формировании управлений обратные связи и0 = 10(60, е0), и, = Ц(и0 1, 60, е0), , = 1, 2, ..., Т могут быть рандомизированы измеряемым тестовым сигналом е( (обычно предполагается, что с. в. е( независима относительно системы с. в. {у,, щ,, -}). Последовательность борелевских функций { К и0-1 6(0, е0)} Т= 0 называется стратегией управления 10 (•). Класс стратегий и содержит, в частности, нерандомизированные стратегии (селекторы), порожденные обратными связями и0 = 10(г0), и, = и,( и0-1, 60г), , = 1, 2, ..., Т. Фиксация стратегии и0 (•) порождает в силу уравнения

объекта (1) управляемый случайный процесс {Х(}, = 0 в соответствующем вероятностном пространстве с некоторой стратегической вероятностной мерой и математическим ожиданием относительно этой меры Е Т (далее

и0

для фиксированной стратегии символ Е не индексируется). Качество управления определяется показателем (функционалом средних издержек)

1Т[ 1Т (•)] = Т-1 £ = Е-(Хр и( _ 1, -) (2)

р= 1

с заданными неотрицательными выпуклыми функциями потерь -(•Хна каждом такте , математические ожидания по предположению существуют и ограничены).

Стратегия иТ(•) е 1, 1Т[ (•)] = шГ 1Т[ 2^ (•)] на-

VI е и

зывается оптимальной.

В задачах с бесконечным горизонтом (Г o f) цель оптимизации формулируется по отношению к предельным показателям качества

IJÜ?(•)] = limsup Г“1 £&*, (3)

0of t = 1

где J* = Jt для задач с ансамблевым усреднением (безусловным функционалом) и J* = Qt(Xt, и t _ 1; -) для случайного функционала, который при фиксированной стратегии зависит от реализаций совокупного возмуще-

/ f f f ч тч 7-7-

ния (v0, w0 , е0). В последнем случае в классе Ü вводится частичный порядок, определяемый выполнением для сравниваемых стратегий Ü0f (^)и Üf (•) неравенства f üf (•)] O If[Üf (•)] с вероятностью единица и стратегия üf (•) оптимальна, если неравенство выполняется при любой стратегии ü0f (•). Используются также и предельные функционалы (3) с условным усреднением относительно предыстории.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Задачи с предельными функционалами можно интерпретировать как оптимизацию установившегося (стационарного) режима функционирования системы, поскольку функционал (3) не зависит от переходных процессов, и отказ от управления переходными процессами относится к издержкам асимптотического подхода. Отметим в этой связи, что в рамках асимптотического подхода оптимальные стратегии можно классифицировать по качеству переходного процесса, когда предельные возможности системы управления определяются нижними границами информационных неравенств [8, 12]. В частности, для скалярного авторегрессионного объекта fl(V)ut = и t _ 1 + v, а(0) = 1, с выходом уt управлением и t_ 1 и возмущением vt качество переходных процессов определяется скоростью сходимости средних в условии

Г

_1 2

предельной оптимальности lim Г У Е f St = 0, S t =

0 o f j ü0

= уt _ vt. Аналогичное определение распространяется и на объекты уt = f(yt _ 1) + и t _ 1 + v t с непараметрической нелинейностью f из гельдеровского класса F когда ошибка стабилизации S t = и t _ 1 _ f(yt _ 1) интерпретируется как ошибка оценивания неизвестной характеристики f в точке у _ 1 и оценкой является управление и _ 1. Минимаксная нижняя граница среднеквадратической ошибки стабилизации характеризует предельно достижимое качество переходных процессов, равномерно не улучшаемое по классу F для любых реализуемых стратегий, удовлетворяющих условию равномерной устойчи-2

вости sup sup Е f у t < f [12]. Для построение стра-

t > 0 f е F f> ü0 (•)

тегии с асимптотически достижимой нижней границей используется идентификатор, вычисляющий непараметрические оценки характеристики f по наблюдениям yf, и настраиваемый регулятор с экспоненциально растущим временным интервалом между коррекциями.

Издержки асимптотического подхода окупаются преодолением “априорной трудности” — зависимости стратегии управления от априорного распределения параметра объекта. Устранение этой априорной трудности обеспечивается возможностью применения различных идентификационных процедур при формировании стратегии. Очевидно, для задач оптимизации (1), (3) необходимо дополнительное ограничение на класс стратегий управления и обеспечивающее устойчивость (в вероятностном смысле) замкнутой системы. Так, например, для неминимально-фазового объекта оптимальная стратегия в задаче (1), (2) уже не является допустимой в задаче (1), (3) с бесконечным горизонтом. В связи с возможным применением при решении задачи синтеза идентификационных процедур и рандомизирующих управление тестовых воздействий определения класса 1 будут различными в зависимости от того, используется ли в этих определениях операция ансамблевого усреднения (аналогичное замечание относится и к определениям оптимальных стратегий для функционала (3) с усреднением и без усреднения).

Если уравнение (1) не содержит неизвестных параметров, то задача (1), (2) представляет собой задачу стохастического оптимального управления. К редким исключениям относятся ЛКГ системы, когда оптимальная стратегия определяется в явной форме. При фиксации некоторого селектора апостериорное распределение состояния ЛКГ системы асимптотически нормально,

рХ (X, | 6р 1) ~ *(т, _ 1, ,, _ 1) с рекуррентно вычисляемыми достаточными статистиками (т , _ 1, ,, _ 1), причем условные ковариации ,, _ 1 не зависят от наблюдений и в силу условной нормальности аналогичное утверждение справедливо и для энтропии апостериорного распределения состояний. Именно свойство нейтральности упрощает вычислительную реализацию байесовской стратегии для задачи синтеза (1), (2), которая для ЛКГ систем определяется в явной форме теоремой разделения.

Задача(1), (2) сводится к задаче стохастического оптимального управления объектом с расширенным состоянием х( = со1(Х,, -). Такая задача решается комбинацией алгоритма динамического программирования (ДП) и алгоритма фильтрации частично наблюдаемого

процесса (хр, 6 р), причем в процессе решения устанавливается достаточность класса селекторов для формирования оптимальной стратегии [11, 13]. Сложность вычислительной реализации ДП (“проклятие размерности”) еще более обостряется переходом к расширенному объекту и, например, линейный объект (1) с неопределенным параметром является нелинейным относительно расширенного состояния. Проблема вычислительной реализации достаточно сложна и для первоначально рассмотренной А. А. Фельдбаумом задачи дуального управления статическими объектами, поскольку на каждом такте необходимо учитывать не только риск

Т

действия но и риск изучения, £ &к. Алгоритм ДП

к = р+ 1

основан на построении функции Веллмана — минимальных издержек, которые можно получить на временном интервале ( , + 1, ..., Т) при фиксированной пре-

дыстории, и включает в себя следующие шаги: вычисление апостериорных средних издержек относительно прошлых наблюдений, определение нижней грани средних издержек относительно управления и определение селектора, отображающего наблюдения в то управление, при котором достигается нижняя грань на втором шаге. На первом шаге с использованием формулы Вайеса

Рх, +1; и, (@х, + 1, @и,|6р, и _ 1) = Рх, +1 (@х, +16, и) (@и,|6р,

и 1) вычисляются распределения состояний х{ + 1 относительно фиксированной предыстории (61, ир 1), поэтому формируемую стратегию называют байесовской.

Помимо “априорной трудности” и вычислительных затрат необходимо отметить важный для проектировщика вопрос интерпретации алгоритма в терминах структурных схем, предполагающей определенную иерархию связей в проектируемой системе. Кроме того, необходимо согласовать операцию перехода к нижней грани на втором шаге с условием измеримости селектора, поскольку уравнение Веллмана включает операцию условного усреднения. Наконец, рассмотренная схема ДП неприменима для задач с бесконечным горизонтом. С учетом перечисленных трудностей актуальность идентификационного подхода к задаче синтеза достаточно очевидна.

2. АСИМПТОТИЧЕСКИ ОПТИМАЛЬНЫЕ СТРАТЕГИИ И СИСТЕМЫ С ИДЕНТИФИКАТОРОМ

По А. А. Фельдбауму в оптимальных системах с активным накоплением информации снижение неопределенности объекта проявляется в локализации апостериорных плотностей распределения параметра p3(-\ZT) в окрестности его истинного значения [11]. С другой стороны, независимо от идентифицирующего свойства стратегии, байесовские оценки асимптотически (относительно объема выборки наблюдений Т) инвариантны к априорному распределению параметра из достаточно широкого класса таких распределений. Естественно возникает вопрос о полноте устранения неопределенности начального описания объекта или, в более общей постановке, об идентифицирующем свойстве оптимальных стратегий.

Предположим, что в классе селекторов построена некоторая оптимальная (в смысле предельного функционала (3)) стратегия If, и введем мартингал Мт =

= Е [m(-)\Zt], где ф(-) — произвольно равномерно непрерывная функция параметра. По теореме П. Леви существует предел lim Мт = М® п. н., но локализация

апостериорных плотностей распределений на истинном значении параметра требует также уменьшения апостериорных дисперсий lim ^[m(-)\Zt] = 0 п. н. Однако, как

T о ®

показывает пример 2, это условие может нарушаться даже для достаточно простых линейных объектов. Примеры неидентифицирующих оптимальных селекторов можно построить и применительно к задаче управления минимально-фазовым объектом с применением в иден-

тификаторе метода наименьших квадратов (МНК), а также для локально оптимальных (в смысле заданной квадратичной целевой функции) стратегий [14]. Нарушение условий идентифицируемости связано с предельным вырождением информационной матрицы при идентификации объекта в замкнутом контуре без рандомизации управления. Вместе с тем, как видно из примера 2, расширение класса стратегий посредством рандомизирующих управление обратных связей, вообще говоря, позволяет строить идентифицирующие оптимальные стратегии управления.

Структуру систем с идентификатором поясним для скалярных линейных объектов (1), где состояние стандартно определяется через скалярные выход у, и управление и( (для многомерных объектов схема синтеза аналогична). Объект описывается уравнением а(У)у, = = >(У)и, + с(")у,, а(0) = с(0) = 1, - = со1(_а1, ..., _ап, >1, ..., Ьп) е Л с обновляющим возмущение процессом с независимыми значениями у“. Предположим, что решена задача синтеза основного контура, и регулятор а(-, V) и, = = Р(-, ")у, а(0) = 1, - е Л, с заданными непрерывными на Л настройками (коэффициентами операторных полиномов) обеспечивает достижение цели управления независимо от начальных данных и значения параметра

- е Л.Такой регулятор порождает стационарный селектор и“(0, который реализуем для объекта с известным параметром (Л = {-}). Если, например, критерием качества является дисперсия установившейся реакции, то для минимально-фазового объекта селектор Ц“(^) порождается регулятором Острема, однако для неминимально-фазового объекта стратегия, минимизирующая дисперсию ошибки прогноза выхода, недопустима, поскольку цель управления включает в себя требование устойчивости замкнутой системы. Требование допустимости стратегии предполагает определенные ограничения на множество неопределенности объекта, в частности, условие стабилизируемости пары полиномов а(-, V), Р(-, V), - е Л. Возможны и дополнительные ограничения на Л, обусловленные частичной априорной информацией об объекте (например, когда предполагается, что Л — заданное компактное выпуклое множество), либо связанные с условиями сходимости конкретных алгоритмов идентификатора, например, условие строгой вещественной положительности полинома с ^)(/Р.-условие). Для неопределенных объектов цель управления в классе стационарных линейных стратегий нереализуема, так как настройки регулятора зависят от неизвестного параметра. Введем классификацию стратегий и целей управления применительно к линейным объектам с квадратичной функцией потерь.

Неупреждающая стратегия Ц“(^) допустима, если независимо от значения параметра - е Л и начальных данных обеспечивается предельная ограниченность (в вероятностном смысле) процессов в замкнутой системе. Допустимая стратегия реализуема, если порождающие ее обратные связи не зависят от параметра объекта - е Л. На классе 1 допустимых стратегий определим функционал качества управления (3) и положим

I *= I *(-) = inf I [1°°(-)]. Наиболее слабая цель

1“ ( • ) Е 1

управления (диссипативность по функционалу I состоит в построении реализуемой стратегии 1“ (•), для которой I[1“(0] P CI* с некоторой константой С = С(-) < “. Субоптимизационная цель состоит в выполнении неравенства для С е [1, р], где р — уровень субоптимальности, р ! 1. Наиболее сильная оптимизационная цель синтеза обеспечивается при С = 1. Все целевые условия выполняются при любом допустимом значении параметра объекта независимо от начальных данных в системе управления, причем для функционала (3) без ансамблевого усреднения все неравенства выполняются п. н. Возможны также локальные цели в форме предельного неравенства limsup Е [Qt(xt, q _ 1, -)| уУ _ 1, U _ 1] P м(-) п. н. с ус-

PO “

ловным усреднением по предыстории, %t — состояние на такте t, m(-)— нижняя грань функционала в левой части неравенства по классу допустимых стратегий.

Применение идентификатора для формирования реализуемой стратегии 1“ (•), вообще говоря, не обеспечивает состоятельного оценивания параметра объекта. Если же при любом допустимом значении параметра вычисленная идентификатором оценка состоятельна, то стратегия 1“ (•) называется идентифицирующей.

В качестве алгоритма идентификатора, как правило, применяются различные версии расширенного МНК, в частности, схема Гудвина (упрощенный МНК без операции обращения матрицы). Обогащение спектра процесса управления осуществляется различными схемами рандомизации, в частности, схемой Саридиса—Лоббиа (“с возмущением на входе”) и ее модификациями [10, 13]. Основная трудность при установлении идентифицирующего свойства нерандомизированной стратегии — условие постоянного возбуждения (persistent excitation property), проверка которого достаточно затруднительна.

В работе [15] для задачи управления минимально-фазовым объектом с белошумным возмущением в качестве алгоритма идентификатора применен МНК. Установлена предельная оптимальность стратегии в смысле сходимости функционала качества регулирования (3) к минимальному значению дисперсии возмущения получена оценка качества переходного процесса, т.

е. скорости сходимости временных средних к этому значению.

В работе [13] идентифицирующая стратегия, обеспечивающая оптимизационную цель синтеза для случайного функционала качества (3), в котором xt = col(yt, ..., Уt _ п + 1, У t _ 1, ..., иt _ п + 1), порождается настраиваемой обратной связью а(-1, V)ut = E(-1, V)yt + et, где белошумное рандомизирующее управление тестовое воздействие e независимо от возмущения в объекте с достаточно

2 _1

медленно убывающей мощностью (Е et O C(ln t) , С ! 0). Допустимость стратегии понимается в смысле неравен-т

_1 2 2

ства lim sup T V ( yt + иt ) < “. Рассматривается так-To“ t= 1

же задача оптимизации по отношению к функционалу

качества (3) с ансамблевым усреднением. Предполагается, что объект стабилизируется некоторым регулятором aO(V) = PO(V)yt с известными постоянными настройками. Система работает в двух режимах: режиме стабилизации с регулятором as(V)ut = PO(V)yt + е t и режиме оптимизации с регулятором aopt(-,, V)ut = Popt(-,, V)yt + е,, настройки которого являются заданными непрерывными функциями оценок параметра объекта -,, а для вычисления значения - t используется схема Гудвина с проектированием на заданное компактное выпуклое множество Л допустимых значений параметра. Алгоритм прямых и обратных переключений режимов обеспечивает ограниченность с вероятностью единица режима стабилизации и выполнение оптимизационной цели управления.

Применение рандомизации поясним оцениванием параметра - = col(—а, ..., — ап, b1, ..., bn) объекта a(V)yt =

= b(V)uy + vt, с ограниченным возмущением v“ в замкнутой системе со стабилизирующим регулятором a(V)ut = P(V)yy + еt, е“ — рандомизирующий управление измеряемый тестовый сигнал. Используя белошумный сигнал е“, независимый относительно возмущения в объекте, и размыкая систему по каналам е о (у, u), получаем задачи идентификации пары устойчивых по выходам (у, u) объектов уt = H1(V)aî + v), g(V)v) = a(V)vt,

2 2

ut = $2(V)еt + v t, g(V) v t = E(V)vt с общим белошумным входом и п. ф. Н1 = bg !, Н2 = ag 1 (g = aa — pb). При условии идентифицируемости (несократимости д. р. ф. Н1 2) эти задачи решаются по стандартной методике. Состоятельное оценивание возможно и для тестовых сигналов с достаточно медленно убывающей мощностью (для исключения потерь качества из-за рандомизации управления), а применение “переплетенных стратегий” позволяет при некоторых дополнительных условиях распространить метод оценивания на объекты в системах с настраиваемыми кусочно-стационарными обратными связями.

В работе [16] рассматривается задача управления линейным объектом (1) х t + 1 = Ах t + Bu t + v t + 1 с полностью наблюдаемым состоянием xt, управлением ut, белошумным возмущением v“. Тройка - = [А, B] наблюдаема, функция потерь в функционале качества (3) без ансамблевого усреднения квадратична по состоянию. Зависимость матричного коэффициента передачи регулятора К(-) от - определяется стандартно решением уравнения Лурье — Риккати. В качестве алгоритма идентификатора выбран МНК. Рандомизированное белошумным тестовым сигналом управление u определяется линейным законом с вычисляемым идентификатором на такте t коэффициентом передачи регулятора К t Установлены предельная оптимальность и допустимость стратегии в

т

смысле неравенства lin sup T_1 у ||xt||2 < “ п. н., сходит о“ t 1

мость К о К(-) п. н. и сходимость алгоритма иденти-

P t о “

фикатора п. н. со степенной оценкой скорости сходимости ||- — - t1|2 = 0( t у), у < 1.

Реализация и обоснование алгоритмов существенно упрощаются, если ограничиться собственно задачей синтеза (необязательно идентифицирующей) стратегии управления. В работе [17] рассматривается задача отслеживания эталонной траектории у* с применением идентификационной версии регулятора Острема и расширенного МНК в качестве алгоритма идентификатора. Установлена предельная оптимальность стратегии с оценкой

т

качества переходного процесса £ (yt — у* — [t) = 0(1пТ)

t = 1

п. н., где процесс скользящего среднего [t представляет собой ошибку слежения для стационарной оптимальной стратегии при известном параметре объекта. В работе [14] с помощью нерасширенной версии МНК синтезирована локально оптимальная стратегия отслеживания минимально-фазовым объектом эталонной траектории

у * Настройки локально оптимального регулятора (для объекта с известным параметром) определяются условием Е( Qt + р|уд-1, Ид-1) o inf с условным усреднением по предыстории, р — запаздывание в объекте по управлению, Qt = (yt — у*) — целевая функция. В замкнутой системе имеет место разделение движений на быстрые yt, Q и медленные (в идентификаторе, вычисляющем МНК-оценки параметров и элементы информационной матрицы). При некоторых предположениях (включая /Р.-условие для п. ф. с 1(v) — 1/2) для задачи стабилизации (у* = 0) установлено существование глобального аттрактора, всем точкам которого соответствует локально оптимальный закон управления с одинаковыми параметрами (несмотря на предельное вырождение информационной матрицы и смещенность оценок параметра из-за коррелированности возмущения). В работе [18] решена задача субоптимального управления с предельно ограниченными (в среднеквадратическом смысле) известной константой а2 аддитивными возмущениями (необязательно стохастической природы). Конечно-сходящийся алгоритм (КСА) идентификатора решает систему аккумулирующих неравенств т

Т“1 £ (у t — t0-)2 < I*, Т > Т* (с достаточно большим

t = 1

Т > 0), где уровень субоптимальности I * > а2 определяется для показателя качества стабилизации I[ Uf (•)] =

Т

“1 2

= 1im sup Т £ у t . Условия сходимости КСА слабее,

Т°” t = 1

чем МНК.

Построение идентифицирующих стратегий осложняется требованием выполнения условия постоянного возбуждения, для выполнения которого применяются различные схемы рандомизации управления тестовыми сигналами убывающей мощности [13, 16, 19, 20].

ЗАКЛЮЧЕНИЕ

Системы с идентификатором предназначены для решения комплекса задач обслуживания и синтеза систем управления. Применение идентификатора в задачах синтеза ограничивается рамками асимтотического подхода, и отказ от управления переходными процессами относится к издержкам идентификационного подхода. Вместе с тем применение идентификационного подхода обосновывается при существенно менее жестких требованиях к объему априорной информации, а его вычислительная реализация существенно проще по сравнению с оптимальными (байесовскими) стратегиями управления. Перспективность систем управления с идентификатором в приложениях определяется быстродействием алгоритма идентификатора и проблема предельно достижимого быстродействия является центральной. Вопросы предельного быстродействия идентификатора и синтеза основного контура системы управления будут рассмотрены во второй части статьи.

ЛИТЕРАТУРА

1. Margolis M., Leondes С. Т. A parameter tracking series for adaptive control systems // IRE Trans. Automatic Contr. — 1959. — Vol. AC-4, N 2. — P. 100—111.

2. Riedle В. D., Kokotovic. Integral Manyfolds and Slow Adaptation // IEEE Trans. Aut. Contr. — 1986. — N 4, AC-31. — P. 316—323.

3. Основы управления технологическими процессами / Под ред. Н. С. Райбмана. — М.: Наука, 1978.

4. Бондаренко М. В., Позняк А. С. Сходимость алгоритмов оценивания нестационарных параметров регрессионно-авторегрессионных объектов при помехах типа скользящего среднего // Автоматика и телемеханика. — 1993. — № 8. — С. 90—108.

5. Зангвилл У Нелинейное программирование. Единый подход. — М.: Сов. радио, 1973.

6. Невельсон М. Б., Хасьминский Р. З. Стохастическая аппроксимация и рекуррентное оценивание. — М.: Наука, 1972.

7. Васильев В. А., Добровидов А. В., Кошкин Г. М. Непараметрическое оценивание функционалов от распределений стационарных последовательностей. — М.: Наука, 2004.

8. Назин А. В., Юдицкий А. Б. Нижние информационные границы в задаче адаптивного слежения для линейного дискретного стохастического объекта // Проблемы передачи информации. — 1995. — Т. 31, вып.1. С. 56—67.

9. Tsypkin Y. Z. Robust absolute stability of Lure control systems // J. of Comp. & Systems Sciences International. — 1994. — Vol. 32. — P. 1 — 13.

10. Саридис Дж. Самоорганизующиеся стохастические системы управления. — М.: Наука, 1980.

11. Фельдбаум А. А. Основы теории оптимальных автоматических систем. — М.: Наука, 1966.

12. Juditsky A., Nazin A. On minimax approah to non-parametric adaptive control // Int. J. Adapt. Control & Signal Process. — 2001. N 15. — P. 153—168.

13. Фомин В. Н. Методы управления линейными дискретными объектами. — Л.: ЛГУ, 1985.

14. Коган М. М., Неймарк Ю. И. Функциональные возможности адаптивного локально-оптимального управления // Автоматика и телемеханика. — 1994. № 6. — С. 94—105.

15. Барабанов А. Е. Критериальная сходимость МНК в адаптивной системе управления // Доклады Академии наук. — 1998. — Т. 358. — № 1. — С. 32—34.

16. Chen Н. F., Guo L. Optimal stochastic adaptive control with quadratic index // Int. J. Contr. — 1986. — Vol. 43, N 3. — P. 869—881.

17. Lay T.L., Ying Z. Parallel recursive algorithms in asymptotically efficient adaptive control of linear stochastic systems // SLAM J. Contr. & Optimization. — 1991. — Vol. 29, N 5. — P. 1061—1127.

18. Гусев С. В. Конечно-сходящийся алгоритм восстановления функции регрессии и его применение в задачах адаптивного управления // Автоматика и телемеханика. — 1989. — № 3. С. 99—108.

19. Chen Н. F., Zhang J. F. Stochastic adaptive control for AR-MAX systems with unknown orders, time delay and coefficients // 11-th IFAC World Congress, 1990. Preprints. Vol. 4. — P. 81—86.

20. Бунич А. Л. Пассивная и активная идентификация линейного дискретного объекта с ограниченной помехой // Автоматика и телемеханика. — 2003. — № 11. — С. 60—73.

в (095) 334-87-59

E-mail: [email protected] □

ВНИМАНИЕ!

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Журнал "Проблемы управления” на компакт-диске

Появилась возможность приобретения компакт-диска, полностью воспроизводящего все номера журнала “Проблемы управления” за 2003 г.

ЭТО УДОБНО И НЕДОРОГО

Стоимость диска равна примерно половине стоимости одного номера журнала. Его смогут приобретать не только библиотеки, но и кафедры вузов, отделы и лаборатории, ученые и специалисты.

Цена диска — договорная.

Заказать диск можно в редакции журнала “Проблемы управления”: 117997, ГСП-7, Москва,

Профсоюзная ул., 65, офис 104 Тел./факс (095) 330-42-66, тел. 334-92-00 E-mail: [email protected]

Системы управления с идентификатором. Ч. I Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Бунич А. Л.

Похожие темы научных работ по математике , автор научной работы — Бунич А. Л.

CONTROL SYSTEMS WITH IDENTIFIER. PART I

Текст научной работы на тему «Системы управления с идентификатором. Ч. I»