ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ
Финогенко И.А.
УДК007:531.3
О ПРИНЦИПЕДЕКОМПОЗИЦИИ ДЛЯ МЕХАНИЧЕСКИХ СИСТЕМ С СУХИМ ТРЕНИЕМ
Введение. В теории управления существенное место занимают объекты механической природы, описываемые уравнениями Лаг-ранжа второго рода. Как правило, это нелинейные динамические объекты высокого порядка с сильными перекрестными связями. Типичным примером является многозвенный робот-манипулятор, для которого требуется обеспечить движение схвата по заданной траектории (задача слежения) или его перемещение из заданного начального положения в желаемое конечное положение с последующей стабилизацией (задачи полной управляемости и стабилизации). Здесь характерно значительное динамическое взаимовлияние между звеньями манипулятора, которое характеризуется насыщенностью матрицы коэффициентов инерции соответствующей математической модели. Кроме этого, разнообразие целей управления требует наличие универсальных и многорежимных систем управления механическими объектами, сохраняющих свою структуру независимо от входных данных. На пути решения этих задач Е.С. Пятницким [1] был предложен и впоследствии развит принцип декомпозиции, суть которого заключается в следующем. Синтезируется универсальная двухуровневая иерархическая система управления, первый уровень которой обеспечивает собственно режим декомпозиции при полной компенсации динамического взаимовлияния между элементами системы, а второй -движение в режиме декомпозиции в соответствии с исходной целью управления.
Объектом исследований данной статьи является механическая система с п степенями свободы, движение которой описывается уравнениями Лагранжа второго рода в развернутой векторной форме:
А(г,щ)Щ - д(г,щ,Щ) + 0А(г,щ4) + От(г,щ,ЩN) + и. (1) Здесь используются обычные обозначения для обобщенных координатщ -(щ 1,... ,щп )и обобщенных скоростей Щ -(Щ,Щп );
А(г,щ)-[а^(г,щ)]П - симметричная, положительно определенная п х п матрица квадратичной формы обобщенных скоростей в выражении кинетической энергии системы в движении относительно инерциальной системы координат. Функции д(г,щЩ) и 0А(г,щ4) описывают
обобщенные активные силы различной природы, действующие на систему; разрывные по переменной Щ функции От(г,щ4,N) описывают обобщенные силы трения скольжения, которые в соответствии с законом Кулона выражаются через коэффициенты трения и модули нормальных реакций (см. более детально [2]). Векторная функция и -(и1,. ,ип) задает обобщенные управляющие силы. На управления щ накладываются ограничения вида
щ |< ы, (г,щ4),I-1.....п, (2)
где Ы{ - Ы{ (г,щЩ)>0 - максимальные ресурсы управления.
В упомянутых выше работах Е.С. Пятницкого (см. также [3]) при условии отсутствия сил трения От - 0 структура управлений щ определяется решением задачи синтеза систем управления механическими системами на основе принципа декомпозиции следующим образом.
Пусть требуется найти такие управления щ , которые в рамках некоторых дополнительных предположений обеспечивали бы достижение движениями системы (1) пересечения многообразий (целевого множества) вида
={(1,Щ4, (г,44)-0},/-1.....п. (3)
В качестве меры отклонения движений системы (1) от множеств (3) выбирается положительно определенная квадратичная относительно функций ф, (г,щ 4) форма: 1
-1Е а (г4 )ф , ф ]
2 I,}=1
(4)
Управления и выбираются из условия минимума производной Vф в силу системы (1) (являются оптимальными по отношению к демпфированию функции Vф). Это приводит с уче-
том ограничений (2) к релейным управлениям вида
ut =-Ht sign%i,i =1,...,n при условии % i ф 0, где % i = % i (t,q,q) - некоторые непрерывно-дифференцируемые функции. Наиболее исследован случай Ф i = q' - fi (t,q), для которого получаем закон
управления в виде ui = -Hisign(q1 - ft (t,q)). При
определенных условиях [1] (см. также [3]- [6]) эти управления стабилизируют движение по целевому множеству, а выбор функций f (t,q) обеспечивает достижение исходной цели управления. В данной работе принцип декомпозиции Е.С. Пятницкого обосновывается для системы (1) с целевым множеством (3) при наличии в ней сил трения.
Разумеется, кроме перечисленных выше задач можно одновременно ставить задачи оптимизации каких-либо критериев, например, минимизации энергии, работы или быстродействия. Однако это требует уже привлечения теории оптимального управления и может привести к существенно иным результатам. Так исследования проведенные в [7] по перемещению звена манипулятора из одного положения в другое с минимальной работой показали на основе вариационного принципа максимума, что оптимальное управление содержит импульсные составляющие, а в промежутке между моментами приложения импульсных воздействий движение осуществляется с постоянной угловой скоростью q = v. Можно полагать, что это равенство определяет некоторое целевое множество движения манипулятора, но задачи синтеза систем управления на принципе декомпозиции с импульсами практически не исследовались.
Управляемые механические системы с сухим трением. Отметим, что система (1) представляет собой систему дифференциальных уравнений с разрывной правой частью. Теория таких уравнений к настоящему времени хорошо развита (см. [8]) на основе теории дифференциальных включений. Однако в данной ситуации система помимо разрывной неуправляемой характеристики QT (сухого трения) содержит также управление u, которое в силу наложенных на него ограничений принимает значения в некотором ограниченном выпуклом множестве. Это обстоятельство требует дополнительного рассмотрения вопроса о понятии решения системы (1). Но предварительно опишем процедуру синтеза управления для системы с трением на принципе декомпозиции.
Введем в рассмотрение многозначную функцию От(г,д,д), представляющую собой в
точке (г,д,с[) наименьшее выпуклое замкнутое множество (выпуклую оболочку), содержащее все предельные значения функции От(г,д,д) в этой точке. В соответствии с основными методами теории дифференциальных уравнений с разрывными правыми частями от системы (1) перейдем к дифференциальному включению Л(г,д)д ед(1,д,д) + ОЛ(1,д,д) + От(г,д,д) + и. (5) Для простоты изложения будем рассматривать квадратичную форму (4) с функциями Ф1 - д -/(г,д). Для включения (5) минимум производной этой квадратичной формы по всем управлениям 1 < Н зависит от выбора точки ш е От (г,д ,д), однако значение этого минимума всякий раз достигается на одном и том же управлении
и( —Н,81дп(д' -/ (г,д)) (6)
Это обстоятельство корректно решает задачу синтеза системы управления первого уровня в виде (6). Отметим, что управление вида (6) обладает универсальностью в том смысле, что сохраняет свою структуру для различных целевых множеств, с помощью которых предполагается решать исходную задачу управления - задачу стабилизации или задачу слежения. Кроме того, реализация таких управлений требует минимальной информации о входных данных - знаков значений функций ф { -д1 -/(г,д).
Прежде чем записать условия реализуемости и устойчивости движения по целевому множеству введем понятие решения системы (1) с управлениями (6). Для управляемых систем под решением обычно понимается пара функций, одна из которых в каждый момент времени г задает состояние системы, а вторая -управление. Поэтому применительно к управляемым механическим системам () под решением будем понимать набор (д(г),д(г),и(г)), где функция г ^ (д(г),д(г)) абсолютно непрерывна, функция г ^ и(г)- измерима и почти всюду выполняются соотношения
Л(1,д(1 ))д(г) е д(г,д(г ),д(г)) +
+ОЛ (г,д(г ),д(г))+От (£,д(? Ш ),с)+и( г) При этом требуется и (г) - -н1 в1дп(д' (г) - /(г,д(г))), если д'(г)-/ (г,д(г))ф0, и щ(г)е[-н,н ], если д' (г)-/ (г,д(г)) -0. Иными словами значения
функций и (г) совпадают со значениями позиционных управлений (6) для тех моментов г, в
ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ
которых они определены и непрерывны, а в точках их разрыва значения и. (г) лежат между максимально возможными значениями управлений (6) и в общем случае задаются неявно. Такое понятие согласуется с общепринятым понятием решения для разрывных управляемых систем.
Неравенства, обеспечивающие асимптотическую устойчивость целевого множества без учета сухого трения, имеют вид (см. [4]):
| Ъа (%)-д+ ]|
к=1 дг Р дя/ < Н ( л =1,...,п.
<
я = Г (г ,я)
(7)
Для системы (1) с сухим трением соответствующие неравенства принимают следующий вид:
тах
w еО'
е а*
п ^
Ъ ) -д
з=1 дЯ,
+оА + w]|
я =1(г, я)
< Н., I = 1,., п.
(8)
Суть неравенств (7) и (8) состоит в том, что они влекут дифференциальное неравенство Vф <-1^[уфф с некоторой константой 1 > 0.
Интегрируя это неравенство, получаем оценку для квадратичной формы отклонения решений системы от целевого множество в виде:
<7Vф(го)- 1(г-г0)/2 для всех г>г0. Из
нее сразу же вытекает, что Vф(г) = 0 для всех г > г0 +Т с некоторым числом Т > 0. Таким образом, устанавливается не только асимптотическая устойчивость целевого множества, но и достижение его решениями системы за конечный промежуток времени.
Отметим, что невыполнение неравенств (8) может привести к тому, что режим декомпозиции может оказаться не только неустойчивым, но и нереализуемым. С физической точки зрения это будет означать, что ресурсов управления недостаточно для преодоления сил сопротивления внешней среды. Для систем с трением в этой же ситуации возникают множества неизолированных положений равновесия ("зоны застоя") в сколь угодно малой окрестности целевого множества, из которых управляющие силы вывести систему не могут. Влияние на динамику системы в режиме декомпозиции "зон застоя" в общем случае не изучено и является весьма нетривиальной задачей. Возникающие проблемы рассмотрим на
примере простейшего линейного осциллятора с трением.
Пример. Тело, рассматриваемое как материальная точка массы т, движется по горизонтальной прямой Ох по действием упругой силы пружины с коэффициентом упругости к и точкой ненапряженного состояния х = 0. Предполагается, что на тело действует сила тяжести Р = тд и сила сухого трения Кулона Р = ^Рв/дпх при условии X ф 0; f - постоянный коэффициент трения. Уравнение движение системы запишется в виде:
тх = -кх + Р + и, (9)
где управляющая сила и подлежит определению. Целью управления является стабилизация системы в положении равновесия X = 0, х = 0.
Система (9) без управляющего воздействия и обладает "зоной застоя" вида Ь =|(х,0):|х|< Р/к|. Это отрезок на оси Ох, содержащий начало координат фазовой плоскости системы и состоящий из множества неизолированных положений равновесия. Поведение системы (9) при условии и = 0 легко анализируется. Ее траекториями являются полуэллипсы, расположенные выше и ниже оси Ох с центрами на концах отрезка застоя. Амплитуда колебаний системы уменьшается с арифметической прогрессией и через конечное время тело останавливается в состоянии, которое может оказаться любой точкой "зоны застоя" (см. [9]). Для достижения поставленной выше цели управления управляющая сила и должна, во-первых, преодолевать силу трения в "зоне застоя" и, во-вторых, обеспечивать асимптотически устойчивое движение системы в положение равновесия (0,0) - середину отрезка Ь. Решение первой задачи зависит ограничения на ресурс управления | и| < Н, а второй
- от выбора целевого множества, которое определим в виде: Б = (х,х):х + ах = 0. При движении по множеству Б система будет экспоненциально приближаться к положению (0,0) и тем самым цель управления будет считаться достигнутой. Скорость движения по множеству Б определяется параметром а > 0, который может выбираться произвольно. Скорость переходного процесса (время перехода в движение по множеству Б) зависит от ресурса управления Н. В соответствии с принципом декомпозиции управление возьмем в виде и = -Нвдп(х + ах). Тогда уравнение (9) движения системы запишется в виде:
тх = -кх -РвIдпх - Нв 1дп(х + ах). (10)
Проведем детальный анализ динамики системы (10) в зависимости от соотношения между пороговой величиной силы трения /Р и ресурса управления H.
1. Полагая х - 0 и X - 0 находим, что система (10) имеет "зону застоя" | ^| < (/Р - H) / k на
оси Ox при условии H < /Р. Это отрезок, содержащий цель управления - начало координат (0,0) фазовой плоскости (x. X). Цель управления не достигается, а положение равновесия (0,0) не является асимптотически устойчивым ни при каком выборе управления с ограничением | и| < H. Таким образом, необходимым условием
решения поставленной выше задачи стабилизации системы в начале координат фазовой плоскости является неравенство H > /Р: сила трения не должна превышать ресурс управления. Отметим, что в этом случае положение равновесия (0,0) единственно.
2. Теперь покажем, что неравенство H > /Р полностью решает задачу стабилизации для уравнения (10) на принципе декомпозиции. Точнее: в случае когда управления превышает силу трения неравенство (8) нетривиальным образом выполняется и в окрестности начала координатной фазовой плоскости (x, X) реализуем асимптотически устойчивый режим декомпозиции X + ax - 0.
Действительно, учитывая, что на прямой х + ax - 0 выполняется условие signx = -signx, неравенство (8) для уравнения (10) приобретает вид:
|(a+k^ -/Psignx|< H (11)
Простой анализ этого неравенства показывает, что оно в случае H > /Р определяет полосу на фазовой плоскости, содержащей внутри себя начало координат - цель управления, и тем самым обеспечивает реализуемость и асимптотическую устойчивость движения по
прямой х + ax - 0 в окрестности начала координат.
Если же H < /Р, то неравенство (11) полосе | x|< (/Р - H)/(а+k) перестает выполняться и,
также как и выше, в системе (10) на оси Ox возникает "зона застоя", определенная неравенством | x| < (/Р - H)/к. Записывая уравнение
(10) в виде
mxdX +(kx + /psignx + Hsign(^ + ax))dx -0 и интегрируя его, находим, что траекториями системы являются дуги эллипсов, соответствующие различным знакам значений X и х + ax: т:к2 + (^ + /Psignx + Hsign( X + ax ))2 = (12)
2 2 Прямые х - 0 и X + ax - 0 делят фазовую плоскость на четыре части. Расположение траекторий на ней симметрично относительно начала координат. Центры эллипсов расположены на оси Ox, а их смещение по этой оси положительную или отрицательную стороны зависят от неравенств H < /Р и H > /Р. Это делает наглядным аналитический анализ этих неравенств, проведенный выше. На рис.1 представлена верхняя полуплоскость фазовой плоскости системы при условии H < /Р. Центры эллипсов (12) для области х > 0, х + ax < 0 расположены слева от начала координат О. Это приводит к тому, что траектории, начинающиеся левее точки Л могут приходить на отрезок застоя ЛВ. На рис. 2 выполняется неравенство H > /Р, центры эллипсов в той же области расположены справа от начала координат, отрезок застоя не возникает и все траектории приходят в начало координат.
Фазовая плоскость системы позволяет также сделать вывод о том, существенное влияние на динамику системы силы трения и управления оказывают в тех ее областях, где они имеют разные знаки, т.е. действуют на систему в противоположных направлениях. В
ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ
заключение отметим, что данный пример является иллюстративным и выбран в силу своей наглядности. Но и более сложные системы могут исследоваться по такой же схеме: выявление множества положений равновесия, выбор целевого множества и анализ неравенства (8).
Работа (частично) поддержана грантом РФФИ (проект № 06-01-00247), грантом президента РФ НШ-1676.2008.1 и грантом ИНТАС-СО РАН (проект № 06-100013-9019).
БИБЛИОГРАФИЯ
1. Пятницкий, Е.С. Синтез иерархических систем управления механическими и электромеханическими объектами на принципе декомпозиции. I, II - Пятницкий Е.С. // Автоматика и телемеханика. 1989. № 1. С. 87-98, № 2. С. 57-71.
2. Матросов, В.М. Аналитическая динамика систем твердых тел с трением - Финогенко И.А. ISBN 5-2121-0091-2 // В кн.: Нелинейная механика - М.: Физматлит, 2001. С. 39-61.
3. Матюхин, В.И. Универсальные законы управления механическими системами. М.: МАКС Пресс, 2001. 249 с.
4. Финогенко, И.А. О правосторонних решениях одного класса разрывных систем 1,2 -Финогенко И.А. // Автоматика и телемеханика. 2001. № 9. С149-158, № 11. С. 95-108.
5. Финогенко, И.А. О неявном доопределении и "правосторонних решениях" одного класса разрывных систем, возникающих в задачах управления механическими объектами - Финогенко И.А. // Автометрия. 2006. Т. 42. № 5. С. 73-82.
6. Finogenko, I.A. To the Control of the Lagrange Systems on the Basis of the Decomposition Principle - Finogenko I.A. // Proc. of the Second IASTED International Multi-Conference on Automation, Control and Infermation Technology, 2005. Novosibirsk, Russia, pp. 254-258.
7. Дыхта, В.А. Оптимальное импульсное управление с приложениями - Самсонюк О.Н. ISBN 5-9221-0352-0. М.: Физматлит, 2000. 255 с.
8. Филиппов, А.Ф. Дифференциальные уравнения с разрывной правой частью - Филиппов А.Ф. М.: Наука, 1985. 223 с.
9. Андронов, А.А. Теория колебаний - Витт А.А., Хайкин С.Э. М.: Наука, 1981. 568 с.
ЗароднюкТ.С., Горнов А.Ю.
УДК 519.652
ТЕХНОЛОГИЯ ПОИСКА ГЛОБАЛЬНОГО ЭКСТРЕМУМА В ЗАДАЧЕ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
1. Введение.
Большинство известных алгоритмов поиска оптимального управления в нелинейных системах предназначены для нахождения только локального экстремума целевого функционала. Разработка методов исследования невыпуклых задач оптимизации динамических систем ведется многими специалистами, среди которых нельзя не отметить В.Ф. Крото-ва [1], Ю.Г.Евтушенко [2], А.С. Стрекаловского [3], В.А. Срочко [4], С.А. Floudas [5], I.L. Lopez-Cruz [6] и других. Но, по мнению многих авторитетных ученых, разработанные к настоящему времени методы поиска глобального экстремума в задаче оптимального управления
(ЗОУ) пока недостаточно развиты и не могут служить инструментом для эффективного решения практических задач. Проблема создания методов невыпуклой оптимизации динамических систем продолжает оставаться актуальной. В данной работе предложена вычислительная технология поиска глобального экстремума в невыпуклой ЗОУ, основанная на "конечномерных" алгоритмах и редукции исходной задачи к последовательности задач безусловной минимизации.
В стандартной постановке задачи динамика процесса описывается системой обыкновенных дифференциальных уравнений с начальными условиями: х = f(x,u,г), х(г0) =х0, где г -
время из интервала T = [t0,t1],x= (х1Гх2,...,хп)-вектор фазовых координат, и - управляющее воздействие. Вектор-функция f(x,u,t) предполагается непрерывно дифференцируемой по всем аргументам. Допустимыми называются кусочно-непрерывные управляющие функции u = u(t), для любых значений времени t, принадлежащие множеству U, где U = {u е R: u, <u<ug}. ЗОУ заключается в поиске допустимого управления u* = u*(t), доставляющего минимум терминальному функционалу /(u) = 9(x(ij)) ^ min, здесь функция 9(x(t)) также предполагается непрерывно дифференцируемой.
2. Технология решения невыпуклой ЗОУ.
Для решения невыпуклых ЗОУ в приведенной постановке разработана вычислительная технология, состоящая из двух этапов. На первом этапе выполняется редукция ЗОУ к конечномерной задаче безусловной минимизации (БМ) с прямыми ограничениями на оптимизируемые переменные. При этом искомое управление грубо аппроксимируется с помощью кусочно-линейных функций с большим шагом дискретизации. Далее ищется глобальный минимум в поставленной конечномерной задаче с небольшим числом переменных, что позволяет найти грубое приближение к оптимальному управлению. На втором этапе решения строится уточненная аппроксимация управления с использованием полученного на первом этапе приближения в качестве начального. В результате находим более точное приближение к оптимальному управлению на основе применения алгоритмов золотого сечения и параболической интерполяции.
Общая схема предлагаемого подхода изображена на рис. 1. Ядром рассматриваемой технологии является глобальный алгоритм парабол [7, 8], позволяющий с большой вероятностью находить минимальное значение невыпуклой функции. Программная реализация предлагаемой технологии протестирована с помощью коллекции невыпуклых модельных ЗОУ.
Представленная технология, конечно, не может гарантировать нахождение глобального экстремума в любой задаче. Тем не менее, в рамках рассматриваемого подхода показала себя эффективной для быстрого нахождения управлений из области притяжения глобального экстремума в ЗОУ.
3. Вспомогательная задача БМ.
Рис. 1. Схема технологии решения невыпуклой ЗОУ.
Для решения исходной ЗОУ осуществляется ее редукция к вспомогательной задаче БМ (рис. 1), которая заключается в поиске минимума невыпуклой функции нескольких переменных g(y) по всем у из множества Y, где Y -m-мерный параллелепипед
ming(y), 7 ={y е Rm: а, < yt < ß,, i =üi},
yeY
здесь g(y) имеет вид исходного функционала, зависящего от дискретизованного управления, доставляющего грубую аппроксимацию траектории в результате интегрирования системы дифференциальных уравнений. На следующем этапе выбирается более мелкое разбиение интервала времени функционирования системы, что приводит к задаче БМ большей размерности. При ее решении, найденное на крупной сетке управление используется в качестве начального приближения к искомому оптимальному управлению.
4. Описание основного алгоритма подхода.
Подход к решению рассматриваемой конечномерной задачи (1) основывается на комбинации следующих методов: покоординатного спуска для многомерной задачи нахождения экстремума и глобального метода парабол для вспомогательного одномерного поиска. Уточнение управления из области притяжения глобального экстремума осуществляется с помощью методов параболической интерполяции и золотого сечения. Приведем описание