Научная статья на тему 'Вариационные методы идентификации линейных динамических систем и проблема локальных экстремумов'

Вариационные методы идентификации линейных динамических систем и проблема локальных экстремумов Текст научной статьи по специальности «Математика»

CC BY
351
90
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИДЕНТИФИКАЦИЯ ПАРАМЕТРОВ / РАЗНОСТНЫЕ УРАВНЕНИЯ / ДИНАМИЧЕСКИЕ СИСТЕМЫ / PARAMETER IDENTIFICATION / DIFFERENCE EQUATIONS / DYNAMIC SYSTEMS

Аннотация научной статьи по математике, автор научной работы — Ломов Андрей Александрович

Рассмотрена проблема большого числа локальных экстремумов, возникающих при использовании "прямых" методов идентификации параметров линейных динамических систем по конечным выборкам наблюдений. Определен новый класс вариационных ("непрямых") оценок параметров через свойство проективности слагаемых ядра целевой функции. Построены вариационные целевые функции с числом локальных экстремумов не больше числа элементов в матрицах системы. Получены условия состоятельности вариационных оценок в пределе большого числа наблюдений независимых траекторий конечной длины.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Variational identification methods for linear dynamic systems and the local extrema problem

The problem of a large number of local extrema is considered. This problem arises when using «direct» methods to identify parameters of linear dynamical systems with finite-sample observations. A new class of variational («indirect») parameter estimators is defined by the projectivity property of matrix kernels in the objective function. The variational objective functions are constructed having the number of local extrema not greater than the number of elements in system matrices. We obtain conditions for consistency of variational estimates in the limit of large number of observations of independent finite-length trajectories.

Текст научной работы на тему «Вариационные методы идентификации линейных динамических систем и проблема локальных экстремумов»

УДК 681.5.015 ББК 32.965.4

ВАРИАЦИОННЫЕ МЕТОДЫ ИДЕНТИФИКАЦИИ ЛИНЕЙНЫХ ДИНАМИЧЕСКИХ СИСТЕМ И ПРОБЛЕМА ЛОКАЛЬНЫХ ЭКСТРЕМУМОВ1

Ломов А. А.2

(ФГБУН Институт математики им. С. Л. Соболева Сибирского отделения РАН, Новосибирский государственный университет,

Новосибирск)

Рассмотрена проблема большого числа локальных экстремумов, возникающих при использовании «прямых» методов идентификации параметров линейных динамических систем по конечным выборкам наблюдений. Определен новый класс вариационных («непрямых») оценок параметров через свойство проективности слагаемых ядра целевой функции. Построены вариационные целевые функции с числом локальных экстремумов не больше числа элементов в матрицах системы. Получены условия состоятельности вариационных оценок в пределе большого числа наблюдений независимых траекторий конечной длины.

Ключевые слова: идентификация параметров, разностные уравнения, динамические системы.

1. Введение

Вычислительная сложность метода идентификации в значительной степени определяется экстремальными свойствами целевой функции. Известно, что при идентификации по конечным выборкам «прямыми» методами число экстремумов может быть

1 Работа выполнена при финансовой поддержке РФФИ (грант №1001-00035) и при поддержке Сибирского отделения Российской академии наук (междисциплинарный проект № 80).

2 Андрей Александрович Ломов, кандидат физико-математических наук, доцент ([email protected]).

значительным и даже расти с ростом объема выборки наблюдений [26]. Поэтому заслуживают внимания методы идентификации, целевые функции у которых обладают «хорошими» экстремальными свойствами, возможно, за счет увеличения объема вычислений. В статье определен новый класс вариационных («непрямых») методов, интересный тем, что для ряда типичных представителей этого класса удается доказать конечность числа критических точек целевой функции независимо от объема выборки наблюдений.

Опишем структуру статьи. Во введении описываются исследуемые системы, даются основные понятия и обозначения. Затем формулируется проблема большого числа локальных экстремумов при идентификации «прямыми» методами по выборкам конечного объема. Решение проблемы может быть найдено при переходе к вариационной постановке задачи идентификации. В разделе 2 определяется новый класс «непрямых» (вариационных) оценок параметров через свойство проективности слагаемых ядра целевой функции. Показано, что в этот класс входят как известные в литературе оценки (ОР [42, 48], ОРМ [31], ВИ [9, 10], TLS [39], GTLS [49], STLS [45]), так и ряд новых предложенных в статье оценок — в частности, многомерные ОРМ и ОРС. Далее изучаются свойства вариационных оценок (раздел 3). Установлено, что многие задачи идентификации состоятельно решаются вариационными методами с целевыми функциями, число экстремумов которых не превосходит числа элементов в матричных коэффициентах уравнения системы независимо от объема Ь, N выборки измерений. В этом смысле вариационные постановки задач идентификации обладают «регуляризующим», «сглаживающим» эффектом, и поэтому могут рассматриваться как средство для решения проблемы большого числа локальных экстремумов.

1.1. ИССЛЕДУЕМЫЕ СИСТЕМЫ, ОЦЕНКИ ПАРАМЕТРОВ, ОБОЗНАЧЕНИЯ

Будем рассматривать линейные динамические системы

(1) apy[k + p] + ... + ао y[k] = f3pu[k + p] + ... + во u[k],

k G 1, N — p, N ^ p + 1.

Здесь ai = a¿,0 G RrXr , вг = в^0 G RrXm — матричные коэффициенты, которые зависят от параметра в G 0, множество 0 С Rv открытое. Параметр в фиксирован и подлежит идентификации по множеству наблюдений

{y[1],U[1],...,y[N ], U[N ]} ,

y[k] = y[k] + £y [k], U[k] = u[k] + eu[k],

где y[k] G Rr, u[k] G Rm — переменные выхода, входа, ey [k] G Rr, eu [k] G Rm — измерительные возмущения. Существенно, что старший матричный коэффициент ар может быть вырожденным; тогда уравнение (1) описывает широкий класс многомерных (MIMO) систем с обратными связями и запаздываниями.

Определим вектор процесса

z = (z[1];...; z[N ]) G RN (r+m), z[k] = G Rr+m,

и вектор возмущений

e = (e[1];...; e[N ]) G RN (r+m), e[k] = l¡¡¡ ) G Rr+m.

Здесь и далее, следуя [34], запятыми (*,..., *) обозначаем вектор-строку, а точками с запятой (*;...; *) — вектор-столбец. Аналогичные обозначения используются для клеточных матриц:

(A,B) = (A B) , (A; B) = (A) ._________

Пусть z(i) G Rn(r+m), i g 1,L, — некоторый «полный» с точки зрения идентификации набор процессов в системе, e(i)

— случайные возмущения, ограниченные «естественными» предположениями о распределении (точные определения даны ниже). Нас будут интересовать следующие свойства оценки как функции наблюдений:

1. Единственность (по смыслу это свойство лучше назвать точность, или состоятельность в детерминированном смысле):

0(г(1),...,г(Ь)) = 0.

2. Устойчивость:

0(г(1) + е(ф ..., г(ь) + е(ь)К, ^ 0.

1к«Но,

иг1,ь

3. Состоятельность (в статистическом смысле):

0(г(1) + е(1),...,*(Ь) + е(Ь)) ь^гх 0

Если число процессов Ь ограничено, то состоятельность рассматривается в предельном случае больших длин процессов N:

/ *[1]+е[1] \

0(г + е) ^ 0, г + е =1 . I .

М \^[М ]+е[М})

Последнее предполагает, что система не изменяет своих параметров в течение длительного отрезка времени NН, где Н — время дискретизации.

В общем случае оценки 0(г(1),..., ¿(¿)) вычисляются не по явным формулам, а минимизацией той или иной целевой функции, зависящей от наблюдений г^) . Под методом идентификации будем понимать целевую функцию вместе с вычислительным алгоритмом минимизации.

1.2. ПРЯМЫЕ МЕТОДЫ ИДЕНТИФИКАЦИИ И ПРОБЛЕМА ЛОКАЛЬНЫХ ЭКСТРЕМУМОВ

С вычислительной точки зрения важны экстремальные свойства целевой функции — в частности, число критических точек 56

в зависимости от множества наблюдений. Этим в значительной степени определяется устойчивость алгоритмов идентификации.

В статье рассмотрим экстремальные свойства двух больших групп методов идентификации во временной области:

• «прямые» [28, раздел 5.3] (или «наивные» [38], «разомкнутые» [24]);

• «непрямые» (или «замкнутые» [24], «вариационные» [10]).

По-видимому, первым, кто попытался выделить эти две группы, был К.Б. Норкин [24], затем А.О. Егоршин [9] и Л. Глезер [38]. Данные ими определения были скорее интуитивными, мотивированными желанием найти «наиболее правильные»3 постановки задач идентификации. Методы первой группы («прямые») в вычислительном отношении более просты, но с ними связан ряд проблем, описанных ниже. Этим вызвано внимание к более сложным «непрямым» методам.

В статье далее делается попытка уточнить смысл понятия «правильной постановки» задачи идентификации с точки зрения экстремальных свойств целевых функций. В рамках этой программы предлагается (по-видимому, впервые) точное определение для второй группы («непрямых») методов, и на основании исследования экстремальных свойств устанавливаются частные случаи, в которых «непрямые» методы имеют преимущества по сравнению с методами первой группы.

Кратко опишем особенности «прямых» методов. Для этой группы, насколько известно, точного определения пока не дано. Имеется следующее описание, данное А. А. Красовским [28, раздел 5.3]: «Прямыми методами параметрической идентификации» называются те, в которых «неизвестные параметры ... модели определяются на основе того или иного способа (обычно приближенного) решения системы уравнений, получающихся путем [прямой] подстановки (выделено мной — А. Л.) в оператор модели последовательности значений входных и выходных величин

3 Приблизительная формулировка.

реального объекта». Согласно этому нестрогому определению, к «прямым» относятся методы, основанные на минимизации нормы «ошибки прогноза» (PEM, «prediction error methods») и их многочисленные модификации, включающие в себя рекуррентные методы наименьших квадратов по невязке уравнения и их варианты типа алгоритмов стохастической аппроксимации и алгоритмов Качмажа [11, 23, 25, 29, 28, 35, 52], а также методы типа инструментальных переменных [51, глава 8]. Прямые методы идентификации повсеместно употребляются при решении задач адаптивного управления [1, 32]. Для линейных моделей со структурой общего вида

(2) A(s)yw=u[k]+Ds)

(где s — оператор сдвига, и y, u — наблюдаемые переменные) целевые функции прямых методов строятся исходя из нормы оценки невязки уравнения £[k] или ошибки прогноза

зетвЫк 1231-

Заметим, что идея прямой подстановки измерений в уравнение системы восходит к ставшим уже классическими работам А.Н. Колмогорова [12] и Н. Винера [54]. В этой связи уместно назвать и работу К. Гаусса по методу наименьших квадратов [5].

В применении к идентификации динамических систем прямые методы при сравнительной простоте вычислительных алгоритмов имеют ограничения: 1) система должна быть управляемой; 2) длина N интервала наблюдения должна быть большой в сравнении с длительностью переходных процессов в системе

[35].

Кроме того, И. И. Перельманом было показано [26], что для прямых методов при конечных N существует проблема большого числа локальных экстремумов целевой функции. Наличие локальных экстремумов отмечалось также в [33, 50]. Приведем простейший пример [26]:

y[k] = ay[fc — 1] + u[k], y[k] = y[k] + e[k], u[k] = u[k].

Уравнение для ошибки прогноза имеет вид

е[к] = у [к] — й[к] — ау[к — 1] + ае[к — 1] =

= а) [к] + ае[к — 1],

где с) [к] — измерения. Принимая в качестве целевой функции квадрат нормы ошибки прогноза на конце траектории, получаем

е2 [Ж] = (ам-1е[1] + ам-2а[1] + ... + ш[Ж])2 = 3 (а).

Локальные экстремумы определяются из уравнения = 0, которое может иметь до (2Ж — 3) действительных корней. Очевидно, число корней растет с ростом N, и все они должны рассматриваться как претенденты на точки глобального минимума. Этот факт, как пишет И. И. Перельман, «приводит к обоснованным сомнениям относительно практической разрешимости» поставленной простейшей задачи идентификации. Трудности только усугубляются, если рассмотреть системы с контурами обратной связи, т. е. системы с несколькими уравнениями.

В пределе N ^ то вероятность большого числа экстремальных точек стремится к нулю [3]. Однако этот факт не снимает отмеченных трудностей идентификации «прямыми» методами по конечному множеству наблюдений.

2. Вариационные (непрямые) оценки

Решение проблемы локальных экстремумов может быть найдено при переходе к вариационной постановке задачи идентификации. В одном частном случае это было показано М. Левиным [42] и М. Аоки, П. Ю [31], которые рассматривали системы (1) из одного уравнения (г = 1) с простой параметризацией. Для идентификации параметров они применяли метод ортогональной регрессии [48], целевая функция которого имеет вид отношения квадратичных форм (22), и как следствие, число экстремумов ограничивается сверху размерностью вектора параметров (см. раздел 2.1).

Термины «вариационный метод», «вариационная постановка задачи идентификации» были предложены А.О. Егоршиным [10], который сконструировал один из наиболее эффективных с точки зрения приложений «замкнутый» метод идентификции [9]. Поясним примером. Пусть дано наблюдение Z £ RN(r+m) . Оценка вектора параметров системы (1) может быть получена минимизацией по в функции

(3) J(в) = J(в, Z) = ||Z - Zopt(e)||2,

где zopt(e) — проекция вектора Z на множество всех процессов системы (1). Величина J(в) играет роль квадрата расстояния от «точки» Z до множества процессов (1). Функция e(Z) = arg min^ J(в, Z) является примером вариационной (непрямой) оценки. Эффективные алгоритмы ее вычисления были предложены в [9, 10].

В этом разделе определим новый класс «вариационных»4 оценок. Он будет включать в себя большинство известных в литературе непрямых оценок: оценки ортогональной регрессии [48], модифицированные оценки М. Аоки, П. Ю [31], оценки по методу вариационной идентификации А.О. Егоршина [9, 10], оценки по модифицированному методу Прони [37, 47], оценки STLS [45] и ряд других, в том числе новых оценок. Общим свойством для всего класса будет независимость следа матрицы ядра целевой функции от оцениваемого параметра. В частности, это свойство позволяет доказывать состоятельность в пределе L ^ то по одной и той же схеме, предложенной в [15]. Одним из полезных побочных результатов будет также описание различных представителей класса вариационных методов в единых обозначениях (см. разделы 2.1-2.5).

Перейдем к определениям. Введем матричную запись урав-

4 Название не является устоявшимся.

нения (1):

О,

/70 Yi ... Yp 0\

Yo Yi ... Yp

V 0 Yo Yi ... Yp)

£ r(N-p)rxN(r+m)

Yi = Yifi = Ko, -ßifi) £ Rrx(r+m).

Тогда Zopt(e) = (I - П) Z, где По = (GoGj) 1 Go есть

матрица проектора (П2 = По) на ортогональное дополнение к линейному многообразию решений системы (1). С учетом этого обозначения целевая функция (3) принимает вид

(5) J (в) = ZTnö Z.

Матрицу По будем называть ядром целевой функции J(в).

Пусть в* — некоторое неизвестное «истинное» значение параметра системы (1).

Определение 1. Вариационной оценкой в параметра в*

по наблюдению Z = Z* + е, где Z* — истинный процесс, е

— возмущение, называем результат минимизации квадратичной целевой функции

(6) J(в Z) = zT (П1,О + ... + ПМ,О) z

(7) в = в(-) = arg min J (в,-),

О

где все матрицы П, = П,,о ^ 0 являются неотрицательно определенными, симметричными, проективными (П2 = П,) и такими, что верно соотношение (G0t z = 0) ^ (П,,о* z = 0). Целевую функцию J(в, Z) (6) также называем вариационной.

Можно сказать, что целевые функции, ядра которых есть сумма проекторов, являются вариационными (или проективными).

Приведем еще ряд определений, расширяющих понятие вариационной оценки. Пусть возмущения е(1),..., e(L) £ RN(r+m)

61

(4) Goz =

Go =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

являются независимыми одинаково распределенными случайными векторами с нулевыми математическими ожиданиями и скалярной матрицей вторых моментов:

(8) M e(i) = 0, M eweT) = ст2/.

Тогда имеет смысл следующее определение.

Определение 2. Вариационной оценкой в^ параметра в* по множеству наблюдений {Z^) = z*^) + e^), i £ 1,L}, где z*(i) — истинные процессы, e^) — возмущения (8), называем результат минимизации квадратичной целевой функции

L

(9) Jl^, Z(i), ..., Z(l)) = L-1 ^ Z("T) (П10 + ... + Пм,о) Zw,

i=1

(10) ^^l = в(-(1),..., Z(l)) = arg min Jl^, Z(1),..., Z(l)) ,

где все матрицы П, = П,,О ^ 0 являются неотрицательно определенными, симметричными, проективными (П2 = П,) и такими, что верно соотношение (G0t z = 0) ^ (П,,О+ z = 0).

Пусть теперь возмущения e(1), . . . , e(L) £ RN(r+m) являются независимыми одинаково распределенными случайными векторами со свойствами

(11) M e(i) = 0, M eweT) = ГГT,

где Г £ Rn(r+m)xn — матрица с линейно независимыми столбцами.

Определение 3. Вариационной оценкой в,^ параметра в*

по множеству наблюдений {Z^) = z*^) + e^), i £ 1,L}, где z*(i) — истинные процессы, e^) — возмущения (11), называем результат минимизации целевой функции

(12) JX,,L(в, Z(1), . . . , z(L)) =

L

= L 1 Z(i) ( W1,0 + ... + WM,0) %),

i=1

(13) вL = в(%),...,^)) = arg min J^)L(в,Z(l),...,Z(L)),

О

где все матрицы Wj,o ^ 0 неотрицательно определены, симметричны и таковы, что верно соотношение (Go* z = 0) ^ (Wj,0t z = 0), а произведения rTWj Г = П, являются проективными матрицами со свойством П2 = П,.

62

В следующем заключительном (наиболее общем) определении уже не будем опираться на проективность матриц, а возьмем за основу более общее свойство независимости следа матрицы от оцениваемого параметра. Полученные таким образом оценки уже не обязательно имеют ядро целевой функции в виде суммы проекторов, но доказательство их состоятельности осуществляется по той же схеме, что и для оценок из определений 2-3 (для оценок с целевой функцией (9) см. в [15]).

Определение 4. Обобщенной вариационной оценкой 6Ъ параметра 0* по множеству наблюдений

= ¿Ці) + і Є 1,Ь}, где — истинные процес-

сы, — возмущения (11), называем результат минимизации целевой функции

где матрица Ц ^ 0 неотрицательно определена, симметрична и такова, что верно соотношение (С^ г = 0) ^ (Ц^ г = 0), а след произведения ЕТЦЕ не зависит от в:

В итоге, определяющим свойством для введенного в этом разделе класса вариационных оценок является независимость следа матрицы ядра целевой функции от оцениваемого параметра. Заметим, что все известные нам примеры вариационных оценок ограничены оценками из определений 2-3, т. е. с проективными ядрами.

Определения 2 и 3 по существу не вносят новых идей в понятие вариационной оценки по сравнению с определением 1. Чтобы продемонстрировать конструктивность данных определений, покажем, что ряд известных в литературе оценок являются частными случаями вариационных из определения 1 (Ь = 1), а также построим новые оценки.

ь

Н = 0(%),..., ¿(ь)) = ащшіп 7я,ь(М(і),...,2(ь)),

и

Яр Е ти Е = соп8^0).

Введем обозначения. Из матриц 7г Є Мгх(г+т) (4) составим матрицу

(14) 7# = (70 71 ... 7р) Є Мгх(г+т)(р+1).

Пусть уе^ 7 — вектор, полученный последовательным выстраиванием транспонированных строк матрицы 7. Будем предполагать, что матрица 7# (14) зависит от вектора параметров в аффинным образом:

(15) уе^ 7# = й + Ов = 0$, где матрица О Є

Мг(г+т)(Р+1)х^ и вектор й Є Мг(г+т)(р+1) заданы, столбцы составной матрицы 0 = (й, О) линейно независимы, $ = (1) .

Система уравнений (4) всегда может быть записана в виде

(16) С# г = V уе^ 7# = V 0$ = 0,

где знак « = » обозначает равенство для всех г Є (г+т),

V = V(г) — клеточно-ганкелевая матрица из элементов вектора г:

v(T) = (zHT...*[* + p]T

Lr y U(N-p)

Символ y обозначает кронекерово произведение матриц, /r — единичная матрица r х r .

Дополнительно предположим:

(А) для всех в G 0 каноническая форма многочленной матрицы

70 (s) = 7р,0 sp + 7p-i,0 sp-1 + ... + 70,0

не имеет тождественно нулевых строк; это условие при N ^ 2 (р + 1), р ^ 0 равносильно линейной независимости строк числовой матрицы G0 (4) [14, предложение 4.1];

(Б) степень определителя многочленной матрицы знаменателя од(s) не зависит от параметра в :

degdet а0 (s) = const,

а0 (s) = ар,0 sp + ар-1,0 sp-1 + ... + «0,0;

(В) степень каждой строки многочленной матрицы знаменателя а#(з) не меньше степени соответствующей строки многочленной матрицы числителя

(з) = Др,0+ вр-1,01 + ... + ^0,0

(условие причинности); степенью строки многочленной матрицы называется наибольшая степень среди образующих эту строку многочленов.

Заметим, что на систему (4) не налагаются условия управляемости и устойчивости. Последнее возможно благодаря конечности N.

Ввиду равенства С# г = 0 условие П,,#г = 0 из определения 1 позволяет выразить проекторы П,,# через линейные комбинации строк матрицы С# :

(18) П,0 = (ф,,#Ф^) -1 Ф,,# = фТ Ф,,#,

Ф,,# = Р, С#, Р, е Мпх(м-р)г,

где строки матриц Р, (составленные из коэффициентов линейных комбинаций) линейно независимы. Последнее вместе с условием (А) гарантирует строгую положительную определенность

матриц Ф,,вФТ0$£; 0 и О,,# = ^Ф,,вФ]#) #£; 0 .

Проективная целевая функция (6) с учетом параметризации

(15) и тождества (16) принимает вид

(19) з (м) = гТ (П1,в +... + Пм,в) * =

О,,#Р,^ VДОЛ

Аналогичное выражение получается для целевой функции 3^,ь

(12): по лемме 2 (из приложения)

, = С]р/ (р,С#тс]р/)-1 р,с#,

■--------------------■

Е рТ ,=1

ь

м

^,ь = Ь-1 ^ ^ТЭТУ(*(0)т I £ Р/С^,*р I V(%))Р0.

І=1

Выражения (19), (20) служат основой для построения вычислительных алгоритмов минимизации (ниже).

2.1. ОЦЕНКИ ОРТОГОНАЛЬНОЙ РЕГРЕССИИ (ОР)

Для идентификации параметров динамических систем (1) М. Левин [42] предложил использовать метод ортогональной регрессии [48]. Покажем, что возникающая здесь целевая функция будет проективной из определения 1. В принятых выше обозначениях оценка М. Левина получается заменой матрицы С# системы (1), (4) на матрицу

= 1м ® (7о 71 ... 7р) .

Матрица С^,# получена из С# вычеркиванием части строк (для простоты обозначений положим, что N кратно р + 1). М. Левин рассматривал случай г = 1. Ядро целевой функции (6) принимает вид

/70 ... 7р

0 \

7о ... 7р

0

7о ... 7р /

(21) пі,в + ... +Пм,б> =

0\ /0

0

= +

0

+ ...

0

00

0

/па

па

0\

па/

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/т^те

70 lj

10 7е

7е 1в 70 7^ /

gor,a (gor,aGCIR,a) gor,a — ПА

Несложно убедиться, что каждое слагаемое в сумме (21) явля-

/ Т \ 2

ется проектором ввиду равенств п2 = ^Т) = па • Также

проектором является вся сумма (21): П2 = Па . Поэтому оценка М. Левина принадлежит классу вариационных.

В оценке М. Левина каждая матрица Р/ из (19) является строкой из нулей и одной единицы на месте с номером

(3 - 1) (р + 1) + 1, 3 е Т,М, М = р+1 : Р = ( °°_._9 1 0••• °)

(/-1)(р+1)

N -р

Запись (19) принимает вид:

J (М) —

tfTDTV(z)T (eM=i P/Pj) V(z)D^

<?= 7аГ7а

(22)

1 D 1 Vor(Z) 1 Vm(Z)Dtf tfTDTDtf

где матрица VOR(Z) получена прореживанием ганкелевой матрицы V(Z) (17) — удаляются строки, содержащие элементы, имеющиеся в других строках.

Устойчивость оценок с целевой функцией вида (22) исследовали Г. Голуб и Ч. Ван Лоан [39], назвав их оценками TLS (Total Least Squares estimates). Тождественное совпадение оценок TLS Г. Голуба и Ч. Ван Лоана с классическими оценками ортогональной регрессии [48] было отмечено в [36].

0

0

2.2. МОДИФИЦИРОВАННЫЕ ОЦЕНКИ ОРТОГОНАЛЬНОЙ РЕГРЕССИИ (ОРМ)

М.Аоки и П.Ю предложили модифицированный вариант (ОРМ) оценки М. Левина, имеющий локально меньший разброс [31]. В наших обозначениях ядро целевой функции модифицированной оценки принимает вид суммы проекторов:

(23)

П1 я + ... + П^-

N-р,Я

70

70 7е

V о

+

о

/0

70

о

о

+

+

о

о \

70

Поэтому модифицированная оценка принадлежит классу вариационных. Нули на диагонали есть числа, а клетки 1е ^ имеют

размерность (р + 1) х (р + 1). Данная сумма уже не является проектором. Число слагаемых N — р здесь больше, чем в методе

ОР. _________

Каждая матрица Р,, і Є 1, N — р в оценке ОРМ является І -й строкой единичной матрицы ^-р :

(24) Р, = (0... 0 1 0... 0 ).

(,-1)

N -р

Выражение (19) принимает вид

$ТЭТУ (,г)ТУ (¿)й0

(25)

з (М) =

Введенные обозначения позволяют достаточно просто построить оценку ОРМ для случая нескольких уравнений г > 1. 68

о

о

о

Такие многомерные оценки в литературе ранее не встречались. Ядро целевой функции:

П1,0 + ... + -р,0

/п0 °\ /0

0

+

\° °/

00 0

П0

0

0

0

+

+

,,т

0

-1

П0 = 70 ^707Т) 70 е м(г+т)(р+1)х(г+т)(р+1),

0 е м(г+т)х(г+т), П,0 е М(г+т)(м-р)х(г+т)^-р).

Матрицы Р, (24) клеточные:

(26)

р, = (°_. .о 1 °... °) ® /г+т.

(,-1)

N -р

Целевая функция (19) записывается следующим образом:

~N -р

ТпТ

,=1 т т т

(27) = А'й'У (г )'СМ,0 V (г )Э0,

см,0 = ^-р ® (707') .

2.3. ОЦЕНКИ ПО МЕТОДУ ВАРИАЦИОННОЙ

ИДЕНТИФИКАЦИИ (ВИ) И ПО МЕТОДУ GTLS Более сложным в вычислительном отношении является метод вариационной идентификации А. О. Егоршина [9]; его многомерный вариант при г > 1 изложен в [10]. С точки зрения

69

разброса оценок при случайных возмущениях этот метод лучше ОР и ОРМ [19]. Целевая функция метода ВИ при Ь = 1 есть (9) с ядром

. -1

П1Й = ... = ПМ,(

г, = П, = Gj (g,Gj) G,.

Формально M = 1,

(28) Pi = /,

Ci,, = C, = (g, Gj)-1.

Тогда (19) принимает вид

(29) J (0, z ) = tfTDTV (z )TC, V (z )Dtf.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Следует упомянуть также метод идентификации GTLS (Global Total Least Squares), предложенный позже Б. Роордой и К. Хейджем [49]. По целевой функции этот метод совпадает с методом ВИ, поэтому также принадлежит классу вариационных.

2.4. ОЦЕНКИ STLS

Оценки STLS (Structured TLS) были предложены Б. Де Муром [45] как модификация оценок ОР (TLS), учитывающая специальную структуру матрицы наблюдений V(z) (17). В случае L = 1, M = 1 эта структура клеточно-ганкелевая. Оценки ОР, модифицированные ОР, оценки метода ВИ являются частными случаями STLS. Нас будет интересовать вопрос, совпадает ли класс оценок STLS с классом вариационных оценок из определения 3.

Задача STLS может быть сформулирована следующим образом [40]. Пусть матрица V (z) аффинно зависит от элементов

вектора z е :

z = (zi;...; z„),

(30) V (z) = V0 + V1z1 + ... + Vrazra,

где матрицы Ро,..., V” заранее известны и фиксированы. Пусть г е К” есть вектор наблюдений с матрицей ковариации ЛЛТ.

70

Найти минимум

(31) Rmi^ R l|R-1 (z — z) У2 при условии V(z)g(e) = 0,

где д(в) — матрица, аффинно зависящая от в є Rv :

(32) д(в) = go + діві + ... + gv в^.

С начала 1990-х гг. задачи STLS активно исследуются за рубежом. Широкий круг приложений обсуждался в [45]. В [41] установлена тождественность между оценками STLS и оценками по методу CTLS (Constrained TLS) Т. Абатзоглу и Дж. Менделя

[30]. Что касается свойств оценок STLS, то авторами [40] доказана состоятельность многомерных оценок STLS (д(в) є Rrxv) в предельном случае N ^ то для клеточно-ганкелевых матриц

V(z). Ниже мы установим состоятельность вариационных оценок в случае L ^ то, и доказав равносильность классов STLS и вариационных, распространим тем самым новое утверждение о состоятельности и на оценки STLS.

Как было отмечено, при L = 1, M = 1 вариационная оценка (7) является оценкой STLS. Покажем, что в общем случае это отношение сохраняется, более того, имеет место совпадение обоих классов оценок. Этот новый результат устанавливает связь между свойствами оценок вариационных и STLS, исследованных независимо разными авторами [7, 9, 15, 22, 31, 37, 40, 45, 46].

Теорема 1. Оценка STLS (30)-(32) является вариационной оценкой (13). И наоборот, вариационная оценка (13) всегда может быть получена как решение некоторой задачи STLS (30)-(32).

Доказательство. См. приложение.

Как следствие этой теоремы, оценки STLS допускают новые проективные формы записи (12), (20) для целевой функции

(31), и все полученные ниже результаты о свойствах вариационных оценок — условия единственности, устойчивости, состоятельности при L ^ то и конечных N (теоремы 2-6 далее) — распространяются и на оценки STLS. Необходимые переобозначения приведены в приложении в доказательстве теоремы 1.

2.5. СКАЛЯРНЫЕ ОЦЕНКИ ОРТОГОНАЛЬНОЙ РЕГРЕССИИ ДЛЯ СИСТЕМ ИЗ НЕСКОЛЬКИХ УРАВНЕНИЙ (ОРС) Введем еще один тип вариационных оценок параметров системы (1) из нескольких уравнений (г > 1), ранее неизвестный в литературе. По свойствам целевой функции эти оценки наиболее близки к оценкам наиболее простого скалярного (г = 1) метода ОРМ. Назовем эти оценки ОРС, обозначим . Идея состоит в том, чтобы по одному измерению г идентифицировать параметры уравнения с матрицей 7# (14) из г строк так, как бы идентифицировалась каждая из этих строк по отдельности скалярным методом ОРМ из раздела 2.2. Существенно, что в оценках ОРС учитывается зависимость коэффициентов разных уравнений от общего параметра в.

Введем обозначения. В случае г > 1 матрица V(г) (17) перестановкой строк приводится к виду

совпадает с матрицей V(г) (17) с г = 1. Обозначим

(7071 ...7р) =7*9 * -ю строку матрицы 7# (14). Тогда соотношение (15) запишется в виде

/V 0\

V (г) -

(33) где V

є -р)х(р+1)(г+т)

/7ІЛ М + Яі0\

уе^ 70

уТТ/ \^г + А б/

/її АД /йД

уїг

\°г/

Оценки ОРС определяются соотношением

(34) 0s = arg min Js(0, Z ),

T fa Z ) = ^TD7F(Z )TF(z )Di§ + + ^TDjF(Z )TF(z )Dr<&

Ts(0,z) = ^tdtDi^ + ••• + 0TDTDr § •

Несложно установить равенство

(35) Js(0,Z ) = §TDTV (Z )TCs,ö V (Z )D§,

l 701701Т 0 \ 1

V 0 7ör7örT /

Выражение (35) получается из (27) занулением недиагональных элементов матрицы 7# 7' .

Матрицы Р, остаются теми же, что и в методе ОРМ (26). Убедимся, что оценки ОРС принадлежат классу вариационных. Действительно, ввиду соотношений (23), (25), (34) ядро целевой функции 7э(в, Z ) есть сумма проекторов

п(1) + + п(1) + + п(г) + + п(г)

П1,0 + ... + ПМ-р,0 + ... + П1,0 + ... + ПМ -р,0,

где проекторы П,# получаются из проекторов П,,# (23) заменой 7# на строку 7# . Далее см. определение 2.

3. Свойства вариационных оценок

Установим условия единственности вариационных оценок

(7), (13). Воспользуемся представлениями (18), (19), (20) для целевых функций (6), (12).

Теорема 2. Необходимым и достаточным условием единственности вариационной оценки (7) параметра в системы (4) по невозмущенному наблюдению Z = г, С#г = 0, является строгая положительная определенность матрицы

Qm = DT Vj(z)TVj(z) | D > 0,

vi=1

где Vj (z) = Pj V(z), и матрицы Pj определены в (18).

Доказательство. Единственность равносильна соотношению

V Д0 е М^ 3(0 + Д0, г) > 3(0, г).

Из (19) следует равенство

3(0 + Д0, г) — 3(0, г) =

С,-,е+деV,- (г)) АД0.

Здесь учтено равенство V? (г) (А0 + ^) = 0 . Имеет место строгая положительная определенность матриц С-^+д# > 0. Поэтому неравенство 3(0 + Д0, г) > 3(0, г) имеет место тогда и только тогда, когда строго положительно определена матрица

Е V, (г)

Теорема доказана.

Теорема 3. Необходимым и достаточным условием единственности вариационной оценки (13) параметра 0 системы (4) по набору невозмущенных решений {х (!) = 2(1), . . . , X (Ь) = £(ь)}, С#¿(г) = 0, является строгая положительная определенность матрицы

ь / м \

(36) ^(Ь),м = Ь-1 Е ( Е V,(¿(¿))Т^'Цг)) ) А > 0.

г=1 \?=1 )

Доказательство этой теоремы опирается на соотношение (20) и аналогично доказательству теоремы 2.

3.1. УСЛОВИЯ КОРРЕКТНОСТИ ПАРАМЕТРИЗАЦИИ

Выясним, как зависит выполнение условия единственности

(36) от устроения матрицы А. Согласно (15), матрица А используется для задания параметризации 0 ^ С# .

т

V-СЮ I Б > 0.

Е V- Сг)Т і=і

Определение 5 [43]. Пусть Z = {г^),..., £(ь)}

множе-

ство наблюдений г(г) таких, что С#г(г) == 0. Отождествим множество Z с матрицей (г(1) ... г(Ь)) , тогда С# Z = 0.

Параметризация 0 ^ С# называется корректной на множестве наблюдений Z, если для каждого значения параметра £ е 0 \ {0} имеет место неравенство Z = 0.

Дадим обобщение этого определения на случай набора матриц (18) Ф?,# = Р? С# , ] е 1, М . Введем обозначения

/Ф1.Л /-Л

(37)

\Фм,#/

С# — -РС#.

\рм/

р

Определение 6. Параметризация 0 ^ Ф# называется корректной на множестве наблюдений Z, если для каждого значения параметра £ е 0 \ {0} имеет место неравенство Ф? Z = РС? Z = 0.

Предложение 1. Условие единственности (36) выполнено тогда и только тогда, когда параметризация 0 ^ Ф# корректна на множестве наблюдений Z = {г(1),..., г(ь)} .

Доказательство. Согласно определению (16), неравенство Ф^ Z = 0 равносильно неравенству

Учитывая соотношения Ф#Z = 0, Ж (А0 + ^) = 0, получаем:

Ж (А£ + — Ж (А0 + ф = ЖА (£ — 0) = 0.

Ввиду произвольности £ последнее означает, что столбцы матрицы Ж А линейно независимы. Следовательно, строго положи-

тельно определена матрица

ьм

Ф(ь),м = Ь-1 Е АТ ( Е V,(г(г))Т^'(г(г)) ) А =

г=1 \?=1 /

= Р-1АТЖ ТЖА > 0.

Обратное тоже верно. Предложение доказано.

Определение 7. Пусть Я# = {г : С#г = 0} — линейное многообразие всех решений системы (4). И пусть Н# — матрица, столбцы которой образуют фундаментальную систему решений (4) (базис Я#). Параметризация 0 ^ С# (или 0 ^ Ф# ) называется корректной, если она корректна на множестве Z = Н#.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заметим, что параметризация 0 ^ С# полностью определяется системой (4), а параметризация 0 ^ Ф# зависит еще и от метода идентификации (ОР, ОРМ, ВИ, ОРС, ...), т. е. от набора матриц Р? (37).

Из корректности параметризации 0 ^ Ф# следует корректность параметризации 0 ^ С# . Обратное, вообще говоря, неверно. Установим условия, при которых корректность 0 ^ С# равносильна корректности 0 ^ Ф# . В этом случае условия единственности оценок не будут зависеть от метода идентификации (от набора матриц Р? ).

Определение 8 [15]. Множество наблюдений Z = {г(1),..., г(Ь)} С Я# называем полным, если оно содержит базис многообразия Я#.

Покажем, что для оценок ОРМ, ВИ, ОРС условия корректности параметризаций 0 ^ С# и 0 ^ Ф# совпадают. Другими словами, имеет место следующая теорема.

Теорема 4. При полном множестве наблюдений Z = {г(1),..., г(Ь)} С Я# единственность оценок ОРМ, ВИ, ОРС имеет место тогда и только тогда, когда корректна параметризация 0 ^ С#.

Доказательство. Согласно предложению 1, единственность любой оценки вида (13) равносильна корректности параметриза-76

ции 0 ^ Ф# , т. е. когда для всех значений параметров £ е 0\{0} имеет место неравенство Ф^ Н# = 0 . Заметим, что для каждой из

оценок ОРМ, ВИ, ОРС соответствующие матрицы ,

(26), (28) все имеют линейно независимые столбцы. Поэтому соотношения Ф^ Н# = Н# = 0 и Н# = 0 для этого случая равносильны. Теорема доказана.

Важно, что условия корректности параметризации 0 ^ С# допускают равносильную формулировку в виде ограничений на ранги специальных подматриц из элементов «малой» матрицы 7#

Определение 9 [17]. Если все ненулевые строки матрицы А образуют единичную подматрицу, то параметризация называется простой (или правильной).

В литературе это наиболее часто встречающийся тип параметризаций.

Замечание 1. Ввиду того, что свойство максимальности ранга устойчиво по отношению к малым изменениям элементов матрицы, для простых параметризаций корректность оказывается в пространстве параметров свойством общего положения (этот факт следует из теоремы 4 статьи [17]).

К этому замечанию мы вернемся ниже при обсуждении состоятельности.

3.2. УСТОЙЧИВОСТЬ

Устойчивость вариационной оценки 0(г ) (7) прямо следует из результатов статьи [21]. Сформулируем утверждение.

Теорема 5. Пусть выполнено условие единственности из теоремы 2, е = р — г||, Д0 = 0(г ) — 0(г) = 0(г ) — 0,

(14) [16, 17, 18].

и ЛтіП(Ло) — наименьшее собственное число. Тогда

Верхняя граница для величины остаточного члена 0(е2) также получена в [21]. Она имеет сложный вид и здесь не приводится.

Для оценки (13) утверждение об устойчивости аналогично теореме 5. Ввиду соотношения (20) нужно наложить условие единственности из теоремы 3 и заменить матрицу Яо (38) на матрицу

ь / м \

(39) Я^о = Ь-1 £ АТ (£ V'(^(г))ТС'V(^(г))1 А.

¿=1 \'=1 /

На основании теоремы 5 можно предложить количественные критерии идентифицируемости параметров уравнения (1), основанные на вычислении минимального собственного числа матрицы Я0 (38) (или Я^,0 (39)). На практике матрица Я0 может быть заменена оценкой Яо, получаемой заменой неизвестных истинных значений 0,^ на оценки 0,,гор^ [22].

3.3. СОСТОЯТЕЛЬНОСТЬ

Прежде изучения свойств оценки на конечных выборках следует убедиться в ее состоятельности. В статье [40] была установлена состоятельность оценок 8ТЬ8 в пределе N ^ то по наблюдению одного процесса (Ь = 1). Здесь рассмотрим предельный случай Ь ^ то наблюдений большого числа процессов конечных длин N с независимыми начальными условиями (подлежащими оцениванию совместно с параметрами уравнения). В этом случае оценка 0(Х ) (7) переходит в оценку 0(£(1),..., £ (Ь)) = 0ь

(10) или (13), и сильная состоятельность означает сходимость 0ь ^ 0 п. н. в пределе Ь ^ то, где 0ь — одна из точек локального минимума целевой функции. Сформулируем утверждение.

Теорема 6. Пусть выполнено предположение о возмущениях

(11). Если (и только если) выполнено условие

(40) Ф(те),М = 11™ ^(ь),м > 0,

где матрица ^(ь),м определена в (36), то вариационная оценка 0ь (13) сильно состоятельна по Ь ^ то, где под 0ь понимается одна из точек локального минимума целевой функции (12).

Доказательство близко по идее к доказательству теоремы 1 из [15] и полностью будет опубликовано в другой статье.

В ряде случаев оказывается возможным заменить целевую функцию на более простую. Необходимым условием является сохранение состоятельности оценок.

Определение 10. При возмущениях (11) две оценки вида (13) с различающимися наборами матриц

И = {Жц , . . . , Жм! } , И = {^12, . . . , ^м2 }

называются равносильными по состоятельности, если условия (40) для соответствующих наборов И и И2 равносильны. При отсутствии возмущений оценки вида (13) равносильны по состоятельности в детерминированном смысле, если для них при любых одинаковых множествах невозмущенных наблюдений {Х(1) = ^(1),..., 2(ь) = ¿(ь)} равносильны условия (36).

Заметим, что из равносильности по состоятельности в детерминированном смысле всегда следует равносильность по состоятельности.

Равносильные по состоятельности оценки могут отличаться асимптотическими свойствами.

Теорема 7. Вариационные оценки ВИ, ОРМ, ОРС (с целевыми функциями соответственно (29), (27) и (35)) равносильны по состоятельности в детерминированном смысле.

Доказательство. Достаточно заметить, что перечисленные оценки отличаются только матрицами С#, См,#, С^,# в ядрах целевых функций (29), (27) и (35). Эти матрицы не участвуют в формулировке условий единственности (36).

3.4. СОСТОЯТЕЛЬНОСТЬ И ИДЕНТИФИЦИРУЕМОСТЬ КАК

СВОЙСТВА НЕОБЩЕГО ПОЛОЖЕНИЯ

Из теорем 4, 6 следует, что при «естественных» предположениях о распределении процессов ^(¿) и возмущений ^(¿) для состоятельности оценок ОРМ, ВИ, ОРС необходимо и достаточно

выполнить условия корректности параметризации в ^ G . Поэтому, согласно замечанию 1, для простых параметризаций состоятельность оказывается свойством общего положения. Подобный факт был установлен ранее П. Стойкой, который исследовал прямые оценки, получаемые методами типа инструментальных переменных (МИП), и ввел понятие состоятельности в общем положении (generic consistency) [51, с. 266]. Оно означает отсутствие состоятельности в точках множества меры ноль в пространстве параметров. Причиной является вырождение матрицы ковариации наблюдений [51, с. 272]. В таких точках бесконечно растет и разброс оценок МИП [51, с. 273].

Заметим, что если использовать количественные показатели разброса оценок (например, через детерминант или сингулярные числа матрицы ковариации), то понятие состоятельности в общем положении теряет смысл. Например, пусть считается неприемлемым разброс оценок больше заданного уровня E, тогда отсутствие состоятельности (идентифицируемости) будет происходить уже на множестве меры > 0 (эта мера будет зависеть от E).

Нарушение корректности параметризации также происходит на множестве меры ноль (см. замечание 1). Введение количественных показателей идентифицируемости (раздел 3.2) делает множество неидентифицируемых систем множеством меры > 0 , и идентифицируемость перестает быть свойством общего положения.

3.5. МИНИМИЗАЦИЯ ПРОЕКТИВНЫХ ЦЕЛЕВЫХ

ФУНКЦИЙ

Минимизация J(в,Х ) (22) по в осуществляется итерациями с обратной матрицей:

нием первого элемента к единице. Этот алгоритм является мо-

A = DtVor(Z)tVor(Z)D, B = DTD.

Запись (101 0)тт означает нормирование вектора т с приведе-

дификацией стандартного способа поиска минимального (соответствующего минимальному собственному числу) собственного вектора симметричной матрицы [8, с. 421].

Целевая функция метода ВИ (29) имеет сложный характер изоповерхностей [6, 13]. Применение универсальных алгоритмов минимизации типа Ньютона крайне затруднено из-за их малого радиуса сходимости [44]. Тем не менее, в [9, 10] был найден эффективный вычислительный метод, основанный на модификации алгоритма (41):

Итерации типа (42) в частном случае однородных систем (1) независимо от А. О. Егоршина использовал М. Осборн [46] и позже переоткрыл Б. Де Мур [45], применяя их для решения задачи 8ТЬ8 (см. раздел 2.4). Особенностью итераций Егоршина— Осборна является высокая скорость сходимости в 2-4 итерации в малую окрестность глобального минимума при слабой зависимости от начального приближения. Примеры расчетов приведены в [15, 20, 22]. Локальную сходимость итерационной процедуры (42) исследовал В. Г. Демиденко [7].

В методе ОРМ минимизация целевой функции (27) может быть осуществлена итерациями (42) с заменой С# = (С#С) на СМ,# (27) (результаты экспериментальной проверки этого факта здесь не приводим).

3.6. ЧИСЛО ЭКСТРЕМУМОВ ЦЕЛЕВОЙ ФУНКЦИИ ОРС

Для вариационной идентификации параметров систем (1) оценки ОРС оказываются одними из наиболее простых и в то же время состоятельными (теорема 7), с хорошими экстремальными свойствами.

Теорема 8. Число локальных экстремумов целевой функции ОРС Зэ($, X ) (34) не превосходит г(р + 1)(г + т).

А(к) = ЭТУ (Х)тС#(к) V ДО, В = ЭТЭ.

Доказательство. Из выражения (34) получаем уравнение на критические точки функции ^($) = ^з(0, ):

Е г

(йТйТ V ТУ Р,«) стс

1 («тотвд) (^ТйТ р,«)

д$

Обозначим

А($) = ^ТЭгТУТ?й*$,

Ь*($) = $тйТо*^,

7. $ = а*М л^ ь*($) •

Уравнение на критические точки запишем в виде

0.

A, = йТ V 1 Vй,,

B, = йТ й,,

1

О

т

VТУ - л(«)/) й,

« = 0.

В матричной записи (43) ( йТ ... йТ )

( (уту-Л(0)/) Ьі (0)

(у ту-7г (0)/) Ьг (#)

/ Ж 0 \

( Оі \

« =

VОг /

= й

т

й« = йТЖй« = 0.

\ о /

Несложно проверить тождество У$ $тйт Ж й$ = о .Оно

д^($)

показывает, что производная ^ перпендикулярна направлению $, т. е. ^($) не зависит от нормы $ .

Как следует из принятых обозначений, матрица Ж симметричная. Ввиду линейной независимости столбцов матрицы й условие (43) при $ = 0 означает, что матрица Ж вырождена. Отсюда следует необходимое условие существования экстремальной точки:

3 г е 1,7 (уТУ - Л($)/) = о.

X

0

X

0

Следовательно, число экстремальных точек не превосходит числа г£, где £ = (р + 1)(г + т) есть размерность матрицы VТУ (см. (33)). Теорема доказана.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Будем говорить, что разные уравнения системы (1) параметризованы аффинно и независимо, если матрица й из условия

(15) имеет клеточно-диагональный вид

(44)

D

11

0 \

Dr

/

Г

Dü є R(p+1)(r+m)xvi, £ Ui = и + 1,

i=1

а вектор параметров $ = (1; в) распадается на r подвекторов — = (і; 0і) , і є 1, r, так что каждая из строк 7i в матрице 7#

(14) системы (1), (4) зависит только от i -го подвектора параметров 0і.

Теорема 9. Пусть разные уравнения системы (1) параметризованы аффинно и независимо. Тогда число экстремальных точек целевой функции ОРС (34) не превосходит r(v + 1), а оценка ОРС -s, минимизирующая (34), имеет вид -s = (-S;...; -S) , где каждый из подвекторов -S является решением скалярной (r = 1) задачи ОРМ вида (25):

-S = arg min Ji($),

О

-TDTVT/D •$

(45) *<$> =

Доказательство. В случае независимой параметризации уравнений из выражения (35) ввиду (44) и (33) получаем

Js($) = Js(-1,...,-r) =

-1TDT1/t/D11-1 -1TDT1D11-1

+... +

-rTDTr / T/Drr-r -rTDTr Drr-Г '

Целевая функция (45) имеет ровно V + 1 критических точек, где V + 1 — размерность вектора $, поскольку все такие точки являются собственными векторами регулярного пучка матриц ОТ Т^ - ^/) йгг [4, гл.Х, п.6]. Отсюда сразу следует утвер-

ждение теоремы.

4. Заключение

После работ А.Н. Колмогорова и Н. Винера [12, 54] в области приложений методов идентификации возобладал подход, основанный на вычислении корреляционных функций наблюдаемых сигналов. Это направление со временем стало магистральным [1, 23, 29, 32, 35, 51], во многом благодаря ранним работам К. Острема с коллегами [25]. Несмотря на простоту, корреляционные («прямые») методы идентификации на конечных выборках наблюдений нередко приводили к трудностям в интерпретации результатов ввиду большого числа локальных экстремумов у целевой функции.

Известная работа Я. Виллемса [2] послужила толчком для развития направления, основанного более на идеях аппроксимации наблюдений, чем на вычислении коэффициентов корреляций. Эту группу методов мы называем вариационными («непрямыми»). Первые существенные результаты в этой области были получены значительно раньше А.О. Егоршиным [9, 10] и М. Осборном [46]. Развитие этого направления связано с именами Г. Голуба, Ч. Ван Лоана [39], Б. Де Мура [45], С. Ван Хуффель, Дж. Вандевалле [53] и мн. др. Непрямые методы идентификации более сложны с точки зрения числа арифметических операций.

В данной статье впервые предложено точное определение для всего класса вариационных методов и рассмотрены их экстремальные свойства. Показано, что в ряде существенных случаев увеличение числа арифметических операций приводит не к усложнению процедуры идентификации, а в конечном счете, наоборот, к ее упрощению, ввиду значительного уменьшения числа локальных экстремумов, и как следствие, улучшения свойств сходимости итерационных процедур.

84

Автор благодарит рецензентов за конструктивные замечания, способствовавшие улучшению текста статьи.

Приложение. Доказательство теоремы 1

Первое утверждение теоремы сформулируем более конкретно. Пусть $s , zs — решение задачи (30)-(32). Тогда можно указать целевую функцию Js(0,x) = xTWs,e x, x = (1; z ), с ядром таким, что произведение ЕTWs,eЕ = ns,e, Е = (0 R) , есть проективная матрица nS ö = Щ,е, и при этом 0s = = argmine Js(0, z ). Докажем это утверждение.

Условие V(z)g(0) = 0 равносильно уравнению

[1 ® д(0)] vect V(z) = 0.

Ввиду соотношения (30) имеем vect V(z) = f + Fz , где вектор f и матрица F вычисляются по матрицам V0,..., Vn . Также из

(32) следует представление

1 ® д(0) = Ге, Ге = Го + ri0i +... + ,

где матрицы Го,..., rv вычисляются по матрицам до,..., gv . Задачу (31) запишем в виде

min ||R-1 (z — z) У2 при условии Ге (f + Fz) = 0.

Определим векторы x(z) = (1) е Rn+1, x =. x(z ) и матрицы Е = (о R), Ge = (Гf ГF) . Тогда Göx = 0, ||R-1(z — z)|| =

= ||Е + (x — x) |, где Е + = (0 R-i) — обощенная обратная

Мура—Пенроуза [27, 1.b.5.(IV)]. В новых обозначениях задача

(31) принимает вид

min 11Е+ (x — x) II2

xeRn+i, eeRv

при условиях

Ge x = 0, (1,0,..., 0)x = 1.

Минимизация по х приводит к безусловной задаче минимизации

-1

тіп Хт СІ (сеЕЕтСт) Се X,

ее к е V )

хорі

^3,0

-1

I - ЕЕтсТ (СеЕЕтсТ) Се

X.

Матрица ЕтШв,оЕ является проектором. Поэтому оценка 8ТЬ8

в = а^шт ХтШэ,О X

О

есть вариационная согласно определению 3. Первая часть теоремы доказана.

Прежде доказательства второй части установим три леммы.

Лемма 1. Пусть ГХГт = П = Пт ^ 0 —неотрицательно определенная симметричная матрица со свойством проектора: П2 = П. И пусть матрица Х неособенная, и столбцы матрицы Г линейно независимы. Тогда X = (РтР) .

Доказательство. Из равенства (РХРт) (РХРт) =

ГХГт следует Гт (ГХГт) (ГХГт) Г = ГтГХГтГ, откуда сразу получаем ХГтГХ = Х . Учитывая неособенность Х, приходим к соотношению ГтГХ = I, т. е. Х = (РтР) 1.

Лемма 2. Пусть Шт = Ш ^ 0 — неотрицательно определенная симметричная матрица со свойством (Ся = 0) ^ (Шя = 0), где С — заданная матрица с линейно независимыми строками. И пусть для заданной матрицы Е с линейно независимыми столбцами выполняется соотношение ЕтШЕ = П, П2 = П. Тогда Ш = СтРт (РСЕЕтСтРт)-1 РС, где Р — некоторая матрица с линейно независимыми строками.

Доказательство. Из симметричности Ш и свойства (Сг = 0) ^ (Шг = 0) следует Ш = СтРтХРС, где Х — некоторая неособенная матрица. По условию,

(ет^е) (ет^е) = ЕТ#Е.

После переобозначения PGE = FT получаем равенство (FXFT) (FXFT) = FXFт. По лемме 1 X = (FTF)-1, тогда

W = GTPт (PGEETGTPт) — PG.

Лемма доказана.

Лемма 3. Задача минимизации

J = min IlE-1 (Z — z) II2 при условии Hz = 0 имеет единственное решение

1

I - EETHT ( ЯГГTH л 1 н

7 = ХтЯт (ЯЕЕтЯт) ЯХ ,

zopt _

Доказательство. Введем функцию Лагранжа /*(г, Л) = ||Е-1 (Х - я) ||2 + ЛтЯг.

Необходимое условие минимума = 0, = 0 :

Яг = 0, ЯтЛ - 2Е-тЕ-1 (Х - я) = 0.

Левым умножением последнего уравнения на ЯЕЕт получаем

Л = 2 (ЯЕЕтЯт) 1 ЯХ .

Подставляя Л в условие минимума, вычисляем

I — EETHT (HEEtHЛ 1 H

zopt

Подстановка Zopt в J приводит к выражению J = ZTHT fHEETHT^) 1 HZ .

z .

Лемма доказана.

Докажем вторую часть теоремы. Для упрощения обозначений положим L = 1, M = 1 .В случае L > 1, M > 1 ход рассуждений остается тем же.

Пусть (12), т. е. J(0, Z) = Z TWeZ . Матрица W# удовлетворяет условиям леммы 2, поэтому имеет место выражение

wö = gTp t (pgö eetgTp t)-1 pgö

для некоторой матрицы P с линейно независимыми строками. Обозначим H^ = PG#, тогда

j(0, z) = zthT (heethöt) -1 HZ .

По лемме 3

J(0, Z ) = min ||E-1 (z — z) II2 при условии Hez = 0.

Используя определения (16), (17), всегда можно построить матрицу V(z) с аффинной параметризацией (30) такую, что верно соотношение H^z = V(z)vect = V(z)D$ = 0. Осталось заме-

тить, что для матрицы (из одного столбца)

g(0) = vect 7е = D$ = d + D0

выполнено условие (32). Мы получили, что оценка (13) есть оценка STLS (30)-(32). Теорема доказана.

Литература

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. БУНИЧ А. Л., БАХТАДЗЕ Н. Н. Синтез и применение дискретных систем управления с идентификатором. - М.: Наука, 2003. - 232 с.

2. ВИЛЛЕМС Я. От временного ряда к линейной системе // Теория систем. Математические методы и моделирование. -М.: Мир, 1989. - С. 8-191.

3. ВОРЧИК Б. Г. Единственность оценок максимального правдоподобия параметров стохастических систем (проблема локальных экстремумов) // Автоматика и телемеханика. - 1984. - №6. - С. 47-55.

4. ГАНТМАХЕР Ф. Р. Теория матриц. - М.: Наука, 1966. -576 с.

5. ГАУСС К. Ф. Избранные геодезические сочинения. - Т. 1. М.: Геодезиздат, 1957. - С. 59-87.

6. ДЕМИДЕНКО В. Г. Разработка и программная реализация метода оценки параметров линейных моделей генных сетей. - Магистерская диссертация. Новосибирск: Новосибирский гос. университет, 2007.

7. ДЕМИДЕНКО В. Г. Восстановление коэффициентов систем линейных разностных уравнений // Вестник НГУ (Серия: математика, механика, информатика). - 2010. -Т. 10. Вып. 2. - С. 45-53.

8. ДЕМИДОВИЧ Б. П., МАРОН И. А. Основы вычислительной математики. - М.: Наука, 1966. - 664 с.

9. ЕГОРШИН А. О. Вычислительные замкнутые методы идентификации линейных объектов // Оптимальные и самонастраивающиеся системы. - Новосибирск, 1971. -С. 40-53.

10. ЕГОРШИН А. О. Метод наименьших квадратов и «быстрые» алгоритмы в вариационных задачах идентификации и фильтрации (метод ВИ) // Автометрия. - 1988. - № 1. -С. 30-42.

11. КАШЬЯП Р. Л., РАО А. Р. Построение динамических стохастических моделей по экспериментальным данным. -М.: Наука, 1983.- 384 с.

12. КОЛМОГОРОВ А. Н. Интерполирование и экстраполирование стационарных случайных последовательностей // Изв. АН СССР. Сер. мат. - 1941. - Т. 5. - С. 3-14. (В кн.: Колмогоров А. Н. Теория вероятностей и математическая статистика. - М.: Наука, 1986. - С. 255-263.)

13. КОСТИН В. И. О точках экстремума одной функции //

Управляемые системы. - Новосибирск: ИМ СО АН СССР, 1984. Т. 24. - С. 35-42.

14. ЛОМОВ А. А. Минимальные описания стационарных линейных моделей // Труды Института математики СО РАН. Модели и методы оптимизации. - Новосибирск: ИМ СО РАН, 1994. Т. 28, - С. 91-117.

15. ЛОМОВ А. А. Идентификация линейных динамических систем по коротким участкам переходных процессов при аддитивных измерительных возмущениях // Известия РАН ТСУ - 1997. - № 3. - С. 20-26.

16. ЛОМОВ А.А. Параметрическая идентифицируемость линейных стохастических систем по наблюдениям коротких отрезков траекторий // Известия РАН ТСУ. -2002. - №2.-С. 53-58.

17. ЛОМОВ А.А. Условия различимости стационарных линейных систем // Дифференц. уравнения. - 2003. - Т. 39. №2.-С.261-266.

18. ЛОМОВ А.А. О различимости стационарных линейных систем с коэффициентами, зависящими от параметра // Сибирский журнал индустриальной математики. - 2003. -Т. 6. №4(16). -С. 60-66.

19. ЛОМОВ А.А. Сравнение методов оценивания параметров линейных динамических систем по измерениям коротких участков переходных процессов // Автоматика и телемеханика. - 2005. - № 3. - С. 39-47.

20. ЛОМОВ А. А. Оценка трендов и идентификация динамики временных рядов на коротких интервалах наблюдения // Известия РАН ТСУ. - 2009. - № 1. - С. 25-37.

21. ЛОМОВ А. А. О локальной устойчивости в задаче идентификации коэффициентов линейного разностного уравнения // Вестник НГУ. Серия: Математика, механика, информатика. - 2010. - Т. 10, вып. 4. - С. 81-103.

22. ЛОМОВ А. А. О количественных априорных показателях идентифицируемости коэффициентов линейных динамических систем // Известия РАН ТСУ. - 2011. - № 1. - С. 3-

15.

23. ЛЬЮНГ Л. Идентификация систем. - М.: Наука, 1991. -432 с.

24. НОРКИН К.Б. Поисковые методы настройки управляемых моделей в задачах настройки параметров объектов // Автоматика и телемеханика. - 1968. - № 11. - С. 61-67.

25. ОСТРЕМ К., БОЛИН Т. Цифровая идентификация линейных динамических систем на основе данных о нормальном режиме работы // Теория самонастраивающихся систем управления: Труды II Международного конгресса IFAC. М.: Наука, 1969. - С. 99-116.

26. ПЕРЕЛЬМАН И. И. Методы состоятельного оценивания параметров линейных динамических объектов и проблематичность их реализации на конечных выборках // Автоматика и телемеханика. - 1981. - №3. - С. 49-55.

27. РАО С. Р. Линейные статистические методы и их применение. - М.: Наука, 1968. - 548 с.

28. Справочник по теории автоматического управления / Под. ред. А. А. Красовского. - М.: Наука, 1987. - 712 с.

29. ЦЫПКИН Я. З. Основы информационной теории идентификации. - М.: Наука, 1984. - 336 с.

30. ABATZOGLU T. J., MENDEL J. M. Constrained Total Least Squares // Proc. 1987 IEEE ICASSP (Dallas). 1987. -P. 1485-1488.

31. AOKI M., YUE P. C. On A Priori Error Estimates of Some Identification Methods // IEEE Trans. on Automat. Control. V. AC-15. 1970. - P. 541-548.

32. ASTROM K. J., WITTENMARK B. Adaptive Control. - 2nd ed. Mineola, New York: Dover Publ. Inc. 2008. - 580 p.

33. BOHLIN T. On the Problem of Ambiguities in Maximum Likelihood Identification // Automatica. - 1971. - V. 7. - P. 137146.

34. BROCKETT R. Finite Dimensional Linear Systems. - New York: Wiley, 1970. - 129 p.

35. CHEN H.-F. Recursive Identification of EIV ARMA Processes

// Proceedings of the 17th World Congress IFAC. Seoul, Korea, July 6-11, 2008. - P. 1366-1371.

36. CHENG C.-L., VAN NESS J. W. Statistical Regression with Measurement Error // Kendall’s Library of Statistics, 6, Arnold, - London. 1999. - 262 p.

37. DUPUIS P., SELST., DRIESENT., BELMANSR. Exponential Parameters Measurement Using a Modified Prony Method // Proc. Instrumentation and Measurement Technology Conference. Como, Italy, 18-20 May. 2004. -P. 1590-1594.

38. GLESER L. J. Improvements of the Naive Approach to Estimation in Nonlinear Errors-in-Variables Regression Models // Contemporary Mathematics. V. 112. Statistical Analysis of Measurement Error Models and Applications. Providence, Rhode Island: AMS, 1990. - P. 99-114.

39. GOLUB G. H., VAN LOAN C. F. An Analysis of the Total Least Squares Problem // SIAM J. Numer. Anal. - 1980. -V. 17, - P. 883-893.

40. KUKUSH A., MARKOVSKY I., VAN HUFFEL S. Consistency of the Structured Total Least Squares Estimator in a Multivariate Errors-in-variables Model // Journal of Statistical Planning and Inference. - 2005. - V. 133. No. 2. - P. 315358.

41. LEMMERLING PH., MOOR DE B., VANHUFFEL S. On the Equivalence of Constrained Total Least Squares and Structured Total Least Squares // IEEE Trans. on Signal Processing. - 1996. V. 44. No. 11. - P. 2908-2911.

42. LEVIN M. J. Estimation of a System Pulse Transfer Function in the Presence of Noise // IEEE Trans. on Automatic Control.

- 1964. - V. AC-9. - P. 229-235.

43. LOMOV A.A. Correct Parametrizations of Linear Models // Siberian Advances in Mathematics. - 1994. V. 4. - P. 95-113.

44. MAINE R. E., ILIFF K. W. Formulation and Implementation of a Practical Algoritheorem for Parameter Estimation with Process and Measurement Noise // SIAM Journal on Applied

Mathematics. - 1981. V.41. No. 3. - P. 558-579.

45. MOOR DE B. Structured Total Least Squares and L2 Approximation Problems // Linear Algebra Appl. - 1993. V. 188-189. - P. 163-207.

46. OSBORNE M. R. A Class of Nonlinear Regression Problems // Data Representation / Eds. R. S. Anderssen and M. R. Osborne. St. Lucia: University of Queensland Press, 1970. - P. 94-101.

47. OSBORNE M.R., SMYTH G.K. A modified Prony algorithm for fitting functions defined by difference equations // SIAM J. Sci. Statist. Comput. - 1991. - V. 12. - P. 362-382.

48. PEARSON K. On Lines and Planes of Closest Fit to Systems of Points in Space // Phil. Mag. - 1901. - VI. No. 2. - P. 559572.

49. ROORDA B., HEIJ C. Global Total Least Squares Modelling of Multivariable Time Series // IEEE Trans. on Automatic Control. - 1995. - V. AC-40. - P. 50-63.

50. SODERSTROM T. On the Uniqueness of Maximum Likelihood Identification // Automatica. - 1975. - V. 11. - P. 193197.

51. SODERSTROM T., STOICAP. System Identification. -London: Prentice-Hall, 1989. - 613 p.

52. SODERSTROM T. Errors-in-variables Methods in System Identification // 14th IFAC Symposium on System Identification, Newcastle, Australia, 2006. - P. 1-19.

53. VANHUFFEL S., VANDEWALLE J. The total least squares problem. - SIAM, Philadelphia, 1991. - 300 p.

54. WIENER N. Extrapolation, Interpolation, and Smoothing of Stationary Time Series with Engineering Applications. NDRC Report to the Services 370, February 1, 1942. - Cambridge: MIT Press, 1949. - 176 p.

VARIATIONAL IDENTIFICATION METHODS FOR LINEAR DYNAMIC SYSTEMS AND THE LOCAL EXTREMA PROBLEM

Andrei Lomov, Sobolev Institute of Mathematics of the Siberian Branch of RAS, Novosibirsk State University, Novosibirsk;

Cand.Sc., assistant professor ([email protected]).

Abstract: The problem of a large number of local extrema is considered. This problem arises when using «direct» methods to identify parameters of linear dynamical systems with finite-sample observations. A new class of variational («indirect») parameter estimators is defined by the projectivity property of matrix kernels in the objective function. The variational objective functions are constructed having the number of local extrema not greater than the number of elements in system matrices. We obtain conditions for consistency of variational estimates in the limit of large number of observations of independent finite-length trajectories.

Keywords: parameter identification, difference equations, dynamic systems.

Статья представлена к публикации членом редакционной коллегии Н.Н. Бахтадзе

i Надоели баннеры? Вы всегда можете отключить рекламу.