ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
УДК 519.217.3 В. Е. ДЕМЕНТЬЕВ
ИСПОЛЬЗОВАНИЕ МОДИФИЦИРОВАННОГО МЕТОДА МАКСИМИЗАЦИИ ОЖИДАНИЙ ДЛЯ ИДЕНТИФИКАЦИИ ПАРАМЕТРОВ ДВАЖДЫ СТОХАСТИЧЕСКОЙ МОДЕЛИ
Рассмотрен способ идентификации дважды стохастической модели, основанный на комбинации псевдоградиентных процедур и байесовского подхода в рамках метода максимизации ожиданий. Показана теоретическая состоятельность подхода и получены важные частные соотношения, позволяющие проводить идентификацию параметров для простых случаев дважды стохастической авторегрессионной модели.
Ключевые слова: дважды стохастическая модель, идентификация параметров, кратные корни, случайные последовательности, случайные поля, корреляционная функция.
Результаты получены при поддержке гранта РФФИ №18-47-730009.
Необходимым этапом исследования окружающих нас объектов и систем таких объектов является построение их математических моделей. Важной составляющей математического моделирования является решение задачи идентификации или подгонки параметров математической модели под реальные сигналы. Возможность и обоснованность такой идентификации являются существенным преимуществом при практическом использовании предлагаемого математического описания. В настоящей работе рассматриваются вопросы идентификации параметров дважды стохастических моделей, которые являются адекватным вариантом описания пространственно неоднородных многомерных изображений и их временных последовательностей.
Рассмотрим следующую многомерную авторегрессионную (АР) математическую модель случайного поля (СП), заданного на прямоугольной ^-мерной сетке J = (T =(¿1, (¿2 , ■■, ¿м):
Цк = 1,2,..,Мк), к = 1,2.....N1:
Х1 = а1 + 1]ЕОТ РиХ-1-7 + Р-^т, Ц ЕП, (1)
где X = [хт,1 ЕП] - моделируемое СП, определённое на J, (р^, ах,рх: ТЕ у Е От] - коэффициенты модели; 2 = Г ЕJ] - порождающее белое СП; - каузальная область локальных состояний для точки Г. Предположим, что коэффициенты р^ и ат, данной модели являются случайными величинами (СВ), определяемыми следующими соотношениями:
Р~и = ^ гПРт-П + Упкт '
1ЕОри
а1 = Т,1ЕОа1га1,]а1-] + Уал^аЪ = ИгЕВрх Г/31,уРт-] + 7/31,(^1,^,7 Е П, где (г-1],у11,га1],уа-1,Гр-1],ур-1;:Т Е П,1 Е От] - постоянные коэффициенты; Ор1],Оа1,Ор1 - области локальных состояний случайных полей {р^}, («] и £ = ((^,1, у ЕП], = ((ах, Т ЕП],
= Е П}- вспомогательные белое СП. Представленная модель называется дважды стохасти-
ческой (ДС модель) [1], поскольку предполагает наличие вспомогательных случайных полей, которые используются для имитации основного случайного поля.
Важным частным случаем модели (1) является простейшая одномерная ДС модель, представимая комбинацией двух АР уравнений первого порядка:
= Рг*г-1 + ^ Р1 = гР1-1 + (о Р1=Р1 + тР, (2)
© Дементьев В. Е., 2019
где и — независимые гауссовские СВ с нулевым математическим ожиданием и дисперсиями и о^; г — коэффициент корреляции внутренней последовательности = 1,2, ...,М}; тр — среднее значение коэффициента корреляции основной модели.
Очевидной сложностью, возникающей при идентификации параметров ДС модели, является своеобразная «двухуровневость» этой модели, которая приводит к тому, что имеющиеся наблюдения зависят от параметров только опосредованно. Например, для простейшей ДС модели (2) наблюдаемые отчёты (Х(, £ = 1,..,М1} зависят от параметра г только опосредованно с использованием вспомогательной случайной последовательности (рь, I = 1,.., Мг}. Рассмотрим варианты преодоления указанной сложности.
Вначале отметим, что любую АР ДС модель (1) можно представить в виде тензорного стохастического уравнения:
X = ф_1(Хт) +
где Ху - совокупность отсчётов основного и вспомогательных СП, связанных с точкой I 6 ], — совокупность отсчётов нормальных случайных величин с ковариационной матрицей Ут. В случае, если обозначить через 0 совокупность всех параметров ДС модели, определяющих поведение ее реализаций, то можно записать следующее выражение для ПРВ та(Х/0):
ет(Х|0)=^= 1 ехр!-2У(Х1-^(Х1гт,0))
^(2п)*П1б7ЛеЩ I 16, )
где 2 = тез] Пте/ шезХТ, тезХТ - количество скалярных СВ, входящих в ХТ.
В последних выражениях для X и 0 намеренно не используются векторные обозначения, чтобы подчеркнуть их многомерность.
Воспользуемся для получения оценки 0 методом максимального правдоподобия. Тогда после несложных преобразований:
= 0. (3)
0=0
J0 (log | ^ detVT l) + ^ J0 (Хх - р—гfe, 0))Vf1(X-l - p^fe, 0))
Полученные соотношения требуют знания вспомогательных случайных полей, использующихся при формировании Х^. Для преодоления этой проблемы рассмотрим отдельно совокупность случайных величин X = {Х(,Т6 /}, представляющих собой непосредственные наблюдения (например, отсчёты изображения) и совокупность случайных величин У = {у^д, Т 6 ],к = 1,.., К}, определяющих поведение X в рамках ДС модели. Тогда имеет место следующее соотношение:
ет(Х,У|8) = ет(Х|У)ет(У|8)
или эквивалентное равенство:
log(w(X,YlQ)) = log (CT(X|y)) + log (ет(У|8)).
Из последних равенств не очевидно, как определить необходимую для получения оценки в по имеющейся совокупности наблюдений X условную плотность Чтобы найти эту плотность,
воспользуемся методом максимизации ожидания [2] и рассмотрим следующее равенство:
log (та(Х|8 = 9') = Q(Q') + H(Q'),
где Q(8') = M{log (ст(Х,У|8)|У = У',8'}; Н(8') = -M{log (ет(Х|У,8)|У = У',8'}. Тогда Q(8') является суррогатной функцией для максимизации ет(^|8). Это означает, что если Q(8") > Q(8'), то ет(^|8") > ет(^|8'). Соответственно параметры 8, обеспечивающие максимум Q(8), в то же самое время обеспечивают max06n та(Х|8), то есть являются решением поставленной задачи.
Для использования представленных результатов рассмотрим подробно ш(Х, У|0) для ДС АР моделей. Вначале обратим внимание, что в силу особенностей ДС моделей СВу^^у^,^ являются независимыми при к1 <> к2 для Vi1 и Г2. Тогда
^(Х^Ю = m(X/Y)nl=1™(Yk\d-k).
В последнем выражении вк представляют собой векторы параметров, составляющих 8:8 = {^1,02,..,^} и определяющих статистические и корреляционные свойства нормальных случайных величин Y[<.
С учётом введённых обозначений и особенностей ДС модели можно записать равенства:
ш(хю = 1 exp {-^ЕтеД*! - :УТ))^Тт1 - <Pi-i(^£-i,yi))T};
J(2n)^^^(/)nmes(J)detVil ¿
^Ofcl^fc) = I ;exp {--ZTe/CKfc,T - 6k))V^(ykil - \pk(ykj=i, 6k))T}.
J(2n)mesC/)nmesC/) detK0fcJ ^
В последних выражениях , V^kj — ковариационные тензоры СП{^,/ е Dy} и СП {(kj,j 6 Асд}; DT - каузальное окно основной модели, а Dk x — каузальное окно к-й вспомогательной АР модели для точки Г.
Предположим, что относительно параметров 8 мы можем сделать некоторые первоначальные предположения 8(0). В случае отсутствия таких предположений выберем отсчёты 8(0) случайным образом из множества возможных значений. Тогда, считая 8 вектором известных параметров, используем байесовский критерий для определения оценок неизвестных укт. Применяя простую функцию потерь, получим
У(0)мар = argmnv{- log rn(X/Y) - log ет(У)} = argminy{- log rn(X/Y) - ££=1 logrn(Yk)}.
После подставки выражений ПРВ to(X/Y) и ra(Yk) и с учётом того, что —( ^ = 0 при к1 <> к.2, получаем систему уравнений:
dykJ — dy
' iej '
~ —О(0) Ук,1~У MAPk,i
+ / УкЦ - *Pk(yk,T=l))Vipi -
V» ^
iej '
= 0, k = 1..K,leJ. (4)
V__8(0)
Совокупность оценок ?(0^МАР = {у(0)м^р& I' ^ = !■■' К, I £ У], получаемых по результатам решения, обеспечивают равенство:
= 0(о)) = М{п7(Х,У|0)|У = У(0)МЛР'8(0)].
Тогда имеет место равенство:
Q(e(o)) = log(ет(Z'^?(o)MЛP|0 = e(o))).
Задача поиска последующих наборов параметров обеспечивающих условие
Q(6(t^ > @($(г'~1)), может быть решена на основе использования псевдоградиентной (ПГ) многопараметрической оптимизации. При этом
0(0 = 0^-1)
где — псевдоградиент целевой функции, зависящий от 0(г_1) и номера итерации Л(г) — матрица усиления [4]. Для каждого из и наблюдений X с помощью байесовского подхода решается задача поиска оценок 9(г^МАР (Е^ер). Далее в рамках псевдоградиентной релаксации (М^ер) происходит поиск вектора оценок 0(г+1): @($(г:+1)) > @($(г:)). Указанные этапы повторяются до подтверждения сходимости псевдоградиентных процедур, обеспечивающих нахождение локального максимума Q(в).
Приведём важный пример. Предположим, что имеется совокупность отсчётов {х^ I = Х^М-^ и известно, что указанная случайная последовательность сформирована в соответствии с моделью (2). Требуется наилучшим образом выполнить оценку неизвестного параметра г. Выберем вначале некоторое начальное значение оценки г(0). Очевидно, что с учётом особенностей модели (2) г(0) должен принадлежать интервалу [0,1]. Тогда найдём наилучшие оценки {Рмар ¿^ ^ = 1, ■■, £ = 0], исходя из предположения истинности г(0) и системы (4). Получим систему линейных уравнений следующего вида:
л т{1+г2 + хг2^ (Рмар г+1(° + Рмар хгхг+1 _ р0х12 ; х м
Рмар i i ? + „г i = „г ,1 = 1'..'М1.
Решение данной системы эквивалентно обращению трёхдиагональной матрицы. Выполнить это обращение можно с использованием метода обратной прогонки. При этом вспомогательные коэффициенты аг, определяются рекуррентно с помощью следующих соотношений:
ал =
r/o}
xlx2 Poxl
1+Г2 Хг2 „2 + „2
; Pi =
-I
l+r2 X-L2
■ al + l =
Г
-I
l+r2
r,2
__ojr
' ^2 2
; =
-I
1+Г2 X;2 Я;Г
+ T2 ~2~
-I
А сами оценки рМЛР ¡,1 = 1,..,М1 могут быть получены из обратной рекурсии:
(О
РмАР Мг = 1+г2
I2
■ +
■■Л (f) =
' имар i —
2 Рмар г+i
xlxl+l~Poxl
' аМл 2 1 ^
1+Г2 X;2
+ Т2 ~2~
+ ■
-I
-I
1+Г2 X;2
+ T2 ~2~
-I
Обратим внимание на две особенности полученного частного результата. Во-первых, полученная с помощью байесовского подхода оценка Рмар I(0) отличается от оценки, которую можно получить с
помощью метода максимального правдоподобия: pML l =
XjXj+l
Xl2
— p0. Это, очевидно, связано с ис-
пользованием в байесовском критерии априорной информации, недоступной частотному критерию. Во-вторых, получаемый результат носит рекуррентный характер, позволяя последовательно выполнять оценивание формирующего поля.
Рассчитаем теперь функцию ф(г(0)) = — — к^^ J(2л:a¿?)Ml^J —
2-ii=i
(о)
N-1(xi+i-(Po+Pmap l )xl)
VW
(Рмар1(0)-^(0)Рмар i-1(0))2
. В соответствии с представленными
выше выводами наилучшая оценка г обеспечивает наибольшее значение ^(г(0)) или наименьшее
= VN-1 (х1+!~(Ро+рмар i(0))xi)
,vn (Рмар 1(0)-?(о)Рмар i-i(0))2
В связи с этим вы-
значение Q'(f(0)) = Ж
берем теперь г(1) = г(0) — Л(0)р(0), так чтобы Q'{f(1■>^ < @'(г(0)), и повторим процедуру определения оценок (Рмар г(1), ^ = 1.. Будем повторять указанные процедуры, пока не будет выполнено одно из условий сходимости, например, г— г(1_1) <1 или £ > Т. На рисунке 1 представлен процесс сходимости оценок г® к истинному значению г = 0.9.
4 5
Номер итерации
Рис. 1. Сходимость оценки f®
Прямой анализ представленного графика показывает высокое качество получаемой оценки и существенно более высокую скорость сходимость.
Таким образом, в настоящей работе предложен вариант оценивания параметров дважды стохастической модели на базе метода максимизации ожидания. Установлена практическая возможность реализации такого подхода и показана сходимость соответствующих оценок.
СПИСОК ЛИТЕРАТУРЫ
1. Woods J. W., Dravida S., Mediavilla R. Image Estimation Using Doubly Stochastic Gaussian Random Field Models // Pattern Analysis and Machine Intelligence, issue №2, vol. 9 - February, 1987, pp. 245-253.
2. Charles A. Bouman. Model Based Imaging Processing. Purdue University, 2013, 414 pp.
3. Васильев К. К., Крашенинников В. Р. Статистический анализ изображений. — Ульяновск: Ул-ГТУ, 2014. — 214 с.
4. Ташлинский А. Г. Оценивание параметров пространственных деформаций последовательностей изображений. - Ульяновск : УлГТУ, 2000. - 132 с.
5. Dementev V. E., Vasiljev K. K., Andriyanov N. A. Doubly stochastic models of images //Pattern Recognition and Image Analysis, January 2015, vol. 25, pp. 105—110.
6. Dementev V. E., Vasiljev K. K., Andriyanov N. A. Application of mixed models for solving the problems on restoring and estimating image parametrs //Pattern Recognition and Image Analysis. 2016. Т. 26, №1. 240 р.
7. Васильев К. К. Дементьев В. Е. Представление и обработка спутниковых многозональных изображений. — Ульяновск : УлГТУ, 2017. — 247 с.
REFERENCES
1. Woods J. W., Dravida S., Mediavilla R. Image Estimation Using Doubly Stochastic Gaussian Random Field Models // Pattern Analysis and Machine Intelligence, issue №2, vol. 9 - February, 1987, pp. 245-253.
2. Charles A. Bouman. Model Based Imaging Processing. Purdue University, 2013, 414 pp.
3. Vasil'ev K. K., Krasheninnikov V. R. Statisticheskij analiz izobrazhenij [Statistical analysis of images]. Ul'yanovsk: UlGTU. 2014. 214 р.
4. Tashlinskij A. G. Ocenivanie parametrov prostranstvennyh deformacij posledovatel'nostej izobrazhenij [Estimation of parameters of spatial deformations of image sequences]. Ul'yanovsk: UlGTU. 2000. 132 р.
5. Dementev V. E., Vasiljev K. K., Andriyanov N. A. Doubly stochastic models of images //Pattern Recognition and Image Analysis, January 2015, vol. 25, pp. 105—110.
6. Dementev V. E., Vasiljev K. K., Andriyanov N. A. Application of mixed models for solving the problems on restoring and estimating image parametrs // Pattern Recognition and Image Analysis. 2016. T. 26, №1. 240 р.
7. Vasil'ev K. K. Dement'ev V. E., Predstavlenie i obrabotka sputnikovyh mnogozonal'nyh izobrazhenij [Presentation and processing of satellite multispectral images ]. Ul'yanovsk, 2017. 247 р.
Дементьев Виталий Евгеньевич, кандидат технических наук, доцент, заведующий кафедрой «Телекоммуникации» УлГТУ.
Поступила 05.03.2019 г.