УДК 528.06
С. Г. ВАЛЕЕВ, Ю. Е. КУВАЙСКОВА
СМЕШАННЫЕ ПРОЦЕССЫ АВТОРЕГРЕССИИ И СКОЛЬЗЯЩЕГО СРЕДНЕГО ДЛЯ ОБРАБОТКИ ВРЕМЕННЫХ РЯДОВ
Описывается разработанный модуль «Авторегрессия-сколъзящее среднее» программного комплекса «Автоматизированная система динамического регрессионного моделирования» (АС ДРМ); эффективность его использования иллюстрируется на примере обработки временного ряда чисел Вольфа.
Ключевые слова: авторегрессия и скользящее среднее, динамическое регрессионное моделирование, временные ряды.
Поддержано грантом РФФИ № 04-02-16633
Введение
При практическом изучении временных рядов (ВР) исследователь на основании наблюдаемого отрезка временного ряда должен сделать выводы о свойствах этого ряда и о вероятностном механизме, порождающем этот ряд. Ставится задача о подборе статистической модели, описывающей временной ряд. Модели авторегрессии и скользящего среднего (АРСС) оказываются особенно полезными для описания и прогнозирования процессов, проявляющихся в виде однородных колебаний вокруг среднего значения.
Алгоритмы АРСС
Целью анализа ВР является моделирование случайных остатков s(t), т. е. представление s(t) в виде модели, которая позволяла бы предсказать их значения гю значениям в предыдущие моменты времени. Параметры этой модели могут быть получены МНК [1].
Авторегресс поп ые модели (АР(р)). Модель авторегрессии 1 -го порядка - АР( 1) (марковский процесс) может быть определена выражением:
8(1) т ß*£*(t-l) h ö(t\ (1)
где ß - некоторый числовой коэффициент, не превосходящий по абсолютной величине единицу (| ß| < 1), а 6{t) - последовательность случайных величин, образующих белый шум. Следовательно,
Ee(l) = CK (2)
r(e(t)9e(tdk)=ßk, (3)
D s (/) ==
(T
0
1 - ß
2
(4)
COV (Е (t), Б (t ±k)) = Д * Ds (t). (5)
Автокорреляционная функция марковского процесса определяется соотношением:
г(т) = г0е (I), 8 (1 ± 1)) = /7 г. (6)
Отсюда же, в частности, следует простая вероятностная интерпретация параметра J3:
f3 = r(l)=r(8(l),8(t±l)), (7)
т. е. значение (5 определяет величину коэффициента парной корреляции между двумя соседними членами ряда s(t).
Модель АР(1) идентифицируется по следующей схеме [3]: подсчитывается выборочная дисперсия у (0) остатков по формуле
N
*
N
(8)
N
где <? = (£<?(/))/Л?, а «невязки» s(l) вычислены
i=\
по формуле (7).
Оценку р параметра ft получаем с помощью
формулы (4), подставляя в неё вместо коэффициента корреляции r(s(t),s(t±l)) его выборочные значения г (e(l), е(t + ])), т. е.
. N-1
1 * у (eft) - Ю(ё0 + 1)-Ю
ß =
/V -1
/ = ]
(9)
г(0)
Наконец, оценка основана на соотношении (5), в котором величины Ое(1) и (3заменяются их оценками, соответственно, у (0) и (3:
<т()2 = (1 - ß1)* /(0).
(10)
Модель авторегрессии /7-го порядка- АР(и). В общем виде авторегрессионный процесс может быть записан так:
£}-/?/£}./+ М-2+ + РгА-Лб,. (11)
Э С. Г. Валеев. Ю. В. Кувайскова, 2006
Параметры pj (/=1.,...,л) модели (11) обычно оцениваются методом наименьших квадратов при предположениях, что с.в. 8t распределена нормально и независимо от / и коэффициенты модели по абсолютной величине меньше единицы.
Модели скользящего среднего (CC(q)). Процесс имеет вид [3]
s{t) = S(t) - 6,5[t - 1) - в2б{г - 2) -... - 6q5{t -q)- (12)
Процесс (12) называется моделью скользящего среднего порядка q.
Выражение для ковариации у(т) = E(s(t)s(t - г)):
у(т) =
<(]+${+в;при г = 0; О при т> q
(13)
(при этом, естественно, полагается, что 0 = О при/>¿7).
Автокорреляционная функция процесса СС(д) получается непосредственно из (13):
г(г) =
О при т> q.
при т = 1,2,..
(14)
Идентификация модели СС(<?) производится на базе соотношений (14), а именно: 1) по значениям £(0 = *(0-/(0 С ПОМОЩЬЮ формулы
^ X (£(/))(*(' +Г)
г (г) = -- д,-, Г = 1,2,..., ц,
(15)
подсчитываются значения р(1),г(2),...,Я(^);
2) в соотношения (14) последовательно подставляются значения г = 1,2,...,<ус заменой в
левой их части величин г(т) полученными ранее
оценками г(т); 3) полученная таким образом
система из д уравнений разрешается относительно неизвестных значений ;
решения этой системы §19в29...90 и дадут нам
оценки неизвестных параметров модели; 4) оценка параметра а] может быть получена с
помощью первого из соотношений (13) подстановкой в него вместо /(О),0Р02,...,0, их
оценок, соответственно, ^ .
Заметим, однако, что уравнения для определения оценок параметров СС(<у)-модели, полученные на базе соотношений (14), нелинейны. Поэтому, за исключением простого случая ¿/=1, который будет рассмотрен ниже, эти уравнения приходится решать с помощью итерационных процедур.
Авторегрессиопные модели со скользящими средними в остатках (АРСС(р,д)). На практике для получения экономичной параметризации анализируемого процесса иногда бывает необходимо включить в модель как члены, описывающие авторегрессию, так и члены, моделирующие остаток в виде скользящего среднего. Такой линейный процесс имеет вид
*(/) = Д е{1 -1)+...+рре{1 - р) + ¿>(0 - (16)
и называется процессом авторегрессии - скользящего среднего порядка (р, д). Примем для него сокращённое обозначение АРСС (р, д).
Отметим, что, последовательно выражая бесконечное число раз в правой части (16) величины £{1 -1), *(/ - 2),..., £{1 - р) , по формуле (16),
мы убеждаемся в том, что #(/) не зависит от будущих значений 5, т. е. от ¿>(/ +1), 8(/ + 2)
Выражение для автокорреляционной функции имеет вид
г(г) = Д г(г -1) ■+... + Р7 Г(Т -2)4-... + - р) (17)
Л/Ж Г >(/4-1.
Общий метод получения начальных оценок параметров смешанного процесса авторегрессии-скользящего среднего [2]. В общем случае вычисление начальных оценок процесса АРСС(р,д) основано на первых р+д+\ автоковариациях
сз
(/=0,1, (р+д)) от е} и проводится в 3 этапа.
1) Параметры авторегресии оцени-
с с с с ваются по автоковариациям .
2) На базе оценок Д найденных в 1), вычисляются первые д+1 автоковариации с. (/-0,1,...,д) полученного ряда
£ , = 8, - ~~ ••• ~~ р
I ! I
3) Наконец, автоковариации с0,с,,...,с используются при итеративном расчёте начальных оценок параметров скользящего среднего 0„02,...,0О и остаточной дисперсии а2-
Получить начальные оценки параметров авторегрессии можно, решивр линейных уравнений
= Ас + Ас9-1 + - + А»с«-/>+1.
cf/+2 = AVi + Ас, +... + Рр с(,-р+2.
(18)
— Р\С(!+р-1 + АС</+/;-2 • • ■ + РрС1/ ■
Автоковариации найденного процесса скользящего среднего. Обозначим теперь е\ = р(В)8, и
будем анализировать этот процесс как процесс скользящего среднего £■' = 0(13)6,
Прежде всего необходимо выразить автоко-вариации с процесса через автоковариации
с. процесса £(. Можно показать, что
1-0
±
1=1
,(19)
где, ..., ^ с!; = с^ + сн, /30 = 1.
I
Используя оценки автоковариаций с] , можно получить начальные оценки параметров скользящего среднего в найденном процессе е\ = в{В)8( при помощи итеративного метода.
К вадрати чески- сходящийся процесс-алгоритм Ньютона-Рафсона. Обозначим г' = (г0,гр...,г/),где
I I
т0 = ст2, в. =-т ./г0, у'=1,2, ..., д.
Тогда, если г' - оценка т , полученная в результате ьй итерации, новые значения в результате (/ +1)-й итерации будут получены из формулы:
• тм=т'-(ТГ1Л
(20)
/' = (Л,/„-., Л)' Л = Е ~ с)
1-0
и
Г =
Г0 Г1 Тд-[ Тч
Т2 -VI 0
г 0 ... 0 0 0
4*
г0 г, г2 ... тд
0 г0 Г| ... г ,
0 0 0 ... 0
Имея значения т для каждой итерации, можно получить значения параметров.
Вычисление оценок наименьших квадратов. Значения параметров, минимизирующих сумму квадратов остаточных ошибок, получены методом оптимизации с ограничениями, предложенными Марквардтом.
Алгоритм Марквардта для нелинейного метода наименьших квадратов^].
1. Задаваемые параметры
Обозначим через /? = (Д,/?2все параметры модели, необходимо задать начальные значения /?о, а также параметры к и F25 ограничивающие поиск, и параметр сходимости Во время поиска необходимо оценивать значения 8{ и производные . _ _ на каждом шаге
Щ
итерации.
2. Вычисление производных Производные находятся по остаточным
ошибкам, вычисленным согласно формуле
ХН = А.0Э-» А,о) - ^/(А.о— > Д .О + ^ V, А.о)
Итерация
Этап 1. По известным ¿> г , найденным для
текущих значений параметров, находятся следующие величины:
1) матрица размером ¿хЛ:
л=К}
3
л
где
2) вектор g с элементами giig29...,gk,
л
где
/=0
3) нормирующие величины
А = л/Л;
Этап 2. Модифицированные (введением нормирующих множителей и наложением ограничений) линеаризованные уравнения
(21)
конструируются согласно формулам
4=1 + л-,
Уравнения решаются относительно /г* , этот вектор денормируется для получения поправок параметров
к} = к] / £>у.
/? = У?0 + А
и оценивается сумма квадратов остаточных
ошибок
Этап 3.
1) Если < £(/?<,), исследуются поправки параметров /г. Если они все меньше достигнута сходимость, и матрица А~] размером кхк используется для вычисления ковариационной матрицы оценок. В противном случае /зо принимает значение /?, к уменьшается в Т72 раз и продолжаются вычисления на этапе 1. 2) Если >5(/?0), ограничивающий параметр к увеличивается в Р2 раз и вычисления продолжаются в соответствии с этапом 2. Почти во всех случаях удается найти наименьшую сумму квадратов. Однако к имеет верхнее граничное значение, если оно превышено, поиск прекращается .
Программное обеспечение
Программный модуль АРСС построения смешанной модели авторегрессии - скользящего среднего и вычисления параметров модели был
реализован и подключён к пакету «Автоматизированная система динамического регрессионного моделирования» (АС ДРМ)[1].
Модуль АРСС предназначен для построения моделей временных рядов. Модель интерпретируется как линейная модель множественной регрессии, в которой в качестве объясняющих переменных выступают прошлые значения самой зависимой переменной, а в качестве регрессионного остатка - скользящее среднее из элементов белого шума.
Модуль «Авторегрессия - скользящее среднее» выполняет следующие функции:
- получение начальных оценок параметров смешанного процесса авторегрессии - скользящего среднего методом Ньютона-Рафсона;
- оценивание модели, вычисление оценок наименьших квадратов методом оптимизации с ограничениями, предложенными Марквардтом.
Результаты обработки ряда
%
В качестве исходных данных были взяты данные ряда чисел Вольфа, полученные с сайта World Data Center for the Sunspot Index, http://sidc.oma.be/, 3653 наблюдений за 1995-2004 гг. с дискретностью 1 день.
• .. _Г .... . • м - •
• ■■•«• »Л - Ч ■■ т — I. •••• • •• — • • • »•• • ••«*•-» • •• • • • | • ■ >f •!• •• t ) »• — —— •• tN «I »• • —■ — • ••• - ' ► •
-4..» Vi-.^.--*......J... ...........»-. —- -i .. ...
и Ij.. — - »1 ••• •• •• M ••• • — ^ f
f • ЛфЩ III ■* N • ••• ■ *
•• r — — — • « • • I* •
• i • ч •
if i • < • f «
•• | •• - - • ... ••
Л . U. ! . _ . .
¿1 •• / - 4 ^—- ) .. .. >
h » V I.J»« fi •• * — • J» —« .'. .. ... .. ^ i- — с
11 H »Л • ! ~ - r - - • - -
i; H\ l r I -1 •
••I • ^ •• — <•
>9t «09
юо i;
! Ж 1<fl t IOV l «X
Рис. 2. График автокорреляционной функции остатков Автокорреляционная функция остатков показывает отсутствие зависимости в остатках между уровнями.
•no J ООО 1 ГО
1X4 Itoc f I
а б
Рис. 3. а) график наблюдаемого ряда чисел Вольфа; б) график модели АРСС(1,6) ряда чисел Вольфа,
построенной в АС ДРМ Комплексная модель динамики имеет вид:
Х(0 = 0,10753 + 0,95973 • Х(1 -1) + 0,23697 -е_Х (!-]) + +0,10653-е_Х(1-2) + 0,024893 -е_Х((~3) + +0,029482 • е _ - 4) + 0,037183 • е _ Х(1 -5)4-+0,076521-е_Х({-6)+е_Х(1).
СКО итоговой модели с = 10,858; «внешнее» СКО Од = 6,49150.
Заключение
а б
Рис. 1. а) спектральный анализ ряда чисел Вольфа; б) автокорреляционная функция ряда чисел Вольфа
Автокорреляционная функция (рис.1, а), спектральный анализ (рис. 1, б) указывают на наличие автокорреляции, что предполагает выделение гармонической или авторегрессионной составляющих.
Построена модель АРСС(1,6) с параметрами const = 0,10753, pi = 0,95973, ql = -0,23697, q2 = = -0,10653, q3 = -0,024893, q4 = 0,029482, q5 = 0,037183, q6 = 0,076521 с СКО модели 10,858; «внешнее» СКО ад = 6,49150.
Результаты диагностики остатков: - предположение о равенстве нулю математического ожидания выполняется, - модель недоопределе-на; - остатки распределены по нормальному закону, - авторегрессия отсутствует (DW= 2,026).
Добавление в АС ДРМ модуля построения моделей авторегрессии и скользящего среднего в совокупности с методами анализа и обработки временных рядов, реализованными в пакете, значительно расширило его возможности для обработки временных рядов практически любого происхождения, позволяя строить модели высокой точности.
Исследования проводились при финансовой поддержке Российского фонда Фундаментальных исследований (грант РФФИ № 04 - 02 -16633).
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1.Валеев, С. Г. Регрессионное моделирование при обработке наблюдений / С. Г. Валеев. - М. : Наука, 1991. 272 с. (второе издание, дополненное и переработанное: Валеев С. Г. Регрессионное моделирование при обработке данных. - Казань : ФЭН, 2001.-296 е.).
2. Бокс, Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. - М.: Мир, 1974. -242 с.
3. Айвазян, С. А. Прикладная статистика и основы эконометрики / С. А. Айвазян, В. С. Мхита-рян.-М. : ЮНИТИ, 1998.
4. Тюрин, Ю. Н. Статистический анализ данных на компьютере / Ю. Н. Тюрин, А. А. Макаров. -М.: ИЫФРА-М, 1998.-528 с.
5. Валеев, С. Г. Модели сглаживания временных рядов / С. Г. Валеев, С. В. Куркина, Ю. Е. Ку-вайскова // Труды междунар. конф. «Континуальные алгебраические логики, исчисления и нейроинформатика в науке и технике»: Информатика, системы искусственного интеллекта и
моделирование технических систем. - Ульяновск : УлГТУ, 2006. - С. 83-85.
Валеев Султан Галимзянович, доктор физико-математических. наук, профессор. заведующий кафедрой прикладной .математики и информатики УлГТУ. Имеет монографии и статьи в области астрометрии и небесной механики, математической статистики и разработки информационных технологий. Кувайскова Юлия Евгеньевна, студентка группы ПМд-51 экономико-математического факультета Ульяновского государственного технического университета.
г