ОПТИМИЗАЦИЯ АДАПТИВНОЙ ОЦЕНКИ ПРОГНОЗИРОВАНИЯ НА ОСНОВЕ ТЕОРЕТИКО-ИНФОРМАЦИОННОГО ПОДХОДА
А. В. Баринов ([email protected])
Нижегородский государственный лингвистический университет
Задача прогнозирования случайного временного ряда Х{г} относится к числу центральных задач теории и практики статистического анализа информации, особенно в области экономики и управления. Для решения этой задачи в последнее время на практике все чаще используется авторегрессионная модель временного ряда [1]
м
х(г) = X а1х(г —,) + п(г), г = 1,2,... (1)
,=1
где а1,а2,...,ам - вектор постоянных коэффициентов, )- белый
~ 2
гауссовский шум с постоянной дисперсией оп и нулевым математическим
ожиданием, г - дискретное время.
При использовании данной модели оптимальный прогноз на 1 шаг или временной дискрет в будущее в отсчете от текущего времени г = п — 1 сводится к линейной зависимости
м
Х(п) = Х ах(п—1), (2)
,=1
где м - порядок оценки прогнозирования. В классе гауссовских случайных процессов такая оценка обеспечивает минимум дисперсии ошибки
прогнозирования о] = М{[ X (п) — х(п)]2} при условии, что вектор коэффициентов {а,-} отвечает системе нормальных уравнений Юла-Уокера [2]
Кп па = к,
п ,п
п
(3)
Здесь Кп,п - автокорреляционная матрица,
п
вектор-столбец
коэффициентов автокорреляции анализируемого процесса.
К сожалению, на практике, как правило, мы не имеем достоверных сведений о корреляционных свойствах процесса X{?} . В условиях априорной неопределенности возникает необходимость в оценивании коэффициентов автокорреляции в выражении (3) по имеющейся выборке наблюдений. При этом в зависимости от используемого метода оценивания получают различные модификации адаптивной оценки прогнозирования (2). Причем предпочтение обычно здесь отдают состоятельным оценкам со свойством их сходимости с вероятностью 1 к искомому оптимальному результату (3). В таком случае главное различие между существующими алгоритмами оценивания заключается в их быстродействии или скорости сходимости.
С указанной точки зрения представляют первостепенный интерес адаптивные методы нового класса, изначально нацеленные на решение проблемы малых выборок в задачах спектрального анализа. Типичным представителем этого класса является метод Берга. Его математическая формулировка может быть записана в рекуррентном виде [2]
ат(0 = ат-1(/)+ртат-1(т—0; * = I,2,...,т;
т
п—1
2ХЫт—1() -Ут— 1V — 1)
0 =-
1 т
(4)
t=т
Ыт ^) = Ыт—1 ^) — РУш-1(t — 1);
V т (t) = Vт—1 ^ — 1) — Рт Ыт—1 ^); т = 1'2>..> Я
т
т
с инициализацией системой равенств ^^) = ы0(t) = х^) для всех моментов времени ¿=0,1, ..., п-1. Ее центральным звеном служит рекурсия Левинсона,
которая связывает между собой векторы коэффициентов линейной оценки прогнозирования {ач {"возрастающих порядков д=1,2, ..., М. Финальное (при
д=М) значение этой рекурсии {аМ (,), , = 1, М} определяет совместно с выражением (2) адаптивную линейную оценку прогнозирования М-го порядка со свойством оптимальности (3) в асимптотике, когда объем выборки п^ж .
Очевидно, что скорость сходимости в общем случае зависит не только от применяемого метода АР-анализа, но и от статистических свойств временного ряда. Проблема повышения скорости сходимости линейной оценки прогнозирования приобретает особую актуальность в случае анализа нестационарных процессов, когда их статистические характеристики не остаются неизменными во времени. Указанная ситуация наиболее характерна для большинства социально-экономических процессов. По видимому, для каждого конкретного процесса Х{г} должен выбираться алгоритм, оптимальный в смысле максимума скорости сходимости формируемой оценки прогнозирования к оценке с минимальной дисперсией.
Указанный подход реализован в работе [3] на основе информационной метрики Кульбака-Лейблера [4]. В этой работе было показано, что величина удельного информационного рассогласования (УИР) между реальным процессом и его авторегрессионной моделью (1) описывается следующим выражением:
у(М, N = 1П оП (М, Ю + °|(М, М) (5)
п оП(М, Ы) (5)
Здесь о;( М, N), о 2 (М, N) - зависимости дисперсий порождающего шума
и ошибки прогнозирования от двух исходных параметров адаптивной оценки: порядка модели М и объема анализируемой (обучающей) выборки N. Чем меньше величина у(М, N), тем лучше модель (1) согласована с исходным временным рядом X{г} и тем точнее в конечном итоге оценка (2).
К сожалению, в явном виде определить зависимости бП(M, N) и
6Z( M, N ) обычно не удается ввиду естественной проблемы априорной неопределенности. Поэтому для практического применения решающей статистики (4) необходимо заменить в ней неизвестные истинные значения
о2(M,N) и oZ(M,N) их текущими выборочными оценками. Очевидно,
что в зависимости от качества таких оценок эффективность результирующего алгоритма будет меняться в широких пределах. Если применяемые оценки в асимптотике сходятся с вероятностью 1 к истинным значениям, т.е. обладают свойством сильной состоятельности, то результирующий алгоритм будет асимптотически оптимальным в смысле критерия (4).
При этом главная проблема возникает при оценивании дисперсии
б^(M, N). Здесь, по видимому, наилучший результат дает ее оценка максимального правдоподобия по формуле средней квадратичной величины
1 n—1
оZ = k )—x(t))2. (6
k t=n—k+1
В этой формуле k - ширина скользящего окна усреднения квадрата случайной ошибки прогнозирования в ретроспективе при t<n. Чем больше значение k, тем точнее оценка (6), но, вместе с тем, больше инерционность формируемой оценки, что ухудшает динамические свойства алгоритма.
Дисперсию порождающего шума можно определять в общем случае по разному. Если воспользоваться идеей согласования АР-процесса (1) с
анализируемым процессом X{t} по его дисперсии ОX = const, как в методе Берга, то можно записать:
M
ОП =П 0 (7
i=1
Совокупность выражений (4)...(7) и определяет, в конечном итоге, искомый адаптивный алгоритм оптимизации линейной оценки
прогнозирования по выборке конечного объема N. Его эффективность была исследована на математической модели АР-процесса с применением современной вычислительной техники.
Программа экспериментальных исследований включала в себя анализ динамических свойств адаптивной оценки прогнозирования (2)...(4) в асимптотике, т.е. в расчете на стационарный случайный процесс X{г} неограниченной продолжительности, а также анализ эффективности достигаемой оптимизации в расчете на возможную неоднородность в выборочных данных.
Для моделирования был установлен фиксированный порядок АР-процесса т=10. Объем обучающей выборки варьировался в широких пределах N=30^200. Порядок линейной оценки прогнозирования (2) также устанавливался переменным М=4^20. Для случая анализа стационарного процесса ширина окна выбиралась большой £=1000, что позволяет получить заведомо высокоточные оценки (6) и (7). Зависимость величины УИР (5) от объема обучающей выборки для порядков модели М=4 (кривая 1), М=10 (кривая 2) и М=20 (кривая 3) представлена на рис. 1. Из его рассмотрения можно сделать вывод о существующей зависимости оптимального порядка АР-модели (1) от объема выборки наблюдений. Например, если для анализа доступна выборка объемом N<45 следует выбирать порядок модели М=4. По выборке большего объема модель порядка М=10 дает лучшие результаты с точки зрения минимума информационного рассогласования. Заметим также, что при любом объеме анализируемой выборки порядок М=20 не является оптимальным, что объясняется тем, что анализируемый процесс как АР-процесс 1 0-го порядка не содержит корреляционных закономерностей, не учитываемых моделью 1 0-го порядка. При этом модель более высокого порядка М=20 заведомо проигрывает модели М=10 в скорости настройки параметров.
N
0 ......................................
юююююююююююююююююююю
ч-ГЧСО-^ЮСОГ^ООСООт-ГЧСО-^ЮСОГ-аЭСЭТО
Рис. 1.
Таким образом, предлагаемый подход позволяет не только определить оптимальный порядок модели прогнозирования для выборки конечной длины, но и избежать неоправданного завышения порядка АР-модели.
В программу экспериментальных исследований включен также случай, когда в анализируемый АР-процесс в момент времени Т=100 искусственно вносится разладка трендового вида
х *(п)
|х(п), п < Т
\х(п) + Ь ■ (п -Т), п > Т, Ь = 0,01.
Порядок модели (1) был установлен равным М=10, а объем выборки варьировался в пределах N=20^200. В связи с неоднородностью выборочных данных ширина окна усреднения была ограничена величиной £=20. Зависимость величины УИР (5) от объема анализируемой выборке, представленная на рис. 2, уже не является здесь монотонно убывающей функцией и имеет ярко выраженный минимум при N=100 в точном соответствии с моментом внесения разладки.
9
8
7
6
5
4
3
2
Рис. 2.
Проиллюстрируем возможности предложенного алгоритма на примере российского рынка ценных бумаг. Для анализа были выбраны ежедневные котировки акций РАО ЕЭС на ММВБ. Первоначально анализировался временной ряд, охватывающий в ретроспективе 200 отсчетов или примерно 1 год. В результате оптимизации были выбраны следующие параметры АР-модели наблюдений: объем выборки N=90, порядок модели М=12. Соответствующий прогноз на 10 отсчетов (2 торговые недели) в будущее в отсчете от 17 октября представлен на рис. 3. Для сравнения на том же рисунке представлены реальные цены РАО ЕЭС (серая линия).
Рис. 3.
Таким образом, можно утверждать, что разработанный алгоритм позволяет оптимизировать все основные параметры линейной оценки прогнозирования не только в условиях однородной выборки наблюдений , но и в расчете на возможные в ней разладки , что характерно для большинства практических задач. Его применение особенно актуально в условиях малых выборок наблюдений.
ЛИТЕРАТУРА
1. Савченко В.В. Прогнозирование социально-экономических процессов на основе адаптивных методов спектрального оценивания / Автометрия. 1999. №3. с. 99-108.
2. Марпл С.Л. Цифровой спектральный анализ и его приложения.-М.: Мир, 1 990.
3. Савченко В.В., Шкулев А. А., Баринов А.В. Исследование динамических характеристик адаптивной оценки прогнозирования. Электронный журнал «Исследовано в России», 105, стр. 1393-1400, 2000 г. http://zhurnal.ape.relarn.ru/articles/2000/105.pdf
4. Кульбак С. Теория информации и статистика.-М.: Наука, 1967.