Научная статья на тему 'Выбор временных масштабов при построении эмпирической модели'

Выбор временных масштабов при построении эмпирической модели Текст научной статьи по специальности «Математика»

CC BY
119
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕКОНСТРУКЦИЯ МОДЕЛЕЙ ПО ВРЕМЕННЫМ РЯДАМ / MODEL RECONSTRUCTION FROM TIME SERIES / ОПТИМАЛЬНОЕ ВЛОЖЕНИЕ / OPTIMAL EMBEDDING / АНАЛИЗ СВЯЗАННОСТИ / COUPLING ANALYSIS / НЕЛИНЕЙНАЯ ПРИЧИННОСТЬ ПО ГРЕЙНДЖЕРУ / NONLINEAR GRANGER CAUSALITY

Аннотация научной статьи по математике, автор научной работы — Сысоева Марина Вячеславовна, Диканев Тарас Викторович, Сысоев Илья Вячеславович

В работе рассматривается задача оптимального учёта временных масштабов исходного временного ряда при построении эмпирических прогностических моделей, используемых далее для оценки причинности по Грейнджеру. Предлагается для сравнительно коротких временных рядов, характерных, в частности, для медико-биологических приложений, использовать комбинацию из дальности прогноза и лага различных по величине. Для подбора дальности прогноза и лага построены автоматизированные методики. Предложенный подход апробируется на большом числе различных эталонных систем, по итогам формулируются конкретные рекомендации по выбору дальности прогноза.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Сысоева Марина Вячеславовна, Диканев Тарас Викторович, Сысоев Илья Вячеславович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Selecting time scales for empirical model construction

The task is considered of taking into account the multiple time scales of original time series, with these time series being used for Granger causality estimation. It is proposed to use the combination of prediction length and lag, different in value, that could be fruitful for comparatively short times series, e. g. of medical-biological nature. The automated methods are constructed to select lag and prediction length values. The proposed approach is tested on a set of examples ethalon systems. Based on this consideration the concrete proposal for prediction length value is formulated.

Текст научной работы на тему «Выбор временных масштабов при построении эмпирической модели»

Прикладные задачи

^^^^^^^^^^»нелинейной теории колебаний и вслн

Изв. вузов «ПНД», т. 20, № 2, 2012 УДК 530.182, 51-73

ВЫБОР ВРЕМЕННЫХ МАСШТАБОВ ПРИ ПОСТРОЕНИИ ЭМПИРИЧЕСКОЙ МОДЕЛИ

М.В. Сысоева, Т.В. Диканев, И.В. Сысоев

В работе рассматривается задача оптимального учёта временных масштабов исходного временного ряда при построении эмпирических прогностических моделей, используемых далее для оценки причинности по Грейнджеру. Предлагается для сравнительно коротких временных рядов, характерных, в частности, для медико-биологических приложений, использовать комбинацию из дальности прогноза и лага - различных по величине. Для подбора дальности прогноза и лага построены автоматизированные методики. Предложенный подход апробируется на большом числе различных эталонных систем, по итогам формулируются конкретные рекомендации по выбору дальности прогноза.

Ключевые слова: Реконструкция моделей по временным рядам, оптимальное вложение, анализ связанности, нелинейная причинность по Грейнджеру.

Введение

Анализ связанности систем по их временным рядам является одним из актуальных направлений современной науки. Классическим подходом для этой цели является метод причинности по Грейнджеру [1]. Основная идея этого метода заключается в построении прогностической модели, и если данные из первого временного ряда помогают точнее предсказывать поведение второго, то считается, что первая система влияет на вторую. Обзор различных вариантов метода причинности по Грейнджеру и сходных мер см. в [2,3].

В настоящее время метод причинности по Грейнджеру используется в различных областях: в эконометрике (например, [4]), в нейрофизиологии (например, [5-7]), климатологии [8]. Одна из главных проблем при этом - удачный выбор структуры модели, в том числе - способа вложения.

В данной работе модели строились в виде нелинейного отображения последо-вания вида

Хп+Р = ¡х (Хп, Хп-1, Хп-(П-1)г) + Iп, (1)

где /х - полином общего вида от Б переменных [9], Р - дальность прогноза, I - лаг, ^ - остатки модели, по смыслу являющиеся шумом. Коэффициенты модели подбирались методом наименьших квадратов.

При построении модели часто ограничиваются единственным лагом (он же и дальность прогноза), равным единице. Однако такой подход нередко приводит к малоэффективным и громоздким моделям с большой размерностью и огромным числом коэффициентов. В ряде работ, например, в [10] предлагаются алгоритмы выбора оптимальных величин и количества временных лагов. Но недостатком этих подходов является требование большого объёма данных: нужно иметь длинные временные ряды или их ансамбли. В данной работе предлагается компромиссный подход к учёту имеющихся в системе временных масштабов - использовать две различные величины: дальность прогноза и лаг. Таким образом, по сравнению с введением двух различных лагов можно уменьшить вычислительные затраты на подбор и использовать сравнительно короткие временные ряды, что типично, например, для медико-биологических приложений.

Цели работы - показать эффективность предложенного подхода и, основываясь на анализе результатов для набора численных примеров, сформулировать критерии выбора параметров моделирования, связанных с учётом временных масштабов: дальности прогноза Р и лага I.

1. Описание метода и эталонных систем

Для анализа причинности по Грейнджеру вначале строится индивидуальная модель (1), учитывающая точки только из одного ряда [хп}^=1, влияние на который оценивается. Затем - совместная модель, которая учитывает точки из обоих рядов

{Хп}п=1 и {Уп}п=1:

Хп+Р = ¡ху {Хп, Хп-Ь, Хп-(01-1)1,Уп, Уп-Ь, Уп-р2-1)ь) + Пп, (2)

где ¡ху - полином общего вида от (Б1 + Б2) переменных, Р - дальность прогноза, I - лаг, ц - остатки модели. Для обеих моделей рассчитываются среднеквадратичные ошибки аппроксимации ех для индивидуальной и еху для совместной модели, коэффициенты подгоняются методом наименьших квадратов.

Коэффициент улучшения прогноза, характеризующий причинность по Грейн-джеру, выражается через эти ошибки

е2 - е2

С = х 2 ху. (3)

е2

х

Влияние дальности прогноза и лагов на причинность по Грейнджеру исследуется с помощью тестовых примеров, поскольку в них известны все параметры (размерность, порядок полинома), а направленность и силу связи (коэффициент к) мы можем задать сами.

В качестве тестовых примеров использовались следующие связанные системы.

1. Процессы авторегрессии первого порядка

Хп+1 = ахп + куп + , ч

(4)

Уп+1 = вУп + Цп,

где а = 0.99, в = 0.98.

2. Процессы авторегрессии второго порядка

Хп+1 = а1Хп + а2Хп-1 + куп +

(5)

Уп+1 = в1Уп + в2Уп-1 + Пп,

где а1 = Р1 = 1.99, а2 = р2 = -0.99.

3. Системы ФитцХью-Нагумо

^ = Х1(а - Х1)(Х1 - 1) - Х2 + 1а + ку2, аЬ

-Х2 ,

— = 0Х1 - УХ2,

й\ (6) -у = У1(а - У1)(У1 - 1) - У2 + !а,

ау2 ,

-Ж =ЬУ1 - УУ2'

а = 0.8, Ь = 0.008, у = 0.0033, 1а = 0.84. Уравнения интегрировались методом Эйлера с шагом Н = 0.5, поскольку в систему вводился динамический шум со среднеквадратичным отклонением оп = 0.02о5, где о5 - среднеквадратичное отклонение сигнала. Устойчивость алгоритма тестировалась путём проверки на меньших шагах; далее временной ряд перевыбирался с шагом АЬ = 3Н, чтобы получить примерно 102 отсчётов на характерном периоде.

4. Системы Рёсслера

dx1 dx2 dx3

—ГГ = -(Х2 + Хз) + кУ1, -—- = Х1 + ахХ2, —г— = Ьх - Хз(Х1 - Сх),

аЬ аЬ аЬ (7)

-У1 ( , ч -У2 -Уз , , ,

--Ь = -(У2 + Уз)> = У1 + аУУ2> = Ьу - Уз(У1 - су)'

где ах = 0.398, Ьх = 2, сх = 4, ау = 0.2, Ьу = 0.2, су = 5.7 для хаотического режима и ах = 0.3, Ьх = 0.2, сх = 1.5, ау = 0.25, Ьу = 0.2, су = 2 для периодического. В периодическом режиме система интегрировалась методом Эйлера с шагом Н = 0.0001 и динамическим шумом ~ 2, данные перевыбирались с интервалом АЬ = 500Н; в хаотическом - методом Рунге-Кутты 4-го порядка с шагом Н = 0.005 без динамического шума, и данные перевыбирались с шагом АЬ = 10Н.

5. Системы Лоренца

аХ1 аХ2 аХз

— = ах(Х2 - Х1) + кУ1, —— = Х1(Ьх - Хз) + Х2, -г- = Х1Х2 - СхХз, аЬ аЬ аЬ (8)

-У1 , ч -У2 ,, ч . -Уз

-у = ау(У2 - У1), -у = У1(ЬУ - Уз)+ У2, -у = У1У2 - суУз,

где ах = 10, Ьх = 46, сх = 83, аУ = 10.01, ЬУ = 47, су = 83 для хаотического режима. Система интегрировалась методом Рунге-Кутты 4-го порядка с шагом Н = 0.001 без динамического шума, и данные перевыбирались с шагом АЬ = 4Н.

Во всех случаях к сгенерированным временным рядам добавлялись реализации измерительного нормального некоррелированного шума со среднеквадратичным отклонением от = 0.01о5. От каждой системы записывались короткие временные ряды длиною 2000 отсчётов или приблизительно 20-30 характерных периодов. Такая длина рядов была выбрана, поскольку она типична для разного рода физиологических данных, например, сигналов электроэнцефалограмм, магнитоэнцефалограмм, электрокардиограмм и др.

2. Выбор оптимального лага и дальности прогноза

Причинность по Грейнджеру показывает максимально корректные результаты, если индивидуальная модель подобрана наилучшим образом, поскольку иначе улучшение прогноза может быть обусловлено наличием во втором сигнале информации, присутствующей также и в первом, но недостаточно учтённой. Например, такое может быть, если на самом деле воздействие одностороннее, но направлено в сторону, противоположную предполагаемой, либо обе рассматриваемые системы находятся под некоторым общим внешним воздействием. Поэтому оптимальный лаг I подбирается по критерию минимизации ошибки аппроксимации именно индивидуальной модели е2, при этом осуществляется перебор значений в определённом диапазоне, начиная от единицы. Такой подбор осуществляется при каждой дальности прогноза. На графиках зависимости оптимальных лагов от дальности прогноза (рис. 1) как для периодических, так и для хаотических процессов наблюдаются склоны и горизонтальные участки. Склоны на графиках соответствуют ситуациям, когда оптимальным является учёт точки, отстоящей от предсказываемой на определенное расстояние.

Рис. 1. Зависимость оптимального лага I от дальности прогноза Р. Типичные картинки для периодических процессов - системы ФитцХью-Нагумо (а) и Рёсслера (б), для хаотических процессов -Рёсслера (в) и Лоренца (г). Везде порядок полинома Я = 5

Для малых дальностей прогноза, как правило, лаг берётся такой, чтобы захватить точку, лежащую через интервал 2, соответствующий нулю автокорреляционной функции. Для больших дальностей прогноза оптимальным оказывается лаг, выбираемый так, чтобы захватить точку, лежащую через характерный период Р + I = Т или через два характерных периода Р + 21 = Т. Горизонтальные участки говорят о том, что в векторе состояния необходимы точки, которые лежат на определенном расстоянии друг от друга (2 или Т).

Методика исследования зависимости причинности по Грейнджеру от дальности прогноза заключается в следующем.

1. Генерируются 100 пар рядов без связи (к = 0), для каждой пары рассчитывается улучшение прогноза О, 95-е по величине значение выводим на график (чёрная горизонтальная линия на рис. 2). Таким образом осуществляется проверка значимости на уровне 5%.

2. Генерируются ряды с однонаправленной связью. Для каждого значения к делаются 100 пар рядов, для каждой пары рассчитывается О, и вычисляется среднее значение. На график для каждого значения силы связи выводится среднее значение улучшения (серая линия на рис. 2).

3. Если среднее значение О для данной силы связи к лежит выше 95-процентного уровня (то есть на рисунке серая линия лежит выше чёрной), то мы наблюдаем значимое улучшение прогноза. Обозначим пересечение этих двух линий к. Чем раньше пересечение, то есть чем меньше к, тем выше чувствительность метода.

4. Описанное выше делается для различных значений дальности прогноза. Строятся графики зависимости порога чувствительности от дальности прогноза к(Р). Закрашенная на рис. 3 серым область показывает, в каком диапазоне значений коэффициента связи обнаруживается значимая связь. Закрашенная белым область - где, согласно методу связь считается незначимой.

5. Подобные графики зависимости порога чувствительности от дальности прогноза к(Р) строятся для связи в правильную сторону (рис. 3, а, в) и в неправильную сторону (рис. 3 б, г).

Оптимальная дальность прогноза определяется по двум критериям.

• Чувствительность метода: значимая связь в правильную сторону обнаруживается при как можно меньшем значении коэффициента связи.

• Специфичность метода: значимая связь в неправильную сторону должна быть

как можно меньше.

О 0.20

0.15

0.10

0.5

0

0.01 0.02 0.03 0.04 к

Рис. 2. Зависимость коэффициента улучшения прогноза О от коэффициента связи к при фиксированной дальности прогноза Р. Чёрная горизонтальная линия - 95-е по величине значение О для к = 0 (проверка значимости); серая линия - среднее значение улучшения прогноза для каждого коэффициента связи

Рис. 3. Зависимость порога чувствительности к от дальности прогноза Р. В правильную сторону (слева) и в неправильную (справа). Сверху типичная картинка для периодических, снизу для хаотических процессов. Серая область - диапазон значений коэффициента связи, в котором обнаруживается значимая связь. Белая область - диапазон значений коэффициента связи, в котором обнаруживается незначимая связь

Если ориентироваться на чувствительность метода, то получаются следующие результаты.

Для процессов авторегрессии первого порядка с ростом дальности прогноза чувствительность метода падает, то есть предпочтительными являются единичные дальности прогноза. Это согласуется с тем фактом, что такие сигналы не имеют выделенного временного масштаба.

Для периодических режимов (процессов авторегрессии второго порядка, систем ФитцХью-Нагумо, систем Рёсслера в периодическом режиме) практически для всех дальностей прогноза чувствительность метода одинакова, причём чуть лучше чувствительность метода для единичных дальностей прогноза. Только при дальности прогноза, равной или характерному периоду Т или его половине, чувствительность падает, поскольку улучшение предсказательной способности индивидуальной модели ухудшает работу метода.

Для хаотических режимов систем Рёсслера и Лоренца чувствительность метода на всех дальностях прогноза примерно одинакова. Чуть лучше метод работает при дальностях прогноза, равных половине характерного периода Т/2 и характерному периоду Т. И чуть хуже - при единичных дальностях прогноза.

Критерий качества модели невозможно построить, анализируя только чувствительность метода. Поэтому анализируется также специфичность метода, то есть ищется связь в неправильную сторону.

Для процессов авторегрессии первого и второго порядка специфичность метода очень хорошая: связь в заведомо неверную сторону не обнаруживается для всех дальностей прогноза в широком диапазоне значений коэффициента связи.

Для систем ФитцХью-Нагумо связь обнаруживается для малых дальностей прогноза; для систем Ресслера - для малых дальностей прогноза и для дальностей прогноза в районе половины характерного периода Р = Т/2.

Для хаотических процессов: для систем Рёсслера связь обнаруживается для малых дальностей прогноза, а также для дальностей прогноза в диапазоне от половины характерного периода Т/2 до характерного периода Т; для систем Лоренца -в диапазоне от Т/2 до Т.

Подводя итог, можно порекомендовать брать дальность прогноза, равную четверти характерного периода Р = Т/4. Хотя в отдельных примерах это может быть не самым оптимальным выбором, в среднем оказывается, что в таком случае мы получаем хорошую специфичность метода при достаточно хорошей чувствительности. То есть вероятность ложных выводов относительно направления связи, определяемой методом Грейнджера, мала. Из общих теоретических соображений этот вывод может быть подтверждён тем, что четверть характерного периода примерно соответствует нулю автокорреляционной функции - расстоянию между отсчётами, на котором они статистически линейно не связаны, таким образом, последовательно включённые в вектор состояния точки несут максимально возможное количество информации (по крайней мере, для линейных моделей). Вследствие этого индивидуальная модель лучше описывает наблюдаемый сигнал, снижается вероятность получения ложных положительных результатов о наличии связей, что подтверждается результатами численных экспериментов.

Заключение

В работе исследуется эффективность оригинального подхода к выбору структуры эмпирических прогностических моделей, применяемых для анализа причинности по Грейнджеру. Существенная новизна состоит в том, что предлагается использовать при построении модели два различных параметра: дальность прогноза и лаг. Это позволяет учесть несколько временных масштабов, используя недлинный временной ряд. Для построенных таким образом моделей на основе анализа большого набора тестовых примеров сформулированы основные критерии выбора предложенных параметров, опирающиеся на анализ чувствительности и специфичности метода причинности по Грейнджеру.

Показано, что популярное среди исследователей значение дальности прогноза и лага, равное единице, оказывается далеко не оптимальным, поскольку построенные таким образом модели часто имеют очень низкую специфичность - показывают связь в заведомо ложную сторону. Оптимальной оказывается дальность прогноза порядка четверти характерного периода (или минимума автокорреляционной функции), именно при таком значении Р достигается наилучшее сочетание специфичности и чувствительности. При этом лаг часто выбирается таким образом, чтобы в модели использовалась точка, отстоящая от предсказываемой на характерный период.

Работа поддержана грантами РФФИ (№ 12-02-00377, № 11-02-00599) и грантом Президента РФ для молодых ученых МК-4435.2012.8

Библиографический список

1. Granger C.W.J. Investigating causal relations by econometric models and cross-spectral methods // Econometrica. 1969. Vol. 37, № 3. P. 424.

2. Gourevitch B., Le Bouquin-Jeannes R., Faucon G. Linear and nonlinear causality between signals: Methods, examples and neurophysiological applications // Biological Cybernetics. 2006. Vol. 95. P. 349.

3. Rosenblum M.G. and Pikovsky A.S. // Physical Review E. 2001. Vol. 64. 045202.

4. Abhyankar A. Linear and nonlinear Granger causality: Evidance from the U.K. Stock index futures markets // The Journal of Futures Markets. 1998. Vol. 18, № 5. P. 512.

5. Bernasconi C., Konig P. On the directionality of cortical interactions studied by structural analysis of electrophysiological recordings // Biol. Cybern. 1999. Vol. 81. P. 199.

6. Smirnov D.A., Barnikol U.B., Barnikol T.T., Bezruchko B.P., Hauptmann C., Buehrle C., Maarouf M., Sturm V., Freund H.-J., and Tass P.A. The generation of Parkinsonian tremor as revealed by directional coupling analysis // Europhysics Letters. 2008. Vol. 83. 20003.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Сысоев И.В., Караваев А.С., Наконечный П.И. Роль нелинейности модели в диагностике связей при патологическом треморе методом грейнджеровской причинности // Изв. вузов. ПНД. 2010. Т. 18, № 4. С. 81.

8. Smirnov D.A., Mokhov I.I. From Granger causality to long-term causality: Application to climatic data // Physical Review. 2009. Vol. E80. 016208.

9. Chaos and its Reconstruction / Eds. G. Gouesbet, G. Meunier-Guttin-Cluzel, O. Menard. Nova Science Publishers, New York, 2003.

10. Vlachos I., Kugiumtzis D. Nonuniform state-space reconstruction and coupling detection // Physical Review E. 2010. Vol. 82. 016207.

Саратовский государственный Поступила в редакцию 21.11.2011

университет им. Н.Г. Чернышевского После доработки 20.03.2012

SELECTING TIME SCALES FOR EMPIRICAL MODEL CONSTRUCTION

M.V. Sysoeva, T. V. Dikanev, I.V. Sysoev

The task is considered of taking into account the multiple time scales of original time series, with these time series being used for Granger causality estimation. It is proposed to use the combination of prediction length and lag, different in value, that could be fruitful for comparatively short times series, e. g. of medical-biological nature. The automated methods are constructed to select lag and prediction length values. The proposed approach is tested on a set of examples - ethalon systems. Based on this consideration the concrete proposal for prediction length value is formulated.

Keywords: Model reconstruction from time series, optimal embedding, coupling analysis, nonlinear Granger causality.

Сысоева Марина Вячеславовна - родилась в Саратове (1987). Окончила Лицей № 37 (2005) и факультет нано- и биомедицинских технологий СГУ (2011). Магистр техники и технологии. В настоящее время - аспирант кафедры динамического моделирования и биомедицинской инженерии. Научные интересы -анализ биологических сигналов методами математической статистики.

410012 Саратов, ул. Астраханская, 83

Саратовский государственный университет им. Н.Г. Чернышевского E-mail: [email protected]

Диканев Тарас Викторович - родился в Саратове (1979). Окончил Лицей прикладных наук (1997). Окончил факультет нелинейных процессов СГУ (2002). Кандидат физико-математических наук (2005). До 2011 года - доцент кафедры динамического моделирования и биомедицинской инженерии. В настоящее время - инженер компании Huawei Technologies. Научные интересы - реконструкция моделей по временным рядам, анализ временных рядов биологических систем. Автор более 40 публикаций.

Российское представительство компании Huawei Technologies, Москва E-mail: [email protected]

Сысоев Илья Вячеславович - родился в Саратове (1983). Окончил Лицей прикладных наук (1999) и факультет нелинейных процессов СГУ (2004). Защитил диссертацию на соискание учёной степени кандидата физико-математических наук (2007). Работал на кафедре электроники, колебаний и волн (2005-2007). В настоящее время - доцент базовой кафедры динамического моделирования и биомедицинской инженерии. Научные интересы - исследование сигналов биологической природы методами нелинейной динамики, исследование эффективности и модернизация подходов к анализу сигналов. Автор более 40 публикаций.

410012 Саратов, ул. Астраханская, 83

Саратовский государственный университет им. Н.Г. Чернышевского E-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.