ИСПОЛЬЗОВАНИЕ АДАПТИВНЫХ ГИБРИДНЫХ МОДЕЛЕЙ В ПРОГНОЗИРОВАНИИ ВНЕШНИХ ВЫБЫТИЙ ИЗ РОССИИ
Аннотация.Сравнивается качество прогнозов миграции из России в зарубежные страны, построенных с помощью методов экспоненциального сглаживания, интегрированной модели авторе-грессиии и скользящей средней (ARIMA) и «наивной» экстраполяции. Для ретроспективного тестирования прогнозов использованы данные о выбытии из России в 53 страны мира и группу государств «другие страны». Полученные результаты свидетельствуют о том, что применение гибридных моделей, синтезирующих вышеназванные методы, способно повысить качество прогноза.
Ключевые слова. Миграция, международная миграция, адаптивные методы прогнозирования, экспоненциальное сглаживание, интегрированная модель авторегрессии и скользящей средней, адаптивные гибридные модели прогнозирования.
Pavlovskij E.V.
USING ADAPTIVE HYBRID MODELS IN FORECASTING FOREIGN OUTFLOWS FROM RUSSIA
Abstract. The quality of migration forecasts from Russia to foreign countries, constructed using exponential smoothing methods, autoregressive integrated moving average (ARIMA) and «naive» extrapolation is compared. For retrospective testing of forecasts, data on outflows from Russia to 53 countries of the world and a group of states «other countries» were used. The obtained results indicate that the use of hybrid models synthesizing the above methods can improve the quality of the forecast.
Keywords. Migration, international migration, adaptive prediction methods, exponential smoothing, integrated model of autoregression and moving average, adaptive hybrid prediction models.
Прогнозирование международной миграции - одна из сложнейших задач демографического анализа. Это связано с рядом причин, первая из которых - большое количество факторов, побуждающих индивида покинуть страну. Регрессионные модели, широко используемые исследователями при прогнозировании миграционных процессов, имеют ряд ограничений. К ним можно отнести следующее: малая длина временного ряда, несопоставимость учета некоторых социально-экономических индикаторов с основными странами-донорами и реципиентами. В конечном итоге это приводит либо к низкому качеству получаемых статистических моделей, либо к неверным выводам, основанным на них. В условиях малой длины ряда и несопоставимости учета возможным является применение методов, основанных на исследовании истории временного ряда изучаемого явления. Цель настоящей статьи - анализ возможностей использования методов бесфакторного адаптивного прогнозирования для внешних выбытий из России.
За последние 5 лет число выбывших из страны постоянно росло и составило в 2016 году 313 210 человек, что почти в 2,5 раза больше, чем в 2012 г. (122 751 человек) [1]. Именно поэтому вопросы-прогнозирования миграционной ситуации, являющиеся базой для управленческих решений, становят-
ГРНТИ 06.35.33 © Павловский Е.В., 2018
Егор Витальевич Павловский - аспирант кафедры статистики и эконометрики Санкт-Петербургского государственного экономического университета.
Контактные данные для связи с автором: 191023, Санкт-Петербург, Садовая ул., д. 21 (Russia, St. Petersburg, Sadovaya str., 21). Тел.: +7 981 837-31-59. Е-mail: [email protected]. Статья поступила в редакцию 04.10.2017.
ся все более актуальными. Информационной базой исследования стали данные о международных выбытиях из Российской Федерации за 1997-2016 гг. в 53 страны мира и группу государств «другие страны» [1]. В качестве основных методов бесфакторного прогнозирования, используемыми нами в данном исследовании, выступили интегрированная модель авторегрессии и скользящего среднего (ARIMA) и экспоненциальное сглаживание, а также «наивный» прогноз.
На первом этапе нами были построены прогнозы с использованием моделей ARIMA. Основным требованием данного метода является стационарность временного ряда (в широком смысле). Среди множества возможных способов проверки гипотезы о стационарности нами был выбран критерий KPSS-test (назван в честь авторов: Kwiatkowski, Phillips, Schmidt, Shin). Преимуществом данного подхода, по нашему мнению, является отсутствие субъективных оценок, в отличие от анализа стационарности по графикам автокорреляций и частных автокорреляций, а также простота реализации (расчет критерия возможен в том числе в EViewsи R) и интерпретации.
Проверка 54 временных рядов показала, что на уровне 0,05 ни один ряд не является стационарным и требует преобразований для использования моделей типа ARIMA при прогнозировании. Отсутствие стационарности в каждом ряду объясняется наличием тренда. Преобразование рядов осуществлялось путем взятия первой (в случае линейного тренда) или второй разности (в случае нелинейного тренда), что отражено в значениях параметра d каждой модели. Параметры p (порядок авторегрессии) и q (порядок скользящей средней) определялись на основе анализа графиков автокорреляций и частных автокорреляций и сопоставления их с теоретическими разработками авторов подхода Дж. Боксом и Г. Дженкинсом [4]. Были получены результаты, сведенные в таблицу 1.
Таблица 1
Параметры моделей семейства АММА для временных рядов выездов из России в 54 направлениях
Тип модели Количество стран, ед. Доля от общего числа, %
p=1; d=2; q=1 (1;2;1) 17 31,5
p=1; d=2; q=0 (1;2;0) 6 11,1
p=2; d=1; q=1 (2;1;1) 5 9,3
p=1; d=1; q=1 (1;1;1) 5 9,3
p=1; d=2; q=2 (1;2;2) 3 5,5
p=1; d=1; q=0 (1;1;0) 2 3,7
p=2; d=1; q=2 (2;1;2) 2 3,7
p=2; d=1; q=0 (2;1;0) 1 1,8
Модель незначима 13 24,1
Источник: собственные расчеты на основе данных Росстата [1].
Таким образом, было выявлено, что для 41 временного ряда из 54 (75,9%) модели АММА являются статистически значимыми на уровне 0,05. Отметим, что в 43 случаях (79,6%) была выявлена автокорреляция первого либо второго порядка, что говорит об инерционности миграционных процессов. Однако для двух стран, где была выявлена автокорреляция (Беларусь и Италия), модели АММА оказались незначимыми. Для проверки точности построенных моделей были рассчитаны средние относительные ошибки прогнозирования (МАРЕ, %). Анализ ошибок показал, что точность моделей низкая, что объясняется высокой степенью вариации временных рядов, так, например, коэффициент вариации для выбытий во Вьетнам составил 170,2%. Средние ошибки прогнозирования по моделям АММА в 2015 году варьируются от 1,1% для выбытий в Киргизию до почти 47% в Израиль.
На втором этапе исследования были построены модели экспоненциального сглаживания. Выбор типа модели экспоненциального сглаживания (Хольта, Брауна, с нелинейным трендом, с затухающим трендом) предварительно производился на основе анализа графиков динамики выбытий. В случае неопределенности для временного ряда строилось несколько моделей, и выбор наилучшей производился на основе значимости модели, а также анализа свойств остатков. Таким образом, было определено, что для всех 54 рядов модели данного типа оказались значимы на уровне 0,05 при условии отсутствия автокорреляции в остатках.
В 29 случаях (53,7%) из 54 была выбрана модель с нелинейным трендом, в остальных случаях (25 или 46,3%) - модель с затухающим трендом. Модели экспоненциального сглаживания так же, как
и модели семейства АММА, несмотря на статистическую значимость, не всегда обеспечивают высокую точность прогнозирования. Средние относительные ошибки модельного периода в некоторых случаях превышают 50%. Так, например, в 2015 году ошибка прогнозирования выбытий в Индию составила 0,55%, тогда как для Пакистана - 59,5%.
Анализ точности прогнозирования по двум представленным выше методам привел к необходимости поиска подхода, дающего возможность некоего осреднения прогнозов по нескольким моделям. Модели, полученные таким образом, носят название «гибридные» [3, с. 124]. Выбор методов, включаемых исследователем в гибридную модель, осуществляется экспертно, исходя из специфики данных, целей и задач.
Ранее нами было определено, что модели экспоненциального сглаживания и АММА могут быть использованы для прогноза и включены в гибридную модель, так как для большинства рядов являются статистически значимыми. Для временных рядов стран, для которых не были найдены значимые модели типа АЫМА, данный метод был заменен расчетом скользящей средней и прогноза по ней. Определение порядка средней для каждого ряда данных происходило путем расчета ошибок прогнозирования. Анализ ошибок прогноза на модельном периоде показал, что наибольшие ошибки отмечались в случаях расчета скользящей средней четвертого порядка, наименьшие - второго порядка. Во всех 13 случаях наиболее точным был прогноз, осуществляемый на основе учета значений лишь последних двух периодов. Также для каждой страны нами был произведен прогноз наивным методом, суть которого заключается в использовании последнего значения во временном ряду, как ожидаемого в следующем.
Выбор трех данных методов обусловлен в первую очередь тем, что каждый из них предполагает наличие зависимости каждого текущего значения от предыдущих, что имеет сущностное содержание и отражается в понятии «инерционность». Гипотеза об инерционности международной миграции была уже неоднократно рассмотрена ведущими учеными в области изучения механического движения населения и прошла статистическую апробацию на данных о въездах и выездах широкого круга стран.
Объединение прогнозов в один происходит на основе определения веса каждого метода в итоговом прогнозе и умножения предсказанных значений на рассчитанную долю. Существует несколько подходов к определению удельного веса моделей, в т.ч. метод матрицы парных предпочтений, основанный на расчете вероятности того, что частный прогноз предпочтительнее, метод линейной комбинации частных прогнозов с различными весами, суть которого состоит в расчете парных коэффициентов корреляции и делении суммы коэффициентов корреляции частного прогноза на общую сумму коэффициентов в выборке [2, с. 19]. Ограничением второго метода, по нашему мнению, является то, что все прогнозы, в случае их логичности, имеют однонаправленный тренд, что обеспечивает высокие уровни корреляции и, в конечном итоге, веса, определяемые таким способом, различаются незначительно.
Мы же предлагаем подход, основанный на анализе ошибок прогноза каждого метода. В качестве анализируемого периода мы рассматривали последние 10 лет временного ряда (2007-2016 гг.). На первом этапе определяется Е3. - абсолютная скорректированная сумма ошибок каждого метода, путем умножения абсолютной ошибки модели на коэффициент коррекции. Данная поправка используется с целью увеличения веса ошибок последних периодов. Коэффициент коррекции последнего года (в нашем случае 2016 г.) составляет 1 и постепенно убывает с шагом 0,1, таким образом для первого года (в нашем случае 2007 г.) составляет 0,1. Формула расчета:
Е3) = хик Iх кь
где е^- ошибка данного метода, s - номер страны выбытия, ] - метод прогноза ( = 1, т, т - количество методов), ^ номер года, п - общее число лет, к; - коэффициент коррекции.
Затем рассчитывается общая сумма ошибок (Е3) для каждого временного ряда, путем сложения ошибок каждого метода, участвующего в создании гибридной модели (в нашем случае три модели). Расчет веса каждого частного прогноза в гибридном производится в два этапа, что связано с необходимостью присуждения большего веса методу, характеризующемуся наименьшим количеством ошибок. Сначала определяется вес (^) на основе отнесения ошибок частного прогноза (Е^) к общей сумме ошибок (Е3). Затем определяется «истинный» вес каждого метода ), путем следующего перерасчета:
1. Определяется поправочный коэффициент (13) по формуле:
1
1> = —г:
2. Находим «истинный» вес каждого метода в гибридном, путем умножения ранее найденного веса на рассчитанный поправочный коэффициент (13).
Таким образом, нами были найдены веса для всех частных прогнозов по всем 54 временным рядам выездов из России (п=10, ] = 3^ = 54). Сгруппируем 54 прогнозные модели, исходя из наибольшего веса частного прогноза (по методам) в гибридном (таблица 2).
Таблица 2
Распределение временных рядов по наибольшей доле частного прогноза в общем (гибридном)
Метод Количество временных рядов Доля, %
АЯ1МА и скользящее среднее 15 27,8
Экспоненциальное сглаживание 20 37,0
Наивный метод 19 35,2
Источник: собственные расчеты на основе данных Росстата [1].
Представленное в таблице свидетельствует о том, что включение трех методов в гибридные модели целесообразно, так как каждый метод практически в равной степени часто встречается в качестве наиболее точного для временного ряда. Сравним ошибки прогноза каждого метода по рядам выезда в страны СНГ, удельный вес в общем объеме выездной миграции которых в 2016 году составил 81,9% (таблица 3).
Таблица 3
Сравнение средних относительных ошибок прогнозирования (MAPE, %) выбытия из России в страны СНГ за 2014-2016 гг.
Страна АЯ1МА и скользящее среднее Экспоненциальное сглаживание Наивный метод Гибридная модель
Азербайджан 13,5 20,4 18,1 11,5
Армения 17,3 10,0 26,3 9,8
Беларусь 10,1 18,0 7,9 7,9
Казахстан 12,8 13,1 22,0 11,3
Киргизия 5,0 13,1 14,1 8,2
Республика Молдова 11,6 10,7 18,3 8,9
Таджикистан 27,7 22,0 23,4 24,2
Туркмения 7,4 8,9 21,3 5,5
Узбекистан 36,3 31,1 28,3 31,5
Украина 8,8 8,5 29,2 8,6
Источник: собственные расчеты на основе данных Росстата [1].
Как видно из таблицы, в 6 из 10 случаев наименьшая средняя относительная ошибка была отмечена при прогнозировании временного ряда с помощью гибридной модели. В целом же по совокупности в 31 случае из 54 данный метод был наиболее точным. Критически высокими (более 20%) отмечены ошибки по следующим странам: Таджикистан, Узбекистан, Белиз, Дания, Ливан, Новая Зеландия, Пакистан и Сирия, что вызвано высоким уровнем вариации рядов (Таджикистан, Узбекистан, Сирия) и низкими абсолютными величинами (количество выехавших в Данию в 2016 году составило 36 человек). Для остальных временных рядов ошибки по гибридным моделям варьируются в пределах от 3,4% до 17,9%.
В таблице 4 отображены медианы средних относительных ошибок прогноза для каждого метода, рассчитанные по всем 54 рядам. Статистическая оценка целесообразности использования гибридных моделей была проведена с помощью критерия Фридмана, позволяющего оценить однородность сразу
для 2 и более выборок. В целом по совокупности (ошибки прогнозирования четырех типов моделей) выявлены статистически значимые различия (на уровне значимости 0,05).
Таблица 4
Медианы средних относительных ошибок прогнозирования (MAPE) для четырех методов за 2014-2016 гг.
Метод Средняя относительная ошибка (МАРЕ), %
АШМА или скользящее среднее 16,8
Экспоненциальное сглаживание 15,0
Наивный прогноз 17,7
Гибридная модель 11,8
Источник: собственные расчеты на основе данных Росстата [1].
Попарные сравнения точности прогнозирования каждого метода представим в виде матрицы (таблица 5). Данные таблицы свидетельствуют о том, что качество прогнозирования по гибридным моделям статистически значимо отличается от остальных методов. Таким образом, гибридные модели прогнозирования, несмотря на некоторую сложность реализации, могут быть успешно применены при прогнозировании выбытий из России, поскольку результаты, полученные на их основе, часто оказываются более точными, чем при использовании классических адаптивных моделей или «наивной» экстраполяции. В то же время, при резких изменениях в объемах миграции, подобных, например, неожиданным колебаниями выбытий в Узбекистан и Таджикистан в последние годы, гибридные модели могут приводить к существенным ошибкам.
Таблица 5
Матрица оценки различий ошибок прогнозирования_
Методы Методы АШМА или скользящее среднее Экспоненциальное сглаживание Наивный прогноз Гибридная модель
АШМА или скользящее среднее X Различия значимы Различия незначимы Различия значимы
Экспоненциальное сглаживание Различия значимы X Различия значимы Различия значимы
Наивный прогноз Различия незначимы Различия значимы X Различия значимы
Гибридная модель Различия значимы Различия значимы Различия значимы X
Источник: собственные расчеты на основе данных Росстата [1].
Заметим в заключение, что выбор методов прогнозирования, учитывающих возможность резких переломов тенденции, представляет собой отдельную и крайне сложную проблему, рассмотрение которой выходит за рамки данной статьи.
ЛИТЕРАТУРА
1. Международная миграция. [Электронный ресурс]. Режим доступа: http://www.gks.ru/wps/wcm/con-nect/ross-tat_main/rosstat/ru /statistics/population/demography/# (дата обращения 11.09.2017).
2. Френкель А.А., Волкова Н.Н., Сурков А.А., Романюк Э.И. Сравнительный анализ методов построения объединенного прогноза // Вопросы статистики. 2017. № 7. - С. 17-27.
3. Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. М.: Финансы и статистика, 2003. 416 с.
4. Бокс Дж., Дженкинс Г. Анализ временных рядов. М.: Издательство «Мир», 1974. 406 с.