УДК 372.851, 519.862.6
Гефан Григорий Давидович,
к. ф.-м. н., доцент, Иркутский государственный университет путей сообщения, тел. 8(3952) 638-354
ПРИМЕНЕНИЕ КОРРЕЛЯЦИОННО-РЕГРЕССИОННОГО АНАЛИЗА КАК НАПРАВЛЕНИЕ ИССЛЕДОВАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ ПРИ ОБУЧЕНИИ ЭКОНОМЕТРИКЕ
G. D. Gefan
THE USE OF CORRELATION AND REGRESSION ANALYSIS AS RESEARCH ACTIVITIES
DIRECTION AT TEACHING ECONOMETRICS
Аннотация. На примере применения корреляционно-регрессионного анализа к изучению характеристик социального, экономического и политического развития стран мира показано, какие этапы эконометрического моделирования должны освоить студенты в своей исследовательской деятельности. Особое внимание уделено отбору объясняющих переменных регрессионной модели в связи с проблемой их мультиколлинеарности, а также верификации и интерпретации результатов. Наиболее удачной моделью индекса человеческого развития, как характеристики качества жизни, признана модель, в которой объясняющими переменными являются: индекс экономической свободы, индекс миролюбия и индекс расходов на здравоохранение. Для большинства стран модель даёт удовлетворительную точность предсказания, однако в некоторых случаях наблюдаются существенные ошибки, связанные с определённой спецификой социального, политического и экономического развития ряда стран.
Ключевые слова: корреляционно--регрессионный анализ, эконометрика, моделирование, исследовательская деятельность студентов, социальное, экономическое и политическое развитие стран мира.
Abstract. It is display what steps of econometric modeling students should master in their research activities on the example of the use of correlation and regression analysis to study of the characteristics of the social, economic and political development of the countries of the world. Particular attention is paid to the selection of explanatory variables in the regression models due to a problem of multicollinearity, as well as to verification and interpretation of results. The most successful model of the human development index, as the characteristics of the quality of life, is the model in which the explanatory variables are: index of economic freedom, index of peace-fulness and index of health care costs. For most countries, the model gives satisfactory prediction accuracy, but in some cases there are significant errors associated with certain specifics of the social, political and economic development of some countries.
Keywords: correlation and regression analysis, econometrics, modeling, research activities of students, social, economic and political development of the countries of the world.
Введение
Исследовательская деятельность студентов является продолжением и углублением учебного процесса. Для первых трёх курсов подготовки бакалавров наиболее характерны учебно-исследовательская деятельность, в ходе которой осваиваются и осознаются основные научные понятия и действия, и исследовательская деятельность под руководством преподавателя, когда студент учится использовать полученные знания для решения поставленной перед ним научной задачи [1]. Исследовательскую деятельность можно рассматривать и как актуализацию тех академических знаний, которые получены студентами на лекциях, практических занятиях, а также при выполнении типовых самостоятельных работ [2]. В данной статье на примере применения корреляционно-регрессионного анализа к изучению характеристик социального, экономического и политического развития стран мира показано, какие этапы моделирования должны освоить студенты в своей исследовательской деятельности при обучении эконометрике.
Эконометрика как наука оформилась к началу 1930-х годов. Ныне она является признанным инструментом измерения, анализа и прогнозирования социально-экономических процессов. Однако несколько десятилетий её развития прошли под знаком острых дискуссий. Тон был задан спором в
1939 г. между выдающимся английским экономистом, основателем целого направления в экономической теории (кейнсианства) Джоном М. Кейн-сом и одним из основоположников эконометрики, будущим нобелевским лауреатом, голландцем Яном Тинбергеном [3, 4], сформулировавшим задачи эконометрики на языке моделей множественной регрессии. Кейнс критиковал Тинбергена за произвольность эконометрических построений, недостаточную обоснованность предпосылок регрессионного анализа, линейность соотношений и т. д. Его оппонент настаивал на том, что верификацию предпосылок можно заменить верификацией выводов или точности прогнозов. Фактическое содержание этого спора содержалось в вопросе: можно ли считать экономику точной наукой. Кейнс отвечал на этот вопрос отрицательно, считая экономическую среду подвластной лишь логическому изучению. В противовес этому Тинберген полагал, что объект изучения экономической науки вполне аналогичен техническим или естественнонаучным объектам и, следовательно, допускает полноценный количественный анализ. (Заметим, что Тинберген по образованию был физиком.) Напротив, Кейнс даже вероятность расценивал как логическое отношение, не допускающее числового измерения [5].
В последующие годы многие крупные экономисты продолжали относиться к эконометрике с
Информатика, вычислительная техника и управление
ш
недоверием. Тем не менее в современной экономической науке и образовании эконометрика занимает важнейшее место; с 1990-х годов она широко преподаётся и в России. Сравнивая эконометрику с традиционной для советского экономического образования дисциплиной — экономической статистикой - А.И. Орлов выразился так: «Отечественная статистика расколота, эконометрику породила ветвь, идущая от прикладной математической статистики, а экономическую статистику — ветвь, идущая от Госкомстата» [6].
Безусловно, обучение эконометрике - непростой процесс. Сами по себе инструменты оценивания параметров регрессии не слишком сложны и абсолютно доступны в виде многочисленных компьютерных пакетов (Excel, R, Gretl и др.). Однако обучающийся эконометрике должен пройти несколько ступеней понимания. Сначала может показаться, что регрессионный анализ позволяет решить задачу моделирования какого угодно явления или процесса по эмпирическим данным, поскольку параметры регрессии формально могут быть оценены для любого набора исходных данных. Затем, после знакомства с такими проблемами, как ложная корреляция, мультиколлинеар-ность и эндогенность объясняющих переменных, незначимость коэффициентов регрессии, автокорреляция и гетероскедастичность ошибок регрессии, наоборот, возникает скептическое отношение к регрессионному анализу. И лишь позже приходит понимание того, что искусство эконометриста состоит в постепенной проработке модели от подбора переменных до её (модели) спецификации, идентификации и верификации, а также интерпретации полученных результатов, причём на всех стадиях этого процесса нет жёстких правил «на все случаи жизни».
Постановка проблемы, предварительный отбор переменных. Показатели социального, экономического и политического развития стран мира
Первым этапом эконометрического моделирования является постановка проблемы. В самой общей формулировке задача, поставленная перед студентами, обучающимися по направлению подготовки «Мировая экономика», звучала так: выяснить, какие факторы влияют на качество жизни людей в той или иной стране, и построить соответствующую модель множественной регрессии. Показателем качества жизни был выбран индекс человеческого развития (ИЧР). Это комбинированный показатель, составляемый Программой развития ООН и используемый в рамках специальной серии докладов ООН о развитии человека.
ИЧР измеряет достижения страны по трем основным направлениям:
— здоровье и долголетие, измеряемые средней ожидаемой продолжительностью жизни при рождении;
— доступ к образованию, измеряемый средней ожидаемой продолжительностью обучения детей школьного возраста и средней продолжительностью обучения взрослого населения;
— уровень жизни, измеряемый величиной валового национального дохода (ВНД) на душу населения.
ИЧР находится в диапазоне от 0 до 1. В табл. 1 приведены некоторые, наиболее показательные, на наш взгляд, сведения из рейтинговой таблицы ИЧР стран мира за 2014 год. Здесь и далее в качестве исходных данных использовалась информация, размещаемая на сайте Центра гуманитарных технологий (ЦГТ) [7] о сравнительных исследованиях рейтингов стран и регионов в различных сферах.
Т а б л и ц а 1 Индекс человеческого развития некоторых стран мира 2014 года
Место Страна ИЧР
1 Норвегия 0,944
2 Австралия 0,933
3 Швейцария 0,917
5 США 0,914
6 Германия 0,911
14 Великобритания 0,892
17 Япония 0,890
20 Франция 0,884
26 Италия 0,872
33 Эстония 0,840
34 Саудовская Аравия 0,836
35 Польша 0,834
57 Россия 0,778
79 Бразилия 0,744
91 Китай 0,719
135 Индия 0,586
187 Нигер 0,337
Сразу подчеркнём: необходимо отличать факторы влияния на ИЧР от его составляющих, перечисленных выше. Составляющие (продолжительность жизни, доступность образования и ВНД на душу населения) не влияют, а напрямую определяют ИЧР. Если же говорить о факторах влияния, то к их числу можно отнести различные характеристики социального, политического, экономического и научно-технического развития, например: расходы на образование и здравоохранение; уровень тендерного равенства; уровень ур-
банизации; качество государственного управления и демократии; рейтинг миролюбия; уровень терроризма; коррупция; свобода прессы; потребление электроэнергии; продовольственная безопасность; развитие информационно-коммуникационных технологий и др.
Вторым этапом эконометрического исследования (после постановки проблемы) является получение данных. Как было сказано выше, данные были взяты студентами на сайте ЦГТ [7]. Отметим, что в отличие от исследований, касающихся естественных или технических областей, в социально-экономических и, тем более, политических исследованиях данные могут возникать в результате опросов и различных экспертных оценок. Так, например, ориентация на экспертные опросы при измерении коррупции объясняется тем, что традиционные статистические данные, например, число уголовных дел или судебных приговоров по фактам коррупции, как правило, «не работают», поскольку «...отражают не столько реальный уровень коррупции, сколько эффективность работы правоохранительных органов по выявлению и пресечению фактов коррупции. В этой ситуации единственным надежным источником информации, выступают мнения и свидетельства» [7].
В общей сложности в исследовании использовалась статистика показателей для 187 стран мира. Однако регрессионная модель была построена по данным для 150 государств, т. к. для целого ряда стран (например, Афганистан, Гонконг, Ирак, Ливия, Люксембург, Северная Корея, Сомали, Тайвань) в силу различных причин имелись не все необходимые показатели.
Третий, пожалуй, один из наиболее сложных этапов эконометрического моделирования — спецификация модели, т. е. отбор важнейших факторов, влияющих на результат (в нашем случае -ИЧР), и выбор формы уравнения регрессии. В качестве факторов следует выбирать величины, которые не входят напрямую в данный показатель.
Было сделано предположение, что на ИЧР (У) могут оказывать существенное влияние величины Х1 - Х7, представленные в табл. 2.
Индекс экономической свободы Х1 выпускается американским исследовательским центром «Фонд наследия». Индекс рассчитывается по десяти контрольным показателям: права собственности, свобода торговли, свобода предпринимательства и т. д.
Индекс развития информационно-коммуникационных технологий (ИКТ) Х2 рассчитывается по методике Международного союза электросвязи, специализированного подразделе-
Т а б л и ц а 2 Исследуемые показатели
Обозначение величины Наименование показателя Год определения
Y Индекс человеческого развития 2014
X1 Индекс экономической свободы 2015
X2 Индекс развития информационных коммуникаций 2014
Xз Преобразованный рейтинг миролюбия 2014
X4 Индекс демократии 2012
X5 Доля расходов на здравоохранение 2013
X 6 Индекс восприятия коррупции 2014
X7 Индекс продовольственной безопасности 2014
ния ООН. Индекс разработан на основе 11 показателей, касающихся доступа к ИКТ, использования ИКТ, а также навыков, то есть практического знания этих технологий населением стран, охваченных исследованием.
Глобальный индекс миролюбия измеряет уровень насилия внутри государства и уровень агрессивности его внешней политики. Он показывает, какие из государств можно считать наиболее безопасными (и наоборот - опасными) для жизни человека. Рассчитан по методике организации The Economist Intelligence Unit (аналитическое подразделение британского журнала Economist). Чем меньше баллов, тем более мирной считается страна по данному критерию. Для того чтобы показатель вполне соответствовал своему названию и чтобы его рост (как и для всех остальных показателей) описывал позитивную тенденцию, определялся преобразованный индекс миролюбия X3 вычитанием реального балла из числа 4.
Индекс демократии X4. Рассчитан по методике британского исследовательского центра The Economist Intelligence Unit, основанной на комбинации экспертных оценок и результатов опросов общественного мнения из соответствующих стран. При составлении классификации учитываются 60 разных показателей, сгруппированных по 5 категориям: выборы и плюрализм, гражданские свободы, деятельность правительства, политическая ангажированность населения и политическая культура.
Доля расходов на здравоохранение X5 . Это относительная величина, которая рассчитывается как доля государственных расходов на здраво-
Информатика, вычислительная техника и управление
ш
охранение в процентах от валового внутреннего продукта. В качестве основного источника информации выступает база данных Всемирной Организации Здравоохранения ООН.
Индекс восприятия коррупции рассчитан по методике международной неправительственной организации Transparency International, основанной на комбинации общедоступных статистических данных и результатов глобального опроса. В рамках индекса коррупция определяется как любые злоупотребления служебным положением в целях личной выгоды.
Индекс продовольственной безопасности X выпускается британской исследовательской компанией The Economist Intelligence Unit. Продовольственная безопасность - это состояние, при котором все люди той или иной страны в каждый момент времени имеют физический, социальный и экономический доступ к питательной и достаточной в количественном отношении пище, отвечающей их потребностям и необходимой для ведения активной и здоровой жизни.
Предварительное оценивание параметров модели. Корреляционный и парный регрессионный анализ взаимозависимости показателей Итак, было определено, что объясняемой переменной Y будущей регрессионной модели будет ИЧР, а объясняющими переменными могут быть индексы, о которых говорилось выше (X -X). Однако отбор переменных модели, основанный только на интуитивных предположениях о взаимозависимостях между величинами, чреват ошибками, которые, в первую очередь, связаны с проблемой мультиколлинеарности объясняющих
переменных. Поэтому при отборе переменных обычно проводится их интеркорреляционный анализ.
При проведении корреляционного анализа рассматривались данные по 173 странам.
Составление таблицы парных коэффициентов корреляции (табл. 3) позволило прийти к следующим выводам.
1. Все коэффициенты корреляции значимы и положительны. Этого следовало ожидать, поскольку переменные определены так, что их рост соответствует позитивным тенденциям с точки зрения социального, экономического и политического развития стран мира. Таким образом, все позитивные тенденции в той или иной мере коррелируют между собой.
2. Объясняемая переменная У (ИЧР) очень тесно коррелирует с переменными X и X; с остальными объясняющими переменными связь У как минимум заметная.
Далее стоит проанализировать парную линейную регрессию объясняемой переменной У по некоторым объясняющим переменным. На рис. 1 показана характерная зависимость индекса человеческого развития У от индекса экономической свободы X . Из рисунка очевидно, что страны со свободной экономикой, как правило, характеризуются высокими значениями ИЧР. В то же время страны с низким индексом экономической свободы могут иметь как достаточно высокий (0,8), так и очень низкий (0,3) ИЧР, располагаясь, условно говоря, в диапазоне от Кубы до Нигера. Такой разброс, конечно, снижает тесноту корреляции и качество соответствующей регрессионной модели.
Т а б л и ц а 3
Таблица коэффициентов парной корреляции
Y X! X 2 Xз X 4 х5 X6 х
Индекс человеческого развития У 1
Индекс экономической свободы X 0,59 1
Индекс развития информационных коммуникаций ^ 0,94 0,65 1
Преобразованный рейтинг миролюбия X 0,55 0,53 0,55 1
Индекс демократии X 0,58 0,57 0,60 0,62 1
Доля расходов на здравоохранение X 0,54 0,35 0,60 0,51 0,67 1
Индекс восприятия коррупции X6 0,72 0,73 0,77 0,75 0,71 0,67 1
Индекс продовольственной безопасности 0,90 0,65 0,91 0,60 0,70 0,72 0,80 1
Рис. 1. Регрессия ИЧР по индексу экономической свободы (ИЭС)
Аналогичным образом ИЧР связан с некоторыми другими объясняющими переменными. Страны с высоким индексом демократии X, высоким преобразованным рейтингом миролюбия X являются преуспевающими и с точки зрения индекса человеческого развития У . Однако при средних и низких значениях X и X значения У сильно рассеиваются.
Иначе обстоит дело с зависимостью У от переменных X, X и, в особенности, X . Это иллюстрирует рис. 2. За считанными исключениями связь между индексом человеческого развития и индексом развития информационно-коммуникационных технологий (ИРИКТ) очень тесная, почти линейная (коэффициент линейной корреляции равен 0,94).
Рис. 2. Регрессия ИЧР по индексу развития информационно-коммуникационных технологий (ИРИКТ)
Коэффициент детерминации парной регрессионной модели в этом случае равен 0,89, что на языке дисперсионного анализа формулируется следующим образом: 89 % вариаций ИЧР можно объяснить вариациями ИРИКТ. На графике это проявляется в том, что страны с высоким ИРИКТ всегда имеют высокий ИЧР, а страны с низким ИРИКТ - низкий ИЧР.
В то же время при построении модели множественной регрессии следует учитывать корреляцию между объясняющими переменными [8, 9].
Коэффициенты регрессии оцениваются с наибольшей точностью в том случае, если объясняющие переменные не коррелированы. В случае тесной корреляции коэффициенты регрессии теряют содержательный смысл, и некоторые переменные приходится исключать.
Считается, что две объясняющие переменные явно коллинеарны, т. е. находятся между собой в линейной зависимости, если коэффициент
. > 0,7. В
интеркорреляции
таких случаях
предпочтение отдаётся той переменной, которая при достаточно тесной связи с объясняемой переменной У имеет наименее тесную связь с другими объясняющими переменными. Если сильная интеркорреляция обнаруживается между несколькими объясняющими переменными, то говорят о мультиколлинеарности.
В нашем случае переменные X и X явно коллинеарны или находятся на грани коллинеарности как между собой, так и со всеми остальными объясняющими переменными. Поэтому, несмотря на тесную связь с объясняемой переменной У , именно они являются очевидными кандидатами на исключение из регрессионной модели.
Выбор модели множественной регрессии
При оценивании коэффициентов регрессии критерием их значимости является условие
а
= — > к.сг (а, П
s„
т
1),
где а* — оценка коэффициента при объясняющей переменной X., ^ — его стандартное отклонение, £а — 1>статистика, ¿2 сг(а, п — т — 1) — критическая
точка распределения Стьюдента (двустороння критическая область) при уровне значимости гипотезы а, числе наблюдений п и числе объясняющих переменных т . В нашем случае при п > 100 и т < 7 для уровня значимости а = 0,05 критическое значение (а, п — т — 1) «1,96 .
Информатика, вычислительная техника и управление
На начальном этапе построения модели множественной регрессии, несмотря на сильную мультиколлинеарность, о которой было сказано выше, была сделана попытка включить в модель все 7 объясняющих переменных. Характеристики полученной модели: коэффициент множественной корреляции Я — 0,968, коэффициент детерминации Я2 — 0,938 . Однако, как и ожидалось, оценки
коэффициентов регрессии оказались явно некаче-
* * * *
ственными: коэффициенты а* , а*, а* и а* незначимы, коэффициенты а* и а* отрицательны, что противоречит корреляционной матрице (табл. 3), все элементы которой положительны.
В дальнейшем переменные Х и Х , создающие мультиколлинеарность, были исключены. Состав остальных переменных варьировался с целью получения значимых коэффициентов регрессии. При этом оказалось, что надо:
— либо оставить в модели одну объясняющую переменную Х , индекс развития ИКТ - такая модель уже была представлена нами на рис. 2 ( К2 — 0,887 );
— либо, наоборот, исключить Х , оставив в модели переменные Х , Х и Х .
Во втором случае модель имеет значительно более низкое качество (Я2 — 0,540), но зато более
«представительный» состав объясняющих переменных, позволяющий анализировать влияние достаточно разнообразных факторов.
Оценивание параметров модели
и её верификация. Интерпретация
результатов
Окончательно была получена следующая оценка регрессионной модели ИЧР:
— 0,006^ + 0,080х3 + 0,022х5 + 0,071,
где х, X и X — значения индекса экономической свободы, преобразованного индекса миролюбия и
индекса расходов на здравоохранение, а у
предсказание индекса человеческого развития. Все коэффициенты регрессии значимы, за исключением свободного члена. Если по тем же данным смоделировать регрессию уравнением без свободного члена, то можно получить:
5 — 0,0068х + 0,094X + 0,020х5.
Здесь все коэффициенты являются значимыми. Эти две модели почти равноценны и дают очень близкие предсказания. Средняя ошибка аппроксимации
ш
Е — (1/«)Х |( У- Ух) / у|хЮ0%
/—1
составляет примерно 14 %. Это довольно слабый показатель (считается, что средняя ошибка аппроксимации не должна превышать 10 %). Однако наибольший интерес представляет именно природа больших ошибок при предсказании значения индекса человеческого развития для целого ряда стран. С целью выяснения этой природы все страны были разделены на несколько групп по величине абсолютной ошибки предсказания
в — У — у .
/ •< / •< XI, Х2 , Х3
1. в > 0,15 . В эту группу входит 15 стран, существенно «недооцениваемых» моделью: их реальный ИЧР значительно выше модельного предсказания. Это страны бывшего СССР (Россия, Азербайджан, Беларусь, Туркменистан, Украина), Ближнего Востока и Северной Африки (Алжир, Иран, Израиль, Ливан, Саудовская Аравия), некоторые страны Латинской Америки (Аргентина, Куба, Венесуэла), всего одна западноевропейская страна (Греция) и Шри-Ланка. Большинство этих стран имеют низкие индексы экономической свободы и/или индексы миролюбия, но, в силу разных причин, стоят достаточно высоко на шкале ИЧР. Так, например, Израиль, Россия, Белоруссия, Греция, Аргентина имеют довольно высокий рейтинг образования; Израиль, Греция, Ливан, Куба - высокую среднюю продолжительность жизни; Саудовская Аравия - высокий валовой национальный доход на душу населения, и т. д.
2. в <—0,15 . В эту группу также входит 15 стран, существенно «переоцениваемых» моделью: их реальный ИЧР значительно ниже модельного предсказания. Это исключительно страны Африки. Возможно, в этих странах факторы роста ИЧР пока просто не сработали, поскольку всегда существует определённый временной лаг между фактором и результатом.
3. |в| <0,10 . В эту группу входят страны, точность предсказания ИЧР для которых следует признать удовлетворительной (таких стран подавляющее большинство — 98). Сюда относятся все европейские страны, за исключением уже перечисленных России, Белоруссии, Украины и Греции, а также большинство стран Америки и тихоокеанского региона.
Для остальных 22 государств ошибка предсказания лежит в интервале 0,10 < |в1. | < 0,15 .
Выводы
На конкретном примере показано, что исследовательская деятельность студентов в области