Оригинальная статья / Original article УДК: 519.862.6
DOI: 10.21285/1814-3520-2016-10-81-89
АНАЛИТИЧЕСКИЕ ЗАВИСИМОСТИ ДЛЯ НЕКОТОРЫХ КРИТЕРИЕВ АДЕКВАТНОСТИ МОДЕЛИ РЕГРЕССИИ ДЕМИНГА
л
© М.П. Базилевский1
Иркутский государственный университет путей сообщения, 664074, Россия, г. Иркутск, ул. Чернышевского, 15.
РЕЗЮМЕ. ЦЕЛЬ. Получение аналитических зависимостей критериев Фишера и Дарбина - Уотсона от соотношения дисперсий ошибок исследуемых признаков в модели регрессии Деминга. МЕТОДЫ. Для достижения цели использованы математические и статистические методы. РЕЗУЛЬТАТЫ. Получены и исследованы аналитические зависимости для критериев Фишера и Дарбина - Уотсона. Предложена схема проверки значимости регрессии Деминга по критерию Фишера. Описана процедура исследования зависимости критерия Дарбина - Уотсона на экстремум. Проведены вычислительные эксперименты, подтверждающие достоверность полученных результатов. ЗАКЛЮЧЕНИЕ. Полученные аналитические зависимости позволяют еще на начальном этапе моделирования достаточно полно охарактеризовать адекватность регрессии Деминга.
Ключевые слова: регрессия Деминга, адекватность, критерий детерминации, критерий Фишера, критерий Дарбина - Уотсона.
Формат цитирования: Базилевский М.П. Аналитические зависимости для некоторых критериев адекватности модели регрессии Деминга // Вестник Иркутского государственного технического университета. 2016. Т. 20. № 10. С. 81-89. DOI: 10.21285/1814-3520-2016-10-81-89
ANALYTICAL DEPENDENCES FOR SOME ADEQUACY CRITERIA OF DEMING REGRESSION MODEL M.P. Bazilevskiy
Irkutsk State Transport University,
15, Chernyshevsky St., Irkutsk, 664074, Russia.
ABSTRACT. THE PURPOSE of the paper is to obtain analytical dependences of F-tests and Durbin-Watson statistic on the error variance ratio of studied characteristics in a Deming regression model. METHODS. Mathematical and statistical methods are used to achieve the purpose. RESULTS. Analytical dependences for F-tests and Durbin-Watson statistic are obtained and examined. A scheme testing the significance of Deming regression by the Fisher statistic is proposed. The research procedure of Durbin-Watson dependence on the extremum is described. Computational experiments proving the validity of the received results are provided. CONCLUSION. These analytical dependences allow as early as at the initial stage of modeling provide sufficient characterization of the adequacy of Deming regression. Keywords: Deming regression, adequacy, determination coefficient, Fisher statistic (F-test), Durbin-Watson statistic
For citation: Bazilevskiy M.P. Analytical dependences for some adequacy criteria of Deming regression model. Proceedings of Irkutsk State Technical University. 2016. vol. 20. no. 11. pp. 81-89. (In Russian) DOI: 10.21285/1814-35202016-10-81-89
Введение
На сегодняшний день самым распространенным методом оценивания неизвестных параметров регрессионных моделей является метод наименьших квадратов (МНК). В силу теоремы Гаусса - Маркова, одной из предпосылок МНК является детерминированность объясняющих переменных2,3. Однако на практике данная предпосылка зачастую нарушается. Это
1
Базилевский Михаил Павлович, кандидат технических наук, доцент кафедры математики, е-mail: [email protected]
Bazilevskiy Mikhail, Candidate of technical sciences, Associate Professor of the Department of Mathematics, е-mail: [email protected]
2Айвазян С.А. Основы эконометрики: учебник для вузов. М.: ЮНИТИ-ДАНА, 2001. 432 с. / Ayvazyan S.A. Basics of econometrics: Textbook for higher schools. M.: UNITI-DANA, 2001. 432 p.
3Доугерти К. Введение в эконометрику: учебник для вузов. 3-е изд. М.: ИНФРА-М, 2009. 465 с. / Dougherty K. Introduction to Econometrics: Textbook for higher schools. 3rd edition. M.: INFRA-M, 2009. 465 p.
может быть вызвано, например, неточностями при регистрации значений объясняющих переменных. В результате объясняющие переменные становятся стохастическими (случайными), а МНК-оценки параметров регрессионной модели оказываются смещенными и неэффективными [1].
Самой известной и хорошо изученной моделью со стохастическими переменными является так называемая регрессия Деминга [2-6]. Оценки этой модели могут быть найдены в явном виде. Однако к настоящему времени практически отсутствуют работы по проблеме оценки адекватности регрессии Деминга. Исключением является работа [7], в которой получены аналитические зависимости для коэффициентов детерминации. Целью данной работы является получение аналитических зависимостей критериев Фишера и Дарбина - Уотсона от соотношения дисперсий ошибок исследуемых признаков.
Методы и обсуждение
Регрессия Деминга. Пусть изучается взаимозависимость между объясняемой (зависимой, выходной) переменной у и объясняющей (независимой, входной) переменной х. В
результате п опытов или наблюдений получены пары чисел (х,у), - = 1,п . Предположим, что оба признака имеют стохастический характер как результат наличия в данных неконтролируемых ошибок. Это означает, что фактически вместо пар (xi,yi) фиксируются значения:
X = х* +ех,, - = 1,п , (1)
У, = У* +ея , г = 1п , (2)
где (х*,у*) - истинные значения переменных; ошибки ех и еу - нормально распределенные случайные величины с нулевыми математическими ожиданиями и постоянными дисперсиями, т.е. 8х~М (0,<) и ву~М (0,а2еу).
Предположим, что истинная связь между переменными задается простейшей линейной зависимостью
у* = а + Ьх*, г = 1,п , (3)
где а и Ь - неизвестные параметры.
Используя соотношения (1), (2) и равенство (3), перейдем к регрессии Деминга
у = а + Ьх* + ,
. г у (4)
[х- = х +БхГ
где х* - неизвестные истинные значения объясняющей переменной.
Для оценивания неизвестных параметров модели (4) требуется минимизировать функционал:
п 2 1 п 2
Я = 2(х» "X) +1£(у• ~а ~ Ьх-) ^ тгп ■ (5)
г=\ А —!
где Л = а] /а] - отношение дисперсий ошибок еу и ех.
Оценка параметра Ь находится из решения квадратного уравнения:
КуЬ2-(Бу-ЛБх) Ь-Жу = 0, (6)
где Бх, л - выборочные дисперсии переменных х и у, К - ковариация.
При этом условию задачи (5) удовлетворяет только один из корней уравнения (6)
(Dy -Щ: ) + )/(Dy -Щ: )2 + 4ÄK_
\ у х / \\ у х / ху
= 2КУ ■
Оценка параметра а находится по формуле
а = у - Ьх, (8)
где у и х - выборочные средние.
Оценки истинных значений объясняющей переменной х имеют вид
х* = х, +—ЬЬт2 (у, -а-Ьх,), , = х'п . (9)
Л + Ь '
В зависимости от соотношения дисперсий ошибок исследуемых признаков Л выделяют следующие частные случаи регрессии Деминга:
• прямая регрессия у = а + Ьх, если Л ^ да;
• ортогональная регрессия, если Л = 1;
• обратная регрессия хг = с + ёу, если Л ^ 0.
Следует отметить, что главная проблема при оценивании регрессии Деминга заключается в том, что заранее неизвестны дисперсии ошибок а] и а] исследуемых признаков, а
значит, не понятно, какое именно значение параметра Л следует выбрать для моделирования.
Критерий Фишера. Этот критерий используется для проверки значимости модели в целом. Для случая парной регрессии критерий Фишера связан с критерием детерминации соотношением
Я2
• диагональная регрессия, если Л = — ;
F = -2) ■ (10)
Критерий детерминации регрессии Деминга по переменной y имеет вид [7]
Л( K;lDy ) + Ь
r;=ь
Л + ь2
(11)
Подставив коэффициент детерминации (11) в равенство (10), получим выражение для критерия Фишера регрессии Деминга:
K 1
b Я ^ + b
D
V y У
f K 1
Я 1 b xy
D
V y У
Fy (Ь,Я) = > ' < (n-2). (12)
Отметим, что зависимость (12) представлена в виде функции двух переменных лишь для удобства изложения. Для перехода к громоздкой функции Г (Я) одной переменной необходимо вместо параметра Ь в (12) подставить выражение (7).
Исследование функции Г (Я) на экстремум позволило установить, что на интервале
Яе( 0,да) она является монотонно убывающей. При этом, если Я^ 0 (обратная регрессия),
К2
то Г (Я)^да, а если Я^да (прямая регрессия), то Г (Я)^ F, где Г =-ху—- (п -2) -
& & — К
ух ху
критерий Фишера прямой регрессии.
Рассмотрим схему проверки значимости линейной модели парной регрессии с детерминированной переменной х с помощью критерия Фишера4. Проверяется нулевая гипотеза о том, что между переменными х и у отсутствует линейная связь, т.е. Щ:Ь = 0. Альтернативная гипотеза Их: Ь ф 0.
1. Находится наблюдаемое значение критерия Фишера Г по формуле (10).
2. При заданном уровне значимости а находится критическое значение критерия Фишера Гсг (а,1,п — 2).
3. Сравниваются Г и : если Г < , то нулевую гипотезу И0 не отвергают, модель признается незначимой; в противном случае И0 отвергается, модель значима.
Для регрессии Деминга критическое значение критерия Фишера остается величиной постоянной, но наблюдаемое Г зависит от величины Я. Это означает, что, варьируя Я,
наблюдаемое значение может попадать либо в критическую область, в которой нулевая гипотеза отвергается, либо в область принятия гипотезы, т.е. от величины Я зависит значимость модели в целом.
Используя тот факт, что функция Г (Я) на интервале Яе(0,да) является монотонно
убывающей, введем следующую схему проверки значимости регрессии Деминга по критерию Фишера.
1. При заданном уровне значимости а находится критическое значение критерия Фишера Гсг (а,1,п — 2).
К2
2. Находится критерий Фишера прямой регрессии Г =--—- (п - 2).
& & — К
у х ху
3. Сравниваются Г и Г : если Г > Г , то регрессия Деминга является значимой для
4Базилевский М.П., Гефан Г.Д. Эконометрика (продвинутый уровень): учеб. пособие. Иркутск: Изд-во ИрГУПС, 2016. 108 с. / Bazilevskiy M.P., Gefan G.D. Econometrics (advanced level): Learning aids. Irkutsk: IrGUPS Publishers, 2016. 108 p._
любого Я; если ^ < ^, то относительно неизвестной Я решается нелинейное уравнение 4.
Ру (Я)-¥сг = 0.
Обозначим решение этого уравнения Я*. Тогда, если Я<Я*, то регрессия является значимой, а если Я> Я* - незначимой.
Критерий Дарбина - Уотсона. Этот критерий применяется для тестирования автокорреляции ошибок первого порядка во временных рядах и находится по формуле
п
К е -е- /
БЖ = ^-. (13)
I £
1=1
Значения критерия Дарбина - Уотсона принадлежат интервалу о < БЖ < 4, при этом:
• если БЖ = 0, то имеем положительную автокорреляцию;
• если БЖ = 2, то автокорреляция отсутствует;
• если БЖ = 4, то имеем отрицательную автокорреляцию.
Из первого уравнения модели (4) имеем: у = а + Ьх* + еу , = а + Ьх*\ + е . Тогда
£ -е =Лу. - ЬЛх*, (14)
У1 у— ^11' \ /
* * *
где Лу = у -у_!; Лх* = х* -х*_х - первые разности переменных у и х. Возведя в квадрат выражение (14) и переходя к сумме, получим:
Eta) -2b^AyAx: + bEA) . (15)
1=2 i=1 i=1 i=1
Используя равенства (9), перепишем выражение (15) в виде
f (е ß )2 Я (a - 2ьв + *2с)
e y") = (я + ь2 )2
(16)
n-1 n-1 n-1
где А = 1Лу2 ; В = 1ЛуЛхг ; С = £Лх2.
1=1 1=1 1=1
Сумма квадратов ошибок по переменной у имеет вид [7]
пЯ(Dy - Kyb )
i=i Я + b
n
,2
Eta = V. „2 " ' ■ (17)
Подставив в соотношение (13) в числитель (16), а в знаменатель (17), получим выражение для критерия Дарбина - Уотсона регрессии Деминга:
"X ,
, ч D2A — 2D K B + K2 и A^œ (прямая регрессия), то DWy(Л)^-DW2, где DW2 = ^ t^ x-pf--критерии
^ О — K
X xy
л(А - 2ЬВ + Ь2С)
ВЩ (Ь,Л) = ^-гт-'-г , (18)
у( ) п(Ву -Кх„Ь)(Л + Ь2) ( )
где Ь находится по формуле (7).
Установлено, что если Л^ 0 (обратная регрессия), то ВЩ (Л)^- ВЩ, где
К2 А - 2В К В + В2С
ВЖ = —ху-т—^^—- критерии Дарбина - Уотсона обратной регрессии, а если
1 пВу (ВуВх - К%) н к к к нн
В А - 2РхКхуВ + К^С
пВх (ВуВх - КХу )
Дарбина - Уотсона прямой регрессии.
Функция ВЖу (Л) имеет только одну точку экстремума:
Л* = ^г-Кх/ (19)
Вх 2 - Кху ' ' 1
где г - любой из корней квадратного уравнения
(ВВх - СКху) 22 + (СВу - АВх) 2 + АКху - ВВу = 0. (20)
Используя неравенство Коши - Буняковского К^ < ВхВу, легко доказать, что дискриминант уравнения (20) всегда неотрицателен, следовательно, оно имеет два решения:
Z1,2 = ■
(CDy — ADx )^(CDy — ADx ) — 4 ( BDx — CKy )( AKy — BDy ) (21)
2 ( BDx — CKxy )
Для исследования характера поведения функции ВЩ (Л) следует воспользоваться следующей процедурой.
1. По формуле (19) находится критическая точка Л* и по формуле (18) - значение функции в этой точке ВЩ (Л*).
2. Находится критерий Дарбина - Уотсона обратной регрессии
К2 А - 2 В К В + В 2 С В2 А - 2ВКВ + К2 С
ВЩ = Кху--В-ху—_>_ и прямой регрессии ВЩ = х х ху ху
пВ (В В - К2) ——™ - пВ ( в В - К2) ■
у\ у х ху) х\ у х ху)
3. Если Л* ё(0,ю), то функция ВЖу (Л) на интервале Л е(0,да) является монотонной. При этом если ВЩ < ВЩ (Л*), то ВЖу (Л) монотонно убывает, иначе монотонно возрастает.
4. Если Л* е(0,сю), то определяется тип экстремума. Если ВЩ < ВЖу (Л*), то точка Л* является точкой максимума, а функция монотонно возрастает на интервале (0,Л*) и убывает на интервале (л*,ю). Иначе точка Л является точкой минимума, а функция монотонно
убывает на интервале (0Д*) и возрастает на интервале (а*,с») .
Предложенная процедура позволяет определять, существует ли значение Д, при котором критерий Дарбина - Уотсона принимает свое наилучшее значение, равное 2. Для этого
необходимо анализировать величины БЩ, ВЩ и ВЩ (Д*). Если будет установлено, что
такое значение существует, то необходимо решить нелинейное уравнение БЩ (Д) = 2.
Критерий Дарбина - Уотсона по переменной х имеет точно такое же аналитическое выражение, как и по переменной у. Это следствие того, что ошибки по переменным у и х прямо пропорциональны [7].
Следует отметить, что критерий Дарбина - Уотсона, так же как и критерий Фишера, имеет статистический характер, т.е. с помощью него проверяется гипотеза о значимости коэффициента автокорреляции ошибок. Но процедура такой проверки представляет определенные трудности и редко используется на практике. Поэтому рассматривать схему проверки значимости коэффициента автокорреляции в регрессии Деминга, которая значительно усложнится, мы не будем.
Вычислительный эксперимент. Все полученные аналитические зависимости и схемы были неоднократно протестированы на случайно генерируемых статистических данных. Одна из таких случайных реализаций представлена в таблице.
Случайно сгенерированные статистические данные
Rand omly generated statistica data
y 25 12 29 30 17 6 11 9 1 9
x 1 3 6 4 8 5 2 8 11 9
Проверим значимость регрессии Деминга по критерию Фишера.
1. При заданном уровне значимости а = 0,05 находим критическое значение критерия Фишера ¥сг (0,05; 1; 10 - 2) = 5,32 .
2. Находим критерий Фишера прямой регрессии ¥ = 2,45.
3. Сравниваем ¥ и ¥сг. Так как ¥ < ¥сг, то регрессия Деминга является значимой не для любого Д. Решив нелинейное уравнение ¥ (Д)-¥сг = 0, получим Д = 13,6. Следовательно, если Д < 13,6, то регрессия является значимой, а если Д > 13,6, то незначимой.
Предложенная схема проверки значимости регрессии Деминга удобна тем, что применив ее один раз, можно сразу делать выводы о значимости модели для любого Д. Например, если по данным из таблицы потребуется оценить ортогональную регрессию, для которой Д = 1, то можно сразу сделать вывод, что она окажется значимой, поскольку 1 < 13,6.
График функции ¥ (Д) на интервале значимости (0 -13,6) представлен на рис. 1.
Как видно по графику, функция ¥ (Д) является монотонно убывающей. При этом если Д ^ 0, то ¥ (Д) ^ , а если Д ^ да, то ¥у (Д) ^ 2,45.
Исследуем характер поведения функции БЩ (Д), воспользовавшись предложенной выше процедурой.
1. По формуле (19) находим критическую точку Д = 8,84 и по формуле (23) значение функции в этой точке БЩ (8,84) = 1,57 .
2. Находим критерий Дарбина - Уотсона обратной регрессии ВЩ = 1,4 и прямой регрессии ВЩ = 1,36.
3. В нашем случае Л* е(0,да), следовательно, определяем тип экстремума. Так как ВЩ < ВЖу (Л*), то точка Л* является точкой максимума, а функция монотонно возрастает на интервале (0;8,84) и убывает на интервале (8,84; да).
1000 900 800 700 600 500 400 300 200 100 0
F
0,1 2,2 4,3 6,4 8,5 10,6 12,7
Рис. 1. График функции F (Я) Fig. 1. Graph of function F (Я)
Так как точка Я* е(0,ю) является точкой максимума и значение функции в этой точке меньше, чем идеальное значение критерия Дарбина - Уотсона (1,57 < 2), то не существует решения уравнения DWy (Я) = 2. Следовательно, моделью с наиболее близким к идеальному случаю значением критерия Дарбина - Уотсона будет регрессии Деминга при Я = 8,84.
График функции DWy (Я) на интервале (0 - 60) представлен на рис. 2.
1,6 1,55 1,5 1,45 1,4 1,35
DW
л
0,1 8,2 16,3 24,4 32,5 40,6 48,7 56,8
Рис. 2. График функции DWy (Я) Fig. 2. Graph of function DWy (Я)
По графику видно, что функция ВЖу (Л) имеет экстремум в точке Л* = 8,84. При этом если Л^ 0, то ВЖу (Л)^ 1,4, а если Л^да, то ВЖу (Л)^ 1,36.
л
Заключение
В настоящей работе получены и исследованы аналитические зависимости для критериев Фишера и Дарбина - Уотсона. Предложена схема проверки значимости регрессии Деминга по критерию Фишера. Описана процедура исследования зависимости критерия Дарбина - Уотсона на экстремум. Полученные аналитические зависимости позволяют еще на начальном этапе моделирования достаточно полно охарактеризовать адекватность регрессии Деминга.
Библиографический список
1. Демиденко Е.З. Линейная и нелинейная регрессия. М.: Финансы и статистика, 1981. 303 с.
2. Deming W.E. Statistical adjustment of data. New York, Dover Publications, 2011. 288 p.
3. Тимофеев В.С., Щеколдин В.Ю., Тимофеева А.Ю. Идентификация зависимостей признаков стохастической природы на основе регрессии Деминга // Информатика и ее применения. 2013. Т. 7. Вып. 2. C. 60-68.
4. Shaoji Xu. A Property of Geometric Mean Regression. The American Statistician, 2014. Vol. 68. Iss. 4. P. 277-281.
5. Besalu E., de Julian-Ortiz J., Pogliani L. Ordinary and orthogonal regressions in QSAR/QSPR and chemistry-related studies. Match-Communications in Mathematical and in Computer Chemistry, 2010. No. 63. P. 573-583.
6. Kallner A. Comprehensive method comparisons: getting more from the data. Accreditation and Quality Assurance, 2014. Vol. 19. Iss. 6. P. 451-457.
7. Базилевский М.П. Аналитические зависимости между коэффициентами детерминации и соотношением дисперсий ошибок исследуемых признаков в модели регрессии Деминга // Математическое моделирование и численные методы. 2016. № 2 (10). С. 104-116.
References
1. Demidenko E.Z. Linejnaja i nelinejnaja regressija [Linear and nonlinear regression]. Moscow, Finansy i statistika, 1981, 303 p. (in Russian)
2. Deming W.E. Statistical adjustment of data. New York, Dover Publications, 2011, 288 p.
3. Timofeev V.S., Shhekoldin V.Ju., Timofeeva A.Ju. Identifikacija zavisimostej priznakov stohasticheskoj prirody na os-nove regressii Deminga [Deming regression-based identification of stochastic nature characteristics dependences]. In-formatika i ejo primenenija [Informatics and its applications]. 2013, vol. 7, no. 2, pp. 60-68. (in Russian)
4. Shaoji Xu. A Property of Geometric Mean Regression. The American Statistician, 2014, vol. 68, iss. 4, pp. 277-281.
5. Besalu E., de Julian-Ortiz J., Pogliani L. Ordinary and orthogonal regressions in QSAR/QSPR and chemistry-related studies. Match-Communications in Mathematical and in Computer Chemistry, 2010, no. 63, pp. 573-583.
6. Kallner A. Comprehensive method comparisons: getting more from the data. Accreditation and Quality Assurance, 2014, vol. 19, issue 6, pp. 451-457.
7. Bazilevskij M.P. Analiticheskie zavisimosti mezhdu kojefficientami determinacii i sootnosheniem dispersij oshibok is-sleduemyh priznakov v modeli regressii Deminga [Analytical dependences between the determination coefficients and the ratio of error variances of the test items in the Deming regression model]. Matematicheskoe modelirovanie i chislen-nye metody [Mathematical modeling and numerical methods]. 2016, no. 2 (10), pp. 104-116. (in Russian)
Критерии авторства
Базилевский М.П. получил и исследовал аналитические зависимости для критериев Фишера и Дарбина - Уотсона, предложил схему проверки значимости регрессии Деминга по критерию Фишера, провел обобщение и написал рукопись. Базилевский М.П. несет ответственность за плагиат.
Authorship criteria
Bazilevskiy M.P. obtained and studied the analytical dependences for Fischer and Durbin-Watson statistics, proposed a scheme for testing Deming regression significance by the F-test, summarized the material and wrote the manuscript. Bazilevskiy M.P. bears the responsibility for plagiarism.
Конфликт интересов
Автор заявляет об отсутствии конфликта интересов.
Conflict of interests
The author declares that there is no conflict of interest regarding the publication of this article.
Статья поступила 27.09.2016 г. The article was received 27 September 2016