УДК 514.172
И.В. Пономарев, В.В. Славский
О геометрической интерпретации метода наименьших квадратов*
I. V. Ponomarev, V. V. Slavsky
About Geometrical Interpretation of the Least Squares Method
В данной статье рассматриваются два метода построения линейной регрессионной модели. Приводится геометрическая интерпретация функционала качества. Доказывается неравенство, связывающее эти функционалы.
Ключевые слова: линейная регрессия, метод наименьших квадратов, объем симплекса.
In this article two methods of construction linear regression models are considered. Geometrical interpretation functional qualities is resulted. The inequality connecting these functionals is proved.
Key words: linear regression, method of the least squares, simplex volume.
Пусть Дк+1 - к + 1-мерное арифметическое евклидово пространство. Пусть П - конечное подмножество точек:
П = {(хц,Хг2,...,Хгк ,Уг] : г = 1, . . . , N} ,
которое можно рассматривать как результат N экспериментов. В приложениях часто возникает вопрос о существовании функциональной зависимости между переменными у и Х1, Х2, ... ,Хк.
Наиболее простая зависимость - линейная, которая в классическом случае имеет вид
yi а 1 Хг 1 + ... + акХгк + £i,
где yi - значение зависимой переменной; х^ - значение ^’-й независимой переменной; € Д - параметры модели; £-1 - случайная ошибка; ] = 1,..., к,
г = 1,...^.
Обозначим
yi
,X
yN
xii xi2
xii
xNi xN2 ai
xik
xNk
xNi
є=
І єГ
\^N /
Тогда модель линейной регрессии будет иметь
вид
у — X а + £.
В статистике разработаны мощные методы для анализа множества П на линейную зависимость основанные на Евклидовой норме.
* Работа выполнена при финансовой поддержке ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг. (гос. контракт №02.740.11.0457).
Классическим подходом к оценке параметров модели является метод наименьших квадратов, суть которого заключается в минимизации функционала
*2 = min(y — Xa)T (y — Xa).
(1)
Теорема 1 (теорема Гаусса-Маркова).
Предположим, что
1. у = X а + £;
2. X - детерминированная N х к матрица, имеющая максимальный ранг к;
3. М(£) =0, Б(£] = а2Ем.
Тогда оценка метода наименьших квадратов наиболее эффективна (в смысле наименьшей дисперсии) в классе линейных (по у) несмещенных оценок.
Уравнение гиперплоскости, на котором достигается (1), назовем уравнением Ь2 регрессии:
yi aixii + ... + akxki ,
(2)
где ау — оценка метода наименьших квадратов для коэффициента а^ уа — прогнозные значения зависимой переменной.
В векторной форме равенство (2) будет иметь вид
у = Ха, (3)
где а — оценка метода наименьших квадратов векторов параметров; уа — прогнозные значения вектора зависимых переменных.
Рассмотрим геометрическую интерпретацию метода наименьших квадратов. Представим у,Х1,...,Хк как векторы в . Эти векторы линейно независимы (в противном случае нет смысла ставить задачу об оценке параметров),
y
x=
a=
т.е. образуют (к + 1)-мерное пространство П. По предположению теоремы Гаусса-Маркова, векторы Х1 , . . . , Хк также линейно независимы и порождают в пространстве П к-мерное подпространство п. Вектор у = Xа - ортогональная проекция вектора у в подпространство п. Соответственно, е = у — у - вектор, ортогональный подпространству п. Следовательно, функционал
2 Т
а2 = еТе равен квадрату расстояния между у и п.
Квадрат этого расстояния может быть вычислен с использованием определителя Грама [1]
С(х1,х2, ■ ■ -,хк,у) С(хь Х2,... ,Хк] ’
(4)
С(хь Х2,... ,Хк ]
i1 ?•••?ik
x1il x2il
ХН2 Х2І2
Х 1i к х2^
Хк^
ХkІ2
хНк
(5)
где г1,..., гк независимо изменяются от 1 до N. Следствие 1.
С(*......= ^....
к!
С(хь... ,Хк,у]
(к!]2
^1 ?•••?ifc
Е
а2 = к
(й+1)! , 2 *1
(6)
(рис.), т.е.
02
^2 _ Д . ________________________ВгВ2Вз_________________
2 (.гч - хо )2 + (х2 - х3)2 + (х3 - .гч)2'
где С(х1, х2, ..., Хк] — определитель Грама системы векторов Х1, Х2,..., Хк.
Теорема 2 [1]. Определитель Грама может быть вычислен по формуле
где и ^••^ — объемы симплексов
с вершинами {А^ (х^,..., х^к]}я=1 к и соответственно {в4а(х4аЬ... ,Х4ак,у*а]}s=1,•••,k+1.
Доказательство непосредственно следует из теоремы 2 и формулы ориентированного объема симплекса [2,3].
Теорема 3. Функционал метода наименьших квадратов может быть вычислен по формуле
Пример парной регрессии
Таким образом, геометрический смысл величины а2 сводится к отношению суммы квадратов объемов к + 1-мерных симплексов (к - число регрессоров) и суммы квадратов проекций гиперграней этих сиплексов на гиперплоскость, образованную регрессорами.
В работе [4] в качестве основы берется Чебы-шевская норма равномерного отклонения.
Определение 1. Минимальной шириной множества П вдоль переменной у назовем число
= 2 • тт { тах |х„ — а^х.;.» — 6| V . аа ,8= ;Ь | І=1,•••,NI ^ ^ " ІS '
(7)
С геометрической точки зрения величина ато равна минимуму ширины «полосы», ограниченной двумя параллельными гиперплоскостями и содержащей множество П, ширина берется вдоль оси У в Дк+1 (т.е. длина пересечения полосы с осью У).
Уравнение гиперплоскости, на котором достигается (7), назовем уравнением Ьж регрессии:
у = Е а°Хя — 6°
(8)
Доказательство. Справедливость теоремы следует из равенства (4) и следствия 1.
Проиллюстрируем результат теоремы 3. Пусть на плоскости ХУ даны три точки В^Х^у!], В2(х2,у2], Вз(Хз,уз]. Функционал качества уравнения для регрессии вида у = ах+6, построенного методом наименьших квадратов, пропорционален частному квадрата площади треугольника и суммы квадратов длин проекций его сторон на ось X
или уравнением регрессии относительно Чебы-шевской нормы.
Теорема 4. Справедливо неравенство, связывающее а2 и ато
02_ (к + 1)\ ■ N
аоо ~ V 4к2 '
2
а
2
2
1
il
Доказательство. Очевидно, что для произ- Суммируя, получим:
вольных *1,..., гк+1 справедливо неравенство:
V- п2 < V2
1 1 \ - тг / > *1,--->*)о+1 — 4А:2 к\ / > ч,---Лк'
^,•••,^ + 1
к
]1,...,Ік
(к!]2 2
где 1л,... ,1ъ - всевозможные сочетания из номе- —.—'— \ ПА . <
(£• + IV 2^! ии,-,1к+1 -
ров *1, . . ., *к+1. (к + 1]!,
*1,...,*к+1
Возведем последнее равенство в квадрат 2 2
^ аооц, , + т/2
2 - Ак2^ ) /г! (/г+1)!.Е й,-,ч=-
и2 . < . [ у- уч . #
il— ^к2 I _ ^•••, М Воспользовавшись результатами теоремы 3,
К31,...,3к
получаем искомое неравенство:
Согласно неравенству Коши-Буняковского
\2 о с^2 ^ (Л: Н- 1)! * АГ
Е ^ <пТ.4 имеем: -^Г - ^2
1=1 / І=1
1'л....»„<зр-(*+и- Е >5......................*- —<і/№+1);'Л'.
іі,...,ік V 4к2
Библиографический список
1. Шилов Г.Е. Математический анализ (конечномерные линейные пространства). — М., 1969.
2. Берже М. Геометрия: пер. с франц. — М., 1984. - Т. 1.
3. Берже М. Геометрия: пер. с франц. — М.,
1984. - Т. 2.
4. Пономарев И.В., Славский В.В. Равномерно нечеткая модель линейной регрессии // Вестник Новосибирского государственного университета. Сер.: Математика, механика, информатика. — 2010. — Т. 10, №2.