Доклады БГУИР
Doklady BGUIR
2019, № 3 (121) 2019, No. 3 (121)
УДК 517.2+519.2
НОВЫЕ РЕЗУЛЬТАТЫ В АНАЛИЗЕ МНОГОМЕРНЫХ ДАННЫХ: МНОГОМЕРНО-МАТРИЧНЫЙ ПОЛИНОМИАЛЬНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
В С. МУХА
Белорусский государственный университет информатики и радиоэлектроники, Республика Беларусь
Поступила в редакцию 12 февраля 2019
Аннотация. Обсуждаются новые результаты, полученные в БГУИР в области анализа многомерных данных, применительно к многомерно-матричному полиномиальному регрессионному анализу. Приводится постановка задачи многомерно-матричного полиномиального регрессионного анализа, когда входные и выходные переменные функции регрессии являются многомерными матрицами, и функция регрессии представляется полиномом входной переменной. Приводится также система линейных многомерно-матричных уравнений, решение которой дает оценки параметров полиномиальной функции регрессии. Для многомерно-матричной аффинной функции регрессии получены распределения оценок параметров, позволяющие делать статистические выводы о параметрах функции регрессии и регрессионной модели в целом. Выполнено компьютерное моделирование, иллюстрирующее применение предложенной теории и подтвердившее ее правильность.
Ключевые слова: анализ многомерных данных, многомерные матрицы, регрессионный анализ, дисперсионный анализ, полиномиальная функция регрессии.
Abstract. The new results in the analysis of the multidimensional data received in the BSUIR in the area of the polynomial regression analysis are discussed. The statement of the problem of the regression analysis under conditions of the multidimensional-matrix input and output variables and the polynomial regression function is formulated. The solution to the problem in the form of the system of the linear equations relatively the unknown parameters is given. The properties and distributions of the estimations of the parameters of the affine regression function are investigated, that allow testing hypothesizes about the parameters. The computer simulation confirming the theory is performed.
Keywords: analysis of the multidimensional data, multidimensional matrices, regression analysis, dispersion analysis, polynomial regression function.
Doklady BGUIR. 2019, Vol. 121, ]Чо. 3, pp. 57-64 A new results in the analysis of the multidimensional data: multidimensional-matrix polynomial regression analysis V.S. Mukha
Введение
Анализ многомерных данных представляет собой область знаний, в которой исследуются явления, системы и процессы, описываемые наборами переменных. Начало исследований в этой области знаний в БГУИР положено публикацией статьи [1]. Развитие направления можно проследить по работам [2-4]. Особенностью исследований в БГУИР является использование многомерно-матричного математического подхода [2], когда переменные математических моделей данных рассматриваются как многомерные матрицы. Многомерно-матричный подход преодолевает недостатки, присущие классическим скалярному и векторно-матричному подходам, важнейшими из которых являются громоздкость, плохая формализованность при построении нелинейных математических моделей данных
и, как следствие плохой формализованное™, отсутствие алгоритмической общности [2]. В статье приводятся новые результаты, полученные в БГУИР в области многомерно-матричного полиномиального регрессионного анализа.
В настоящее время достаточно хорошо развита теория множественной (векторно-скалярной) регрессии [5]. Однако эта теория сталкивается с проблемой плохой формализованности при необходимости рассмотрения нелинейных по входным переменным функций регрессии. Скалярное представление функции регрессии многих переменных отрезком ряда Тейлора произвольной степени весьма громоздко, векторно-матричное представление отсутствует, а представление функции регрессии в виде скалярного произведения вектора параметров и вектора базисных функций, представляющего собой интерпретацию отрезка ряда Тейлора в скалярной форме, является плохо формализованным, так как отсутствует формула, определяющая вектор базисных функций. В любом из этих случаев не обеспечивается алгоритмическая общность, то есть работоспособность алгоритмов, реализующих теорию в виде компьютерных программ, для любого числа переменных и любых степеней аппроксимирующих полиномов. Исследования в области многомерного, в частности, векторно-векторного регрессионного анализа относятся, в основном, к линейной по параметрам и входным переменным функции регрессии и выглядят гораздо беднее [6]. Оценки параметров для этого случая в литературе известны, однако процедуры проверки гипотез отсутствуют.
Многомерно-матричный подход позволяет разрабатывать теорию регрессионного анализа, свободную от указанных недостатков, и в более общей форме, когда входные и выходные переменные функции регрессии являются многомерно-матричными. Такая форма представления функции регрессии включает классические множественную и многомерную регрессии. В работе [7] впервые дана постановка задачи многомерно-матричного полиномиального регрессионного анализа, получены система уравнений для оценок параметров функции регрессии и выражения для оценок параметров постоянной, аффинной и квадратичной регрессий. В работе [8] найдены распределения оценок параметров аффинной функции регрессии. Данная статья содержит полученные ранее результаты без их доказательств, не опубликованные ранее процедуру дисперсионного анализа для аффинной регрессии и результаты компьютерного моделирования. Это позволяет получить более полное представление о проблеме и степени ее разработки.
Постановка и решение задачи многомерно-матричного полиномиального регрессионного анализа
Пусть х = (хЬ - = Ц,72,...,Ь ]х = 1,т , / = 1,т , - д-мерн°-матричная
входная переменная некоторого объекта, д = (д.), г = (г1з г2з...3гр ) , . = 1,п1 , ..., г = 1,пр , -р -мерно-матричная выходная переменная этого же объекта, и выходная переменная д имеет стохастическую зависимость от входной переменной X так, что существует неизвестная условная плотность вероятности /(д | х) . Функцию регрессии д на х обозначим у = ф(х) и предположим, что плотность вероятности /(д | х) можно представить в виде д = ф(х) + £ , где £ = (£г) , г = (г1з/2,...,/р) - р-мерная случайная матрица с нулевым математическим ожиданием. Пусть для некоторых значений х1 = (х-1) , х2 = (х- 2) , ... хп = (х-п) входной
переменной х получены значения у0,1 = (Уо,г,\) , Уо,2 = (Уо,г,2) , Уо,п = (Уо,г,п) выходной переменной д в виде
Уо,ц=Ф(хц) + ^ , Д = 1 п , (1)
где = (zi ц) - значения случайной матрицы £ = (£г) (ошибки измерений), и по измерениям (х1зуо 1),(х2,уо 2),...,(хп,уоп) нужно получить математическую модель объекта в виде эмпирической функции регрессии у = ф(х) .
Пусть гипотетическая функция регрессии у = ф(х) является полиномом степени т
~ ~ k k переменной x = x — s xk, то есть
m m
y = Ф(x) = 2 0,k9(C(pM)~k) = 2 (~kC(kq,p)), m = 0,1, 2,..., (2)
k=0 k=0
ГДе C(p,kq) - матрщы коэффициентов, C(p kq) = (c. Л,..,Л) = (c. jt),
i = (i1,z2,..., ip), jk = (j1, j2,..., jk), симметричные относительно q -мультииндексов j1, j2,..., jk,
1 "
и ~ = x — Sxk , s k = — 2 x, . Матрицы C( pkq) и C(kq ) должны удовлетворять условиям
n ,=1
C( p, kq) = (C(kq, p)) ffp+kq'kq , C( kq, p) = (C( p,kq)) ^^ , ГДе Hp+kq,kq и Bp+kq, kq - ПоДстановКи
транспонирования типа «назад» и «вперед» соответственно [4].
Подставляя (2) в (1), получим математическую модель измерений в виде
mm
X** = 2 °М(C(p,kq)~k) + z, = 2 °М(~kC(kq,p)) + z,, , = 0П, т = 0,1,2,.... (3)
k=0 k=0
В предположениях модели измерений (3) требуется по измерениям (x1,yo1), (x2,yo 2), ...,
(xn , Уо, n ) полуЧить °ценки C( p,0) , C( p, q) , C( p,mq) неизвестных параметров C( p,0) , C( p, q)
n
C(p mq) методом наименьших квадратов: f = 2 0,p(z,z,) ^ min , где
,=1 C( p ,0),C( p ,q ),■■■, C( p ,mq )
mm
z, = (z,, ) = Уо,, — 2 0,kq (C( p,kq) xk ) = Уо,, — 2 0,kq (xkC(kq,p)) ; * = M , i = (i1, i*2 ,..., i p ) .
k=0 k=0
Решение сформулированной задачи следующее [8]: оценка C(p 0q) параметра C(p 0q) модели измерений (3) имеет вид 1
С( р,0д) = = п У Уо,Ц ' (4)
" Ц=1
а оценки С( р ^ параметров С(р к9) при к > 0 определяются из системы уравнений
т
У0к (С(к, ) = ^", " = , (5)
к=1
1 П __1 П 1 П 1 п
где я , = -У уоЦх" , " = 0,т; я к+" = -У хЦх"=-У хЦ+" , я , = -У х" , " = 0,т .
ух" „ -^Ц Ц ' ' ' хк+" ¿—1 Ц Ц ¿—1 Ц ' х" „ Ц ' '
" Ц=1 " Ц=1 " Ц=1 " Ц=1
В статье [7] на основании системы уравнений (5) получены выражения для оценок параметров постоянной, аффинной и квадратичной функций регрессии.
Аффинная функция регрессии, распределения оценок параметров
В статье [8] выполнен более детальный анализ аффинной многомерно-матричной функции регрессии
У = С(р,0д) + ,4 (С(р,д)~ц ) = С(0д,р) + ,4 (~цС(я,р)) . (6)
Модель измерений в этом случае выглядит следующим образом:
Уо,ц = +0,9 (С(РА)~Ц) + = С(0,,р) +0,9 (~цС(,,р)) + , Ц = 1П, (7)
Оценка С( ^ параметра С( ^ функции регрессии (6) определяется выражением
С р,9) = 0,9 М^)"1), (8)
1 п 1 п
где -V = " 2 Уо,,> = = - 2 ' 2 Г1 - матРиЦа, (0, -обратная к матрице ,
п ,=1 п ,=1
а оценка С(р 0q) параметра С(р 0д) имеет вид (4).
Относительно оценок параметров аффинной функции регрессии (6) справедлива следующая теорема.
Теорема 1. Если матрицы ошибок измерений г, в модели измерений (7) имеют математическое ожидание Е(г,) = 0, дисперсионную матрицу D(г,) = D(£) = а2Е(0, р) , где Е(0,р) - (0,р) -единичная (п1 х••• хпр хп1 х•••хпр) -матрица, и независимы по , , то математические ожидания оценок С( ^ и С( определяются выражениями:
Е(С(р^)) = С(р,q); (9)
Е (С( p,0q)) = С( p,0q), (10)
а их ковариационные и дисперсионные матрицы - выражениями:
_2
С0У(С(,р),С(= —D(2), D(2) = (<) =
п
^ ^ 0 иначе^
2
D(C(М)) = ——DD(1) = ( /) = ф', (11)
п
_2
D(C(^ = еоу(С(р^),С(^ = D(0) = = пЕ(0,р) , (12)
соу(С(0^p),С(р,ч)) = 0, 2^ - элемент матрицы С^ГЧ • = ^•2,-,'р)> • = ( ,---/р .1 = Сь ./2 X .1' = С/2, /). Если ошибки измерений распределены
по нормальному закону, то оценки С( q), С( 0q) также распределены по нормальному закону
с математическими ожиданиями (9), (10) и дисперсионными матрицами (11), (12) соответственно.
В регрессионном анализе дисперсия ошибок измерений а2 обычно неизвестна, и требуется по измерениям получить ее оценку б2 . Оценкой параметра а2 может служить статистика
1 п
62 = ГЕ(0 ) *(2(Уо,,-у,)2), (13)
п • гтЕ (0, р) ^
г
где Е(0, р) = ^ Щ - след матрицы Е(0, р) .
•=1
Теорема 2. В условиях теоремы 1 (кроме условия нормальности ошибок измерений)
математическое ожидание оценки б2 (13) определяется выражением
2) 2 б 2(1 + 1тЕ (0, q)) а2 (13) Е(б ) = б--, то есть оценка б (13) асимптотически несмещенная.
п
пб2 1
Исправленная оценка б,2 =-=-&(2 0 0( уо,, - У,, )2)
1 п -1 - Гг(Е(0, я) 1тЕ(0,р)(п -1 - 1тЕ(0,q)) ^ ^ 7
параметра б2 является несмещенной ( Е(б2) = б2 ). Если ошибки измерений г, имеют нормальное распределение, то статистика
v = ШтЕ (0, р)б2 = ШтЕ (0, р)(п -1 - 1тЕ (0, q))а12 (14) б2 б2
распределена по закону хи-квадрат с trE(0, p)(n -1 - trE(0, q)) степенями свободы,
p q „ „
где trE(0, p) = П П, trE(0, q) = П mj • Оценки в2 (13), C(pM) (4) и C((8) попарно
¿=1 j=i
независимы.
В [8] рассмотрены также некоторые статистики, связанные с полученными оценками параметров. Для возможности рассмотрения отдельных элементов матриц оценок вводятся
более простые обозначения: C(0) = (-(0)) = C( ^ , C(0) = (-(0)) = C( ^, C(1) = (cg) = C( ,
C(1) = (ci(1;)) = C(p,q) , j = (il,i2,...,ipК j = (j1, j2,•••, jq) • Статистики
c-(°) - c(°) _ ^(1) - c(1) _
u(0) = --vn, ug =-j—LLjn, j = (¿1, ¿2 ,•••, i p ), j = (j j*2 ,•••, jq ), (15)
в 4dS,;J
распределены по нормальному закону N(0,1) , а статистики
c(0) - c(0) Я(1) - С(!) ,_
Г = Vn , tg = ',j ¿,j л/n , i = (¿1, ¿2 ,•••, î p ), j = (j j*2 ,•••, jq ), (16)
1 -in--г, j,,, j
имеют распределение Стьюдента с ^Е(0, р)(п -1 - (0, q)) степенями свободы.
Оценка отклика у = (уг) = С(+(С(рч-рс), г = (/1зг2,...,гр) имеет математическое
ожидание вида Е(у) = а(у) = (а(у)) = С(р0ч)+0,9(С(р ), г = (г1,12,...,1 ), то есть является
несмещенной. Оценка у распределена по нормальному закону со средним значением
а2 ^2
а(у-1 = (а( у-1) и дисперсионной матрицей В (у) = — В( у-1 = — ), где
п п
В(у) = (й<у) = Е (0, р)+м (х ^ (В (2)~)) . Нормированные статистики
у - а(у) ,—
и(у) , г = (г1, г2,-,г'р ), (17)
распределены по нормальному закону N(0,1) . Статистики
у - а(у) ,—
<(у) = ^ГТГ^, г = (¡1,4,-, гр), (18)
имеют распределение Стьюдента с ^Е(0, р)(п -1 - (0,9)) степенями свободы.
Выполнив дополнительно k измерений уэ 1, уэ 2,..., уэ k в некоторой точке х, можно получить
~2 2 ~2 1 k 00 „ 2 независимую оценку а2 0 параметра а2 по формуле а2 0 =-&(У °'°(уЭ|а - Уэ)2) ,
trE(0, p)(k -1)
1 k
^=1
2
где уэ = — У уэ ^ . Оценка а2 0 является несмещенной, а статистика
k 1=1
ж = (k -1) (0. р)а2,0 (19) а2
распределена по закону хи-квадрат с (к - 1)^гЕ (0, р) степенями свободы. В силу
независимости статистик V и w статистика
а2
Р = ^ (20)
аэ ,0
имеет распределение Фишера с 1тЕ(0, р)(п -1 - 1гЕ(0,9)), 1гЕ(0, р)^ -1) степенями свободы.
Статистики (14), (15), (16)-(19) и их распределения используются для построения доверительных интервалов и проверки гипотез для параметров многомерно-матричной аффинной эмпирической регрессии, а статистика (20) - для проверки гипотезы об адекватности математической модели, подобно тому, как это выполняется в классическом регрессионном анализе [5, 9].
Дисперсионный анализ для аффинной функции регрессии
Приведем также не опубликованную ранее процедуру дисперсионного анализа для проверки гипотезы о том, что параметр С(р ,) аффинной функции регрессии (6) равен
нулю, то есть гипотезу вида {Н 0, Н,}, где
Но: С( р,,) = 0, (21)
а альтернатива Н1 : С(р ,) ^ 0 состоит в том, что хотя бы один из элементов матрицы С(р , не равен нулю. Для проверки этой гипотезы применяется метод дисперсионного анализа, основанный на анализе так называемых сумм квадратов Щ, К,2, К2 :
К = ^(у^-У,)2) = ггЯ1 Щ = 2 (УО,, - У, )2, где уо,= С(р,о,) +0- (С(м)х,) + г,,
,=1 ,=1
У, = С( р,о,) +0,? (С( р.,) х,); К2 = К (2 (Уо,, - ^ )2) = * (2 Уо2,) = Щ = 2 (Уо,, - ^ )2;
,=1 ,=1 ,=1
К2 = <г(2(У, - ^у)2) = ггЯ2, К2 =2(У, - ^У)2.
^=1 ^=1
Справедлива следующая теорема.
Теорема 3. Для сумм квадратов К,2, Щ и К2 выполняется равенство К,2 = Щ + К2 . В условиях теоремы 1 (с условием нормальности ошибок измерений) случайная величина К 02 /а2 имеет распределение хи-квадрат с (0, р)(п -1 - (0,,)) степенями свободы.
При выполнении гипотезы Н0: С( ) = 0 случайные величины Щ /а2, К,2/а2
и К2/ а2 = (К,2 - К2)/ а2 имеют распределения хи-квадрат с (0, р)(п -1 - (0,,)) ,
(0, р)(п -1) и (0, р)гЕ(0,,) степенями свободы соответственно и независимы.
2 2 2 к, - К / К
Отношение г =- - имеет /-распределение
1тЕ(0, р)ггЕ(0,,)/ 1тЕ(0, р)(п -1 - 1тЕ(0,,))
(Фишера) с (0,р)гЕ(0,,), (0, р)(п -1 - (0,,)) степенями свободы.
Для проверки гипотезы (21) используется стандартная процедура проверки гипотезы на
основе правостороннего критерия значимости.
Компьютерное моделирование
Для проверки предложенных алгоритмов моделировалась аффинная функция регрессии (6) с р =, = 1 , то есть с векторными (в векторно-матричной терминологии) входной
и выходной переменными х = (х,, х2) , у = (у,,у2) . Математическая модель измерений (7) в этом случае имеет вид
Уо,, =а+01 (рх) + , ,= 1П, (22)
где г, = (г,,,г2, ) . Измерения моделировались на сетке значений входных переменных 0 < х, < 5, 0 < х2 < 5 с шагом 1 по каждой переменной, что дает выборку размером п = 36 . Графики эмпирических функций регрессии у, = у, (х,, х2), у2 = у2 (х,, х2) при а = (1,2),
р=
( 0 0 ^ v0 0,
, а2 = 5 представлены на рисунке, на котором также в виде точек изображены
измерения, по которым получены данные функции регрессии.
Эмпирические функции регрессии для аффинной многомерной регрессии (22)
Как видно из рисунка, эмпирические функции регрессии не являются горизонтальными плоскостями, то есть визуально мы можем сделать вывод, что существует линейная связь между векторами у = (у1, у2) и х = (х1з х2) . Однако применение изложенных выше процедур проверки гипотез, включая дисперсионный анализ, показывает, что такой связи нет, она признается незначимой. Это соответствует исходным данным, так как матричный параметр Р , определяющий линейную связь в истинной функции регрессии, является нулевым. Таким образом, результаты моделирования подтверждают правильность изложенной теории.
Заключение
В статье обобщены результаты, полученные в БГУИР в регрессионном анализе. Рассмотрены неудовлетворенности, существующие в настоящее время в регрессионном анализе применительно к многомерным данным: громоздкость, плохая формализованность, отсутствие алгоритмической общности. По мнению автора, имеющиеся неудовлетворенности были устранены с помощью многомерно-матричного математического подхода. Полученные теоретические результаты и их компьютерные программные реализации не имеют ограничений на мерность и размеры данных, так что единственным ограничением для их использования могут быть лишь вычислительные мощности, которые, однако, растут в настоящее время с огромной скоростью.
Список литературы
1. Муха В.С. Многомерно-матричные производные и разложение функции нескольких переменных в ряд Тейлора // Автоматика и вычислительная техника. 1987. Вып. 16. С. 65-71.
2. Муха В.С. Анализ многомерных данных. Минск: УП «Технопринт», 2004. 368 с.
3. Муха В.С. Анализ многомерных данных: проблемы, состояние, перспективы // Докл. БГУИР. 2004. № 1 (5). С. 38-49.
4. Муха В.С. Математические модели многомерных данных // Докл. БГУИР. 2014. № 2 (80). С. 143-158.
5. Вучков И.Н., Бояджиева Л., Солаков Е. Прикладной линейный регрессионный анализ. М.: Финансы и статистика, 1987. 238 с.
6. Зельнер А. Байесовские методы в эконометрии. М.: Статистика, 1980. 438 с.
7. Муха В.С. Многомерно-матричный полиномиальный регрессионный анализ. Оценки параметров // Весщ НАН Беларуси 2007. № 1. С. 45-51.
8. Муха В.С. Многомерно-матричный линейный регрессионный анализ: распределения и свойства оценок параметров // Весщ НАН Беларуси Сер. фiз.-мат. навук. 2014. № 2. С. 71-81.
9. Муха В.С. Статистические методы обработки данных: учеб. пособие. Минск: Изд. центр БГУ, 2009. 183 с.
References
1. Muha V.S. Mnogomemo-matrichnye proizvodnye i razlozhenie funkcii neskol'kih peremennyh v rjad Tejlora // Avtomatika i vychislitel'naja tehnika. 1987. Vyp. 16. S. 65-71. (in Russ.)
2. Muha V.S. Analiz mnogomernyh dannyh. Minsk: UP «Tehnoprint», 2004. 368 s. (in Russ.)
3. Muha V.S. Analiz mnogomernyh dannyh: problemy, sostojanie, perspektivy // Dokl. BGUIR. 2004. № 1 (5). S. 38-49. (in Russ.)
4. Muha V.S. Matematicheskie modeli mnogomernyh dannyh // Dokl. BGUIR. 2014. № 2 (80). S. 143-158. (in Russ.)
5. Vuchkov I.N., Bojadzhieva L., Solakov E. Prikladnoj linejnyj regressionnyj analiz. M.: Finansy i statistika, 1987. 238 s. (in Russ.)
6. Zel'ner A. Bajesovskie metody v jekonometrii. M.: Statistika, 1980. 438 s. (in Russ.)
7. Muha V.S. Mnogomerno-matrichnyj polinomial'nyj regressionnyj analiz. Ocenki parametrov // Vesci NAN Belarusi. 2007. № 1. S. 45-51. (in Russ.)
8. Muha V.S. Mnogomerno-matrichnyj linejnyj regressionnyj analiz: raspredelenija i svojstva ocenok parametrov // Vesci NAN Belarusi. Ser. fiz.-mat. navuk. 2014. № 2. S. 71-81. (in Russ.)
9. Muha V.S. Statisticheskie metody obrabotki dannyh: ucheb. posobie. Minsk: Izd. centr BGU, 2009. 183 s. (in Russ.)
Сведения об авторе
Муха В.С., д.т.н., профессор, профессор кафедры информационных технологий автоматизированных систем Белорусского государственного университета информатики и радиоэлектроники.
Information about the author
Mukha V.S., D.Sci, professor, professor of department of automated data processing systems of Belarusian state university of informatics and radioelectronics.
Адрес для корреспонденции
220013, Республика Беларусь,
г. Минск, ул. П. Бровки, 6
Белорусский государственный университет
информатики и радиоэлектроники
тел. +375-17-293-88-23;
e-mail: [email protected]
Муха Владимир Степанович
Address for correspondence
220013, Republic of Belarus, Minsk, P. Brovka st., 6 Belarusian state university of informatics and radioelectronics tel. +375-17-293-88-23; e-mail: [email protected] Mukha Vladimir Stepanovich