Научная статья на тему 'Точные и асимптотические знаковые тесты для параметров нелинейной квантильной регрессии с Марковскими шумами'

Точные и асимптотические знаковые тесты для параметров нелинейной квантильной регрессии с Марковскими шумами Текст научной статьи по специальности «Математика»

CC BY
174
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗНАКОВЫЕ СТАТИСТИЧЕСКИЕ ПРОЦЕДУРЫ / НЕЛИНЕЙНАЯ РЕГРЕССИЯ / КВАНТИЛЬНАЯ РЕГРЕССИЯ / МАРКОВСКИЙ ПРОЦЕСС / ПРОВЕРКА ПРОСТЫХ ГИПОТЕЗ / ТОЧНЫЕ ТЕСТЫ / SIGN-BASED STATISTICAL PROCEDURES / NON-LINEAR REGRESSION / QUANTILE REGRESSION / MARKOV PROCESS / FINITE-SAMPLE TEST

Аннотация научной статьи по математике, автор научной работы — Сиренко Михаил Андреевич, Тарасенко Петр Феликсович

Одним из привлекательных свойств знаковых статистических процедур является возможность строить точные тесты для проверки простых гипотез о параметрах регрессионных моделей. В данной работе этот подход распространяется на случай нелинейной модели с зависимыми шумами. Рассматривается модель многоквантильной регрессии, что позволяет совместно проверять гипотезы как о параметрах регрессии, так и о параметрах масштаба шума.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Finite-sample and asymptotic sign-based tests for parameters of non-linear quantile regression with Markov noise

Sign-based statistical procedures are known to be more robust to outliers than least squares and ability to control precise significance level for finite samples when testing simple hypothesis. In this paper, the sign-based approach is extended to the case of non-linear model with dependent noise. The model of multi-quantile regression is considering, which allows to test hypotheses both on the parameters of the regression y t = g t (0) + e t, t = 1, n, and the parameters ofthe noise e t, which forms a stationary Markov process of order (r-1). According to that, the signs of observations are calculated with respect to a set of quantiles (at specified levels) of one-dimensional distribution of et. The quantiles depend on the unknown parameter ц. For example, in a symmetric two-quantile regression, the quantiles (-ц) and ц correspond to levels ofp and 1-p, where p is given, and ц is unknown. For the three-quantile regression, the quantiles (-ц), 0, ц correspond to levels of p, 1/2 and 1-p. In both cases, the parameter ц is a scale parameter of noise. According to the sign-based approach, the residuals are substituting with indicators of their belonging to the interquantile intervals s = (si,...,s n), where s t takes a finite number of values. The unknown parameters in this scheme are U = (0',ц',Q 1)', where the vector Q contains linearly independent r-dimensional joint probabilities of the states of generated by process of indicators {s t}. Since the problem is considering in a nonparametric setting, then each fixed value of parameters ц and Q corresponds to a class of finite-dimensional distributions of the initial process e t. However, we can show that for any continuous parameterization of finitedimensional distributions, all the derivatives of the likelihood of indicators P(s | u) are expressed in the same way. In the problem of testing a simple hypothesis H 0 : U = U 0 it gives the opportunity to build a test based on the principle of maximal likelihood ratio. In this paper, we consider the problem of calculating the critical values to provide the desired significance level with any accuracy for finite samples, as well as the critical values based on the asymptotic distribution of the test statistic. The obtained tests can be used as a basis for estimating the parameters и by the principle of maximal p-values, as well as for the development of tests for linear hypothesis.

Текст научной работы на тему «Точные и асимптотические знаковые тесты для параметров нелинейной квантильной регрессии с Марковскими шумами»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2015 Управление, вычислительная техника и информатика № 3 (32)

УДК 519.2

DOI 10.17223/19988605/32/7

М.А. Сиренко, П.Ф. Тарасенко

ТОЧНЫЕ И АСИМПТОТИЧЕСКИЕ ЗНАКОВЫЕ ТЕСТЫ ДЛЯ ПАРАМЕТРОВ НЕЛИНЕЙНОЙ КВАНТИЛЬНОЙ РЕГРЕССИИ С МАРКОВСКИМИ ШУМАМИ

Одним из привлекательных свойств знаковых статистических процедур является возможность строить точные тесты для проверки простых гипотез о параметрах регрессионных моделей. В данной работе этот подход распространяется на случай нелинейной модели с зависимыми шумами. Рассматривается модель многоквантильной регрессии, что позволяет совместно проверять гипотезы как о параметрах регрессии, так и о параметрах масштаба шума.

Ключевые слова: знаковые статистические процедуры; нелинейная регрессия; квантильная регрессия; Марковский процесс; проверка простых гипотез; точные тесты.

Знаковые статистические процедуры позволяют строить тесты для проверки простых гипотез о параметрах линейных моделей в непараметрической постановке задачи. Это объясняется тем, что при гипотезе распределение знаков невязок известно, поэтому такие тесты позволяют точно контролировать уровень значимости. Знаковые методы сначала были разработаны для меданной регрессии [1], т.е. для частного случая квантильной регрессии, для которой намного раньше были развиты методы, основанные на минимизации взвешенных модулей невязок (см. основополагающую работу [2]). В частности, на основе метода наименьших модулей в [3] были предложены методы анализа симметричной двухкван-тильной регрессии. Позднее были предложены знаковые процедуры для квантильной регрессии [4, 5], в том числе для зависимых шумов [6].

В данной работе рассматривается ряд обобщений знакового подхода к проверке простых гипотез для параметров квантильной регрессии. Во-первых, мы рассматриваем случай нелинейной модели. Во-вторых, рассматривается многоквантильная регрессия, поэтому от знаков невязок мы переходим к индикаторам их попадания в межквантильные интервалы, как это предлагается в [7]. В-третьих, рассматриваются зависимые наблюдения, когда ошибки образуют стационарный Марковский процесс с дискретным временем.

Рассмотрение методов проверки простых гипотез является первым шагом для построения процедур оценивания параметров на основе подхода, который, как принято считать, впервые был использован в статье [8], а также для построения процедур проверки линейных гипотез, которые более интересны для практических приложений.

1. Постановка задачи

Рассмотрим нелинейную модель регрессии с зависимыми случайными ошибками вида

У = gt (0) + 81, t =1 n, (1)

где gt (0) - заданная при каждом t непрерывно дифференцируемая функция от параметров

0 = (01,...,0Г) е Rr . Случайные отклонения 8t образуют стационарный Марковский процесс (г - 1)-го порядка. Одномерные функции распределения P{8t < x} неизвестны и не обязательно совпадают при разных t, но имеют несколько совпадающих квантилей заданных уровней.

Подробнее: пусть конечный набор смежных интервалов С1 (д),...,CK (д) образует разбиение R1,

при этом P {8, е C (д)} = рк, k = 1,K, где вероятности pk заданы. Параметры д определяют масштаб одномерного распределения шумов, так как влияют на ширину межквантильных интервалов. Границы

66

интервалов Ck (р) = (ck_ (р), ck (p)^ (угловая скобка может означать либо открытую, либо закрытую границу) зависят от неизвестных параметров р линейно ск (р) = ak + dkр, k = 1, K _ 1, с0 (р) = -<х>, ск (Р ) = +со. При этом ак и dk заданы, а допустимые параметры образуют множество

{р: (k _ dk_i) Р + (k _ ak_i )> 0, k = 2, K _1} .

Наиболее интересными являются самые простые случаи симметричной двухквантильной и трех-квантильной регрессии, когда единственный параметр р равен половине интерквантильного размаха. Для двухквантильной регрессии K = 3, с1 (р) = _р, с2 (р) = р, p1 = p3 = p, p2 = 1-2p. Для трехквантильной

регрессии K = 4, с1 (р)=-р, с2 (р) = 0, с3 (р)= р, p1 = p4 = p, p2 = p3 = (1-2p)/2. В эту же модель укладывается одноквантильная регрессия, при этом параметры р отсутствуют, K = 2, с1(р) = 0, p1 = p, p2 = 1-p. Во всех трех моделях вероятность p задана.

Введем обозначения для совместных вероятностей:

Р(г} (kl,...,^ ) = Р{е,_+1 е Ck1 (р),...,е, е Cki (р)}, I = 1,г, kl,...,kr =1,K, (2)

Р(l) = {(l)((,...Л):k1,...,к, = 1K}, l = }.

В частности, Р(1) = {p1,...,pK} = {P(1)(1),...,P(1)(K)} .

-(r) -(r)

Неизвестными параметрами являются параметры 0, р и набор Pv ;, причем в составе Pv ; есть

линейно зависимые вероятности. Обозначим через Q вектор, образованный некоторым набором линей-

v. Й (г )

но независимых вероятностей из состава P 7.

Рассмотрим структурные преобразования j (/1,...,//) = 1 + Zj=1(ij- _ 1)Kl_J , l = 1,г, которые осуществляют развертку г-мерного набора вероятностей P(l^ в одномерный вектор P(l^ по правилу [P(l Чl ft,.. i) = P(l)(i1,...,ii). Здесь и далее [A], означает j-ю строку матрицы или j-й элемент вектора. С помощью структурной матрицы G и вектора D можно осуществить переход от свободных вероятностей Q к P - D + GQ . Это преобразование может учитывать не только условие нормировки, заданные одномерные вероятности, условия стационарности, но и симметрию конечномерных распределений, если это необходимо. Кроме того, далее будем использовать структурные матрицы Fi , i = 1, г _ 1, которые обеспечивают переходы к вероятностям меньшего порядка P(i) = FP(i+1).

В этих условиях, обозначив истинные параметры через и = (0 , р ,Q ) , а гипотетические через

и0 = (00,р0^0) , сформулируем задачу проверки простой гипотезы Н0 о параметрах моделей (1) и (2) против сложной альтернативы Н1:

Н : и = U0, Н1: и ф U0 • (3)

В качестве признаков для построения статистических процедур будем использовать индикаторы S = (s1,...,sn) - номера интервалов, в которые попадают невязки yt _ gt (00), т.е.

st = st (^ р0 ) = s (yt _ gt (00 ), р0 ), где s (u, р0 ) = k для u е Ck (р0 ) .

Тест для проверки гипотез (3) построим по принципу максимума отношения правдоподобия, отбирая в критическую область те параметры, которые доставляют наибольшие значения нормы его градиента в гипотетической точке:

V и L(s|u, и0)|

У uP (s| и) P (( U0 )

u=u0

(4)

Здесь L (s |u, u0 ) = P (s| u) / P( s| u0 ) - функция отношения правдоподобия индикаторных признаков^

67

2. Градиент правдоподобия индикаторных признаков

При поиске выражений для правой части в равенстве (4) воспользуемся представлением

Р ( Sn\ U) = P ( | U) P(s2 |—1.u)-- P(—r-1 —1. s2> — > —r-2.и) П 1=r P ( — |—-r+1..... — -1 .U) . (5)

чтобы получить разложение Тейлора P(— | и) = P(— | и0) + VUP(— | и0) (и - и0 ) + о 01и - ио11)- Для данного

разложения требуется непрерывно дифференцируемая параметризация семейства конечномерных распределений по ц и Q. Для любой такой параметризации имеем

P(—1 |и) = P(s |uq) + V'uP(s1 |uq )(и - Uq) + о(| |и - Uq ||).

P(—2 |—1. U) = P(—2 |—1. U0) + V'uP(—2 |—1. U0 )(U - U0) + 0(||U - U0 ||), ... (6)

... P(— | —-r+1 ....,—-1 .U) = P(—t |—-r+1.....—-1.U0) + V'uP(—t | —-r+1.....—-1.U0) X

X (U - U0) + 0(||U - U0 ||). t = r.n.

Подставив (6) в (5). после перегруппировки получим

P(—|U) = 1 , f V'uP(—1 |Uq) , VUP(—2 —1.U0) + , V'uP(—r-1 Is1.....Sr-2.U)) +

P(— Uq)

+zn

P(—1 |U0) P(—2 —1.U0)

V'uP(st|st-r+1.....—-1.Uo) ^

P(—t —-r+1.....—-1.U0)

P(sr-1 |s1..... Sr-2. U0)

X (U - Uq) + 0(|U - Uq ||).

Отсюда

V T(-| ) VuP(—1 k) + VuP(—2 |—1.Uq) + + VUP(sr-1 |—r-2.....—1.Иo) + y n V„PC?t|^1.-.—-1.U

U U’Uq Iu=Uq P(-1 |uq) P(-21-1. U0) P(-r-1 l-r-2.....-1.Uo) t=r P(-t|-1.....-t-1.Uo) '

Последнее выражение можно преобразовать таким образом. чтобы градиент отношения правдоподобия был выражен через совместные вероятности порядков r и r-1:

. VUP(— +1.....— |u0 ) VUP(— +1.....—-1 |u0)

Vu L(-|u.Uq)|u=u =SП=г I/ -------------г-V--2П=г+г W r+1 t 11 0;

(7)

P (-^r+1... — |U0 ) t r+ P (-^r+1... -t-1 |U0 )

Перейдем к задаче определения градиентов VU P(-t_r+1.....-t|и) и VU P(-t_r+1.....-t_Jи) . Для

V I ' Iu=Uq ' 1 ' Iu=Uq

этого необходимо получить производные по каждому из входящих в и параметров. Несмотря на то что заданным значениям и соответствует целое множество распределений на P (—| и). следующая теорема показывает. что для произвольной непрерывно дифференцируемой параметризации распределения P (—| и) по параметрам ц и Q вид градиентов не зависит от способа параметризации. Поэтому они могут использоваться для дальнейших суждений о локальных изменениях функции правдоподобия.

Теорема 1. Пусть существует r-мерная непрерывная плотность распределения f (х1..... xr) случайных величин st-r+1..... st. t = r.n . Тогда для произвольной непрерывно дифференцируемой параметризации распределения P (—| и) по параметрам ц и Q имеет место

VeP(-t-r+1.....— |и)|и=И)

Ve P(-t-r+1..... — -1 |и)| и=U

| [pr i (C-l-r+1..... C-t ^—l-r+l -1) ft-r+,■ (c-l-r+l -1) ■

-Pr ,i (C -i-r +1... ..C—, |c—l-r+i)f-r+i (c—l-r+i.)] 'VeSt-

r 1 = S [Pr-l i=1 U (C-t-r +1..... C—l-1 C—-r+i -1) ft—r +i (c—l-r + j-1

- Pr-1,i (C— v —l— r +1 ..... C—i- J Vr+i) ft-r+i (c—t-r+i)]-V

(eo).

-r+i (eo).

(8)

(9)

68

V, P(st _r+1 (0Q , , 0),..., St (00, , 0) I u)| u=u = I [Pr ,i (Cs, r +1CSi \cSi r+1 _) ft_r+ (cSi _ r+1 _ )dSi _ r+1 _

(10)

r _1

V,P(st_r+1 (00 , St_1(0O, MU)|^ = I Pr_1,i (Cst_r+1,...,Cs__1 Icst_r+1 _1)ft_r+ (cst_r+(_1)dst_r+(_1

0 i=1L

- Pr,i C_r+1,..., Cs, cst_r+1 ) ft_r+i (cst_r+, )dst_r+, r _1

I

0 i=1 L

_ Pr_1,i (Cst_r+1,..., Cs,_1 cst_r+1 ) ft_r+i (cst_r+t )ds,_r + j VQP (st_r+1 ,0 ),..., st ,0 )|U)|^= = [G]jr(_r+1v . ,,s(),

VQP(St_r+1 (00, ,0 ),...,St_1 (00, ,0 )|U)|^ = [Fr_1G] jr^r+1,...,st_1).

Здесь ft (•) - плотность распределения st, Pri (Cs, ,...,CsJc^ ) - условная вероятность попадания векто-

в параллелепипед, образованный интервалами

(11)

(12)

(13)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ра

s s : s = t _ r +1, t; s Ф t _ r + i

{Cs. : j = t _ r +1, t; j Ф t _ r + ij при условии st_r+ = ck .

Доказательство. Для доказательства (8) обозначим ct (k| ,0, 0o, 0) = ck + dk,0 - St (0) + St (00 ) . Тогда

ct (st |,0 ,00 >0 ) ct_r+1(st_r+1|,0 ,00 >0 )

P( st_r+1,..., st |u) = J ... J f (X1, ..., xr )dx\..-dxr .

ct (st _1|,0 A) >0 ) ct_r+1(st_r +1 -1!,0 ,00 >0 )

Из этого следует (8). Аналогично получаем (9).

Для получения градиентов по параметрам ц воспользуемся тем, что совместные вероятности полностью определяются параметрами Q. Поэтому если рассмотреть произвольную непрерывно дифференцируемую параметризацию конечномерных распределений по ц, то при любых и выполняется

v, p (vr+1 (в,,),..., s, (в, =v, p;;_; 1(в_,) ,((в,,)=°. (14)

С другой стороны,

V, P ( st_ r+1(0,^..^ st(0, ,)| u)l = P, ( st _r+1(0, ^..^ st(0, ,^ U)| u=u _

_Ir=1 Pr,i (Cs, —r+1,..., CsJcs(_r +1 _1) ft—r +i (cs,_r+t_1)ds(_r+i._1 _ (15)

_Pr ,i (Cst _r +1,..., Cst Cst _ r+1) ft _r+i (cst _ r+( )dst _ r+

где P, - градиент по параметризации самого распределения без учета зависимости аргументов от ц. Нас интересует градиент при гипотетических параметрах V,P(st_r+1 (00,,0),...,st (00,,0)| =

= P, (st_r+1 (00,,0),...,st (00,,0)| , который благодаря непрерывной дифференцируемости параметризации семейства распределений равен P, (st_r+1 (0,,),...,st (0,,)| . Поэтому из (14) и (15) получа-

ем (10). Аналогично можно получить (11) для градиента правдоподобия меньшего порядка.

Воспользуемся теперь произвольной параметризацией семейства распределений по Q:

VQP(st-r+1 (0, ,),...,st (0, ,L = VQ P!r)r+1(0,,),...,s((0,,)

= [G]

jr (r +1,-,s, )

(16)

Нас интересует градиент VqP(st_r+1 (00,,0),...,st (00,,0)| , который совпадает с (16), поскольку па-

раметризация непрерывно дифференцируема. Отсюда имеем (12) и аналогично получаем (13).

Теорема доказана.

69

3. Знаковые тесты

Формально искомый тест для проверки гипотез (3) может иметь вид

VиL(s|и,Uq)|u=uJ > const, (17)

где || - некоторая подходящая норма вектора, а формулы (7)-(13) дают выражение для тестовой статистики. Нетрудно убедиться, что если выбрать р1 = ... = pK = 1/K и гипотетические параметры Q0 опре-

деляют равномерное r-мерное распределение (т.е. [Q0] = K-r и гипотеза состоит в том, что зависимость отсутствует), то тест (17) будет локально наиболее мощным против любой линейной одномерной односторонней альтернативы, поскольку знаменатель отношения правдоподобия P (S|u0 ) превращается

в константу. В остальных случаях приходится опираться на логическую обоснованность принципа максимума отношения правдоподобия.

В качестве альтернативы для (17) можно рассматривать тест вида

2 2

V и P(s|u)|

P(s | U0) 'Vи L(s | Uи0)|и=„

> const,

(18)

который является локально наиболее мощным против любой линейной одномерной односторонней альтернативы.

Относительно тестов (17) и (18) остаются вопросы, на которые необходимо дать ответ. Во-первых, в

(8)-(11) присутствуют неизвестные величины, которые требуют обоснованной замены. Во-вторых, необходимо указать, каким образом можно определять критические значения и какие нормы вектора при этом использовать.

Начнем с ответа на первый вопрос. Чтобы избавиться от неизвестных величин, входящих в состав

(17), используем метод, аналогичный [7], - заменим их доступными нам величинами. Так, игнорируя некоторые эффекты зависимости, можно заменить

Pr,i(C,^,...,CSi |Ck) на P(r,i)ft,...,К) = ZK=1P(r)ft,...,k-1,s,ki+1,...,kr).

После этого неизвестными останутся величины

( ft (ck-1) - ft (ck )) / Pk и ( ft (ck-1) dk-1 - ft (ck ) dk ) / Pk,

замена которых специальными весами B1 (k) и B2 (k) подробно обсуждается в [7]. Например, для K = 2

(квантильная регрессия) Bi={-1/p, 1/( 1—р)}. При K = 3 (симметричная двухквантильная регрессия) Bi = {-1, 0, 1}, B2 = {1, -2р/(1-2р), 1}. Для K = 3 (симметричная трехквантильная регрессия) B1 = {-A, -а,

а, A}, B2 = {A, -1, -1, A}, где A=(1-2p)/2p, а - априорная догадка о величине (ft (0) - ft (ц)) / ft (ц).

Заметим, что похожие «разумные» замены часто встречаются при конструировании непараметрических процедур. В ранговом анализе полученные похожим образом веса рангов называют метками

(scores). Важными свойствами меток являются их нулевые средние 2 K=1 B1 (k) pk = 0, 2 K=1 B2 (k) pk = 0

и нулевая ковариация 2K=1 B1 (k) B2 (k ) pk = 0 .

В результате замен из (17) и (18) получаем тесты вида

||4n (S | UOll2 > c0nst, (19)

||P(S | U0) • ^n (S | и0^Г > c0nst, (20)

где n (s | и0) - векторная статистика, которая является модифицированным и нормированным градиентом отношения правдоподобия и задается выражениями

^n (S|U) = n-1/2 2П= r 2r,=Wtii (s|u),

70

W ,i (s\u)

(21)

Ve gt - r+t (0) )(u)

R2 )(u)

[G] jr (st-r+1 (u),...,st (u)) - (1 - g )IFrdj^ (u),...,s,-i(u))

p(r)(st-r+1(u),..., St(u)) t,r p(r-1)(st-r+1(u),..., st-l(u))

R,r") (u) = Bl (st-r+i ri) (u)- (l - gt,r )l - gt,r ))--U, ,)) ,

L( r,t) ( u) = P(r,tL (st-r+1 PM.^St ( u))P(l) (st-r+t (u))

' P(r) ( st-r+1 (U),...,St ( U))

Заметим, что тест (20), даже после замены неизвестных величин весами, остается локально наиболее мощным против линейных односторонних одномерных альтернатив, если [Q0]t = K-r, но при дополнительном условии, что эти альтернативы отличаются от гипотезы только по параметрам 0, только по ц или только по Q. Однако имитационные эксперименты показывают, что поведение этого теста при альтернативах не всегда удовлетворительно. Кроме того, возникают трудности с поиском его асимптотических критических значений. Поэтому для использования мы рекомендуем тест (19)

Перейдем к ответу на второй из поставленных выше вопросов - о выборе критических значений и способов определения нормы векторных статистик. Как и для случая независимых наблюдений [1, 7], для проверки гипотез (3) можно построить тесты вида (19) и (20) с точным уровнем значимости, поскольку при гипотезе распределение статистик ||£n (Т | и0 )||2 и ||P(J | и0) • £n (Т | и0 )||2 совпадает с распределением случайных величин ||£n (n | и0 )||2 и ||P(n | и0) • £n (n | и0 )||2 соответственно, где случайный вектор П = (%,..., Пи)' составлен из последовательности случайных величин, образующих стационарный Марковский процесс (r- 1)-го прядка с конечным числом состояний (nt е{1,2,...,K}) и известными конечномерными вероятностями P(k1,...,kr|u0) . В результате процентные точки распределения статистики

тестов (19) и (20) можно определить с любой точностью, используя метод Монте-Карло. Заметим, что в вычислении £n (n | u0) не участвуют параметры ц0 , параметры 00 используются только при вычислении

градиентов Vegt (00) в (21), а параметры Q0 влияют только на величины вероятностей P(r), P(r 1),

р( r,t) p(r-1,t)

При больших объемах наблюдений и лучше воспользоваться асимптотическими критическими значениями. Для теста (19) их можно вычислять на основе асимптотической нормальности распределения статистики £n (s | u0) при гипотезе. Используем для этого обобщение теоремы 7.7.9 из [9] на случай последовательности случайных векторов, которое легко получить, применяя теорему 7.7.7 из [9].

Лемма 1. Пусть числовая последовательность {at : t > 1} и последовательность случайных векторов {t: * > 1} удовлетворяют следующим условиям:

1. Существует целое число m>0 такое, что для любых и и t1,...,tn (0 < t1 <... < tn) совокупности случайных величин {zt ..,zt } и {z1,...,zt1 -m-1,zt +m+1,...} взаимно независимы.

2. Mzt = 0 , t = 1,2,....

3. Ml ztf' ’<M для некоторогоMи 8 > 0, t = 1,2,....

4. |at| < L для всех t и некоторого L>0.

5. Существует предельная матрица Е = lim T-1 ^f=12=1.atasMztzs .

T

Тогда случайный вектор T-1/2 2?= atzt сходится по распределению к N(0, Е).

Теорема 2. Пусть выполняется гипотеза (3) и следующие условия:

71

1. ||vegt (0)11 < L для всех t и некоторого L > 0.

2. Существует предельная матрица V = lim Vn, где Vn = M2,n(s | u)2,n (s | u).

n^-да

3. P(r)(k1,...,kr)>0 при всех k1,...,kr.

Тогда случайный вектор 2,n (s |v) сходится по распределению к N(0,V), а случайная величина Zn = 2n (SI u)Vn-12,n (s | u) сходится по распределению к х2, где q = dim u.

Доказательство. Если в лемме 1 положить atzt = 2r= Wt+r_1;- (s | u0), m = 2r, то доказательство сводится к проверке равномерной (по t) ограниченности элементов вектора (21), а также проверке свойства M£,n (s | и) = 0 . Последнее сразу следует из того, что 2f=i B1(k)pk = 0,2f=i B1(k)pk = 0 , если применить эти равенства к вычислению M^r’’^(v), l е{1,2}, в первом и втором блоке вектора (21). Для третьего блока вопрос сводится к проверке равенства 2k1,...,k [G]y (k1 k) = 0 и

2 k1,...,k 1[Fr _1G]^/- 1(k1 k 1) = 0. Мы проверяли эти условия численно в большом количестве частных случаев при r е {2,...,5} , K е {2,3,4}, при выполнении условий центральной симметрии k-мерных вероятностей и k е{2,...,r} без них.

Теорема доказана.

Таким образом, для ограниченных сходящихся планов в асимптотическом тесте можно использовать статистику Z2 =2n (s | u0)Vn_12n (s | u0) с критическими значениями распределения хи-квадрат. Для элементов матрицы Vn можно получить аналитические выражения, однако мы не приводим их в силу громоздкости. Отметим только, что матрица Vn зависит от параметров 0 и Q, но не от ц, а для линейной модели регрессии остается зависимость только от Q.

Заключение

В данной работе получены точные и асимптотические знаковые тесты для проверки простой гипотезы (3) H0 : u = и0 о параметрах модели многоквантильной регрессии (1) с Марковскими ошибками

(1) порядка r—1. Рассмотрены наиболее интересные случаи одно-, двух- и трехквантильной регрессии.

В теореме 1 показано, что несмотря на непараметрическую постановку задачи, можно получить выражения для градиента правдоподобия знаковых признаков VP( У| u), вид которого не зависит от

способа параметризации распределения Р(У| u) . Этот факт позволяет получить тесты (19) и (20), основанные на векторной статистике 2,n (Т | u0), см. (21). Эти тесты являются локально наиболее мощными против линейных односторонних одномерных альтернатив при условии равномерного r-мерного распределения процесса знаковых признаков.

В работе рассмотрены вопрос о вычислении критических значений, обеспечивающих заданный уровень значимости с любой точностью при конечных выборках, а также критические значения, основанные на асимптотическом распределении тестовой статистики (теорема 2) для ограниченных сходящихся планов. В результате рекомендуется тест, интерпретируемый как тест, построенный по принципу максимального отношения правдоподобия, с критической областью вида

Z2 =2'n (s | u0 ) Vn_l2n (s | u0) > COnSt ,

где Vn =Vn (0,Q) = M2n (s | u)2n (s | u), для которого асимптотическое распределение тестовой статистики является распределением хи-квадрат и не зависит от гипотезы.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Полученный тест представляет интерес как основа для оценивания параметров u по принципу максимального асимптотического p-значения (см. основополагающую работу [8]), т.е.

un = arg minu0 Zn (u0).

72

Заметим, что на практике, особенно для линейных моделей, представляет интерес проверка гипотез вида Н0 : [0] j = [90] j, когда остальные параметры являются мешающими. Такие гипотезы можно

рассматривать как линейные и применять для их проверки двухэтапные процедуры. Этот подход подробно описан в [1, 7] применительно к знаковым процедурам.

ЛИТЕРАТУРА

1. Болдин М.В., Симонова Г.И., Тюрин Ю.Н. Знаковый статистический анализ линейных моделей. М. : Наука. Физматлит, 1997.

285 с.

2. Koenker R., Bassett G. Regression quantiles // Econometrica. 1978. V. 46. P. 349-359.

3. Chen L.A., Tran L.T., Lin L.C. Symmetric regression quantile and its application to robust estimation for the nonlinear regression

model // J. Statist. Plann. And Infer. 2004. V. 126. P. 423-440.

4. Coudin E., Dufour J. Finite-sample distribution-free inference in linear median regressions under heteroscedasticity and non-linear

dependence of unknown form // Econometrics Journal. 2009. V. 12. P. 19-49.

5. Tarassenko P.F., Tarima S.S., Zhuravlev A. V., Singh S. On sign-based regression quantiles // J. of Statist. Comput. and Simul. 2015.

V. 85, Ио. 7. P. 1420-1441.

6. Dufour J., Kiviet J. Exact inference methods for first-order autoregressive distributed lag models // Econometrica. 1998. V. 82. P. 79-

104.

7. ТарасенкоП.Ф. Индикаторный статистический анализ. Томск : Изд-во Том. ун-та, 2005. 350 с.

8. Hodges J.L.Jr., Lehmann E.L. Estimates of location based on rank tests // Ann. Math. Statist. 1963. V. 34, No. 2. P. 528-611.

9. Андерсон Т. Статистический анализ временных рядов. М. : МИР, 1976. 756 с.

Сиренко Михаил Андреевич. E-mail: [email protected]

Тарасенко Петр Феликсович, канд. физ.-мат. наук, доцент, E-mail: [email protected] Томский государственный университет

Поступила в редакцию 28 апреля 2015 г.

Sirenko Mikhail A., Tarassenko Petr F. (Tomsk State University, Russian Federation).

Finite-sample and asymptotic sign-based tests for parameters of non-linear quantile regression with Markov noise.

Keywords: sign-based statistical procedures; non-linear regression; quantile regression; Markov process; finite-sample test.

DOI 10.17223/19988605/32/7

Sign-based statistical procedures are known to be more robust to outliers than least squares and ability to control precise significance level for finite samples when testing simple hypothesis. In this paper, the sign-based approach is extended to the case of non-linear model with dependent noise. The model of multi-quantile regression is considering, which allows to test hypotheses both on the parameters of the

regression yt = gt (0) + et, t = 1, n , and the parameters of the noise et, which forms a stationary Markov process of order (r-1). According to that, the signs of observations are calculated with respect to a set of quantiles (at specified levels) of one-dimensional distribution of £t.

The quantiles depend on the unknown parameter p. For example, in a symmetric two-quantile regression, the quantiles (-p) and p correspond to levels ofp and 1-p, where p is given, and p is unknown. For the three-quantile regression, the quantiles (-p), 0, p correspond to levels of p, 1/2 and 1-p. In both cases, the parameter p is a scale parameter of noise.

According to the sign-based approach, the residuals are substituting with indicators of their belonging to the interquantile intervals

1 = (sj,..., sn ), where st takes a finite number of values. The unknown parameters in this scheme are U = (0', p', Q')', where the

vector Q contains linearly independent r-dimensional joint probabilities of the states of generated by process of indicators {st} . Since the problem is considering in a nonparametric setting, then each fixed value of parameters p and Q corresponds to a class of finitedimensional distributions of the initial process et. However, we can show that for any continuous parameterization of finitedimensional distributions, all the derivatives of the likelihood of indicators P(s | u) are expressed in the same way. In the problem of testing a simple hypothesis H0 : U = U0 it gives the opportunity to build a test based on the principle of maximal likelihood ratio.

In this paper, we consider the problem of calculating the critical values to provide the desired significance level with any accuracy for finite samples, as well as the critical values based on the asymptotic distribution of the test statistic.

The obtained tests can be used as a basis for estimating the parameters и by the principle of maximal p-values, as well as for the development of tests for linear hypothesis.

73

REFERENCES

1. Boldin, M.V., Simonova, G.I. &Tyurin, Yu.N. (1997) Znakovyy statisticheskiy analiz lineynykh modeley [Sign-based Methods in

Linear Statistical Models]. Moscow: Nauka. Fizmatlit.

2. Koenker, R. & Bassett, G. (1978) Regression quantiles. Econometrica. 46. pp. 349-359.

3. Chen, L.A., Tran, L.T. & Lin, L.C. (2004) Symmetric regression quantile and its application to robust estimation for the nonlinear

regression model. Journal of Statistical Planning and Inference. 126. pp. 423-440. DOI: 10.1016/j.jspi.2003.09.014

4. Coudin, E. & Dufour, J. (2009) Finite-sample distribution-free inference in linear median regressions under heteroscedasticity and

non-linear dependence of unknown form. Econometrics Journal. 12. pp. 19-49. DOI: 10.1111/j.1368-423X.2009.00285.x

5. Tarassenko, P.F., Tarima, S.S., Zhuravlev, A.V. & Singh, S. (2015) On sign-based regression quantiles. Journal of Statistical Compu-

tation and Simulation. 85 (7). pp. 1420-1441. DOI: 10.1080/00949655.2013.875176

6. Dufour, J. & Kiviet, J. (1998) Exact inference methods for first-order autoregressive distributed lag models. Econometrica. 82.

pp. 79-104. DOI: 10.2307/2998541

7. Tarasenko, P.F. (2005) Indikatornyy statisticheskiy analiz [Indicator-based statistical analysis]. Tomsk: Tomsk State University.

8. Hodges, J.L.Jr. & Lehmann, E.L. (1963) Estimates of location based on rank tests. Ann. Math. Statist. 34 (2). pp. 528-611.

9. Anderson, T.W. (1971) The statistical analysis of time series. John Wiley & Sons, Inc.

74

i Надоели баннеры? Вы всегда можете отключить рекламу.