Вычислительные технологии
Том 12, Специальный выпуск 1, 2007
ЗНАКОВЫЕ ПРОЦЕДУРЫ АНАЛИЗА РАСТУЩИХ СИСТЕМ
П. Ф. Тарасенко Томский государственный университет, Россия e-mail: [email protected]
An approach to the estimation of the parameters in the linear model of quantile regression is proposed for the ease when indicators of residuals are used as analyzed attributes. Particular cases are presented for which unknown scale of noise is measured by the interquantile range. It is shown that indicator-based estimators have same asymptotic efficiency as weighted absolute deviation estimators, but they don't require equal distribution of noise.
Введение
Математическое описание растущих систем приводит к моделям регрессии, в рамках которых наблюдаемые величины (например, величины запасов углеводородов в природной совокупности месторождений) рассматриваются как линейная зависимость от приоритета накопления, наблюдаемая на фоне некоторых шумов [1]. Модель шумов имеет ключевое значение при выборе метода обработки наблюдений, поэтому должна соответствовать реальной ситуации. При работе с величинами запасов месторождений углеводородов приходится иметь дело с малыми объемами выборок, неизвестным распределением шумов, выбросами в наблюдениях, но при этом доступны априорные сведения, которые могут быть представлены в виде квантильной регрессии, когда теоретическая зависимость является не условным математическим ожиданием, а условной квантилью некоторого уровня.
В [1] рассматривалось два метода обработки наблюдений — метод наименьших квадратов и знаковый метод [2], который соответствует модели квантильной регрессии уровня 1/2, В то же время запасы углеводородов являются оценками и чаще завышаются, чем занижаются. Поэтому в предлагаемой работе идея знакового анализа обобщается на случай квантильной регрессии произвольного уровня, а также на модели погрешностей, масштаб которых описывается интерквантильным размахом.
Широкую известность модель квантильной регрессии получила с выходом основополагающей статьи [3]. Среди множества последующих работ выделим результаты по исследованию свойств оценок параметров квантильных регрессий сразу нескольких уровней [4, 5], а также [6, 7], где методом наименьших взвешенных модулей одновременно оцениваются не одна, а две условных квантили. Традиционно методы оценивания
© Институт вычислительных технологий Сибирского отделения Российской академии наук, 2007.
параметров квантильной регрессии используют принцип минимума взвешенных модулей остатков. Только для случая медианной регрессии широко известны процедуры, основанные не на модулях, а на знаках остатков [2]. При этом знаковые оценки одинаково с традиционными оценками наименьших модулей асимптотически эффективны, они обладают большей устойчивостью к выбросам и не требуют, чтобы случайные погрешности измерений были одинаково распределены, что является привлекательным при их применении для обработки величин запасов углеводородов природной совокупности месторождений как растущей системы,
1. Постановка задачи
Пусть наблюдения V = (У\,..., Уп)' подчиняются линейной модели
У = X' в + е, (1)
где в = (в\,..., 9т)' € Мт — неизвестные параметры; X — матрица плана, образованная столбцами Х^ = (Хц,..., Х^т)', г = 1,... ,п. Для независимых случайных величин образующих вектор е = (£1,..., £п)', будем рассматривать три основные модели. Согласно первой из них, о функции распределения ^¿(х) = Р{£» < х} известно, что р) = 1 — ^¿(р) = р, где вероятность р € (0,1/2) задана, а параметр р > 0 неизвестен, Во второй модели дополнительно известно, что ^¿(0) = 1/2, На первую модель далее будем ссылаться как на модель с двумя квантилями, а вторую будем называть моделью с тремя квантилями. Вариант модели с двумя квантилями рассматривался ранее в [6, 7]. Третий интересующий нас случай — квантильная регрессия [3], когда о функции распределения ^ известно только, что ^¿(0) = р € (0,1), Знаковый анализ этой модели при р = 1/2 ранее рассматривался в [2].
Чтобы оперировать моделями с разным числом квантилей, используем следующее общее описание априорной информации о случайных погрешностях с квантилями заданных уровней, известных с точностью до параметров. Пусть при каких-то неизвестных параметрах д = (р1,...,рм)' выполняются условия ^(ск + &кд) = дк, к = 1,..., К — 1, где с1 < ... < сК-1 и 0 < д1 < ... < дК-1 < 1 — заданные постоянные, а векторы ^ описывают способ параметризации квантилей. При этом все элементы вектора вк равны нулю, кроме, возможно, одного, равного ±1, так что каждый параметр из числа р1,..., отвечает за сдвиг одной или нескольких квантилей (М < К — 1), а если вк = 0, то к-я квантиль не параметризована. Естественно, что если ск = ск+1, то ^ = вк+1. Будем рассматривать только случаи, для которых дк = дк-1 тогда и только тогда, когда ск = ск-1.
Определение 1.1. При фиксированных параметрах д0 будем говорить об априорном разбиении С(д0), состоящем из К смежных интервалов С1 (д0),..., СК(ц0), разделенных границами ск+в'кд0, к = 1,..., К — 1, Вопрос о том, какому из смежных интервалов — Ск(д0) или Ск+1(д0) — принадлежит граница ск+в'кд0, решается в каждом конкретном случае.
Определение 1.2. Множеством допустимых параметров априорного разбиения будем называть множество М = {д0 : ск + в'к д0 < ск+1 + в'к+1ц0 У к € {1,..., К — 2} : ск < ск+1}.
Определение 1.3. Дискретное распределение вероятностей р1,... ,рК, приписанных интервалам априорного разбиения, назовем априорным распределением и обозна-
чим его через p = {p\,... ,pK}■ Здесь pk = qk — qk-1 при дополнительных обозначениях qo = 0 и qx = 1.
Определение 1.4. Семейством априорных разбиений будем называть параметризованный класс
C = {C(Mo): Mo е M}, C(Mo) = {Ci(Mo),...,Cx(Mo)}. (2)
При этом, если м — истинные значения параметров априорного разбиения, выполняются равенства Р{е» е Ck(M)} = pk> k = 1,..., K, i = 1,..., n,
В частности, для модели с двумя квантилями K = 3, d1 = — 1, d2 = 1 и
С = {{(-оо,-цо),[-цо,цо],(цо,оо)} : цо>0}, р = {р, 1 - 2р, р}.
Для модели с тремя квантилями K = 5 di = — 1, d2 = d3 = 0 d4 = 1и
C = {{(—ro, Mo), [—Mo, 0), {0}, (0, Mo], (poo, ro)} : po>0},
p = {p(l-2p)/2,0,(l-2p)/2,p}.
Для квантильной регрессии априорное разбиение не параметризовано, K = 3 d1 = d2 = 0 и
С = {(—оо, 0), {0}, (0, ос)}, р = {р 0,1 - р}.
Определение 1.5. Априорным классом, будем называть множество распределений ¥(р С, М) = {FM(p, С(д)) : /л Е М}, где
F „(р, ОД) = {F : F(cfc + d'kn) = qkVke{l,...,K- 1}}.
Мы собираемся построить процедуру оценивания параметров в модели (1) и параметров м разбиения (2), Для этого сначала синтезируем тест для проверки простой гипотезы о параметрах, а затем применим принцип максимально достигнутого уровня значимости для получения оценок параметров. Все результаты приводятся без доказательства из-за ограниченности объема статьи,
2. Проверка гипотез о параметрах
Рассмотрим задачу проверки простой гипотезы Ho против сложной альтернативы H1 вида
Ho :(в', м')' = 0, Hi :(в', м')' = 0, (3)
Где гипотетические значения всех параметров взяты нулевыми без ограничения общности, Действительно, более общую гипотезу (в', м')' = (eo, Mo)' можно свести к (3) за счет замены Y на Y — X'вo и ck на ck + d'kMo,
Статистическую проверку гипотез (3) будем строить с использованием того факта, что при гипотезе P{Y е Ck(0)} = pk. Введем функцию
K k
s(x, u) = £ I{x ^ Cj(u)}, k=1 j=1
которая принимает значение k, если x е Ck(u), в качестве анализируемых признаков используем величины Sj = s(Yi, 0) i = 1,..., n. Пространство признаков, таким образом,
содержит Кп элементов. Обозначим его через S. Функция мощности произвольного индикаторного теста (основанного на признаках б = (^1,..., зп)') с критической областью ¿>1 С 5 для проверки гипотез (3) может быть записана в виде Р(51|0, д) = ^ Р(Б|в, д),
«651
где Р(б|0, д) — совместное распределение призпаков б при истинных параметрах, причем
Пп
,1 Р(^|в, д) (4)
г=1
и при гипотезе Р^ = ^10, 0) = pk■ Мы собираемся построить тест па основе локальных свойств отношения правдоподобия Р(б|0, д)/Р(б|0, 0), поэтому пас будут интересовать свойства распределения Р(б|0, д), его производные по параметрам в ж д. Если функцией распределения случайных погрешностей ^ является некоторая € то
р(* = к|в, д) = я>м(ск - х;в) - ^(ск-1 - х;в) (5)
при всех к = 1,..., К, если дополнительно обозначить с0 = —то и ск = то. Чтобы
д
ризованные множества альтернативных распределений.
Определение 2.1. Множество распределений С С,М), для которого
при каждом д € М пересечение Е(^,0) Псостоит из единственного распределения и ВДо) П= {^¿)0}, будем называть траекторией альтернативных распределений.
Значения ^,м(и) в рамках одной траектории можно рассматривать как функцию двух аргументов — и и д. Будем говорить в связи с этим о функции ^,м(и) на траектории
Утверждение 1. Пусть на некоторой траектории Е(^) функция ^(и) непрерывно дифференцируема в окрестностях точек (и, д) = (ск, 0). Тогда на этой траектории
^Р(* = к|0, 0) = хг[/(вк-1) - /(Ск)], (6)
^Р^ = к|0,0) = / (ск_1)ак_1 - / (Ск )ак,
где / — производная функции ^ в соответствующих точках и /(-то) = /(то) = 0.
Таким образом, на любой непрерывно дифференцируемой альтернативной траектории производные правдоподобия индикаторных признаков выражаются через значения плотности гипотетического распределения (принадлежащего данной траектории) на границах априорного разбиения. Этим можно воспользоваться при построении процедуры проверки гипотез на том основании, что множество распределений, отвечающих сложной альтернативе П\. представляется в виде С, М)\Ео, а априорный класс С, М) можно представить в виде объединения непрерывно дифференцируемых альтернативных траекторий. Следующий результат является простым следствием из (4) и утверждения 1.
Утверждение 2. Пусть на траекториях Е(^) функции ^,м(и) непрерывно дифференцируемы в окрестностях точек (и, д) = (ск, 0). Тогда на этих траекториях
п
^Р(Б|0, 0) = -Р(в|0, 0)А1 ^ ХгЯн(*), (7)
¿=1 п
^Р(в|0, 0) = —Р(Б|0, 0)Л2£
¿=1
где
Ян (к) = [/»(ск) - /¿(ск-х)] / (А1Рк), = [/¿(Ск)вк - /¿(Ск_1)вк_1] / (А2Рк)
(8)
В полученных выражениях предполагается, что если = 0, то Я»(к) = 0, Постоянные Ах и А2 введены здесь потому, что при некоторых условиях их удается выбрать так, чтобы наборы значений Я^ = {Я^(1),..., Я^(К)} не зависели от неизвестных величин, Например, для квантильной регрессии, если предположить, что значения /¿(0) не зависят от г, то можно взять Ах = — /¿(0) после чего = { —1/р, 0,1/(1 — р)}, Для модели с двумя квантилями, если /¿(—р) = /¿(р) и эти значения не зависят от г, то при Ах = А2 = — /¿(р)/р получаем = { — 1, 0,1} Я2» = {1, —2р/(1 — 2р), 1}, В то же время для модели с тремя квантилями, даже если значения /¿(0) и /(—р) = /¿(р) не г
зависимость Я^ от неизвестных величин, Так, при Ах = А2 = —2/^(р)/(1 — 2р), если обозначить ф = (1 — 2р)/(2р) и а = [/¿(0) — /¿(р)]//*(р), то Ян = { —ф, —
Я2г = {д, —1,0, —1,д}.
Полученные наборы величин будем называть мешками множеств априорного разбиения по аналогии с термином, который используется в ранговом анализе для обозначения весов рангов. Даже если предположения, сделанные при получении наборов меток, не выполняются, мы будем их использовать, обозначая через В вместо Я^,
Важным свойством наборов меток (8) является их нулевое математическое ожидание
к
по априорному распределению, т.е. £ Я^(к)рк = 0, При переходе к модифицированных
ным меткам В это свойство сохраняется.
Соотношения (7) дают возможность записать градиент для отношения правдоподобия Р(б|#, д)/Р(б|0, 0) при гипотетических параметрах, и это может служить основой для применения принципа максимума отношения правдоподобия при построении теста. Малая норма градиента отношения правдоподобия является косвенным свидетельством того, что его экстремум в пространстве параметров лежит недалеко от гипотетических значений. Это приводит к тесту, который отклоняет гипотезу на уровне значимости 7, если
у-1£ > I
Чп т п Чп ^
(9)
где
* = —У
Чга /— / ,
\/П ^
X В (^) В2 (^ )
Уп
¿1V
Х,п
СЕ'
Х,п
ЕХ,пС'
Б2
V
Х,п
П
^Х^; Е
Х,п
1
П
п к к
¿1 = £ РкВ?(к) С = £ ркВ1(к)В2(к); Б2
к=1
к=1
к
£ ркВ2(к)В'2(к) При гипотезе Е{£п} = 0 и Уп = Е{£п^п}, поэтому матрица Уп играет к=1
в (9) нормирующую роль. Векторная статистика зависит от случайных величин только через метки. Такие статистики уместно называть индикаторными, так как они используют факты принадлежности остатков множествам априорного разбиения.
Кроме того, будем рассматривать только такие наборы меток, для которых при всех к = 1,..., К — 1 либо В1 (к + 1) = В1 (к) либо В2(к+1)=В2(к), В противном случае
1
пару смежных интервалов априорного разбиения можно объединить, что не повлияет на значения индикаторной статистики.
Для моделей с двумя и тремя квантилями имеет место С = 0, что можно трактовать как некоррелированность наборов меток и В2, В этих моделях число параметров априорного разбиения М = 1, поэтому Ю2 на самом деле является скаляром, который мы будем обозначать через ¿2- Если обозначить через = /{У € Ск(0)} индикаторы остатков, то для рассматриваемых моделей статистику теста (9) можно конкретизировать, Так, для квантильной регрессии имеем
4
1
Ех<
¿Лз 1 — р
Щ1 Р
Уп
1
р(1 — р)
V
Х,п,
(10)
т, е, здесь статистика строится на суммах взвешенных знаков остатков. Для модели с двумя квантилями получаем
-' У-1е
>п * п Чп
V-1 е + 1 - 2р &
ЧгаД у Х'п^пЛ Т г. 2)
2р
2р
(Н)
где
1 =П * ~Щ\)\
£«,2 = 2рП~Ь £
+ 2 р
^2
1 — 2р
Для модели с тремя квантилями, если вместо неизвестных величин а использовать в метках априорную догадку а^ то вычисления дают
£' У-1£
п п п
1
1-2р\ 4п,1УХ,п4п,1 +
2р
где
е
1 — 2р
п, 1
п
Ех
^5
1 — 2р
еп,2,
(12)
2р
,
--ь «а
^2
1 — 2р
е
1 — 2р
п,2
п
Е
^¿1 + ^¿5 ^¿2 + ^4
2р
1 — 2р
Из структуры полученных выражений видно, что статистики 4п 1 накапливают информацию о сдвиге остатков за счет отклонения параметров в, а статистаки £п>2 накапливают информацию об отклонениях параметра масштаба ц, Если проверяется гипотеза (в', д')' = (в0, дО)', то в (10)-(12) достаточно положить = /{У — Xiв0 € Ск(д0)}.
п
п
3. Свойства статистик и оценок
Для определения порога ¿7 в тесте (9) необходимо знать распределение его статистики при гипотезе. Это распределение может быть указано точно, так как при гипотезе случайные величины ^ независимы и принимают значения 1, .,,, К с вероятностями р1 ,...,рк. Однако вычислить функцию распределения индикаторной статистики аналитически не представляется возможным, поэтому ее квантиль ¿7 уровня 1 — 7
приходится получать методом Монте-Карло, При больших п можно воспользоваться нормальной предельной аппроксимацией. Далее при изучении асимптотических свойств индикаторных статистик и оценок мы будем в разных сочетаниях ссылаться на следующие условия,
(1а) Элементы матрицы плана X ограничены равномерно по п.
(16) Ух = Итга^ Ух>га > 0.
(1в) V = V > 0.
к к
(2а) £ = 0 и £ В2(к)рк = 0.
к=1 к=1
(За) Случайные векторы £1,..., £„ независимы, Р{£г < ж} = ^(ж), ^ Е С, М), (36) Существуют Ь > 0 и 6 > 0 такие, что для любых достаточно больших п и любых г € {1,..., п} выполняется условие — ^(и2)| < Ь|и1 — и2|, если |и1 — и2| < 6,
(Зв) Для всех к € {1,..., К — 1}в некоторой окрестности границы интервалов апри-
й
орпого разбиения существуют непрерывные плотности /¿(ж) = —-Р^(ж), причем /¿(с*;)
аж
ограничены равномерно по п, а в окрестности точки ск плотноети /¿(ж) удовлетворяют условию ЗЬо>0 и 60>0 (общие для всех п) такие, что /¿(и) — / (и2)| < Ь0 |и1 — и2|, если |Ск — и11 < 6о и |Ск — И2| < 6о.
Без ограничения общности истинные параметры будем считать нулевыми. Введем характеристики, описывающие средний отклик меток на отклонение гипотетических параметров от истинных. Функции отклика меток определим (пользуясь условием (2а)) в виде
к-1
Фмк До) = ЕВ1 (фг — ио, До)) = В1(К) — До+ио) [В (к+1) — В (к)],
к=1 к-1
Ф^К До) = ЕВ2(^(£г — ио, До)) = В2(К) — ^ ^(СкДо+ио) [В2(к+1) — В2(к)].
к=1
Достаточные условия состоятельности индикаторных оценок будем накладывать на проверочную функцию вида
Ф»(ио, До) = иоФ1г(ио, До) + ДоФ2г(ио, До). (13)
При описании условий состоятельности и асимптотической нормальности будем использовать чувствительность меток (производные от функций отклика)
к-1
•01М (ио, До) = ^[ВДк) — В (к + 1)]/г(Ск + в'кДо + ио), к=1 к-1
^2М(ио, До) = Х^[В2(к) — В2(к + 1)]/г(Ск + 4До + Ио), к=1 к-1
^12,г(ио, До) = Х![В1(к) — В1(к + 1)]вк+ До + ^о),
12,1
к=1 к-1
^22,г(ио, До) = ^[В2(к) — В2(к + 1)]в/(Ск + 4До + Ио), к=1
^11,г(ио, До) До)
До) 1 ^21,г(ио, До) ^22,г(ио, До)
матрицу локальной (в точке нулевых аргументов, соответствующих истинным параметрам) чувствительности меток "ф.^ = ^¿(0, 0), состоящую из блоков "фкц = ¿(0, 0), а также матрицу локальной чувствительности индикаторной статистики
= 1
п 4-? V ^21,Л'г ^22А
Далее будем ссылаться на следующие условия регулярности отклика меток,
(4а) Для всех u0 G М1 и ß0 G [M] выполняется Ф«(и0, ß0)—0 и равенство здесь достигается, если и только если u0 = 0 и ß0 = 0,
(46) Существуют постоянные L0>0, £0>0 такие, что при ß0 G M и u0+||ß0||2 < ^ равномерно по n выполняется ф(u0, ß0) — — L0(u0+||ß0||2)•
(4в) Для любого R>0 существует c(R)>0, такое, что при всех u0 и ß0, удовлетворяющих ограничениям д0 G М и + ||ß0l|2 > R2-> равномерно по п выполняется
ФгКМо) < ~C(R)VUO+IIMOII2-
(4г) При достаточно больших п для всех г G {1,..., п} матрицы -^Фг 0TPH4a~
n
(4д) Существует невырожденная предельная матрица фх = limn—x фхn. Начнем с утверждения об асимптотической нормальности из (9), которое благодаря ограниченности всех моментов суммируемых случайных векторов нетрудно получить классическим способом — с помощью аппарата характеристических функций. Утверждение 3. Пусть выполнены условия (1а), (1в) и (2а), Тогда при гипотезе
£n—U N(0, V), i'nV~nlin — xT+м•
n—x n—
Условие (1 и) следует из (16) для всех трех рассмотренных нами моделей. Таким образом, для обеспечения асимптотического уровня значимости 7 в (9) достаточно в качестве взять квантиль у ровня 1 — 7 распределения xT+м- Утверждение 3 позволяет использовать для получения оценок принцип максимального достигнутого уровня значимости, согласно которому оценками являются параметры 00 и ß0, обеспечивающие наибольший достигнутый уровень значимости при проверке гипотезы (0', ß')' = (00, ß0)'-Используя введенную ранее функцию s(u, v), явно выразим зависимость индикаторных признаков от гипотетических параметров: s = Sj(00, ß0) = s(Y — X^00, ß0), Тогда = £n(00, ß0) и принцип максимального достигнутого уровня значимости приводит к определению оценок в виде
(0n, ßn)' = arg min ^n(00, ß0)V-1 ^n(00, ß0). (14)
00 бМ , Mo бМ
Целевая функция задачи оптимизации (14) кусочно-постоянна в пространстве параметров и испытывает скачки на гиперплоскостях, которые определяются уравнениями вида X^00 + d'fcß0 = Y — , i = 1, • • •, n, k = 1,..., K — 1. Кроме того, минимум в (14) может быть не единственным, а достигаться на одном или нескольких многогранниках, В связи с этим для поиска оценок необходимо применять специальные методы, которые здесь не рассматриваются. Далее под оценками мы будем понимать любые параметры, доставляющие минимум в (14),
Доверительную область для параметров с уровнем доверия ß можно определить в виде
0n(£) = {(0n, ßn)' : £г(00, ß0)V-1U00, ß0) < FH1(e)} , (15)
где — функция распределения тестовой статистики, в качестве которой можно взять функцию распределения случайной величины хТ+м> получив асимптотическую доверительную область, В любом случае такая доверительная область состоит из объединения многогранников, на которых целевая функция в (14) постоянна и принимает достаточно малые значения. Добавим к этому, что если доказать асимптотическую нормальность оценки (14), то можно построить эллиптическую доверительную область для параметров.
Достаточные условия состоятельности и асимптотической нормальности сформулируем для оценки
(0П ДПУ = аге ; гшп £П(0о, До^-ЧЛ, До), (16)
где V(В) = МТхМ(Д) и величина В>0 настолько мала, что (0', д)' € V(В), Для этого достаточно, чтобы
п . (вк+1 — ^ )'Д + (Ск+1 — Ск)
В < тш -—-——- .
к=1,...,к-2 цак+1 — ||2
Ск+1=сь йк+1=йк
Поскольку V(В) IV = МТ хМ при В^0 и В произвольно мало, факт состоятельности оценки (16) пригоден для описания свойств индикаторных оценок по крайней мере с точки зрения практического применения. При отсутствии параметризации априорного разбиения оценки (14) и (16) совпадают.
Теорема 3.1. Состоятельность индикаторной оценки. Пусть для модели (1)
Д
статочно мала, чтобы, (0', д)' € V(В). Тогда оценка (16) является состоятельной.
Теорема 3.2. Асимптотическая нормальность индикаторной оценки. Пусть для, модели (1) выполнены, условия (1а), (16), (2а), (За), (36), (Зв), (4а,), (46), (4е), (4г) и (4д). Тогда при достаточно малых В > 0 оценка (16) является, асимптотически,
нормальной: ^/п(в'п, ц'п)' N (0, 'Фх1У('Фх1У) •
Основные условия состоятельности и асимптотической нормальности индикаторной оценки параметров выполняются для модели квантильной регрессии, В модели с двумя квантилями они выполняются для любых непрерывно дифференцируемых симметричных функций распределения случайных погрешностей. Для модели с тремя квантилями численная проверка показывает, что эти условия выполняются для распределений из семейства Стьюдента (в том числе Коши), нормального, равномерного распределения Лапласа, для распределений семейства Тьюки (модель симметричного нормального засорения).
Запишем асимптотические ковариации оценок параметров моделей в условиях одинаковой распределенности случайных погрешностей (^ = Для квантильной регрессии асимптотическая ковариация индикаторных оценок по теореме 3,2 равна
/2(0)
Для модели с двумя квантилями дополнительно будем предполагать, что /(р) = /(—р). Тогда индикаторные оценки параметров 0 и р асимптотически независимы и
С* = (17)
П - Р у-1 П - Р*1 - 2?) По%
- 27471)' " (18)
В тех же условиях для модели с тремя квантилями получаем асимптотически независимые оценки с ковариациями
_Q(a2A + Q) р р( 1 - 2р)
Примечательно, что при аналогичных условиях (17) и (18) совпадают с асимптотическими ковариациями оценок, полученных по методу взвешенных модулей остатков (см, [3] и [7] соответственно).
Сравнивая (17) и (18), приходим к выводу, что если к знанию об одной общей квантили добавить знание о симметричной ей квантили, то качество оценивания параметров в возрастает (асимптотическая относительная эффективность — АОЭ — равна 2(1 - р)>1).
Для модели с тремя квантилями ситуация осложняется использованием априорной догадки а а вместо неизвестного а = [/(0) — /(^)]//Если рассматривать только унимодальные распределения (а>0) и выбирать а а = при некотором А>0, то (18) уступает (19) по асимптотической относительной эффективности при оценивании в только когда а>[\/1+А2(^—1]/А. Вычисления показывают, что если взять А = 1/2, то это ограничение выполняется при р < 1/4 для всех распределений семейства Стьюдента (включая распределение Коши), таких как нормальное, логистическое и Лапласа, При этом
для всех этих распределений асимптотическая относительная эффективность неограни-
р
увеличением затянутости хвостов распределения рассматриваемая АОЭ увеличивается, а потери в величине АОЭ от использования а а вместо а не превышают 10 %.
Список литературы
[1] Дмитриев Ю.Г., Тарасенко П.Ф. Автоматизированная система "Октава" для геологического прогнозирования // Вычисл. технологии. 2003. Т. 8. Спецвыпуск. С. 74-91.
[2] Болдии М.В., Симонова Г.И., Тюрин Ю.Н. Знаковый статистический анализ линейных моделей. М.: Наука; Физматлит, 1997.
[3] Koenker R., Bassett G. Regression quantiles // Econometrica. 1978. Vol. 46, N 1. P. 33-50.
[4] Koenker R., Bassett G. Robust tests for heteroseedastieity based on regression quantiles // Econometrika. 1982. Vol. 50. P. 43-61.
[5] portnoy S.L. Asymptotic behavior of the number of regression quantile breakpoints / / SI AM J. Sci. Statist. Сотр. 1991. Vol. 12. P. 867-33.
[6] Chen L.A., Chiang Y.C. Symmetric type quantile and trimmed means for location and linear regression model //J. Nonparametric Statist. 1996. Vol. 7. P. 171-185.
[7] Chen L.A., Tran L.T., Lin L.C. Symmetric regression quantile and its application to robust estimation for the nonlinear regression model //J. Statist. Planning and Inference. 2004. Vol. 126, N 2. P. 423-440.
Поступила в редакцию 23 август,a 2007 г.