ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА 2016 Управление, вычислительная техника и информатика № 2 (35)
УДК 519.24
DOI: 10.17223/19988605/35/7
В.П. Шуленин
АСИМТОТИЧЕСКИЕ СВОЙСТВА РОБАСТНЫХ ОЦЕНОК МАСШТАБНОГО ПАРАМЕТРА
Изучаются свойства робастных оценок масштабного параметра. Показано, что оценка медианы абсолютных разностей имеет асимтотически нормальное распределение, является B-робастной и имеет ограниченную функцию влияния. Приводятся результаты сравнения оценок масштабного параметра в рамках гауссовской модели с засорением.
Ключевые слова: масштабный параметр; робастные оценки; функция влияния.
Масштабный параметр используется в качестве меры, характеризующей степень разброса случайной величины, и определяется в виде функционала от функции распределения наблюдений. Общие требования, предъявляемые к таким функционалам, сформулированы в работах [1, 2]. Традиционно используемые на практике оценки масштабного параметра, такие как выборочная оценка S (0) стандартного отклонения S1 (F) и оценка S2 (0) среднего абсолютных отклонений S2 (F), имеют неограниченные функции влияния и очень чувствительны к наличию выбросов в выборке. Урезанные варианты этих оценок ^(а) и S2(ol) , 0<а < 1/2, которые вычисляются не по исходной выборкеX1,...,Xn , а на основе упорядоченной статистики X(ц,...,X(n), из которой предварительно удаляются [an] наименьших и
наибольших порядковых статистик, имеют ограниченные функции влияния, и их характеристики существенно зависят от параметра a, что на практике приводит к дополнительным усилиям по выбору этого параметра, например с помощью адаптивного подхода, и это усложняет оценку. Выборочные оценки S3 (a) = [ X( n_[ an]) - X([ an]) ] / 2 , 0 <a<1/2, интер- a -квантильных размахов имеют ограниченные функции влияния, но их асимптотические эффективности по отношению к оценке стандартного отклонения при нормальном распределении Ф очень низкие. Например, для оценки интерквартильного размаха
S?3 (0,25) асимптотическая относительная эффективность равна АОЭФ (S3(0,25): Sj(0)) = 0,37. В теории робастного оценивания параметров (см., например, [3-6]) при построении оценок масштабного параметра обычно используют медиану абсолютных отклонений от медианы, выборочная оценка которой записывается в виде S3* = med{| Xt _med(X) |, 1 < i < n }. Эта оценка имеет ограниченную функцию влияния, для неё «точка срыва» (breakdown point) равна максимально возможному значению, равному 1/ 2, но при этом её эффективность невелика, и при нормальном распределении Ф также имеем АОЭф (S3 : Sj(0)) = 0,37. Таким образом, мы приходим к необходимости построения новых оценок масштабного параметра, и с ограниченными функциями влияния, и с высокой эффективностью при нормальном распределении. К числу таких оценок относится рассматриваемая в работе медиана абсолютных разностей S4 = med{| Xt - X} |, 1 < i < j < n}, которая входит в семейство обобщённых L-оценок
[7]. В данной работе доказана асимптотическая нормальность этой оценки, отмечено, что она имеет ограниченную функцию влияния и высокую эффективность при нормальном распределении. Приведены результаты сравнения оценок в рамках гауссовской модели с масштабным засорением.
1. Обсуждение общего подхода к построению оценок масштабного параметра
Введем необходимые понятия и обозначения. Пусть Х - изучаемая случайная величина с функцией распределения F(x), x е R1, которая абсолютно непрерывна, имеет плотность f (x), x е R1, и симметрична
относительно точки 6 х, т.е. Р еЗ^д, где З5|9 = {Р: Р(х) = 1 - Р(29 х - х), Ух е Я1}. Масштабный параметр
функции распределения Р используется в качестве меры, характеризующей степень разброса случайной величины (с.в.) X с функцией распределения (ф.р.) Р. Рассмотрим такие меры, которые могут быть представлены в виде функционала 5"(Р), Р еЗ, заданного на множестве допустимых распределений З в условиях эксперимента, связанного с изучением с.в. X по статистическим данным Х1,...,Хп , полученным в серии п независимых и повторных наблюдений над с.в. Х. Выборочная оценка 5>(Х1,...,Хп) функционала 5(Р), Р еЗ, построенная методом подстановки, записывается в виде 5(Х 1,...,Хп) = 5(Рп), где Рп(х) -эмпирическая функция распределения, построенная по выборке Х1,...,Хп . Общие требования, которым должен удовлетворять функционал 5(Р) , описывающий разброс случайной величины Х , сформулированы Бикелем и Леманом [1, 2]. Для формулировки этих требований напомним определения.
Определение 1. О случайных величинах Х1 и Х 2 с функциями распределений Р1 и Р2 говорят, что с.в. Х2 стохастически больше, чем с.в. Х1 (при этом используют обозначение в виде Р1 <а Р2), если выполняется неравенство Р(Х 1 > х) < Р(Х2 > х), Ух е Я1. Отметим, что Р1 <5{ Р2 ^ Р1(х) > Р2(х), Ух е Я1 и Р-1(0 < Р2-1(0, 0 < t < 1.
Определение 2. Говорят, что выборочная оценка 5>(Х1,...,Хп) = 5(Рп) функционала 5(Р), Р е З, является эквивариантной относительно линейных преобразований наблюдений Х1,... , Хп , если выполняется равенство 5(аХ1 + Ь,...,аХп + Ь) =| а 15?(Х1,...,Хп).
Определение 3. Разброс с.в. Х относительно 9х (масштабный параметр с.в. Х) определяют в терминах «расстояния» Х от 9х, т.е. с помощью величины | Х -9х |, при этом говорят, что с.в. Х1 имеет больший разброс относительно 9х1, чем с.в. Х относительно 9х, если с.в. | Х1 -9 | стохастически больше с.в. | Х -9х |.
Определение 4. Согласно условиям Бикеля и Лемана [1, 2] функционал 5 (Р), Р еЗ, определяет
меру разброса, или масштабный параметр ф.р. Р, если его выборочная оценка 5(Х 1,..., Хп) = 5 (Рп) является эквивариантной относительно линейных преобразований наблюдений Х1,...,Хп и он удовлетворяет условию монотонности относительно стохастического возрастания распределений, т.е. выполняется выражение 5(Р1) < 5(Р2) для Р1 <а Р2 , где Р1 и Р2 - функции распределения вероятностей случайных величин | Х1 -9х1 | и | Х2 -9х2 |.
Замечание 1. Отметим, что выбор конкретного функционала для описания масштабного параметра может быть продиктован различными требованиями. Так, в работе [2] кроме условия эквивариантности оценки относительно линейных преобразований накладывается требование непрерывности функционала относительно метрики, порождающей слабую сходимость. Выполнение этого требования приводит к оценкам функционалов, удовлетворяющих условиям качественной робастности [3, 4]. Окончательный выбор может осуществляться путем сравнения точностей, с которыми каждый функционал может быть оценен по наблюдениям в рамках заданной супермодели. Множество различных функционалов, характеризующих масштабный параметр, условно можно разделить на следующие группы.
К первой группе относятся функционалы, построенные с помощью отклонений каждого члена генеральной совокупности от некоторого «центрального» (типичного значения) с.в. Х с ф.р. Р . Обычно в качестве такого значения используется параметр положения, определённый функционалом Т(Р), либо в виде среднего Т1(Р) = | хйР(х) = М(Х), либо в виде медианы Т2(Р) = Р 1 (1 / 2) = МЕВ(Х). Обозначим
ф.р. | Х - Т(Р) | через Р1 и ф.р. | Х1 - Х2 |, где Х1 и Х2 - независимые с ф.р. Р, через Р2 . Многих представителей первой группы можно описать с помощью функционалов вида
I ¡>гЧО] * , I = ¡,2, (1)
где V(t) - некоторая функция распределения на [0, 1] и у > 0 . Например, если в (1) положить i = 1, в качестве параметра положения выбрать среднее значение T1 (F) и положить V(t) = t, 0 < t < 1, то при у = 1 получим среднее абсолютных отклонений S2 (F), выборочная оценка которого запишется в виде S2 (0) = n -12 | Xi - X |. При у = 2 будем иметь стандартное отклонение. Если же положить V(t) = t /(1 - а), 0 < t < 1 -а , 0 <а< 1/2, то получим а -урезанные варианты указанных мер масштабного параметра. Другая часть этой группы определяется функционалом Fx-1(1/2). Например, при использовании в качестве параметра положения T2(F) = F-1(1/2) = MED(X) получаем широко используемую в теории ро-бастного оценивания медиану абсолютных отклонений от медианы MED | X - MED(X) | [6-8].
Ко второй группе относятся функционалы, построенные с помощью отклонений между всеми членами генеральной совокупности. Некоторые представители этой группы также выражаются с помощью функционалов вида (1). Например, при i = 2, у = 1, и V(t) = t, 0 < t < 1, из (1) получим среднюю
разность Джини, выборочная оценка которой записывается в виде Д0 = [n(n-1)]-12 | Xt -X} |. При
у = 2 получаем стандартное отклонение, умноженное на V2. К этой же группе относится и медиана абсолютных разностей MED | Xi - Xj |, 1 < i, j < n, определяемая с помощью функционала
S4(F) = F2-1(1/2) [8, 10].
К третьей группе относятся функционалы, построенные с помощью расстояний между точками, в которых ф.р. F имеет характерные особенности. К таким точкам могут относиться, например, квантили заданных уровней. Некоторых представителей этой группы можно описать с помощью функционалов вида
jj| F-1(t) - F-1(1 -1)|у dK(t)J , (2)
где K(t) - некоторая функция распределения на [0,1] и у > 0 . В частности, к этой группе относятся интер- а -квантильные размахи, определяемые в виде [ F-1 (1 - а) - F-1 (а)] / 2, 0 <а< 1/2. Отметим, что при а = 0,25 получаем интерквартильный размах, который для симметричных распределений совпадает с медианой абсолютных отклонений от медианы, т.е. определяется функционалом F1-1(1/2) при использовании в качестве параметра положения функционала T2(F) = F-1(1/2) = MED(X). Подводя итог, отметим, что один из общих подходов построения различных (мер) функционалов от распределений, описывающих масштабный параметр, сводится, по существу, к следующему. Над исходной случайной величиной X осуществляется некоторое преобразование вида | X - T1(F) |у , | X - T2(F)|у, | X1 - X2 |у, у > 0, и т.п. Затем к преобразованным случайным величинам применяется либо «операция усреднения», либо «операция вычисления медианы», либо «операция вычисления оценки Ходжеса-Лемана» и т.п. Другими словами, функционал, описывающий масштабный параметр, определяется с помощью функционала, характеризующего параметр положения для преобразованных случайных величин. Например,
«медианная операция», примененная к | X - T2(F) |у при у = 1, приводит к медиане абсолютных отклонений от медианы; «медианная операция», примененная к | X1 - X2 |у при у = 1, приводит к медиане абсолютных разностей; «операция усреднения» в этом случае приводит к средней разности Джини; «операция вычисления оценки Ходжеса-Лемана» приводит к еще не изученным оценкам масштабного параметра, например, такого вида:
med{[|X, -med(X)| +1Xj -med(X)|]/2, 1 <i, j <n }, med{ [|X, -Xj | +1Xk -Xl |]/2, 1 <i, j,k,l <n }.
При этом также возможно использование обобщенных оценок Ходжеса-Лемана и их урезанных вариантов. Применение этой схемы открывает большие возможности при построении новых мер масштабного параметра, при этом могут использоваться обширные результаты, полученные при изучении оценок параметра положения, включая их общие классы M-, L- и ^-оценок, а также обобщённые L-оценки [7, 11-15].
Замечание 2. Отметим, что для выбранного функционала 5(Р), Р е З, описывающего масштабный параметр с.в. Х с ф.р. Р, его выборочная оценка строится методом подстановки и записывается в виде 5(Х 1,...,Хп) = 5(Рп), где Рп(х) - эмпирическая функция распределения, построенная по выборке Х1,...,Хп. Асимптотическая нормальность таких оценок масштабного параметра изучается методом Мизеса с использованием теоремы Слуцкого и центральной предельной теоремы [6, 15] на основе разложения
1 n
S(Fn) = S(F) + - VIF(Xi;F,S) + ^(n-1/2), (3)
где IF(x; F, S) - функция влияния Хампеля [5, 9] оценки S = S(Fn) функционала S(F), F еЗ, которая определяется в виде
F ( F S) i- S[(1 -X) F + XA x ] - S (F) 0 1 R
IF (x; F, S) = lim-, 0 < X < 1, x е R , (4)
для тех x е R1, при которых предел существует. Здесь Ax обозначает вырожденную функцию распределения в точке x е R1. Асимптотическая дисперсия -JnS -оценки обозначается через ct2(F, S) и вычисляется по формуле
ст
ад
-2(F,S) =JIF2(x;F,S)dF(x). (5)
Для сравнения различных оценок масштабного параметра при заданной ф.р. Р будем использовать понятие асимптотической относительной эффективности, определенное через обратное отношение стандартизованных асимптотических дисперсий. Асимптотическую эффективность оценки 5 относительно 52 при заданной ф.р. Р обозначим через АОЭР (51 : 52) и, следуя работам [1, 2], определим в виде
АОЭ р ф 5?2) = , (6)
ст (р, 51)
где ст2(Р, 5) - стандартизованная дисперсия 4п5 -оценки, равная отношению асимптотической дисперсии к квадрату функционала, т.е.
ст2(Р, 5) =с 2(Р, 5)/5 2(Р). (7)
2. Асимптотическая нормальность выборочной медианы абсолютных разностей
Пусть Х1,...,Хп - независимые одинаково распределённые случайные величины, порождённые ф.р. Р(х) с плотностью /(х), Ух е Я1.
Обозначим функцию распределения с. в. У = | Х1 - Х2 | через НР (у) и определим её в виде
Нр (у) = ЦI [ | х - х2|< у]^Р (х )ёР (х2) = | [ Р (х + у) - Р (х - у)] йР (х), у е Я1. Плотность кР (у) ф.р. НР (у) равна
Ьр (у) = | [/(х + у) + /(х - у)] йР(х). Эмпирическая функция распределения Нп (у), значений | Xi - Х^ |, 1 < I < ] < п , записывается в виде
Нп(у)=-тЦтУI[|Хг-Х; |<у]. п(п -1)
Определим функционал 54(НР ) в виде
5 4 (Н р) = Нр1 (1/ 2), (8)
где НР1 квантильная функция для ф.р. НР(у). Выборочная оценка 54 = 54(Нп) функционала 54(НР), наз^1ваемая выборочной медианой абсолютных разностей, входит в класс обобщенных Ь -оценок [7] и определяется в виде
ад
Г Ж(г+1), N = 2г +1, ¿4(Ип) = шес1{| X,. -X,. |, 1 <, <. <п } = -1 ( ) (9)
. [{^(г) + Ж(г+1)}/2, N = 2г,
где ^N), N = п(п-1), - упорядоченные значения «абсолютных разностей Джини» | X, -X. |,
1 <, < . < п , число которых равно N = п(п -1). Отметим, что при выполнении неравенства
к(И^1(\/2)) > 0 оценка £4 = ¿4(Ип) является асимптотически нормальной (см. [10], а также теорему (8.4.26) в [15]). Отметим также, что при изучении свойств робастности оценок важную роль играет функция влияния Хампеля, определяемая выражением (4). Приведем эту функцию для асимптотически эквивалентной оценки Т(Еп) = шеё{| Х! -X. |, 1 <,,. < п}. Эта оценка была предложена в [10]. Она является выборочной оценкой эквивалентного функционала Т (Е), который в данном случае может быть определен через исходную ф.р. Е неявно с помощью выражения
Ц/[|х1 -Х2|<= или \[Е(х + ~(Е))-Е(х-~(Е))-Е(х)~Е(х) = 0. (10)
Можно убедиться [14, 15], что дифференциал Гато первого порядка функционала Т (Е), заданного выражением (10), вычисляется по формуле
(1/2) - Г [Е(х + Т) - Е(х - ~)] ёО(х)
ёгТ(Е; О-Е) =--Т-Т-. (11)
Г [/(х + Т) + /(х - Т)] ёЕ(х)
Отсюда следует, что функция влияния оценки Т (Еп) функционала Т (Е), заданного выражением (10), определяется в виде
Е( ё~(ЕЛ Е) 1 + 2Е (х - - 2Е (х + (12) 1Е (х; Е, Т) = ёхТ (Е; Л х - Е) = —-, х е Я1. (12)
2 Г [ / (х + Т) + / (х - Т)] ёЕ (х) Заметим, что для симметричных распределений функционал Т (Е) определяется выражением
Г Е (х + Т)ёЕ (х) = 3/4, (13)
т.е. соответствует квантилю уровня (3/4) для ф.р. случайной величины У = |X1 -X2 |. Используя разложение (3), можно убедиться [14, 15], что оценка Т (Еп) асимптотически нормальная, т.е. справедливо выражение
1{4п[Т(Е„) - ~(Е)]/ст(Е, ~)} = N(0,1) при п ^^ , (14)
причем асимптотическая дисперсия т[пТ (Еп) -оценки вычисляется по формуле
® Г [1 + 2Е (х - ~) - 2Е (х + ~)]2 ёЕ (х) ! (Е, Т ) = Г 1Е 2(х; Е, Т)ёЕ(х) = 1—-.
-» 4 Ц [ / (х + ~) + / (х - ~)]ёЕ (х))
Функции влияния различных оценок масштабного параметра при нормальном распределении Ф приведены на рис. 1. Отметим, что функция влияния оценки £4 медианы абсолютных разностей является ограниченной, следовательно, эта оценка является В-робастной [9] и подвержена меньшему влиянию выбросов в выборке X1,...,Xn, по сравнению с традиционно применяемой оценкой ¿>'1(0) стандартного отклонения, оценкой (0) среднего абсолютных отклонений и оценкой средних разностей Джини Ла, 0 < а < 1/2 [13].
Пример 1. Приведем результаты сравнения оценки £4(Е) с оценкой ¿>'1(0) стандартного отклонения и оценкой (0) среднего абсолютных отклонений в рамках супермодели с засорением вида 3Е,Х (Ф) = {Е: Е(х) = ФЕ,Х (х)}, где ФЕ,Х (х) = (1 -в)Ф(х) + вФ(х / т). Учитывая, что ФЕ,Х (х) еЗ^, выражение (13), определяющее функционал £4(Е), перепишем в виде
ст
(15)
|ФЕ,Х (х + 5\)й ФЕ,Х (х) - (3/4) = 0.
Формула (15) для асимптотической стандартизованной дисперсии перепишется в виде
- 2 (ГС2 / [1 + 2 Ф8,т (х - 54) - 2 Ф8,т (х + 54]2 й Ф8,т (х)
с (Р,Т) =-5---5-Г^—,
542 • [(1 - е)^ + в(1 - гУ2 / х + в2Зъ/ т2 ]2
где
= >/яехр{-542 /4}, У2 = [хТ^/лД + х2 ]ехр{-(1 / 2)(54 / х)2}, Зъ = хл/^ехр{-542(2 -х2)/4х2}. Численные расчеты относительных эффективностей АОЭР (54 :(0)) медианы абсолютных разностей 54 по отношению к оценке 5 (0) стандартного отклонения и относительных эффективностей АОЭР (54 : 52(0)) для Р еЗвт (Ф) при различных в и х приведены в табл. 1.
Рис. 1. Функции влияния оценок масштабного параметра
Т а б л и ц а 1
Относительные эффективности АОЭГ (: 5 (0)) и АОЭГ (: Я2 (0)) для Г еЗвт(Ф)
х АОЭ(01:02) е = 0,00 е = 0,01 е = 0,05 е = 0,10 е = 0,15 е = 0,20
т = 3 54:5?1(0) 0,864 1,507 2,383 2,211 1,816 1,459
т = 3 V52(0) 0,986 1,048 1,172 1,163 1,075 0,967
т = 5 V5?1(0) V52(0) 0,864 0,986 5,471 1,335 6,733 1,988 4,395 1,958 2,751 1,616 1,735 1,230
Из данных таблицы видно, что оценка 54 медианы абсолютных разностей, проигрывая по эффективности оценке 5'1(0) стандартного отклонения при нормальном распределении (е = 0) менее 14%, а оценке 52 (0) среднего абсолютных отклонений лишь 2%, обладает существенным преимуществом при отклонении от нормального распределения в рамках супермодели Зе х (Ф) . В частности, при изменении пропорции засорения в в интервале 0 <е<0,2 приведенные эффективности больше единицы. Отме-
ченное преимущество возрастает при «утяжелении хвостов распределений» (при увеличении е и масштабного параметра х засорения нормального распределения). Напомним также, что оценка 54, в отличие от оценок 5 (0) и 52 (0), имеет ограниченную функцию влияния (см. рис. 1).
Пример 2. Пусть исходная функция распределения Р является распределением Лапласа с плотностью /(х) = (1/2)ехр{-1 х|}, хеЯ1. В этом случае выражение (13) принимает вид уравнения 1п(2 + 54) - 54 = 0, решением которого является значение функционала 54(Р) и 1,146. Асимптотическая
дисперсия 4п54 -оценки в данном случае, вычисленная по формуле (15), равна 1,685. Следовательно, стандартизованная дисперсия равна СС2(Р, 54) = 1,685 / (1,146)2 = 1,277 . Для сравнения отметим, что при распределении Лапласа для оценок 5?1(0) и 5?2(0) имеем СС 2( Р, 5?1(0)) = 1,250, СС 2(Р, 52(0)) = 1,000. Следовательно, относительные эффективности при распределении Лапласа равны АОЭР (54: 5Д0)) = 0,98, АОЭР (54: 52 (0)) = 0,78.
Приведем теперь результаты сравнения оценки 54 с оценками 53(а), 0 <а< 1/ 2, семейства интер- а -квантильных размахов. Согласно формуле (15) для распределения Лапласа имеем СС2 (Р, 53 (а)) = (1 - 2а) / 2а(1п 2а)2. Численные значения относительной эффективности АОЭР (54 : 53 (а)) оценок 54 и 53(а), 0 <а< 1 / 2, для распределения Лапласа приведены в табл. 2.
Т а б л и ц а 2
Относительные эффективности AO3F(S4 : S3(а)), F-распределение Лапласа
а a = 0,05 a = 0,10 a = 0,15 a = 0,20 a = 0,25 a = 0,30
AOЭF (S4: S?3(a)) 1,33 1,21 1,26 1,40 1,63 2,00
Из таблицы видно, что оценка S4 медианы абсолютных разностей при распределении Лапласа эффективнее любой оценки S3 (a), 0 <а<1/2, из семейства интер- a -квантильных размахов. В частности, её эффективность по отношению к оценке S3* = med{| Xi - med(X) |, 1 < i < n } при распределении Лапласа равна АОЭР (S4 : S3* ) = АОЭР (S4 : S3 (0,25)) = 1,63.
Заключение
В работе обсуждается общий подход к построению робастных оценок масштабного параметра, который основан на использовании робастных оценок параметра положения для предварительно преобразованных наблюдений. Отмечено, что предложенная в [10] выборочная оценка в виде медианы абсолютных разностей, т.е. оценка T(Fn) = med{| Xt -Xj |, 1 < i, j < n}, является B-робастной, её функция влияния Хампеля ограничена, она подвержена меньшему влиянию выбросов в выборке, чем традиционно используемые оценки S1 (0) стандартного отклонения S1 ( F ) и оценка S2 (0) среднего абсолютных отклонений S2 (F). Для предложенной оценки приведены параметры асимптотически нормального распределения. Проведено сравнение оценок и показано, что предложенная оценка T(Fn ) = med{| Xt - Xj |, 1 < i, j < n} имеет высокую эффективность и при нормальном распределении, и в рамках гауссовской модели с масштабным засорением.
ЛИТЕРАТУРА
1. Bickel P.J., Lehmann E.L. Measures of location and scale // Proc. Prague Symp. Asymptotic Statist. 1973. Prague Charles Univ.
1974. V. 1. P. 25-36.
2. Bickel P.J., Lehmann E.L. Descriptive statistics for nonparametric models. III // Dispersion. Ann. Statist. 1976. V. 4, No. 6. P. 1139—
1158.
3. Hampel F.R. Contribution to the theory of robust estimation : Ph. D. diss. Berkeley : Univ. California, 1968. 103 p.
4. Hampel F.R. A general qualitative definition of robustness // Ann. Math. Statist. 1971. V. 42. P. 1887-1896.
5. Hampel F.R. The influence curve and its role in robust estimation // J. Amer. Statist. Assoc. 1974. V. 69, No. 346. P. 383-393.
6. Serfling R.J. Approximation Theorems of Mathematical Statistics. N.Y. : Wiley, 1980. 371 p.
7. Serfling R.J. Generalized L-M-R-statistics // Ann. Statist. 1984. V. 12. P. 76-86.
8. Rousseeuw P.J., Croux C. Alternatives to the Median Absolute Deviation // Journal of the American Statistical Association. 1993.
V. 88, No. 424. P. 1273-1283.
9. Хампель Ф., Рончетти Э., Рауссей П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. М. : Мир,
1989. 512 с.
10. Шуленин В.П. Исследование свойств оценки медианы абсолютных разностей // V Совещание-семинар по непараметрическим и робастным методам статистики в кибернетике. Томск, 1987. Ч. II. C. 460-467.
11. Шуленин В.П. Асимптотические свойства и робастность обобщенных L-оценок // Труды V Международной конференции по теории вероятности и математической статистике. Вильнюс, 1989. T. 4. C. 377-378.
12. Шуленин В.П. Асимптотические свойства обобщенных L-оценок, вычисляемых по урезанным выборкам // Непараметрические и робастные статистические методы в кибернетике и информатике. Томск : Изд-во Том. ун-та, 1990. C. 564-570.
13. Шуленин В.П. Исследование устойчивости и асимптотических свойств урезанной средней разности Джини // Труды IV Международной конференции по теории вероятности и математической статистике. Вильнюс, 1985. С. 330-332.
14. Шуленин В.П. Введение в робастную статистику. Томск : Изд-во Том. ун-та, 1993. 227 с.
15. Шуленин В.П. Математическая статистика. Ч. 3 : Робастная статистика : учебник. Томск : Изд-во НТЛ, 2012. 520 с. Шуленин Валерий Петрович, канд. техн. наук, доцент. E-mail: [email protected]
Томский государственный университет Поступила в редакцию 15 февраля 2016 г.
Shulenin Valery P. (Tomsk State University, Russian Federation). Asymptotic properties of robust estimators of scale parameters.
Keywords: scale parameter; robust estimator; influence function; asymptotic relative efficiency. DOI: 10.17223/19988605/35/7
This paper deals with asymptotic robust properties of some estimators of scale parameter by the e -contamination of the model distributions: F = Фе x (x) = (1 - е)Ф(x) + еФ(x / т) , e is a known proportion of contamination (0 <e < 1/ 2) , x is a known scale parameter and Ф is the standard Gaussian distribution function.
Assume that X1,...,Xn is a random sample with distribution function F(x) and F has a density f (x) , x e R1. Let T(F) , F e3, is a generic scale functional and Tn(X1;...,Xn) = T(Fn) is its sample estimator. We consider the functional T(F) defined by J [F(x + T(F)) - F(x - T(F)) - F(x)]dF(x) = 0 and the location invariance and scale equivariance sample estimators of the functional T (F ), F e3. The sample estimator of this functional T (F ) is given by Tn (X1,..., Xn ) = med {| Xi - Xj |, 1 < i, j < n } . This estimator is also named as the median of the absolute differences.
The purpose of this article is to study asymptotic robust properties Tn - estimators for different models distributions. The formal
calculation of the Influence Function IF(x; F, T) is given by
IF(x ; F, T) = dj(F; Ax - F) = 1 + 2F(x - T) - 2F(x + T) , x e R1.
2 J [ f ( x + T ) + f ( x - T )] dF ( x)
Note that Influence Function IF(x; F,T) is bounded and looks like as the U-shaped curve. If J [ f (x + T) + f (x - T)]dF(x) > 0,
then the random variable Vn{Tn - T(F)}/ ct(F, Tn ) has asymptotically standard normal distribution, where the asymptotic variance
of JnT is given by the following formula:
» 2 J [1 + 2 F ( x - T ) - 2 F ( x + T )]2 dF ( x) a2(F, T„ ) = J IF2(x ; F, T)dF(x) = 1—-—.
-» 4 (J [ f ( x + T ) + f ( x - T )] dF ( x) )
The paper contains numerical comparisons for some estimators of scale parameters by e - contamination of the model distribution for different values of e and x . It is shown that for normal distribution asymptotic relative efficiency Tn - estimator with respect to S1
having the classical standard deviation is equal: ARE,II (Tn : S1) = 0.86 and AREai (Tn : S2) = 0.98 , where S2 has the average absolute deviation.
REFERENCES
1. Bickel, P.J. & Lehmann, E.L. (1974) Measures of location and scale. Proc. Prague Symp. Asymptotic Statist. 1. Prague Charles Uni-
versity. pp. 25-36.
2. Bickel, P.J. & Lehmann, E.L. (1976) Descriptive statistics for nonparametric models. III. Dispersion. Annual Statistics. 4(6). pp. 1139-1158.
3. Hampel, F.R. (1968) Contribution to the theory of robust estimation. Ph. D. Diss. Berkeley, Univ. California.
4. Hampel, F.R. (1971) A general qualitative definition of robustness. Annual Mathematical Statistics 42. pp. 1887-1896. DOI:
10.1214/aoms/1177693054
5. Hampel, F.R. (1974) The influence curve and its role in robust estimation. Journal of American Statistical Association. 69(346).
pp. 383-393. DOI: 10.1080/01621459.1974.10482962
6. Serfling, R.J. (1980) Approximation Theorems of Mathematical Statistics. New York: Wiley.
7. Serfling, R. J. (1984) Generalized L-M-R-statistics. Annual Statistics. 12. pp. 76-86.
8. Rousseeuw, P.J. & Croux, C. (1993) Alternatives to the Median Absolute Deviation. Journal of the American Statistical Association.
88(424). pp. 1273-1283. DOI: 10.1080/01621459.1993.10476408
9. Hampel, F., Ronchetti, E., Rousseeuw, P. & Stahel, W. (1989) Robastnost' v statistike. Podkhod na osnove funktsiy vliyaniya [Robust
Statistics. The Approach Based on Influence Functions]. Moscow: Mir.
10. Shulenin, V.P. (1987) [Studying the properties of the median absolute differences of assessment]. V Soveshchanie-seminar po neparametricheskim i robastnym metodam statistiki v kibernetike [Proc. of the Fifth Conference on nonparametric and robust methods of statistics in cybernetics]. Tomsk. pp. 460-467. (In Russian).
11. Shulenin, V.P. (1989) [The asymptotic properties and robustness of generalized L-assessments]. Trudy VMezhdunarodnoy konfer-entsii po teorii veroyatnosti i matematicheskoy statistike [Proc. of the Fifth International Conference on the Theory of Probability and Mathematical Statistics]. Vilnius. pp. 377-378. (In Russian).
12. Shulenin, V.P. (1990) Asimptoticheskie svoystva obobshchennykh L-otsenok, vychislyaemykh po urezannym vyborkam [The asymptotic properties of generalized L-estimates calculated by the trimmed samples]. In: Tarasenko, F.P. (ed.) Neparametricheskie i robastnye statisticheskie metody v kibernetike i informatike [Nonparametric and robust statistical methods in cybernetics and computer science]. Tomsk: Tomsk State University. pp. 564-570.
13. Shulenin, V.P. (1985) [Investigation of the stability and asymptotic properties of the truncated mean difference Gini]. Trudy IV Mezhdunarodnoy konferentsii po teorii veroyatnosti i matematicheskoy statistike [Proc. of the Fourth International Conference on the Theory of Probability and Mathematical Statistics] Vilnius. pp. 330-332. (In Russian).
14. Shulenin, V.P. (1993) Vvedenie v robastnuyu statistiku [Introduction into Robust Statistics]. Tomsk: Tomsk State University.
15. Shulenin, V.P. (2012) Matematicheskaya statistika [Math statistics]. Part 3. Tomsk: NTL.