ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
№ 293 Декабрь 2006
ТЕОРИЯ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
УДК 519.2
О.Н. Головчинер, Ю.Г. Дмитриев
СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ФУНКЦИОНАЛА С УЧЕТОМ СИММЕТРИИ РАСПРЕДЕЛЕНИЯ
Рассматривается задача статистического оценивания математического ожидания функции от случайной величины при наличии дополнительной информации о симметрии неизвестного распределения относительно центра а, принимающего одно из т заданных значений. Предлагаются две адаптивные оценки с одинаковыми асимптотическими свойствами. Путем имитационного моделирования проводится сравнение качества оценок при конечных выборках.
Постановка задачи
Пусть по результатам N независимых наблюдений Х1,Х2, ..., XN над случайной величиной Xс неизвестной функцией распределения Е(х) требуется оценить функционал 9(Е) = M ф(Х) = ^ ф( х)^Е (х) от заданной
скалярной функции ф(х) на Я1, если известно, что Е (х) симметрично относительно точки а, т.е. Е(х) = 1 - Е(2а - х) Ух є Я1, и центр симметрии а может принимать одно из т заданных значений:
а є {а.}. —.
4 1 * і=1,т
Если центр симметрии известен (т = 1 и а = а1), то для оценивания 9(Е) с учетом информации о симметрии применяется оценка
9 а = | ф(х) + ф(2а- х) (х) =
1 N г т
= 2N Е[ф([) + ф(2а - X,.)],
2N ,=1
(1)
D(
= D ф( X) - соу(ф( X), ф(2а - X)) = ст2
2 • N
= —• (2)
N
нивания 9(Е) предлагаются два типа оценок, основанных на методе коррелированных процессов В.Н. Пугачева:
1. Оценка 9 И, для построения которой определяются вспомогательные функции.
2. Оценка 9 аИ, получаемая подстановкой в (1) оценки центра симметрии а.
Оценка первого типа
Определим для каждого из т заданных значений центра симметрии вспомогательную функцию
у,(х) =
ф(х) - ф(2а, - х)
2
(3)
где Ем (х) - эмпирическая функция распределения. Эта
оценка является несмещенной, М 9 а = 9(Е) и ее дисперсия равна
Поскольку Б ф(Х) = Б ф(2а - X) = Б ф, то, согласно неравенству Коши-Буняковского, величина
[Б ф(X) - соу(ф(X), ф(2а - X))] не отрицательна, следовательно, дисперсия оценки 9а не превосходит дисперсию безусловной эмпирической оценки 9 = N— ф(Х,.), определяемую выражением
Б 9 = N-1 Б ф .
Для случая т > 1, т.е. если центр симметрии задан с точностью до конечного множества значений, для оце-
и величину Дt = Jr1 уt (x)dF(x), принимающую нулевое значение, если a t =а. Поскольку множество {аt } — обязательно содержит истинное значение
центра симметрии, то Пл=1 Д t = 0. Таким образом,
имеющаяся дополнительная информация сводится к равенству
m
ПД t = |у1(х!)кУ m (xm ) dF(xi)K dF(Xm ) = 0.
t=1 R1 R1
Рассмотрим оценку 9(J') =9 - X • UN , в которой
I « (..........Xtm )
1<?1 <...< m < n
есть U-статистика с невырожденным ядром
g( •••, \ ) = (m!)-1 (x),
(p) t=1
Un=(cm)"
R
а
где обозначение (р) под знаком суммы означает суммирование по всем т! перестановкам (, ..., Iт) чисел (1, ..., т).
Если М ф2(Х) <ж и коэффициент X принимается
равным X* = соу(9, UN )/БUN , то оценка 9Ц,) обладает минимальной дисперсией
Б 9^ = ш1иБ 9^ =
Б ф-
соу(9, и N)
Би„
Вычисления показывают, что 1
соу(9, и N) = — £А(,') соу(ф, у);
N /=1
БUN = -1£(А00)2БуQ + 0(N-3)
N
N2
где А« = Щ, А * , А(!'-) =Ит„,, А *
Q =
£ £ а(*) соу(у*, у,)
^ *=11=1,1 > *
т т / \-.
£ £(а(*° )2 Б у * • Б
*=1 1=1,1 >* т т т
Доказательство. Докажем утверждение «а». Так как М ф2 (X) < ж, то из закона больших чисел и первой теоремы непрерывности [1] следует, что
АI —А1, соу(ф, у 1соу(ф, у 1),
Б у—р^ Б у, соу(у г, у . ) —— соу(у г, у. )
для всех I, ] = 1, т , поэтому X —X . Отсюда, принимая во внимание несмещенность и-статистик [2. С. 16], получаем 9 N —9(Е).
Для доказательства утверждения «б» рассмотрим разность (9^- -9(Х }) = л/^ (X-X* —N = RN.
Здесь UN - невырожденная И-статистика, так как М(я(, ..., Xm)) = X) = т- £т=1 А(г)уг (х )* 0.
Согласно [2. С. 92], при N ^ж величина
слабо сходится к нормально распределенной случайной величине с нулевым средним и конечной дисперсией.
Учитывая, что X —, получим, что RN слабо сходится к нулю, т.е. асимптотические распределения ве-
+2£ £ £ А(И)А(*р) Б у* • соу(у,, у р).
*=1 I=1,1 ф * р=1, р >1
По условию задачи одно из значений центра симметрии является истинным. Пусть, например, а * = а , тогда
А * = 0 и только А(*-1 и А(*'), I ф * , не равны нулю. Поэтому приведенные выражения можно упростить и представить дисперсию рассматриваемой оценки в виде
N• Б9^) = Бф-СОу (фу*) + 0(^‘). (4)
Б у *
Так как оптимальный коэффициент обычно неизвестен, то применим адаптивную оценку 9N =9 - X • иN , в которой вместо X* используется оценка его главной части X, полученная заменой неизвестных величин их эмпирическими значениями /А 1, соу(ф, уг-), 15 у 1,
соу(уг-, у), I, ] = 1, т , вычисленными по исходной
выборке. Свойства адаптивной оценки определяет следующая теорема.
Теорема 1. Пусть М ф2 (X) < ж и
ст02 = ^Бф(X) - соу(ф(X),ф(2а - X))> 0.
Тогда при N ^ ж :
а) 9 N —^ 9(Е),
б) £^/м (9 N -9))^ N (о, ст°;), где N (о, ст2) - нормальное распределение с нулевым математическим
личин
4ы (9N -9) и 4ы (9^*) -9)
совпадают.
Представим оценку 9^ ) = N -1 £N=1 ф^)-x*UN в виде И-статистики UN с симметрическим невырожден-
ным
ядром 8 (X1, ..., Хт )=(т) 1 £'!1ф(х )-X* • 8 (Х1 ..., Хт) , для которого выполняются все условия одномерной теоремы об асимптотической нормальности И-ста-тистик [2. С. 90]. Согласно указанной теореме, при
N ^ ж случайная величина 4ы ( - 9) имеет нормальное распределение с нулевым средним и дисперсией, совпадающей с главной частью выражения (4). Принимая во внимание (3) и а * = а , получаем
Б ф -
соу2 (ф, у *) = Б ф - cov(ф(X)ф(2а - X)) =
Б у * 2
поэтому с(у/ы (э^ -9))^ N (о, ст 2)
4N (9 N -9))^ N (о, ст2).
и, следовательно,
Оценка второго типа
Применим метод коррелированных процессов для оценивания центра симметрии. Оценим функционал а(Е) = М X1 = ^ хйЕ(х) с учетом дополнительной
информации о том, что ае {а 1}.=—. Обозначим
51 = а-а 1, I = 1,т , тогда дополнительная информация представляется в виде
ожиданием и дисперсией ст0 .
+
о
т
И8. =1 к {(х1 -а1 )к.(хт -а т )^Е(х1 )••• ¿Е(хт ) = 0.
'=1 Я1 Я1
Полученное равенство несмещенно оценивает И-ста-тистика иа с симметрическим ядром
_ т
8а X , ..., \ ) = (т !)-1 ХП(хі( -а*) .
(Р) ¿=1
Рассмотрим оценку а N = а -у • и а, где
а = N-1 £^=1 Хі , а у - адаптивная оценка главной части оптимального коэффициента
* СОУІ
У =
Би а
а. +
2 а22 Б X (N - 1)а1
-о{ы-2),
в которой вместо неизвестных величин Б X,
>. =іт=. п:д«-а,)
и а,
Би а = N• 2
( а2 Б X 'ї
-О^ ~3).
-*1 у
Отсюда, принимая во внимание неравенство Чебышева, получаем утверждения леммы. ■
Подставляя а ы вместо неизвестного центра симметрии а в (1), получим оценку
9 ^ £ [ф(X,-) + ф(2а N - X,.)].
2Л' ,=1
Теорема 2. Пусть функция ф(х) непрерывна в окрестности а и имеет непрерывные производные до второго порядка включительно, Мф2 (X) < ж, М ф '(X) < ж,
Мф" (X) <ж и ст° = -^Бф(X)-соу(ф(X),ф(2а-X))>0.
2
► 9{Е)
нор-
используются их эмпирические оценки.
Лемма. Если Б X = М^ - а)2 < ж , то при N — ж
ам ———а и д/х(ам -а)———0 .
Доказательство. Пусть коэффициент у * известен,
* * гт
тогда ам =а -у • Uа .
Рассмотрим разность \/N (а^ -аN ')=у/Ы( у*)а . На основании закона больших чисел и первой теоремы непрерывности имеем у ——— у *. Из выражения
М((X!, ..., Xm)|X, = х1 ) = т-1а1 (х1 -а)ф0 следует
невырожденность И-статистики U а. Поэтому, согласно [2.
С. 92], при N —— ж величина •JN'uа слабо сходится к нормально распределенной случайной величине с нулевым средним и конечной дисперсией 0^ Б X . Следовательно,
(у - у *) • U а ——— 0 и асимптотические распределения величин (а м - а) и ■рЙ (а^ -а) совпадают.
Представим а^ в виде И-статистики Uа с ядром
8а (X1, ..., хт ) = (т)-1 £”=! х, -У*8а (X1, ..., хт ) . Очевидно, что МUа = Ма^ = а . Вычисления показывают, что
М (8а (X], ..., Xm )|X1 = х1 ) = 0
и
М(8а^(, ..., Xm )\Xl = х„X2 = х2 )ф 0,
т.е. рассматриваемая И-статистика является вырожденной, ее ранг равен 2 и, согласно [2], при N — ж
Тогда при N — ж 0 аМ -
-£ (^ (9 а^ -9)) — М (0 СТ(° ) , где и (0, ст2 )
мальное распределение с нулевым математическим
2
ожиданием и дисперсией Сто.
Доказательство. В окрестности точки а справедливо разложение
/V 1 N
9 а^ =9 а +(а N - а) • N £ф"(2„-X^ ) +
N ,=1 1 N
+ (а N -а)° • N £ф" (2 2 - ^),
N 1=1
где 2 е (а, а м). Отсюда
^(9 ^ -9)^•/N(а N -а)- N £ ф " (2а- X,■) +
N ,=1
+ (аN -а)2 • N£ф"(22 -X,) +лМ9а -9). (5)
N ,=1
На основании закона больших чисел
1 N
—£ф' (2а- ^)—— М ф' (г )<ж,
N ,=1
1 N
—£ф " (22 - X,)—— М ф "(X) < ж,
N ,=1
а согласно лемме, у[м(ам -а)——— 0. В силу этого два первых слагаемых в правой части (5) стремятся по вероятности к нулю. Следовательно, асимптотическое
распределение величины (9 аМ -9) совпадает с пре-
дельным распределением величины л/ж ((9 а -9), которое является нормальным N (о, ст0) в силу центральной предельной теоремы. ■
Имитационное моделирование
Согласно доказанным теоремам, предложенные оценки 9 х и 0 аЛ, учитывающие информацию о центре симметрии, заданном с точностью до конечного множества значений, при N — ж распределены одинаково, причем их асимптотическое распределение совпа-
2
дает с предельным распределением оценки 0 а - с известным центром симметрии.
Для исследования свойств оценок при конечных объемах наблюдений было проведено численное моделирование, при котором по наборам стандартных нормальных величин, сгенерированных средствами пакета Statis-tica 6.0, вычислялись различные оценки функционала 0(F) = Jr1 exdF(x) с учетом информации о симметрии распределения с центром ае(а1, а 2}. Величина а 2 принимала различные значения в диапазоне от -1,5 до 1,5, а а1 = а = 0 . Критерием качества для сравнения оценок выбрана величина N CKO = N/n • к - 9) , где
t=1
9 ^ - значение оценки, вычисленное на t-м прогоне, а n=1000 - количество прогонов. Изменение величины NCKO в зависимости от значения а 2 для разных оценок и объемов наблюдений показано на приведенных графиках (см. рис. 2).
Результаты проведенного моделирования показали, что:
1. Привлечение дополнительной информации о симметрии исследуемого распределения позволяет повысить точность оценивания по сравнению с безусловной оценкой при конечных объемах наблюдений. Оценить величину уменьшения СКО оценок позволяют приведенные графики. Например, при N=50 и
а2 =±0,75 СКО оценок 9N и 9 а примерно вдвое
меньше, чем СКО безусловной оценки (рис. 1, 3, 4).
Оценки центра симметрии при разных К
Рис. 1. NСКО оценок 9 , 0а , 0н и 0аМ для N = 50
2. Величина выигрыша в точности оценивания зависит от «расстояния» между возможными значениями центра симметрии. Чем ближе друг к другу значения а,, , = 1, т , тем меньше «ценность» дополнительной информации. Особенно ясно эта зависимость проявляется при оценивании центра симметрии (оценка аи),
когда не оказывает влияния функция ф(х) .
- ' 1 / а ■ \ ■, \
/■' Г- \ \ \
/ /' v \
■ (; ^ ч
Рис. 2. NСКО оценок а и ап для разных N
3. Неопределенность в задании центра симметрии увеличивает СКО оценок по сравнению с оценкой 9 а (с известным центром). Кроме того, при маленьких N (до 50) очень заметно влияние адаптации. С ростом объемов наблюдений различия между оценками уменьшаются. На рис. 3 и 4 приведены графики NСКО
оценок 0 и и 9 для разных N.
Рис. 3. NCKO оценки 0N для разных N
Рис. 4. NCKO оценки 0 „ для разных N
4. Свойства оценок зависят от вида подынтегральной функции. Для исследуемой функции ф(х) = ех при
N = 50 и более свойства оценок 0 м и 0 совпадают (рис. 1).
ЛИТЕРАТУРА
1. БоровковА.А. Математическая статистика. Проверка гипотез. Оценка параметров. М.: Наука, 1984. 472 с.
2. КоролюкВ.С., БоровскихЮ.В. Теория U-статистик. Киев: Наукова думка, 1981. 384 с.
Статья представлена кафедрой теоретической кибернетики факультета прикладной математики и кибернетики Томского государственного университета, поступила в научную редакцию «Кибернетика» 30 мая 2006 г.