Научная статья на тему 'О больших уклонениях сглаженных статистик Колмогорова-Смирнова'

О больших уклонениях сглаженных статистик Колмогорова-Смирнова Текст научной статьи по специальности «Математика»

CC BY
107
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СГЛАЖЕННАЯ ЭМПИРИЧЕСКАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ / БОЛЬШИЕ УКЛОНЕНИЯ / ПРОИЗВОДЯЩАЯ ФУНКЦИЯ МОМЕНТОВ / СТАТИСТИКИ КОЛМОГОРОВА-СМИРНОВА / ANDOM FIELDS / DEPENDENCE CONDITIONS / STATIONARITY / CENTRAL LIMIT THEOREM / UNIFORM INTEGRABILITY

Аннотация научной статьи по математике, автор научной работы — Буторина Ю. О., Никитин Я. Ю.

Изучается логарифмическая асимптотика вероятностей больших уклонений для статистик типа Колмогорова-Смирнова, предназначенных для проверки согласия и симметрии и построенных на основе сглаженных эмпирических функций распределения. Такие статистики зависят от выбора ядра и ширины окна, что не позволяет применить к ним стандартные методы изучения больших уклонений для свободных от распределения статистик, основанных на эмпирических функциях распределения. Поэтому применяется иной подход, существенной частью которого является использование теоремы Плахки-Штейнебаха. Оказывается, что результаты ничем не отличаются от статистик Колмогорова-Смирнова, построенных по обычной эмпирической функции распределения. Это означает, в частности, что бахадуровская асимптотическая эффективность сглаженных статистик Колмогорова-Смирнова также совпадает с эффективностью классических статистик.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Буторина Ю. О., Никитин Я. Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Central limit theorem for positively associated stationary random

Positively associated random fields defined on d-dimensional lattice arise in various models of mathematical statistics, percolation, statistical physics and reliability theory. We consider the fields with covariance function satisfying a more general condition than summability. The criterion of validity of the central limit theorem (CLT) is established for the partial sums of a field from that class. These sums are taken over growing parallelepipeds or cubes. The well-known Newman hypothesis claims that for an associated stationary random field the mentioned requirement on the covariance function behavior implies CLT. As was shown by N. Herrndorf and A. P. Shashkin, the hypothesis fails already for d = 1. This paper reveals the key role of the uniform integrability of the squares of the field partial sums for the CLT to hold. Thus we obtain an extension of the Lewis theorem, proved for a sequence of random variables, and also show how the Newman hypothesis should be modified for any d. A representation for the field partial sums variance in terms of slowly varying multivariate functions is essential here.

Текст научной работы на тему «О больших уклонениях сглаженных статистик Колмогорова-Смирнова»

О БОЛЬШИХ УКЛОНЕНИЯХ

СГЛАЖЕННЫХ СТАТИСТИК КОЛМОГОРОВА-СМИРНОВА*

Ю. О. Буторина1, Я. Ю. Никитин2

1. С.-Петербургский государственный университет, студентка, [email protected]

2. С.-Петербургский государственный университет, д-р физ.-мат. наук, профессор, [email protected]

1. Введение. Пусть Х1,..., Хп — выборка из независимых наблюдений с непрерывной функцией распределения (ф.р.) О(х). Классическими задачами математической статистики являются задачи проверки гипотез согласия и симметрии для распределения исходной выборки. В первом случае для некоторой полностью известной ф.р. Р мы проверяем гипотезу согласия Но : О(х) = Р(х) для всех х против альтернативы о том, что О(х) = Р(х) для хотя бы одного х. Во втором случае проверяется гипотеза сим-

том, что это равенство нарушается хотя бы в одной точке.

Хорошо известными свободными от распределения статистиками для проверки этих гипотез являются соответственно статистика Колмогорова Пп = зиржек \Рп(х) — Р(х)| и статистика Смирнова 1п = зиржек \Рп(х) + Рп(—х) — 1\, где Рп(х) —обычная эмпирическая ф.р. (э.ф.р.) Свойства этих статистик хорошо изучены, см., например, [1, 2].

Если же нам известно, что выборка имеет абсолютно непрерывную ф.р. Р с плотностью то естественно рассмотреть в качестве аппроксимации Р не ступенчатую функцию Рп, а ее непрерывный, сглаженный вариант.

Сглаженной э.ф.р. принято называть функцию

где К — непрерывная ф.р., называемая ядром, а последовательность Нп такова, что Ьп ^ 0 и пНп ^ ж при п ^ ж; Нп называется шириной окна. В остальном К и Нп произвольны и предоставляются на выбор статистика. Такие сглаженные, или ядерные э.ф.р. можно рассматривать как проинтегрированные ядерные оценки плотности.

Ядерные оценки ф.р. начали изучаться Надарая в 60-х годах прошлого века. В [3] для ¥'п(х) был доказан аналог теоремы Гливенко—Кантелли. Различные асимптотические свойства Рп изучались также в [4-8]. Известно, что сглаженная э.ф.р. превосходит обычную э.ф.р. по средней квадратичной ошибке, а в [9] и [10] доказано преимущество сглаженных э.ф.р. с точки зрения асимптотического дефекта по Ходжесу—Леману. Поэтому от статистик, основанных на сглаженной э.ф.р., можно ожидать лучшего в каком-либо смысле асимптотического поведения, чем от классических.

* Работа выполнена при финансовой поддержке РФФИ (грант № 10-01-00154^) и Федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» (грант №20101.1-111-128-033).

© Ю. О. Буторина, Я. Ю. Никитин, 2011

метрии относительно нуля Но : О(х) + О(-х) = 1 для всех х против альтернативы о

В данной работе мы рассматриваем сглаженные варианты статистик Колмогорова и Смирнова

и вычисляем для них грубые асимптотики вероятностей больших уклонений. Мы доказываем, что эти асимптотики совпадают с классическими асимптотиками для статистик Колмогорова и Смирнова [11, 12, 2]. Результат согласуется с общими результатами о больших уклонениях в [13].

Из этого и теоремы типа Гливенко—Кантелли вытекает, что бахадуровская эффективность сглаженных статистик колмогоровского типа Iп и 1п, такая же как у классических, см. [12, 2]. Можно ожидать, что различие в эффективности снова проявляется на более тонком уровне, а именно на уровне бахадуровского асимптотического дефекта.

2. Сглаженная статистика Колмогорова. Пусть 0 < х, X < 1. Рассмотрим функции

Мы будем рассматривать статистику Вп и ее односторонние варианты В + и Вп . Свободы от распределения у таких статистик уже нет. Покажем, что грубые асимпто-

Отличие нашего доказательства от [11, 12] заключается в том, что производящая функция моментов, появляющаяся в процессе рассуждений, зависит в нашем случае и от ядра К, и от ширины окна Нп. Мы преодолеваем это препятствие, используя теорему Плахки—Штейнебаха [14]. В классическом случае такой зависимости нет, что позволяет воспользоваться более простой теоремой Чернова. Наш результат состоит в следующем.

Теорема 2. При справедливости гипотезы Но и X > 0

Ьп = вир \Рп(х) - ¥(х)\

и

1 п = вир \Рп(х) + Рп{-х) — 1\

д(Х) = М I (х,Х).

же [0,1]

Из [11] известно, что д — непрерывная функция. Хорошо известен следующий результат [11, 12].

Теорема 1. При справедливости гипотезы Но

Ііт п 11пР(Вп > X) = -д(Х).

п—

тики вероятностей больших уклонений Вп и Вп при нулевой гипотезе совпадают.

Ііт п 11п Р(Вп > X) = Ііт п 11п Р(Вп > X) = -д(Х).

п—

п—

Оценка снизу. Зафиксируем произвольный х. Пусть

- і V V ^п

г=1 4 4

¥(х) - X

liminf n 1 lnP+(X) > sup lim n 1 lnP(Vn(x,X) > 0). (1)

п—ж x£R n—<x,

Рассмотрим производящую функцию моментов величины nVn (x, X): mn(t, x, X) = EetnVn(x,x) = Eexp

"Г ..... j <-:|i (ll, (-77^ j j ( ) <O0, V(6R.

Далее,

1

n * ln mn(t,x,X) = -t(F(x) + X)+

iii (/ exp (tK (~Y^y) f(y}dy + J exp {*K (~h~~ ) ) f(y)dy

c(t, x, X) = —t(F(x) + X) + ln (etF(x) + 1 — F(x)) , 'it G R.

Тогда по теореме Плахки—Штейнебаха [14]

lim n-1 lnP(Vn(x, X) > 0) = inf c(t, x, X) -

ln

t>0

F(x) \F{x)+X f 1 — F(x) \1-F(x)-X

■= —q(x, X).

yF (x)+X J \1 — F (x) — X,

Поэтому при любом фиксированном x

P(Vn(x,X) > 0) = exp (—nq(x, X)+o(x,n)) , n ^ж. (2)

Величина o(x, n) может зависеть от x, но при любом x справедливо соотношение lim o(x,n)/n = 0. Это значит, что для любого е > 0 найдется такое натуральное

n—— Ж

Nx, что если n > Nx, то \o(x,n)/n\ < е.

Далее, в силу (1) по непрерывности F получаем

liminf n-1 lnP+ (X) > sup (—q(x, X)) = — inf q(x, X) = —g(X). (3)

n—x£R x£R

Оценка сверху. Пусть к — достаточно большое натуральное число. Рассмотрим разбиение отрезка [0,1] точками вида i/к, i = 0,к. Точки tj = ¥_1(*//г) (при обычном определении обратной функции) разбивают всю вещественную прямую R. Ясно, что при 1 < i < к

i — 1

(X) — t'[X) ' ' ' ' ’ 1 .....

ma^ jFn(x) — F(x) \ t— < x < t^ < Fn (ti)

к

Пусть T^k = Fn (ti) — (i — 1)/к. Тогда < тах4=у-д:Т^’к. Значит, в силу асимптотиче-16

ского соотношения (2) при A > О имеем

Р+(А) < Р (тахТ^к >\)< ]ГР (Т^к > Л) <

/ i=1

< к max Р (Vn (ti, А — k~r) > О) <

і=1,к

< к exp I — n min q (ti, А — к_1) + о (і/к, n) I <

\ i=l,k J

К k exp (—ninf q(x,A — k-1) + o*(n)^J .

В последней экспоненте остаточный член о*(п) определяется самой быстро растущей из к последовательностей о(г/к, п) из (2), но он растет медленнее п в силу конечности к. Если мы возьмем Ж* = тах4=^-д; то при п > Ж* будет выполняться |о*(п)/п| < е.

Логарифмируя, деля на п и переходя к пределу, получаем

Ишвир п-11п Р+ (X) < —д (X — к-1) .

п—

Устремляя к ^ж, получаем ввиду непрерывности д

Ишвирп-11пР+(Х) <—д(Х). (4)

п—

Собирая (3) и (4), окончательно получаем

Иш п-11пР(1+ > Х) = —д(Х). (5)

П—>-оо

Для статистики Вп = вир(¥(х) — ¥п(х)) рассуждения аналогичны и получается тот же результат, что в (5). Поскольку

Рф+ > X) < Рфп > X) < 2тах{Р(ф+ > Х),Рф- > X)},

верно и

Ііт п-11пР(фп > X) = —д(X).

п—

3. Сглаженная статистика Смирнова. Большие уклонения статистики Смирнова Іп = виржЄк \¥п(х) + ¥п(—х) — 1\ изучались в [15] и [2]. Соответствующий результат выглядит так:

Теорема 3. При справедливости гипотезы симметрии Но и 0 < X < 1

Ііт п-11пР(Іп > X) = —д(X), где

д(А) = 1(1 + А) 1п(1 + А) + 1(1 - А) 1п(1 - А).

Мы рассмотрим сглаженную статистику Іп и покажем, что для нее справедлив такой же результат.

Теорема 4. При справедливости гипотезы Н(

o

lim n ln P(In У A) = lim n ln P(In У A) = —g(A).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

n

Доказательство. Оно частично повторяет рассуждения для Вп. Снова рассмотрим 1+ = 8ир(К(х) + Рп(—х) — 1) и пусть Р+(Х) := Р(1+ > X).

n

x

Оценка снизу. Зафиксируем произвольный x. Пусть

n

Vn(x, А) = Fn(x) + Fn(-x) -1-А = п-1у(к( +К[ ^ ) - 1 - А ) .

1

Аналогично (1) получаем

liminf n-1 lnF>+(X) > sup lim n-1 lnP(Vn(x,X) > 0). (6)

n—tt x£R n—tt

Рассмотрим производящую функцию моментов величины nVn (x, X): mn(t, x, X) = Eexp (tnVn(x, X^ =

= (:~,(w4/w(tRi^)+tRi^))Hv)dv) <o°- vt€K-

Не умаляя общности, можно считать x > 0. Разбивая интегрирование по всей оси на три области: (—ж, —x), [—x,x) и [x, ж), получаем, переходя к пределу и используя симметрию F, что при всех t G R

lim n 1 ln mn(t, x, X) = c(t, z, X) = —t(1 + X) + ln (e2tz + e^ — 2z) + z)),

n—

где для краткости обозначено z = F(—x). Обозначим также

q(z, X) = in0 c(t, z, X), h(X) = sup{>(z, X)\0 < z < 1/2}.

Функция c(t,z,X) монотонна по z, поэтому sup{>(z, X)\0 < z < 1/2} достигается при z =1/2 для любого X. Отсюда следует, что h(X) = —g(X).

Снова по теореме Плахки—Штейнебаха [14]

lim n-1 lnP(Vn(x, X) > 0) = inf c(t, z, X) = q(z, X).

n—t>0

Значит, в силу (6)

liminf n-1 lnP+ (X) > sup{q(z, X)\0 < z < 1/2} = —g(X). (7)

n——tt

Оценка сверху. Пусть k — большое натуральное четное число. Рассмотрим разбиение отрезка [1/2,1] точками вида i/k, i = k/2,k. Точки ti = ¥_1(*//г) разбивают положительную полуось. Ясно, что

max | Fn(x) + Fri ( x) — 1 ti-1 < x < ti| < Fn (ti) + Fn (—ti-1) — 1.

Пусть T$k = Fn(ti) + Fn(-ti-1) - 1. Тогда /+ < max.=j^f^k.

n

n

Заметим, что Ь—1 = Г 1 (Г(^) — 1/к). Введем теперь для произвольного х > 0 случайную функцию

У*(х, X, к) = Гп(х) + Рп (—Г-1 (Г(х) — к-1)) — 1 — X,

тогда Т,р — X = У* (и, X, к).

Рассмотрим производящую функцию моментов т>п(Ь,х^,к) = Еехр(пЬУ* (х, X,k)). Вычисления, аналогичные тем, что были при оценке снизу, дают

Иш п-11п тп (Ь, х, X, к) = с*(Ь, х, X, к) :=

п—>-оо

■= —t(1 + X) + ln

-,2t

1 - F(x) + - I + eM 2F(x) - 1 - - I + 1 - F(x)

Определим далее q*(x, X, к) = — inf c*(t, x, X, к). При фиксированном x

P(V* (x, X, к) > 0) = exp (—nq*(x, X, к) + o(x, n)) , n ^ ж, где o(x, n)/n ^ 0, n ^ ж. Тогда

P+(А) < P ( ma> a] < J2 P (fnk > A) <

г=Ц +1

< 77 ( max P(V* (tj,X,k) > 0) ) < ^ \i=|+i,fc

< — exp ( — n min q* (ti, A, к) + o(i/k, n) | < ' -i,fc /

< — exp (—n inf q* (x, А, к) + о* (n)4) .

2x

Логарифмируя, умножая на n 1 и переходя к пределу, получаем

lim n-1 ln P+(X) < — inf q*(x,X,h).

n—tt x>0

Но по тем же соображениям, что и выше,

inf q* (x, X, к) = q* (0, X, к) = g* (X, к),

x0

где

g*(X, к) = t*(1 + X) — ln

-Wr + 2(l-A2)(i + i)

4 2(l-A)(i + i)

Снова переходя к пределу, получаем

g*(X, к) ---► 1(1 + A) ln - In T^T = 9^

k—tt 2 1 — X 1 — X

а

lim n-1 lnP+(X) <-g(X). (8)

n—►tt

Окончательно из (7) и (8) получаем, что

lim n-1 lnP(i+ > X) = —g(X).

n—— tt

Как и в теореме 2, этот результат переносится на I-, а затем и на In. □

Литература

1. Shorack G., Wellner J. Empirical Processes with Applications in Statistics. New York: Wiley, 1986. 938 с.

2. Никитин Я. Ю. Асимптотическая эффективность непараметрических критериев. М.: Наука, 1995. 240 с.

3. Надарая Э. А. Некоторые новые оценки функций распределения // Теория вероятн. и ее примен. 1964. Т. 9. С. 550-554.

4. Azzalini A. A note on the estimation of a distribution function and quantiles by a kernel method // Biometrika. 1981. Vol. 68. P. 326-328.

5. Bowman A., Hall P., Prvan T. Bandwidth selection for the smoothing of distribution functions // Biometrika. 1998. Vol. 85. P. 799-808.

6. Singh R. S., Gasser T., Prasad B. Nonparametric estimates of distribution functions // Comm. Statist. Theor. Meth. 1983. Vol. 12. P. 2095-2108.

7. Swanepoel J. W. H., Van Graan F. C. A new kernel distribution function estimator based on

a non-parametric transformation of the data // Scand. J. Stat. 2005. Vol. 32. P. 551-562.

8. Watson G. S., Leadbetter M. R. Hazard analysis. II // Sankhya, 1964. Vol. A26. P. 101-116.

9. Falk M. Relative efficiency and deficiency of kernel type estimators of smooth distribution functions // Statistica Neerl. 1983. Vol. 37. P. 73-83.

10. Reiss R. D. Nonparametric estimation of smooth distribution functions // Scand. J. Statist. 1981. Vol. 8. P. 116-119.

11. Abrahamson I. G. Exact Bahadur efficiencies for the Kolmogorov—Smirnov and Kuiper one —

and two sample statistics // Ann. Mathem. Statist. 1967. Vol. 38. P. 1475-1490.

12. Bahadur R. R. Some Limit Theorems in Statistics. SIAM: Philadelphia, 1971, 42 с.

13. Shikimi Т. Large deviations for kernel-type empirical distributions // Stat. Probab. Lett. 2002. Vol. 59. P. 23-28.

14. Plachky D., Steinebach J. A Theorem about Probabilities of Large Deviations with an Application to Queueing Theory // Period. Mathem. Hungar. 1975. Vol. 6. P. 343-345.

15. Chatterjee S. K., Sen P. K. On Kolmogorov—Smirnov’s type tests for symmetry // Ann. Inst. Statist. Mathem. 1973. Vol. 25. P. 287-300.

Статья поступила в редакцию 21 декабря 2010 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.