Научная статья на тему 'Метод вычисления точных распределений статистик типа Колмогорова-Смирнова в случае нарушения однородности и независимости анализируемых выборок'

Метод вычисления точных распределений статистик типа Колмогорова-Смирнова в случае нарушения однородности и независимости анализируемых выборок Текст научной статьи по специальности «Математика»

CC BY
183
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА / ОЦЕНКИ КАПЛАНА-МЕЙЕРА / СТАТИСТИКИ ТИПА КОЛМОГОРОВА-СМИРНОВА / СТЕПЕННЫЕ ЗАВИСИМОСТИ ЛЕМАНА

Аннотация научной статьи по математике, автор научной работы — Тянникова Н. Д., Тимонин В. И.

В задачах непараметрической статистики часто возникает проблема сравнения нескольких выборок, о которых заранее известно, что они не принадлежат одной генеральной совокупности. Самой распространенной моделью, используемой для установления зависимости между теоретическими функциями распределения различных выборок, является модель Кокса. Кроме того, даже при проверке однородности нескольких выборок, эксперименты, необходимые для их получения, настолько сложны, что полученные выборки являются зависимыми. Во всех этих задачах необходима разработка новых непараметрических критериев проверки предполагаемых зависимостей. В силу того, что объёмы выборок всегда малы, особую важность имеет знание точных распределений используемых статистик. В работе предлагается общий метод табулирования точных распределений (для конечных объёмов выборок) для широкого класса статистик типа Колмогорова-Смирнова. Надвухпримерахпоказаноприменениеэтогометода.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Тянникова Н. Д., Тимонин В. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод вычисления точных распределений статистик типа Колмогорова-Смирнова в случае нарушения однородности и независимости анализируемых выборок»

Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2014. № 11. С. 227-237.

Б01: 10.7463/1114.0740251

Представлена в редакцию: 05.11.2014 Исправлена: 25.11.2014

© МГТУ им. Н.Э. Баумана УДК 519.248

Метод вычисления точных распределений статистик типа Колмогорова-Смирнова в случае нарушения однородности и

независимости анализируемых выборок

*

1 * 1 Тянникова Н. Д ' , Тимонин В. И.

:МГТУ им. Н.Э. Баумана, Москва, Россия

В задачах непараметрической статистики часто возникает проблема сравнения нескольких выборок, о которых заранее известно, что они не принадлежат одной генеральной совокупности. Самой распространенной моделью, используемой для установления зависимости между теоретическими функциями распределения различных выборок, является модель Кокса. Кроме того, даже при проверке однородности нескольких выборок, эксперименты, необходимые для их получения, настолько сложны, что полученные выборки являются зависимыми. Во всех этих задачах необходима разработка новых непараметрических критериев проверки предполагаемых зависимостей. В силу того, что объёмы выборок всегда малы, особую важность имеет знание точных распределений используемых статистик. В работе предлагается общий метод табулирования точных распределений (для конечных объёмов выборок) для широкого класса статистик типа Колмогорова-Смирнова. Надвухпримерахпоказаноприменениеэтогометода.

Ключевые слова: статистики типа Колмогорова-Смирнова, непараметрическая статистика, оценки Каплана-Мейера, степенные зависимости Лемана

Введение

В ряде задач теории надежности необходимо проверять непараметрические гипотезы о связях функции распределения нескольких выборок в случае, когда не выполняются классические условия независимости и одинаковой распределенности элементов выборок. Например, в работах [1,2,3] проверялась гипотеза о степенной зависимости функций распределения нескольких независимых выборок. В [4,5,6] проверялась однородность двух выборок, элементы которых являются зависимыми случайными величинами. Для вычисления точных распределений (для конечного объёма выборок) статистик, предложенных в этих работах, были разработаны численные алгоритмы, позволяющие табулировать точные распределения для больших объёмов выборок.

В настоящей работе предложен общий алгоритм вычисления распределений статистик типа Колмогорова-Смирнова, частным случаем которого являются алгоритмы,

Наука и Образование

МГТУ им. Н.Э. Баумана

Сетевое научное издание

описанные в [1-9]. В основе алгоритма лежит специальная модель случайного блуждания частицы по ячейкам, на множестве которых определена некоторая функция к( х1, х2,..., хк ).

1. Модель случайного блуждания

Обозначим, Пи„2 к -мерное множество ячеек а 0 < 4 < п}, у = 1, к (к -

мерный параллелепипед). Пусть Ас^ щ — подмножество параллелепипеда, для которого выполняются следующие условия:

1 аo,o,...,o,ап1,п2.,...,пк п = п1 + п2 +... + пк;

2. V ai i г ^ a° ° 0 3 4: a. г г , г ёА .

Рассмотрим следующую модель случайного блуждания. Частица на первом шаге выходит из ячейки a0 0 0 и на n -ом шаге она заканчивает блуждание в ячейке a .В

дальнейшем для упрощения записи ячейке , , будем ставить в соответствие вектор i ={il,U,...,ik),il + 4 +... + 4 =q, 0 < </?, 0 <7; < и/3 j = \,к, состоящий из её индексов. Пусть As — вектор размерности к, состоящий из (к — l) нуля и одной единицы на s -ом месте. На q-ом шаге частица переходит из ячейки /:/ , в ячейку / = i + As , iLj ,, еА.

Пусть со = со . д , = /,,...,— возможная траектория блуждания частицы из начальной ячейки /0 в конечную in, iq g А. Обозначим множество всех таких траекторий через Q(A).

Предположим, что вероятности Р (со - г ) пред ставимы в следующем виде

/ ч " /_. _ч "

(!)

^=1 q=1

Вероятности (1) должны удовлетворять следующим условиям: их сомножители

_^ _ n

¡uq l q не зависит от траектории попадания частицы в ячейку /:/ , , ^ [ //:/ , ц = 1.

q-

w q=1

Пусть к , 4,.., 4 ) - произвольная функция на множестве ячеек (^, 4,..., 4 )еА.

Г ^

Теорема 1. Вероятность Р со -- -I шах/г(4) < х равна величине ж- (х), которую

у 0<^<п у

можно получить повторным применением соотношения

(0 = X (/^"^ЛМ7«"^)) х(ь(1ч)<ху (2)

y\<s<k, iq- AseA

где х {к ('у) < х) ~ индикатор события И (Д ^ < х.

Доказательство: Обозначим через множество «частичных» траекторий

со

тт оканчивающихся в ячейке ¡ц. Пусть л (/а) = ^ Р[ //, (/, ,, /.) - сумма по всем

Л^) 1= 1

таким «частичным» траекториям первых q сомножителей. Тогда соотношение (2) следует из того, что в ячейку / за один скачок можно попасть только из ячеек / — Ая,5 = 1 ,к.

Множитель ) < х) обеспечивает обращение в нуль вероятностей тех траекторий, на

которых значения к | превышает х . ►

Главная задача при применении метода состоит в получении вероятностей (1). Ниже приведены примеры применения соотношения (2) для некоторых частных случаев.

2. Частные случаи

Пример 1. В [2] рассматривалась следующая задача. Пусть имеется к независимых

- к

выборок 1=1,...,к; у = 1,п = где я, - объем /'-ой

г=1

выборки. По этим данным проверялась гипотеза

И0: I (/) =... = I? (О, (3)

где г -1 _ заданные числа.

Для проверки гипотезы (3) предлагалась статистика типа Кифера-Гихмана:

Т2 = тах —-г-

а Г2 . (4)

~ _ к -

Здесь Fi (7) — эмпирическая функция распределения /-ой выборки; Т7 = ^р (г);

г=1

к _ _ _

р = пг/п; Ф1 =Х Г2 (1 -р)^0' (1 - Iго'); Г = I + ф/>/^Т; го = 1/г ;

г =1

]1/2

£ Г2рI^ (1 - !г0' ) 1 + ]Т г412(1-Г0') (1 - !г0' )2 (1 - 2р )

Ф =

. '=1 У '=1

Метод вычисления точных распределений статистики, предложенный в [2], является частным случаем алгоритма, предложенного в настоящей статье. Для этой задачи

А = Пп п щ . Функция /г (/,,..., = | определяется следующим образом.

1=1

ь_ +...+

V п1 У V пк У

- г,.

,0<I, <п,, = \...к,

к

С 4

где .1к = - Е

и ,=1 Обозначим

V п, У

г

ЕгЧ Ел

1 =- ^=1

к Л- Л

1-го , ^ / „ ^ЛГ) А У

V Л1-Г01

V пV У

1 -

к Г 4 У

Еpv

v=1

V П У

УУ

Г ( к Л-1 -

Еpv

V nv У

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

С1 - 2р)

Еpv

V ^ У

к ^ Л

Еа.

Т=1

V п У

ЕЕ г,2 (1 -Л)

1=1

Г 4 V 4 Л 1 -1

V п1 У

V п,У

к -1)-^

Г к Г 4 У

д

Ер,

1 =1

V п, У

Г

к -1

Тогда

ЛС^ , Ч ) = Л ,,2,... ,

Множители //Л - А б, 7(г ^ имеют вид

'Л.

-, 5 = 1, к .

Е'

1=1

1 го,

В табл. 1 для данной модели в случае к = 3 рассчитаны вероятности

v = р

со

0<д <п

шах /?(/ ) < л' .На рис.1 показаны графики изменения этих вероятностей в

зависимости от х и гх,г2,гъ.

2

к

4

v=1

X

2

Таблица 1. Значения вероятностей у

П1 = П2 = П3 х = 2 х = 3

Г =1 г = 2, Гз = 3 Г = 1, Г = 2.5, Г = 3 Г = 1 Г2 = 2 Г3 = 3 Г = 1, Г = 2.5, г = 3

50 0,90697 0,90896 0,98468 0,98561

100 0,89624 0,89898 0,98204 0,98260

150 0,89362 0,89477 0,98079 0,98140

200 0,89146 0,89224 0,98024 0,98070

250 0,88968 0,89058 0,97986 0,98020

300 0,88855 0,88945 0,97952 0,97987

400 0,88682 0,88752 0,97907 0,97939

500 0,88569 0,88651 0,97879 0,97908

<х 0,87857 0,87857 0,97653 0,97653

Рис.1.Графики вероятностей у в зависимости от п = п = П = п

Пример 2.В работе [5] рассматривалась следующая задача. Имеется N одинаковых систем, каждая из которых состоит из т идентичных параллельно соединенных элементов. Все элементы нспытываются до отказа и функция надежности элементов оценивается двумя способами: по полной выборке О из отказов всех элементов (Р (/)) и по прогрессивно цензурированной выборке 0, образованной первыми порядковыми статистиками наработок до отказа каждой системы (Рв (/)). Они имеют вид

ш=

1, ^ (г ) = о,

т(

п

1 --

(N -2 +1)

т

1 < 4 (г)< (N -1),

о, 4 (г ) = N,

(5)

',(0=1-

!

mN

<

2=1

где ^ (V), (1) — количество элементов выборок 0 и Q соответственно, меньших 1.

Для проверки того, что обе оценки оценивают одну и ту же функцию надежности Р (1), в [5] рассматривалась статистика

Г „ = m4N max

mr

l-m{l-Pq(t)).(Pq(t))m-'

^('M(')I-

(6)

Метод вычисления точных распределений статистики (6), предложенный в [5], может быть получен из общего алгоритма (2), предложенного в настоящей статье. Заметим, что в оригинальной статье рассматривался алгоритм, в котором блуждание осуществлялось в обратном порядке.

В данном примере размерность А равна двум ( к = 2 ). Множество А имеет вид

A = {i = (/,, /2), /, = О, N; /2 = 0, /, (да -1)}.

Функция h {iq j равна

h(il,i2) = h{iq^ = my[N ■

mN (mN - ц - i2)"

(mN)m - m (mN - ц - i2 )m (ц + i2 )

mN - ц - i2

1 (

mN

П

i=i

1 —

m ( N -1 +1)

Точные распределения статистики TmN вычисляются согласно алгоритму (2), где

Я

mis(-\y-l+(S-\)((m-\)q + \)

q

s = 1,2.

f

\

В табл.2 для данного примера рассчитаны вероятности К = Р со — max h(i ) < х

2 'l,'2,-;'mN' , „. q

у 0<q<mN J

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

для m = 3,4; х = 1,22;1,36. На рис.2 показаны графики изменения этих вероятностей для тех же значений m, х.

Таблица 2.Значения вероятностей У2

п х = 1.22 х = 1.36

т = 3 т = 4 т = 3 т = 4

100 0,88617 0,85564 0,93747 0,91323

500 0,90421 0,90245 0,95312 0,95199

1000 0,90271 0,90227 0,95270 0,95239

2000 0,90182 0,90151 0,95232 0,95212

5000 0,90059 0,90151 0,95178 0,95166

10000 0,89989 0,89976 0,95145 0,95138

20000 0,89938 0,89931 0,95120 0,95115

30000 0,89915 0,89909 0,95107 0,95104

40000 0,89901 0,89897 0,95100 0,95097

50000 0,89892 0,89888 0,95095 0,95093

60000 0,89885 0,89881 0,950952 0,95089

<х 0,89810 0,89810 0,95051 0,95051

Рис.2. Графики вероятностей У2 в зависимости от п

Предложенный метод применим и при расчётах точных распределений статистик типа Реньи [10,11,12,13], применяемых для проверок аналогичных гипотез при цензурированных данных.

Заключение

В работе разработан метод вычисления распределений статистик типа Колмогорова-Смирнова, когда анализируемые выборки не обязательно принадлежат одной совокупности. Метод основан на модели случайного блуждания специально вида по элементам

к -мерного параллелепипеда, причем условные вероятности перехода не зависят от предыстории блуждания. Распределение статистик Колмогорова-Смирнова определяется через вероятности невыхода траекторий блуждания из подмножества параллелепипеда.

Список литературы

1. Тимонин В.И. О предельном распределении статистики одного непараметрического критерия // Теория вероятностей и её применение. 1987. Т. 32, № 4. С. 790-792.

2. Ермолаева М.А., Тимонин В.И. Многовыборочный аналог критерия Смирнова проверок степенных гипотез Лемана // Электромагнитные волны и электронные системы. 2011. № 11. С. 6-11.

3. Тимонин В.И., Черномордик О.М. Метод вычисления точного распределения статистик типа Колмогорова-Смирнова при альтернативах Лемана // Теория вероятностей и ее применение. 1985. Т. 30, № 3. С. 572-573.

4. Тимонин В.И. Оптимизация проведения предварительных исследований в теории форсированных испытаний // Вестник МГТУ им. Н.Э. Баумана. Сер. Естественные науки. 2003. № 2. С. 28-41.

5. Тимонин В.И., Ермолаева М.А. Оценки Каплана-Мейера в статистиках типа Колмогорова-Смирнова при проверке гипотез в испытаниях с переменной нагрузкой // Электромагнитные волны и электронные системы. 2010. Т.15, № 7. С. 18-26.

6. Crowder M.J. Multivariate Survival Analysis and Competing Risks. CRC Press; Chapman and Hall, 2012. 417 p. (Ser. Texts in Statistical Science).

7. May S., Hosmer D.W. A simplified method of calculating an overall goodness-of-fit test for the Cox proportional hazards model // Lifetime Data Analysis. 1998. Vol. 4, no. 2. P. 109120. DOI: 10.1023/A:1009612305785

8. Ермолаева М.А. Непараметрический анализ зависимости между распределениями наработок до отказа изделий и устройств в разных условиях эксплуатации // Труды российского научно-технического общества радиотехники, электроники и связи имени А.С. Попова. Сер. Акустооптические и радиолокационные методы измерений и обработки информации. Вып. 3. М.: РНТОРЭС им. А.С. Попова, 2009. С. 227-230.

9. Corder G.W., Foreman D.I. Nonparametric statistics: A step-by-step approach. New Jersey: Wiley, 2014. 288 p.

10. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983. 416 с.

11. Hajek J., Sidak Z. Theory of rank tests. London: Academic Press, 2004. 438 p.

12. Gao J., Ozturk O. Two-sample distribution-free inference based on partially rank-ordered set samples // Statistics and Probability Letters. 2012. Vol. 82, iss. 5. P. 876-884. DOI: 10.1016/j.spl.2012.01.021

13. McLain A.C., Ghosh S.K. Nonparametric estimation of the conditional mean residual life function with censored data // Lifetime Data Analysis. 2011. Vol. 17, no. 4. P. 514-532. DOI: 10.1007/s10985-011-9197-x

Science and Education of the Bauman MSTU, 2014, no. 11, pp. 227-237.

DOI: 10.7463/1114.0740251

Received: Revised:

05.11.2014 25.11.2014

Science ^Education

of the Bauman MSTU

ISSN 1994-0448 © Bauman Moscow State Technical Unversity

The Method of Calculating the Exact Distributions of the Kolmogorov-Smirnov Statistics in Case of Violation of Homogeneity and Independence of the Analyzed Samples

N.D. Tiannikova1' , V.I.Timonin1 "tianHikova@yandexiu

:Bauman Moscow State Technical University, Moscow, Russia

Keywords: the Kolmogorov-Smirnov statistics, non-parametric statistics, Kaplan-Meier estimates,

power Lehmann dependences

To establish the relationship between the distribution functions of the experimental results for different values of the external factors are most commonly used parametric models in which the parameters of the distribution functions depend on factors, and their views do not change. Meanwhile, when we have a small amount of data (and this is more common in practice), the distribution function is often unknown, and it is difficult to determine. Hence, it is of great importance to evaluate different relationships between the distribution laws without specifying a particular form of the distribution (these issues are handled by non-parametric statistics). The most common model, used to establish the relationship between the theoretical distribution functions of different samples, is the Cox model. Furthermore, even for testing the homogeneity of multiple samples, experiments, which are necessary to obtain them, are so complex that the obtained samples are dependent. So, all of these tasks requires the development of new non-parametric tests for dependency. Due to the fact, that the volume of the sample is always small, knowledge of exact distributions of statistics, which are used, is of special importance. The paper develops a general method for tabulating the exact distributions (for finite volumes of samples) of a wide class of statistics of the Kolmogorov-Smirnov test. With the appropriate specialization of the proposed algorithm, it allows us to calculate the distribution of various statistics of the specified type. In particular, it is applicable for calculating the distribution of statistics such as Kiefer-Gikhman used to check the dependencies between Lehmann distribution functions of several samples. With small modifications it allows us to tabulate the distribution statistics of the Kolmogorov-Smirnov used for checking the homogeneity of dependent samples. Along with the fact that the method has great generality, it also allows us to calculate the exact distribution for very large volumes of samples. This fact allows us to estimate the volume of the sample, in which the asymptotic distribution can be applied.

The limits of this method applicability are also given. It assumes the validity of a special

model of random movement of particle on a multidimensional lattice in which the future behavior of the particle trajectory at presently given is independent of its past.

References

1. Timonin V.I. On the Limit Distribution of Statistics of a Nonparametric Test. Teoriia veroiatnostei i eeprimeneniia, 1987, vol. 32, no. 4, pp. 790-792. (English translation: Theory of Probability and Its Applications, 1988, vol. 32, no. 4, pp. 721-724. DOI: 10.1137/1132108 ).

2. Ermolaeva M.A., Timonin V.I. A multi-Sample Analogue to the Smirnov Test Criterion for the Lehmann Power Hypothesis. Elektromagnitnye volny i elektronnye sistemy = Electromagnetic Waves and Electronic Systems, 2011, no. 11, pp. 6-11. (in Russian).

3. Timonin V.I., Chernomordik O.M. A Method for Calculating the Exact Distribution of Kol-mogorov-Smirnov Statistics under Lehmann Alternatives. Teoriya veroyatnostey i ee primenenie, 1985, vol. 30, no. 3, pp. 572-573. (English translation: Theory of Probability and Its Applications, 1986, vol. 30, no. 3, pp. 608-610. DOI: 10.1137/1130077 ).

4. Timonin V.I. Optimization of Preliminary Studies in Theory of Forced Testing. Vestnik MGTU im. N.E. Baumana. Ser. Estestvennye nauki = Herald of the Bauman MSTU. Ser. Natural science, 2003, no. 2, pp. 28-41. (in Russian).

5. Timonin V.I., Ermolaeva M.A. About Kaplan-Meyer Estimators in Statistics Similar to Kol-mogorov-Smirnov for Testing the Hypothesis in Variable Load Tests. Elektromagnitnye volny i elektronnye sistemy = Electromagnetic Waves and Electronic Systems, 2010, vol. 15, no. 7, pp. 18-26. (in Russian).

6. Crowder M.J. Multivariate Survival Analysis and Competing Risks. CRC Press; Chapman and Hall, 2012. 417 p. (Ser. Texts in Statistical Science).

7. May S., Hosmer D.W. A simplified method of calculating an overall goodness-of-fit test for the Cox proportional hazards model. Lifetime Data Analysis, 1998, vol. 4, no. 2, pp. 109-120. DOI: 10.1023/A:1009612305785

8. Ermolaeva M.A. Non-parametric analysis of the relationship between the distributions of operating time to failure of products and devices in different operating conditions. Trudy rossiyskogo nauchno-tekhnicheskogo obshchestva radiotekhniki, elektroniki i svyazi imeni A.S. Popova. Ser. Akustoopticheskie i radiolokatsionnye metody izmereniy i obrabotki informatsii. Vyp. 3 [Proc. of the Russian Scientific and Technical Society of Radio Engineering, Electronics and Communication named after A.S. Popov. Ser. Acoustooptical and Radar

Methods for Information Measurements and Processing. Iss. 3]. Moscow, RNTORES Publ., 2009, pp. 227-230. (in Russian).

9. Corder G.W., Foreman D.I. Nonparametric statistics: A step-by-step approach. New Jersey, Wiley, 2014. 288 p.

10. Bol'shev L.N., Smirnov N.V. Tablitsy matematicheskoy statistiki [Tables of Mathematical Statistics]. Moscow, Nauka Publ., 1983. 416 p. (in Russian).

11. Hajek J., Sidak Z. Theory of rank tests. London, Academic Press, 2004. 438 p.

12. Gao J., Ozturk O. Two-sample distribution-free inference based on partially rank-ordered set samples. Statistics and Probability Letters, 2012, vol. 82, iss. 5, pp. 876-884. DOI: 10.1016/j.spl.2012.01.021

13. McLain A.C., Ghosh S.K. Nonparametric estimation of the conditional mean residual life function with censored data. Lifetime Data Analysis, 2011, vol. 17, no. 4, pp. 514-532. DOI: 10.1007/s10985-011-9197-x

i Надоели баннеры? Вы всегда можете отключить рекламу.