СИСТЕМЫ И
ПРОЦЕССЫ
УПРАВЛЕНИЯ
УДК006.91
РАСЧЕТ СТАТИСТИК КРИТЕРИЯ ГРАББСА ДЛЯ
АРКСИНУСОИДАЛЬНЫХ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ
при уровне значимости а = 0,05 для выявления одного, двух и трех аномальных наблюдений (выбросов).
Проверка на один выброс
При проверке на выброс наибольшего выборочного значения проверяется гипотеза, заключающаяся в том,
что наблюдение Xi, X2 , ...,Xn — из построенного по выборке вариационного ряда Xi, X2 ,..., Xn принадлежит арксинусоидальному закону распределения, а наибольшее наблюдение Xn принадлежит другому закону распределения, существенно сдвинутому вправо. В этом случае статистика критерия Граббса имеет вид
САФАРЯН Г.Г., СЕРГИЕНКО М.П.________________
Исследуется возможность применения критериев типа Граббса для выявления аномальных наблюдений, принадлежащих выборкам из генеральной совокупности, распределенной по закону арксинуса. Получены распределения статистик Граббса для случаев существенного отклонения наблюдений в сторону как больших, так и меньших значений, а также процентные точки для различных объемов выборки при уровне значимости 0,95.
Актуальность исследования
В метрологической практике при осуществлении этапа предварительной обработки данных необходимым является использование статистических критериев выделения аномальных наблюдений (выбросов). Игнорирование этой процедуры приводит, как правило, к некорректным результатам, поскольку в большинстве случаев используемые классические статистические методы чувствительны к имеющимся аномальным наблюдениям.
Наиболее часто для проверки наблюдений на аномальность используют простые критерии Граббса [1-4]. Эти критерии предусматривают возможность проверки наличия в выборке одного (наибольшего или наименьшего) либо двух (двух наибольших или двух наименьших) аномальных наблюдений и применяются для проверки на аномальность наблюдений, распределенных по нормальному закону. Однако многие физические величины не подчиняются нормальному закону распределения, и использование [2] в этих случаях не является корректным. Особый интерес в связи с этим вызывают величины, имеющие арксину-соидальное распределение (погрешности при измерениях параметров круговых величин, погрешности от наводок и помех на выходе средств измерительной техники, от силовых цепей промышленной частоты и т.п.). Поэтому необходимо исследовать распределение статистик критерия Граббса при арксинусоидаль-ных законах распределения наблюдений.
Целью данной работы является нахождение и исследование распределений статистик типа Граббса для выборок, принадлежащих арксинусоидальной генеральной совокупности. В связи с поставленной целью выделены основные задачи: расчет процентных точек
G (Xn - X) S , (1)
где — 1 n X = - Е Xj, nj=1 (2)
S = і 1 n 2 —-Е (Xj - X)2 n - 1j=i . (3)
При проверке наименьшего выборочного значения X1 на выброс проверяется гипотеза, предполагающая, что X1 принадлежит другому закону распределения, существенно сдвинутому влево. В этом случае статистика Граббса имеет вид
^ (X - X1)
G = ^-^. (4)
Максимальное или минимальное наблюдение считается выбросом, если значение соответствующей статистики превысит критическое: G > Gi-a, где а -заданный уровень значимости.
Распределение статистик (1) и (4) в [1-3] не приводится. Вид условных распределений F(G) этих статистик в зависимости от объема выборки при арксинусои-дальном законе распределения наблюдаемых величин показан на рис. 1. Статистики (1) и (4) распределены одинаково.
F(G)1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
n = 5 /
10
20
40
0 0,5
1,5 2 2,5 G 3
1
Рис.1. Зависимость распределения статистик (1) и (4) критерия Граббса от объема выборки
Поскольку решение об аномальности проверяемого максимального или минимального выборочного значения принимается по правой части распределения
РИ, 2006, № 3
25
статистики, были рассчитаны верхние процентные точки для различных объемов выборки.
Процентные точки для всех рассматриваемых случаев были построены по моделируемым выборкам статистик. Объем каждой выборки составлял 105 смоделированных значений статистики с усреднением 50 раз. СКО полученных процентных точек не превысило 10 4.
Для уровня значимости а = 0,05 (доверительная вероятность P = 0,95 ) верхние точки G 0,95 в зависимости от объема выборки п показаны на рис. 2.
Г--------------------------------------
0 50 100 150 п 200
Рис.2. Зависимость статистики G0,95 от объема выборки п
Зависимость статистики G0 95, показанная на рис.2, существенно отличается от аналогичной зависимости, построенной для выборок, принадлежащих нормальной генеральной совокупности [2], которая монотонно возрастает с увеличением числа наблюдений
п.
Проверка на два выброса
В этом случае проверяется гипотеза о том, что некоторому другому закону принадлежат наблюдения: 1) Xn и Xn-1; 2) X1 и X2; 3) Xn и X1.
При проверке на выброс одновременно двух наибольших наблюдений статистика критерия Граббса имеет вид
G =
S
2
п-1,п
S
2,
0
(5)
где
2 п — 2 s° = z (Xi - X)2, (6)
i=1
п-2
S°-1,n = Z (Xj - Xn-1,n)2 (7)
j=1
в которых
Xn—1, п
1
п - 2
п-2
Z Xj
j=1
(8)
а X определяется из выражения (2).
При проверке на выброс одновременно двух наименьших наблюдений X1 и X2 статистика критерия Граббса принимает вид
G=
S2
где S2 определяется из выражения (6):
s2,2 = z (Xj - Xu)2
j=3
(9)
(10)
X1,2 =
1
п-2
п
Z Xj.
j=3
(11)
Оба значения Xn, Xn- или X1, X2 считаются выбросами, если значение соответствующей статистики окажется ниже критического G < G а.
Вид условных распределений F(G) статистик G (5) и (9) в зависимости от объема выборки показан на рис. 3.
Рис. 3. Зависимость распределения статистик (5) и (9) критерия Граббса от объема выборки п
Решение об аномальности одновременно двух наибольших или двух наименьших наблюдений принимается по левой части распределения статистики. Для уровня значимости а = 0,05 (доверительная вероятность P = 0,95 ) нижние точки G0 05 в зависимости от объема выборки п показаны на рис.5 линией 1.
При проверке на выброс одновременно наибольшего и наименьшего наблюдений статистика Граббса имеет вид
G=
S1,n
So
где S° определяется из выражения (6):
(12)
S2 = S1,n = n-1 Z (Xj - X1,n)2 , (13)
j=2
1 n-1
Xu n - 2 z Xj. j=2 (14)
Xn и X1 считаются выбросами при
заданном уровне доверия а, если значение соответствующей статистики, вычисленное по выборке, окажется ниже критического G < G а.
26
РИ, 2006, № 3
Вид условных распределений F(G) статистики G (12) в зависимости от объема выборки показан на рис. 4.
Рис. 4. Зависимость распределения статистик (12) критерия Граббса от объема выборки n
Решение об аномальности одновременно наибольшего и наименьшего наблюдений принимается по левой части распределения статистики. Для уровня значимости а = 0,05 нижние точки G0 05 в зависимости от объема выборки n показаны на рис. 5 линией 2.
0 и-------------------------------------
0 50 100 150 n 200
Рис. 5. Зависимость статистики G0,95 от объема выборки n
S1,2,3 G = 2 2 S0 (18)
где S° определяется из выражения (6):
s2,2,3 = Z (Xj _ X1,2,3)2 j=4 (19)
— 1 n X1,2,3 = _ 3 ZXj . n _ 3 j=4 (20)
Три значения Xn , Xn_1 и Xn _2 или X1, X2 и X3
считаются выбросами, если значение соответствующей статистики окажется ниже критического G < G а.
Вид условных распределений F(G) статистик G (15) и (18) одинаков и показан на рис.6 в зависимости от объема выборки.
Решение об аномальности одновременно трех наибольших или трех наименьших наблюдений принимается по левой части распределения статистики. Для уровня значимости а = 0,05 нижние точки G0 05 в зависимости от объема выборки n показаны на рис.6.
Проверка на три выброса
В случае проверки наблюдаемой выборки на три выброса проверяется гипотеза о том, что некоторому другому закону, отличному от закона арксинуса, принадлежат наблюдения: 1) Xn,Xn — и Xn_2; 2) X1,X2 и X3; 3) Xn,Xn_1 и X1; 4) X^X и X2.
При проверке на выброс одновременно трех наибольших наблюдений статистика критерия Граббса имеет вид
G =-
S
n _ 2,n _1,n
S02
(15)
где S° определяется в соответствии с выражением (6):
S
2
n _2,n _1,n
n _3
Z
j=1
(Xj _ Xn_2,n—1, n )
2
X
n—2,n—1,n
1
n — 3
n—3
Z Xj.
j=1
(16)
(17)
При проверке на выброс одновременно трех наименьших наблюдений X1 , X2 и X3 статистика критерия Граббса принимает вид РИ, 2006, № 3
Рис. 6. Зависимость распределения статистик (15) и (19) критерия Граббса от объема выборки n
При проверке на выброс одновременно двух наибольших и одного наименьшего наблюдений статистика критерия Граббса имеет вид
S2 ~ Sn—1,n, 1 G = 2 2 S0 (21)
где s2 определяется в соответствии с выражением (6):
2 n—2 2 Sn—1,n,1 = Z (Xj — Xn—1,n,1)2 j=2 (22)
1 n—2 Xn—1,n,1 = 3 ZXj n — 3 j=2 . (23)
При проверке на выброс одновременно одного наибольшего и двух наименьших наблюдений статистика критерия Граббса
S2 - S1,2,n G = 2 2 S0 (24)
27
где S2 определяется из выражения (6):
S
2
1,2,n
n-1 — 2
Z (Xj - Xi,2,n)2 j=3 ’
X1,2,n
1
n - 3
n-1
Z Xj.
j=3
(25)
(26)
Три значения Xn, Xn-1 и X1 или X1, X2 и Xn
считаются выбросами, если значение соответствующей статистики окажется ниже критического для заданного уровня а : G < Gа.
Вид условных распределений F(G) статистик G (21) и (24) одинаков и показан на рис.7 в зависимости от объема выборки.
Выводы
Полученные результаты позволяют обнаруживать до трех наблюдений в исследуемой выборке, не принадлежащих арксинусоидальному закону распределения и существенно сдвинутых в сторону наибольших или наименьших значений.
Научная новизна исследований заключается в получении распределения статистик типа Граббса для выявления аномальных наблюдений при арксинусои-дальном распределении генеральной совокупности.
Практическая значимость результатов заключается в том, что проведенные исследования позволяют выявлять до пяти аномальных наблюдений при различных комбинациях их отклонений в сторону больших и малых значений. Получены процентные точки статистик критерия Граббса для уровней значимости а = 0,05 .
Литература: 1. Frank E. Grubbs, Glenn Beck. Extension of sample sizes and percentage points for significance tests of outlying observations// Technometrics, 1972. Vol. 14, No.4. P. 847-854. 2. ГОСТ Р ИСО 5725-2-2002. Точность (правильность и прецезионность) методов и результатов измерений. Часть 2. М.: Изд-во стандартов. 51 с. 3. Большее Л.Н., Смирное Н.В. Таблицы математической статистики. М.: Наука, 1983. 416 с. 4. Frank E. Grubbs. Procedures for Detecting Outlying Observations in Samples// Technometrics, 1969. Vol. 11. No.1. P. 1 - 21.
Рис. 7. Зависимость распределения статистик (21) и (24) критерия Граббса от объема выборки n
Решение об аномальности одновременно двух наибольших и одного наименьшего или одного наибольшего и двух наименьших наблюдений принимается по левой части распределения статистики. Для уровня значимости а = 0,05 нижние точки G0 05 в зависимости от объема выборки n показаны на рис. 8 линией 2.
0 и-------------------------------------
0 50 100 150 n 200
Рис. 8. Зависимость статистики G0,95 выборки n
от объема
Поступила в редколлегию 13.07.2006
Рецензент: д-р техн. наук, проф. Крюков А.М.
Сафарян Григорий Гагикович, инженер кафедры МИТ ХНУРЭ. Научные интересы: исследование погрешностей вычислительных операций при цифровой обработке сигналов, статистическая обработка результатов измерений. Адрес: Украина, 61166, Харьков, пр. Ленина,14, тел. 702-1331.
Сергиенко Марина Петровна, канд. техн. наук, с.н.с. кафедры МИТ ХНУРЭ. Научные интересы: динамические измерения. Адрес: Украина, 61166, Харьков, пр. Лени-на,14, тел. 702-1331.
28
РИ, 2006, № 3