ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА 2016 Управление, вычислительная техника и информатика № 1 (34)
УДК 519.2
DOI: 10.17223/19988605/34/4
С.С. Вожов, Е.В. Чимитова
ПРОВЕРКА ГИПОТЕЗЫ О ВИДЕ РАСПРЕДЕЛЕНИЯ ПО ИНТЕРВАЛЬНЫМ ДАННЫМ
Работа выполнена при поддержке Министерства образования и науки РФ в рамках проектной части государственного задания (№ 2.541.2014K).
Рассматривается ICM(Iterative Convex Мтогап^-алгоритм построения непараметрической оценки функции распределения по интервальным данным. Предлагаются критерии согласия, основанные на расстоянии между предполагаемой функцией распределения и её непараметрической оценкой. Применение критериев согласия опирается на статистическое моделирование условных распределений статистик данных критериев в интерактивном режиме проверки гипотезы о виде распределения.
Ключевые слова: интервальные данные, алгоритм Тёрнбулла, ICM-алгоритм, критерии согласия.
Основы анализа интервальных данных были заложены в метрологии, где интервал неопределенности вводится естественным образом. Предполагается, что каждое наблюдение - это величина, измеренная прибором, который имеет абсолютную ошибку измерения А . Таким образом, если точное значение наблюдаемого параметра объекта равно x, ошибка измерения равна e е[—А,А], то точечное наблюдение выглядит как x = x + e. В этом случае мы имеем дело с точечной выборкой Xn =|Х1,...,Xn}. При проведении статистического анализа на основе точечных выборок мы, по сути, не учитываем величину погрешности измерения А . Однако существует и другой подход, который заключается в представлении наблюдения в виде интервала (x — А, x + А) = (L, R) , тогда для выборки из n наблюдений получаем интервальную выборку вида
In ={(L1,R),...,(Ln,Rn)} .
Интервальные наблюдения рассматриваются во многих современных исследованиях, например в [1-8]. В каждой из них аргументируется необходимость развития методов математической статистики, когда результаты наблюдений - не числа, а интервалы.
1. Непараметрическая оценка функции распределения. ICM-алгоритм
Основная идея построения непараметрической оценки функции распределения по интервальным данным заключается в том, что находится максимум логарифма функции правдоподобия
ln L (In ) = £ ln (F (R,) — F (L,))
i=1
по значениям функции распределения в граничных точках интервалов наблюдений при соблюдении условия монотонности функции распределения. Однако решение данной оптимизационной задачи методом штрафных функций требует больших вычислительных ресурсов. Вместо этого целесообразно использование специальных алгоритмов. Одним из таких алгоритмов является алгоритм Тёрнбулла [9], подробное описание которого представлено в [5, 10, 11]. Однако данный алгоритм требует значительных вычислительных затрат, поэтому рекомендуется использовать ICM-алгоритм, предложенный в [1214]. В [10, 11] показано, что время вычисления оценки по ICM-алгоритму существенно меньше, чем по алгоритму Тёрнбулла.
Идея 1СМ-алгоритма заключается в том, чтобы свести задачу максимизации функции правдоподобия к задаче построения изотонической регрессии [12]. Для оценивания функции распределения F(х) вводится разбиение 0 <т0 <т1 <... <хт, состоящее из всех неповторяющихся упорядоченных границ интервалов Ц и Я, / = 1, п .
В 1СМ-алгоритме для всех у = 1,т и I = 1,п определяются веса:
1, если ху = Ц,
а ß =
-1, если х j = R
0, если ху £ (Ц, Я ].
Итерационный процесс 1СМ-алгоритма для произвольного шага алгоритма к > 1:
1. Для всех ] = 1,т найти точки ^0(к\у(к)| в соответствии со следующими выражениями:
а(к) = а + £ 1
/=1
а jA
(( )(х j) - F(k )(х j -i))
wk)=j + £ 1
D(k) = D(- + £
1 а j,•(( k)(L,) - F( k)(R,)) _F(k )(х,)
,=i|
а j,\
( )(х j) - F(k )(х j -i))
р(к) = ш(к) + п(к)
ууу
2. Установить I = 0 .
3. Оценка функции распределения равна левой производной выпуклой миноранты:
( у( к) _ у( к) ^
F( k )(х,) = min
J l+1<s <m
l
Gk) - G(k) ^
Л i /
где у = I +1,5 , 5 - индекс угловой точки выпуклой миноранты (функция, значение которой не больше соответствующих значений данной функции).
4. Изменить I = 5 . Если I < т переходим к пункту 3.
Алгоритм повторяем до тех пор, пока для всех у = 1, т не выполнится условие:
F k )(х,) - F(k -1)(х j)
< 10-7.
2. Критерии согласия для проверки сложной гипотезы о виде распределения
по интервальным данным
Пусть имеется априорная информация о том, что выборка наблюдений принадлежит некоторому параметрическому семейству распределений F0 (x; 9), 9е© . Для оценивания неизвестных параметров распределения F0(x; 9) можно использовать метод максимального правдоподобия, который заключаются в максимизации логарифма функции правдоподобия:
9 = arg max ln L (In; 9) = arg max £ ln (F(R; 9) - F(Lt; 9)).
9e© 9e© ,=i
Прежде чем делать выводы на основе полученного распределения, необходимо убедиться в адекватности полученной вероятностной модели. Для этого проверяется сложная гипотеза о виде распределения
Hо : F(t) e{Fo(t; 9), 9е©}.
Сложность гипотезы определяется тем, что неизвестные параметры предполагаемого распределения F0 (x; 9) оцениваются по той же выборке, по которой проверяется гипотеза.
Для проверки гипотезы H0 по интервальной выборке рассмотрим модификации известных критериев согласия типа Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга. Суть модификации заключается в том, что вместо эмпирической функции распределения в выражениях статистик данных критериев будем использовать непараметрическую оценку функции распределения по интервальной выборке In. В этом случае статистика критерия типа Колмогорова вычисляется следующим образом:
Dn = sup Fn (t) — F)(t; 9),
°<i <T„
статистика критерия типа Крамера-Мизеса-Смирнова вычисляется по формуле
0
и статистика Андерсона-Дарлинга имеет вид
^ = 'J (Fn (t) — F0 (t;9))2dF0 (t; 9)
w - ,4 i -\\2 dF0 (t;9)
SW = j(Fn (t)—f0 (t;9)) . ' лу
0X V " F0 (t; 9 )(1 — F0 (t; 9))
где ¥п (г) - непараметрическая оценка функции распределения по интервальным данным, которая вычисляется с помощью 1СМ-алгоритма.
Гипотеза Н0 отвергается при больших значениях статистик. Аналитический вид распределений рассматриваемых статистик при справедливости нулевой гипотезы неизвестен. При этом достигнутые уровни значимости (р-уа1ие) можно оценить с использованием методов статистического моделирования. Для этого необходимо задать количество повторений N . Порядок проверки гипотезы о виде распределения в этом случае имеет следующий вид:
1. Установить уровень значимости а .
2. По исходной интервальной выборке вычислить оценку неизвестного параметра 0 распределения —0(1; 0).
3. В соответствии с выбранным критерием согласия вычислить значение статистики критерия
^ (1п ).
4. Положить М = 0 и повторить следующую последовательность действий N раз:
4.1) сгенерировать интервальную выборку Еп = {(Ь1,Е1),...,(Ьп,Яп)}• :
2 , 2,
где 0 - оценка параметра 0, полученная в п. 2, Д - абсолютная ошибка измерения в исходной
выборке 1п;
4.2) по полученной выборке Zn оценить параметры распределения -0(1;0);
4.3) вычислить значение статистики критерия по смоделированной выборке;
4.4) если S(Хп) > S(1п), то увеличить М на 1.
5. Вычислить оценку достигнутого уровня значимости р = М .
N
6. Если р >а , то гипотеза Н0 не отвергается.
Важнейшим свойством критериев проверки статистических гипотез является мощность критерия. Чем выше мощность критерия, тем меньше вероятность допустить ошибку второго рода (вероятность
принять гипотезу Н0, когда она не верна). Целью исследования мощности критериев согласия может
быть не только выявление наиболее мощного среди них, но и сравнение величины мощности критериев
(L,,R,) = fX, — АX, + Al, X, = F0—1 ((;9), е Uniform(0,1),
по интервальным данным с аналогичной величиной мощности критериев по точечным данным. Точечная выборка содержит больше информации о распределении, чем интервальная, так как точечное наблюдение - это, по сути, измерение с нулевой погрешностью Д (что на практике, как правило, невозможно). Это означает, что мощность критериев согласия для точечных выборок будет выше мощности соответствующих модифицированных критериев для интервальных данных. Однако то, насколько велики эти потери, неизвестно.
Для исследования мощности непараметрических критериев согласия по точечным и интервальным выборкам рассматривалась пара близких конкурирующих гипотез: Н0, соответствующая нормальному распределению (сложная гипотеза), против Нх, соответствующей логистическому распреде-
л/з
лению с параметрами 9Х = 5, 92 =-. В табл. 1 представлены оценки мощности критериев типа Кол-
л
могорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга для точечных и интервальных выборок наблюдений объёмом п = 50, 100, 200, 300, 500. Оценки мощности вычислялись по выборкам статистик объема N = 20 000 при уровне значимости а = 0,1. Функции плотности рассматриваемых распределений представлены в табл. 2.
Т а б л и ц а 1
Оценки мощности критериев согласия по точечным и интервальным данным
п »п 5 2 Ю •V
Хп Хп Хп
50 0,18 0,17 0,21 0,21 0,24 0,23
100 0,23 0,21 0,29 0,29 0,33 0,32
200 0,36 0,31 0,46 0,45 0,49 0,49
300 0,45 0,36 0,58 0,58 0,67 0,62
500 0,65 0,50 0,79 0,78 0,89 0,82
Из табл. 1 видно, что среди рассмотренных критериев наиболее мощным является критерий Андерсона-Дарлинга как для точечных, так и для интервальных выборок. Как и ожидалось, мощность для всех видов критериев выше для точечных выборок. При этом эта разница увеличивается с ростом объема выборки.
3. Пример проверки гипотезы о виде распределения по интервальной выборке
Рассмотрим выборку цен потребительского спроса на биоэнергетический напиток НПК «САВА», которые были получены путём анкетирования потенциальных потребителей продукции НПК «САВА» [5]. Участникам предлагалось указать диапазон для цены, которую они готовы заплатить за биоэнергетический напиток. В результате были получены интервальные данные по ценовым предпочтениям. В [5] по полученной выборке с помощью алгоритма Тёрнбулла была вычислена оценка функции распределения. В данной работе подберем параметрическое распределение, которое достаточно хорошо описывает распределение наблюдаемой случайной величины. В табл. 2 представлены результаты оценки параметров ряда распределений методом максимального правдоподобия и соответствующие значения информационных критериев Акаике (А1С) и Шварца (В1С), позволяющих сравнивать полученные модели:
А1С = 2к - 21, В1С = к 1п п - 21, где к - количество оцененных параметров, I - значение логарифмической функции правдоподобия для построенной модели. Чем меньше значение критерия, тем лучше модель.
На основе полученных результатов по критериям Акаике и Шварца в качестве распределения, описывающего цену потребительского спроса, выбрано нормальное распределение. На рис. 1 представлены графики непараметрической оценки функции распределения по 1СМ-алгоритму и функции распределения нормального закона с оцененными параметрами.
Т а б л и ц а 2
Выбор распределения
Распределение Функция плотности Оценки параметров 1 В1С А1С
Нормальное 1 62\/2Л ( (Х-е)2 ^ ( 2е2 J (38,88; 12,48) -66,59 139,69 137,18
Логистическое ехр (-1 е?)А (ехР (- е 21 )+1 I2 У (38,99; 7,69) -67,91 142,34 139,82
Логнормальное 1 1 2 ÍJL1 1е3 ( Х-е' А2 ^ У У (16; 18,50; 0,74) -69,72 149,22 145,44
(х-е1 )е3 1 е2 У
Гамма 1 ( х-е1 4 03-1 ехр У ( х-е1 ^ (16; 9,78; 2,35) -67,29 144,37 140,59
е2-г(е3Н е2 ( е2 У
Экспоненциальное 1 ( ё7ехР Х-е1 1 е2 ) (16; 22,83) -71,32 149,15 146,63
Вейбулла е3 (х-е1 ^ ехр ( ( Х-е Г ] (16; 25,65; 1,85) -66,15 142,07 138,29
х-е( е2 ^ ( ^ е2 ^ ]
Логлогистическое / \е3-1 / ( / \е3 А2 е3(/е('+(Г') ) (16; 20,08; 2,36) -69,66 149,09 145,31
0.00 7.50 15.00 22.50 30.00 37.50 45.00 52.50 60.00 67.50 75.00 х
Рис. 1. Непараметрическая оценка функции распределения и нормальное распределение (пунктирная линия - нормальное распределение, сплошная - оценка функции распределения)
Информационные критерии позволяют сравнивать различные вероятностные модели, однако они не гарантируют адекватность выбранной модели. Для обоснования выбора модели необходима проверка статистической гипотезы о виде распределения.
Для проверки гипотезы о принадлежности рассматриваемой выборки нормальному распределению используем предложенные в данной работе модификации критериев согласия. Зададимся уровнем значимости а = 0,05 . В соответствии с представленным выше порядком проверки гипотезы о виде распределения при N = 20 000 получены следующие оценки достигнутого уровня значимости (р-уа1ие); для критерия типа Колмогорова р = 0,1853, для критерия типа Крамера-Мизеса-Смирнова р = 0,2786 и для критерия типа Андерсона-Дарлинга р = 0,3423 . Поскольку по всем критериям р-уа1ие больше
заданного уровня значимости, то нет оснований для отвержения гипотезы о принадлежности выборки нормальному распределению.
Заключение
В данной работе предложены модификации критериев согласия Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга для проверки гипотез о виде распределения по интервальным данным. Применение предложенных критериев предполагает использование методов статистического моделирования для оценки достигнутого уровня значимости (p-value) для конкретной гипотезы при заданных значениях объема выборки и длины интервалов наблюдений. Сформулирован порядок проверки гипотезы о виде распределения по интервальным данным.
В результате исследования мощности предложенных критериев в качестве наиболее предпочтительного можно рекомендовать критерий согласия типа Андерсона-Дарлинга.
На основе данных о ценах потребительского спроса на биоэнергетический напиток НПК «САВА» проверена гипотеза о принадлежности данной выборки нормальному распределению.
ЛИТЕРАТУРА
1. Kreinovich V. Interval computations and interval-related statistical techniques: estimating uncertainty of the results of data processing
and indirect measurements // Advanced Math-ematical and Computational Tools in Metrology and Testing X. Singapore : World Scien-tific, 2015. P. 38-49. (Book series: Advances in Mathematics for Applied Sciences. V. 86). DOI: 10.1142/9789814678629_0014.
2. Вощинин А.П. Интервальный анализ данных: развитие и перспективы // Заводская лаборатория. 2002. Т. 68, № 1. С. 118-126.
3. Вощинин А.П. Метод анализа данных с интервальными ошибками в задачах проверки гипотез и оценивания параметров
неявных линейно параметризованных функций // Заводская лаборатория. 2000. Т. 66, № 3. С. 51-64.
4. Орлов А.И. Основные идеи статистики интервальных данных // Научный журнал КубГАУ. 2013. № 94 (10). С. 1-26.
5. Зенкова Ж.Н., Краковецкая И.В. Непараметрическая оценка Тёрнбулла для интервально-цензурированных данных в марке-
тинговом исследовании спроса на биоэнергетические напитки // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 3 (24). С. 64-69.
6. Лемешко Б.Ю., Постовалов С.Н. Об оценивании параметров распределений по интервальным наблюдениям // Вычислитель-
ные технологии. 1998. Т. 3, № 2. С. 31-38.
7. Лемешко Б.Ю., Постовалов С. Н. О решении задач статистического анализа интервальных наблюдений // Вычислительные
технологии. 1997. Т. 2, № 1. С. 28-36.
8. Лемешко Б.Ю., Постовалов С.Н. Статистический анализ наблюдений, имеющих интервальное представление // Сборник
научных трудов НГТУ. Новосибирск : Изд-во НГТУ, 1996. № 1. С. 3-12.
9. Turnbull B.W. Nonparametric estimation of a survivorship function with doubly-censored data // J. Am. Statist. Assoc. 1974. V. 69.
P. 169-73.
10. Вожов С.С. Исследование свойств непараметрической оценки функции распределения по интервальным данным // Сборник научных трудов НГТУ. Новосибирск : Изд-во НГТУ, 2015. № 1 (79). С. 33-44.
11. Vozhov S., Chimitova E. Investigation of Maximum Likelihood Estimates and Goodness-of-Fit Tests for Data with Known Measurement Error // Applied methods of statistical analysis. Applications in survival analysis, reliability and quality control. AMSA'2015, Novosibirsk, 14-19 Sept. 2015 : proc. of the intern. workshop. Novosibirsk : NSTU publ., 2015. P. 124-130.
12. Groeneboom P. Asymptotics for interval censored observations // Technical Report 87-18. Department of Mathematics, University of Amsterdam, 1987. 69 p.
13. Groeneboom P. Nonparametric maximum likelihood estimation for interval censored data // Technical Report, Statistics Department, Stanford University, 1991. 87 p.
14. Groeneboom P., Wellner J.A. Information Bounds and Nonparametric Maximum Likelihood Estimation. Basel : Birkhauser Verlag, 1992. 126 p.
Вожов Станислав Сергеевич. E-mail: [email protected]
Чимитова Екатерина Владимировна, канд. техн. наук, доцент. E-mail: [email protected] Новосибирский государственный технический университет
Поступила в редакцию 3 декабря 2015 г.
Vozhov Stanislav S., Chimitova Ekaterina V. (Novosibirsk State Technical University, Russian Federation). Testing goodness-of-fit with interval data.
Keywords: interval data; nonparametric estimation of distribution function; Turnbull algorithm; ICM-algorithm. DOI: 10.17223/19988605/34/4
The main terms of interval data analysis was initially founded the measurement theory in metrology where an interval uncertainty is naturally introduced. It is expected that every observation is measured by an instrument with absolute error A. Thus, if the precise value of an observed response is x, measurement error is e e [-A, A], then the measurement is
equal to x = x + e . In this case, we deal with a usual complete sample Xn = {X1,...,Xn}. Nevertheless, the measurement can be represented as an interval (x - A, x + A) = (L, R). In this case, for the sample of n observations we obtain an interval sample of the form
In ={(Lj,R),...,(Ln,Rn)} .
The main idea of nonparametric estimation of the distribution function with interval data is based on maximization of the loglikelihood function
ln L (In )=£ ln (F (Rt) - F (Li))
i =1
at the boundary points of observations Li, Ri, i = 1, n, under condition of monotonicity of the distribution function.
The Turnbull and ICM algorithms are used for calculation of the nonparametric estimate of the distribution function with interval data. The accuracy of the estimates calculation is the same for both algorithm, but the computing time is less for the ICM algorithm.
Unknown distribution parameters can be estimated by the maximum likelihood method, which is based on the maximization of likelihood function by parameter 8 :
L (Inl8) = n (F(Ri | 8) - F(Li | 8)). i=1
Thus, the maximum likelihood estimates can be written as
8 = arg max ln L (In | 8) .
8e©
In this paper, the modifications of the classical goodness-of-fit tests for composite hypothesis H0 : F(t) e {F0(t; 8), 8 e ©} have been proposed. The main idea of this modification is based on the usage of nonparamet-
ric estimate of the distribution function, obtained by the ICM algorithm, instead of the empirical distribution function. In this case, we have the test statistic of the Kolmogorov type as
Dn = sup \Fn (t) - Fo(t, 8),
0<t<Xm
the statistic of Cramer-von Mises-Smirnov type test as
0
and the statistic of Anderson-Darling type test as
^ = jf ( (t)- Fo (t, 0)) (t, 0)
*«)-Fo(0 ^ (i, 0)
where Fn(t) is the nonparametric estimate of the distribution function by the interval data, 0 < x0 < x1 <... < xm are ordered different values Li and R , i = 1, n .
We have formulated the sequence of steps for estimation of the ^-value for the proposed tests. The hypothesis is not rejected if the obtained ^-value is larger than the significance level a .
As an example, we have tested the normality hypothesis by the interval sample of consumer demand prices for bio-energy drink SPC "SAVA". It has been shown that there is no reason for rejecting the hypothesis of normality of consumer demand prices.
REFERENCES
1. Kreinovich, V. (2015) Interval computations and interval-related statistical techniques: estimating uncertainty of the results of data
processing and indirect measurements. In: Pavese, P., Bremser, W., Chunovkina, A., Fischer, N. & Forbes, A. (eds) Advanced Mathematical and Computational Tools in Metrology and TestingX. Singapore: World Scientific, pp. 38-49. (Book series: Advances in Mathematics for Applied Sciences, vol. 86). DOI 10.1142/9789814678629_0014.
2. Voshchinin, A.P. (2002) Interval'nyy analiz dannykh: razvitie i perspektivy [Interval data analysis: development and prospects]. Za-
vodskaya laboratoriya. 68(1). pp. 118-126.
3. Voshchinin, A.P. (2000) Metod analiza dannykh s interval'nymi oshibkami v zadachakh proverki gipotez i otsenivaniya parametrov
neyavnykh lineyno parametrizovannykh funktsiy [A method for data analysis with interval errors in problems of hypothesis testing and parameter estimation of fussy linear parameterized functions]. Zavodskaya laboratoriya. 66(3). pp. 51-64.
4. Orlov, A.I. (2013) Osnovnye idei statistiki interval'nykh dannykh [Basic ideas of interval data statistics]. Nauchnyy zhurnal KubGAU- Scientific Journal of KubSAU. 94(10). pp. 1-26.
5. Zenkova, Zh.N. & Krakovetskaya, I.V. (2013) Nonparametric Turnbull estimator for interval censored data in the marketing research
of the demand of bio-energy drinks. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitel'naya tekhnika i in-formatika - Tomsk State University Journal of Control and Computer Science. 3(24). pp. 64-69. (In Russian).
6. Lemeshko, B.Yu. & Postovalov, S.N. (1998) Ob otsenivanii parametrov raspredeleniy po interval'nym nablyudeniyam [On estimation
of distribution parameters by interval observations]. Vychislitel'nye tekhnologii. 3(2). pp. 31-38.
7. Lemeshko, B.Yu. & Postovalov, S.N. (1997) O reshenii zadach statisticheskogo analiza interval'nykh nablyudeniy [On solving the
problems of statistical analysis of interval data]. Vychislitel'nye tekhnologii. 2(1). pp. 28-36.
8. Lemeshko, B.Yu. & Postovalov, S.N. (1996) Statisticheskiy analiz nablyudeniy, imeyushchikh interval'noe predstavlenie [Statistical
analysis of interval observations]. Sbornik nauchnykh trudov NGTU. 1. pp. 3-12.
9. Turnbull, B.W. (1974) Nonparametric estimation of a survivorship function with doubly-censored data. J. Am. Statist. Assoc. 69.
pp. 169-73. DOI: 10.1080/01621459.1974.10480146
10. Vozhov, S.S. (2015) Issledovanie svoystv neparametricheskoy otsenki funktsii raspredeleniya po interval'nym dannym [Investigation of the properties of nonparametric estimate for distribution function with interval data]. Sbornik nauchnykh trudov NGTU. 1(79). pp. 33-44.
11. Vozhov, S. & Chimitova, E. (2015) Investigation of Maximum Likelihood Estimates and Goodness-of-Fit Tests for Data with Known Meas-urement Error. Applied methods of statistical analysis. Applications in survival analysis, reliability and quality control. AMSA'2015, Novosibirsk, 14-19 Sept. 2015. Proc. of the Intern. Workshop. Novosibirsk: NSTU. pp. 124-130.
12. Groeneboom, P. (1987) Asymptotics for interval censored observations. Technical Report 87-18. Department of Mathematics, University of Amsterdam.
13. Groeneboom, P. (1991) Nonparametric maximum likelihood estimation for interval censored data. Technical Report, Statistics Department, Stanford University, 1991. 87 p.
14. Groeneboom, P. & Wellner, J.A. (1992) Information Bounds and Nonparametric Maximum Likelihood Estimation. Basel: Birkhau-ser Verlag.