УДК 519.2
П. Л. БАТРАКОВ А. В. МАЕР В. Л. СИМАХИН
Омский государственный технический университет, г. Омск
Курганский государственный университет, г. Курган
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ КВАНТИЛЕЙ РАСПРЕДЕЛЕНИЯ
В ра боте ра ссматривается построение асимптотических доверительных интервалов для кв антилей пара метрических, непараметрических и семинепараметрических классов распределений с учетом р азличной априорной информации об исходном распределении. В к ачестве оценки к вантиля неизвестной функции распределения используется решение эмпирического уравнения. Для решения уравнения используются рекуррентные методы стохастической аппроксимации. Показано, что асимптотические доверительные интервалы для к вантилей распределения полностью определяются через оценки функции р аспределения и их дисперсии. В общем виде приведены асимптотические доверительные интервалы для квантилей. Выведены оценки доверительных интервалов для к вантилей с учетом априорной информации об исходном распределении.
Ключевые слова: квантиль, доверительные интервалы, семинепараметрические интервалы, непараметрические интервалы.
Введение. В различных областях приложений методов математической статистики (теория надежности, статистический контроль качества, разработка новых изделий и материалов, автоматизированное управление технологическими процессами ...) возникают задачи построения точечных и интервальных оценок для квантилей функции распределения случайных величин. В теории надежности — гамма-процентный ресурс определяется как квантиль функции распределения наработки изделия до отказа, в теории статистического контроля качества — доля дефектных деталей определяется как квантиль соответствующего уровня оперативной характеристики [1, 2]. Несмотря на хорошо разработанную теорию построения доверительных интервалов [3 — 5], следует отметить отсутствие общего подхода к построению доверительных интервалов для квантилей [5 — 7]. Данная задача решена для некоторых классов параметрических распределений (обзор в [7, 8]), для непараметрических классов распределений построены непараметрические доверительные интервалы на основе порядковых статистик [5 — 7]. Основные методы построения доверительных интервалов базируются на использовании точечных оценок, значительное количество которых имеет асимптотически нормальное распределение. На этом факте основан общий подход построения асимптотических доверительных интервалов. В данной работе рассматривается построение асимптотических доверительных интервалов для квантилей параметрических, непараметрических и семинепараметрических классов распределений с учетом различной априорной информации об исходном распределении имеющих свою специфику и область применений.
1. Постановка задачи. Пусть X — случайная величина с функцией распределения _Р(х) с О , где
О класс параметрических или непараметрических непрерывных распределений, /(х) — плотность распределения X. Обозначим через Хр единственный квантиль распределения уровня р (0<р<1), т.е. уравнение F(Xp) = р имеет единственное решение. Требуется по выборке Хм = (х1, ..., хм) — объема N независимых и одинаково распределенных (н.о.р.) случайных величин построить оценку X^ и доверительный интервал (X^, X^) для квантиля Хр для различных классов О непрерывных распределений.
2. Оценки и асимптотические доверительные интервалы для квантилей. На основе метода подстановки [3, 4, 9] в качестве состоятельной оценки XpN квантиля Хр функции распределения И(х) возьмем решение эмпирического уравнения
FN ^ ) = р » XpN = Р„'(р),
(1)
где FN (х) — состоятельная и несмещенная (асимптотически несмещенная) оценка И(х).
В дальнейшем ограничимся достаточно общим классом асимптотически нормальных оценок FN (х), т. е. будем предполагать, что случайная величина
■М(х) - Р(х)| ОФ(0, а2)
имеет асимптотически нормальное распределение Ф(0, а2) с нулевым средним и дисперсией а2
а2 = а2(^(х)) = а2№), 0).
(2)
В ряде параметрических задач _Р(х, 0) с Ор оценка XpN может быть выражена явно, например, для
экспоненциального распределения [3, 4]. В общем случае для нахождения оценки ХрМ используются рекуррентные методы стохастической аппроксимации вида
Хр„[к + 1] = Хр„[к] - у[к][Р„(Хр„[к]) - р],
к = 0, 1, ..., (3)
где у[к] должны удовлетворять условиям у[к] > 0;
у[к] > 0; ^у[к] = ¥; ^у2[к] < ¥. к=0 к=0 Рассмотрим свойства оценки квантиля ХрМ . Для этого представим (1) в виде [3, 9]
[Хр* - Хр ] = —[Р* (Хр„) - Р(Хр)].
'(Хр)
(4)
Теорема 1. Если 4Й[Р*(х) - Р(х)] оФ(0, а2) и а2 из (2) непрерывная функция Р(х), то V*[Xр* - Хр ] ^ «Ф(0, В(Хр„)), где
ЩХр*) = Т^сХр) ■
(5)
О* (Хр*) = ' (Хр )]-2
(6)
[Хр» - Хр ]
рм (Хр*)
» Ф(0, 1) ■
(7)
Рг<
л/Ы
[хры - Хр ]
<р^ = 1-е ■
Хр
Ч-
О* (Хр*)
(8)
Из (8) с учетом (6) получаем, что длина Ь доверительного интервала будет
Ь = Р • = 4= Р • ' (Хр )]-1 а* .
2
(9)
Пусть имеются две оценки ХрМ (1) и ХрМ (2), тогда эффективность оцен ки доверительного интервала вида (9) на основе ХрМ (1) по отношению к оценке доверительного интервала вида (9) на основе ХрМ (2),
с учетом, что а * (РМ] (х)) состоятельная оценка а можно определить в виде отношения
Р (х))
ей [ Хр* (1), Хр* (2)] =
Ь (Х рм (2))' Ь (ХрМ (1))
2(х)
1( х)
(10)
где а2 (РМ] (х)) — дисперсия оценки 7-ой функции распределения.
Как следует из (8), (9) асимптотические доверительные интервалы для квантилей распределения полностью определяются через оценки функции распределения и их дисперсии.
3. Оценивание функций распределения. Рассмотрим задачу оценивания функции распределения X при разных уровнях априорной информации о случайной величине.
3.1. Параметрические оценки. Пусть Р (х, 0) с с О — параметрическая функция распределения, определенная с точностью до конечного числа неизвестных параметров 0 = (01,...,0к) , Ор класс параметрических функций распределения и 0* = = (0да,..., вш )т — состоятельная оценка параметра 0 = (01,..., 0к)т . Для построения состоятельной оценки Р (х, 0) воспользуемся методом подстановки [3, 4, 9]. В качестве оценки Р (х, 0) возьмем Р*(х, 0) = Р(х, 0*). Теорема 3. Пусть Р(х, 0) непрерывная функция по 0 и имеет непрерывные и ограниченные производные по х до третьего порядка, -/Ы(0* - 0) » Ф(0, В), В —
Доказательство прямо следует из представления (4) и теорем непрерывности [3]. Пусть
состоятельная и непрерывная оценка дисперсии оценки квантиля О{ХрМ).
Теорем а 2. Если О(ХрМ) непрерывная функция Р(х) и О* (ХрМ) состоятельная и непрерывная оценка 0(ХрМ), то
Доказательство следует из второй теоремы непрерывности [3].
Теоремы 1, 2, являющиеся частным случаем общего подхода к построению асимптотических доверительных интервалов [3 — 7], дают основу для построения асимптотических интервалов для квантилей. Действительно, из (7) следует, что можно записать
ковариационная матрица 0*
......0к*)' , тогда
Р (х, 0„) - Р(х, 0)] » Ф(0, бРм (х, 0„)), (11)
где
С'
(х, 0*) = СтВ С,
т =Гар(х, 0) ар(х, 0)
(12)
(13)
Ря (X ры )
Это соотношение можно переписать в виде
Рг [хр* - Р ^ О* (ХрМ) ] < Хр < Xр„ + Р^ О * (X р*) |= 1 -е ,
где Р = Р(е) — квантиль уровня (0,5 • е ) стандартного нормального распределения [3, 4]. В результате получаем асимптотические доверительные интервалы для квантилей в виде
^ ""' 30к
Доказательство.
Из условий теоремы следует, что имеет место представление
[р* (х, 0*) - Р(х, 0)] = СТ (0* -0)
и доказательство следует из третьей теоремы непрерывности [3].
В [7] на основе (11) получены оценки и доверительные интервалы для квантилей ряда параметрических распределений.
3.2. Непараметрические оценки. Пусть Р(х) с Оп — непараметрическая функция распределения, вид которой неизвестен, кроме некоторых общих предположений типа непрерывности, симметричности и т.д., и Оп класс непараметрических функций распределения. Классической непараметрической
2
ст2 (Р
а2 (Р
оценкой _Р(х) с Оп является эмпирическая функция распределения (э.ф.р.) FN (х)
1
FN (х) = - 2 С(х - х,), — ,=1
где
С(х) =
1, х > 0, 0, х < 0 .
(14)
(15)
в теории представляются как предел последовательностей гладких аналитических дифференцируемых функций. Данное представление С(V) легко обобщается на многомерный случай и позволяет рассматривать различные эмпирические подходы к построению оценок э.ф.р., типа рассмотренных выше с единых позиций. Обозначим через аналитическое приближение к С(Ц.
В частности, С(V) можно представить в виде
Эмпирическая функция распределения FN (х) является несмещенной и эффективной оценкой F (х)
на классе Оп и
где
V— ^(х) - F(x)] » Ф(0, а2),
^(х)[1 - F(x)].
(16)
(17)
FN (У) =
1
2—
( У - х ^ У х(0)
(
2—
(
(2, - 1) +
У
1+
А(1+1) у - х(—+1)
^ для у < хЦ)
, для У е [x(1),х(,+1)) . (18)
для у > х-)
2—(х(—+1) х(—))
Оценка (18) уже будет оценкой в классе непрерывных оценок, но не очень гладкой. Чтобы повысить степень гладкости оценки, используется приближение в виде монотонно не убывающей и дифференцируемой функции С(и), полинома или сплайна. В результате получим следующую оценку
FN (у) =
1
( С(у) - С(х(0)) л
2— |С(хЦ)) - С(хт)/ С(у) - С(х,))
(
2—
(
1+
(2, -1) +
с(х(,+1)) - С(х(,))
С(у) - С(х(—+1))
2—[С(х(—+ц) - С(х—))]
Л
для у < хЦ).
Для у е [хау х(,+1)). ( 1 9) для у > х(—).
Л) = С |Л
(20)
Решение уравнения (1) вида XpN = FN1(p) приводит к непараметрическим оценкам квантилей и доверительным интервалам на основе порядковых статистик [5, 6], но дискретный характер э.ф.р. доставляет определенные трудности при решении уравнения (1). Дискретный характер э.ф.р. определяет функция Сопределенная в (15), поэтому можно сгладить функцию С(V) [3, 6, 9]. Например, заменить «ступеньки лестницы» э.ф.р. прямыми. Действительно, пусть Х определена на [а,Ь], т.е. F(a) = 0 и F(b) = 1. Обозначим через
а = х(0) < х(1) < х(2) < ... < х(—) < х(— + 1) = Ь
— расширенный вариационный ряд.
Заменяя «ступеньки лестницы» э.ф.р. прямыми, получим следующую оценку
где Л — параметр размытости и О(Ь) — непрерывная и симметричная функция распределения.
Свяжем параметр Л с объемом выборки так, чтобы выполнялось условие Л— ® 0, при — ® ¥ . Можно показать [9], что если Л— ® 0 , то С(^ Л—) ® ® C(í) в обычном смысле. Тогда сглаженную эмпирическую функцию распределения можно определить в виде [3], [9]
(х) = — 2 СI ^^
— Ы1 | Л—
(21)
К сожалению, такой подход оказался не очень конструктивным, так как при его обобщении на многомерный случай возникают определенные трудности математического характера. Функция С(V) относится к классу обобщенных функций, которые
Можно показать [9], что при Л— ® 0, — ®ю FN (х) является непрерывной, асимптотически несмещенной, состоятельной оценкой F(x) и л/—(/7— (х) -- F(х)) ^ Ф(0,F(х)[l - F(х)]) т.е. р— (х) является асимптотически эффективной непараметрической оценкой F(x) на непараметрическом уровне априорной информации.
В [7, 8] на основе (21) получены непараметрические оценки и доверительные интервалы для квантилей.
3.3. Семинепараметрические оценки. Располагая некоторой дополнительной априорной информацией о F(x) с Опр, где Опр — класс семинепараметри-ческих распределений, можно построить оценки функции распределения (ф.р.) с учетом этой априорной информации, свойства которых лучше, чем у э.ф.р. [9, 10].
Пусть априори известно, что F(x) удовлетворяет условиям
5, = |у,(х№ (х) = 0, ( = 1.....г, (22)
где функции у1, ..., у г — известны. Обозначим через = (х)у!(х^(х) < ¥, I, ; = 1.....г
и образуемая ими матрица Л = ^Ц не вырождена.
Определим Опр — семинепараметрический класс непараметрических распределений с учетом априорной информации вида (22) и положим F(x) с Опр. Знание априорной информации в виде (22) позволяет учесть широкий спектр информации о F(x), как количественного, так и качественного характера. В [10, 11] был предложен метод построения модифицированных оценок F(x) с Опр вида
Р—(х) = ^(х) -
- и у (у№(у)|Т Л— Ц С(х - у)у(у^—(у)||, (23)
При некоторых условиях регулярности можно доказать [11], что FN (х) является асимптотически несмещенной, состоятельной и эффективной оценкой для Р^) сОпр , причем V— (х) - F(x)] ^ ^ Ф(0, а2) с дисперсией
а2 = F(x) - F2(х) -
2
а
х(1) х(0)
1
х
(0
IIIC(x - y)y,(y)dF(y)|TЛ-JC(x - y)y_,(y)dF(y)|. (24)
Анализ (24) показывает, что величина
II/ С(х - у)у(у№(у)||ТЛ-1||| С(х - у)у7(у)ЙР(у)|| > 0,
и является неубывающей функцией по г. Следовательно, введение дополнительной априорной информа-ции может лишь улучшить свойства оценки Йм(х), (х) < (х) по сравнению с э.ф.р. Рассмотрим ряд примеров.
Пример 1. Пусть известно, что среднее значение равно нулю, т. е. имеем г = 1, у(х) = х. Тогда модифицированная оценка ф.р. (23) примет вид
- J xdFN (x)
Fn (x) = Fn (x) - J J C(x - y)ydFN (y),
J x dFN (x)
(25)
с дисперсиеи
j? = [F(x) - F2(x)] - S? [|C(x - y)ydF(y)]2 < <[F(x) - F2(x)].
(26)
Пример 2. Пусть априори известно, что Р(х) —
симметричная функция относительно точки 0 , т. е. 1
у(у, х, 0) = 2 [С(х - у) +1 - С(20 - х - у)].
Тогда модифицированная оценка ф.р. (23) примет
вид
_ 1
F?n (x) = ? [Fn (x) + 1 - Fn (20- x)].
Дисперсия оценки будет
= - F(x)[l - 2F(x)],
если x < 0 ;
(27)
(28)
а2 = - [1 - Р(х)][2Р(х) - 1], если х > 0.
По аналогии с подразделом (23) можно ввести сглаженную модифицированную эмпирическую функцию распределения [9]
- Jy,(y)dFN(y) Л-N
Fn (x) = Fn (x) -x-y
JG
hN
У,(y )dFN (y)
(29)
5. Заключение. В работе предложен общиИ подход к построению доверительных интервалов для кван-тилеИ распределения исходя из априорноИ информации, имеющеИся о распределении. Рассмотрены классы параметрических, непараметрических и семи-непараметрических распределении. Отметим, что для каждого уровня априорноИ информации строятся асимптотически эффективные решения. ДанныИ подход позволяет расширить область принимаемых решениИ и строить доверительные интервалы для классов семинепараметрических и непараметрических распределениИ, учитывающих различного рода выбросы.
Библиографический список
1. Павлов И. В. Статистические методы оценки надежности сложных систем по результатам испытаниИ. М.: Радио и связь, 1982. 168 с.
2. Надежность и эффективность в технике. В 10 т. / Ред. совет: В. С. АвдуевскиИ, В. И. Кузнецов, Н. Д. Кузнецов [и др.]. М.: Машиностроение, 1986. Т. 2. 280 с.
3. Боровков А. А. Математическая статистика. М.: Наука, 1984. 472 с.
4. Шуленин В. П. Математическая статистика. В 3 ч. Ч. 1. Параметрическая статистика. Томск: Изд-во НТЛ, 2012. 539 с. ISBN 978-5-89503-492-7.
5. Уилкс С. Математическая статистика. М.: Наука, 1967. 632 с.
6. Шуленин В. П. Математическая статистика В 3 ч. Ч. 2. Непараметрическая статистика. Томск: Изд-во НТЛ, 2012. 387 с. ISBN 978-5-89503-502-3.
7. Симахин В. А., Терещенко Е. Р. Доверительные интервалы для квантилеИ и функциИ распределения. Курган, 1988. 55 с. Деп. в ВИНИТИ, № 7145-888.
8. Tereshchenko E. P., Teskin O. I., Simakhin V. A. Bootstrap models for interval estimation of longevity characteristics of sequential systems from small samples // Journal of Mathematical Sciences. 1996. Vol. 81, Issue 4. Р. 2811-2817.
9. Симахин В. А. Робастные непараметрические оценки. Saarbrucken: LAP Lambert Academic Publishing, 2011. 300 c. ISBN 978-3-8465-5771-6.
10. Тюрин Ю. Н. Об оценивании функции распределения // Теория вероятностеИ и ее применения. 1970. Т. 15, № 3. С. 549 - 550.
11. Дмитриев Ю. Г. О своИствах оценок функциИ распределения и функционалов при дополнительноИ априорноИ информации // Математическая статистика и ее приложения. 1976. № 4. С. 63-76.
4. Оценка доверительного интервала квантиля.
Как следует из (8), для нахождения доверительного интервала квантиля необходимо определить следующие величины — оценку квантиля ХрМ из уравнения (1) и оценку дисперсии оценки квантиля йм (Хр*) на основе априорной информации о рас)пределении Р(х) с {Ор, Орп, Оп}. Параметры Хр и О(Хр*) являются функционалами от функции распределения и их оценивают в соответствии с методом подстановки [9] на основе введенных в разделе 3 оценок ф.р.
БАТРАКОВ Петр Андреевич, кандидат технических наук, доцент кафедры «Теплоэнергетика» Омского государственного технического университета. МАЕР Алексей Владимирович, кандидат технических наук, доцент кафедры «Программное обеспечение автоматизированных систем (ПОАС)» Курганского государственного университета (КГУ). СИМАХИН Валерий Ананьевич, кандидат физико-математических наук, профессор кафедры «Программное обеспечение автоматизированных систем (ПОАС)» КГУ.
Адрес для переписки: [email protected]
Статья поступила в редакцию 29.09.2017 г. © П. А. Батраков, А. В. Маер, В. А. Симахин
2
2