Дегтярева О.А, Кудрина М.А., Курушкин А.А. ОПРЕДЕЛЕНИЕ СОГЛАСОВАННЫХ ОЦЕНОК ПЛОТНОСТИ ВЕРОЯТНОСТИ В ОРТОГОНАЛЬНЫХ БАЗИСАХ
В статье предлагается алгоритм построения класса согласованных по критериям согласия оценок плотности вероятности в ортогональных базисах, а также алгоритм отбора тех оценок, которые являются наилучшими из класса согласованных. Рассматриваются примеры оценок, полученных по приведенным алгоритмам.
В результате первичной обработки временного ряда получают гистограмму или полигон частот. Каждая из этих функций представляет собой оценку плотности распределения вероятностей случайной величины, описывающей генеральную совокупность. Первая является кусочно-постоянной оценкой, разрывной функцией, вторая - непрерывной кусочно-гладкой. Для построения оценок, имеющих более простую аналитическую форму и обладающих свойством гладкости, можно использовать конечные суммы ортогональных функций [3].
С целью получения гладкой, то есть непрерывно-дифференцируемой оценки плотности вероятности можно аппроксимировать полигон частот частичной суммой разложения по ортогональному базису, состоящему из гладких функций [3, 1]:
т
^ (х) = 'ЕРк^к (х,а), (1) к=0
где
Ьк (x), к = 0,1, 2,
система функций, обладающих свойством ортогональности
J ь (x,a)b (x,a)dx =
ІІЬ
к ^ n;
м2
a - масштабирующий коэффициент, ß
оценки для коэффициентов
k ||
разложения по ортогональному базису. Эти оценки коэффициентов рассчитываются следующим образом :
рк =7-17 І їр (х)¥к (Х’а)Лх ' (2)
\№к\\ -І
где ї (х) - полигон частот.
В тех случаях, когда плотность вероятности аппроксимируется с разделением на ветви [5, 4]
оценка примет вид:
ті тл
їа (Х)=^Рк,пУк (Х - X) )1(х - Х0 ) + ХРк,л^к (Х - Х)1(Х0 - Х) , (3)
к=0 к=0
где Х0 - точка, в которой плотность не равна 0, например, точка максимума полигона; т , т
число слагаемых в аппроксимирующих суммах для правой и левой |1, при х > 0;
зетвей оценки плотности вероятности;
К*)
- единичная функция.
0, при х < 0.
Коэффициенты разложения для случая двусторонней аппроксимации с разделением на ветви рассчиты-аются следующим образом:
1 *
ßk,п = =-2 J fp(ХЫХ~X0,au)dx ,
(4)
х0
х0
^ о
ßM = m J fp(x)bk(x0 -O,)dx • (5)
Ьk || -«
!ри этом выражени
« f тіф ^
А= Jfp2(x)dx- XINI2ßk,п2+Ё1Ы2ß
При этом выражение для погрешности аппроксимации примет вид:
« (т„ т„ Л
...... , (6)
=0 к=0
Оценки, полученные с помощью ортогональных разложений, не всегда обладают свойствами плотности вероятности (неотрицательность и равенство площади под кривой единице). Их преобразование с целью построения оценок, которые являются плотностями вероятности, описано в [4].
В случае построения оценок (1), (3) возникает вопрос: каким количеством слагаемых в частичной
сумме следует ограничиться? Естественно стремиться к малому числу слагаемых, обеспечивая простоту аналитического выражения для оценки плотности. Но если слагаемых в сумме ряда будет «слишком мало», то оценка получится грубой. При этом будет потеряна важная информация о виде оцениваемой плотности. Если слагаемых взять «слишком много», то оценка будет излишне детально описывать эмпирические данные, которые имеют случайный характер. Таким образом, увеличение числа слагаемых в сумме ряда целесообразно лишь в некоторых пределах, пока имеются достаточные причины считать, что такое увеличение способствует повышению точности оценки.
Оценку можно считать приемлемой, если она не противоречит эмпирическим данным (выборке). Поскольку формируемые здесь оценки являются многопараметрическими, то для выделения приемлемых мож-
2
но воспользоваться двусторонним критерием X , так как по нему оценка плотности бракуется не только тогда, когда различия между оценкой и полигоном значительны, но и тогда, когда оценка слишком точно его аппроксимирует.
2
Критерий согласия X Пирсона позволяет осуществить проверку согласованности оценки плотности
Ь, к = 0, m
неизвестны.
Для измерения степени рассогласования между оценкой плотности и выборкой критерий использует следующую статистику [2]:
%\К - m -1) = N X
Pi
= у (N • Pi -n) ' X N • p
(7)
0
2
где N - объем выборки; К - число интервалов группирования гистограммы или полигона; т - число неизвестных параметров (коэффициентов разложения по ортогональному базису) Ък ; р. - вероятность попадания выборочного значения в ^тый интервал; - число попаданий значений реализации в ^тый интервал.
2
В результате применения критерия X к различным приближающим суммам будут выделены те из них, которые согласуются с выборкой. Среди всех этих сумм можно выделить ту, которая имеет наименьшее число слагаемых. Обозначим его т^п . При последующем увеличении количества слагаемых погрешность аппроксимации уменьшается до тех пор, пока не будет воспринята как маловероятная и отвергнется критерием. Последняя из оценок будет содержать наибольшее число слагаемых т . В результате отбора получим класс оценок, содержащих от т^п до ^ членов разложения ряда. Все оценки этого класса будут согласованными с эмпирическими данными по критерию Пирсона. Назовем оценки полученного класса согласованными оценками.
На основе вышесказанного построим алгоритм получения класса согласованных оценок:
А) В случае аппроксимации плотности вероятности, определенной на всей числовой оси, ортогональными функциями Эрмита, или плотности вероятности, определенной на полуоси, ортогональными функциями Лагерра, Лежандра, Дирихле (аппроксимация без разделения на ветви):
1. Вначале параметр сложности т (число слагаемых в сумме аппроксимирующего ряда) задается равным 0. Переходим к пункту 2 алгоритма.
2. Увеличивается т на единицу. Если т > К — 1 , то переходим к пункту 4 алгоритма. Если т < К — 1 , то рассчитывается коэффициент разложения Ът и строится оценка плотности вероятности, содержащая т слагаемых в сумме ряда. Затем вычисляется расчетное значение критической статисти-
2
ки X по формуле (7) , а также выбираются процентные точки критической статистики в соответствии
с уровнем значимости критерия. Число степеней свободы равно К — т — 1 . Переходим к пункту 3.
3. Проверяется согласованность построенной оценки с выборкой. Если расчетное значение находится в допустимых пределах, то оценка относится к классу согласованных и фиксируется. Если расчетное значение критической статистики выходит за процентные точки, то переходим к пункту 2 алгоритма.
4. Минимальный из зафиксированных параметров сложности обозначается т^п , максимальный - ттах .
Класс согласованных оценок считается построенным.
Б) В случае построения оценок с разбиением на ветви в базисах Лагерра, Лежандра, Дирихле:
1. Начальное число слагаемых для правой и левой ветви задается тправ = 2 , тлее = 1 .
2. Увеличивается тлее на единицу. Если тправ + тлев >К — 1 , то переходим к пункту 4 алгоритма. Если тпрае + тте < К — 1 , то строится оценка, содержащая т^ав слагаемых для правой ветви и тшв -
2
для левой. Затем вычисляется расчетное значение критической статистики X по формуле (7), выбираются процентные точки критической статистики в соответствии с уровнем значимости критерия. Число степеней свободы равно К — (^прав + тлев) —1 . Переходим к пункту 3.
3. Если расчетное значение критической статистики находится в допустимых пределах, то оценка считается согласованной и фиксируется. Если расчетное значение критической статистики выходит за процентные точки, то переходим к пункту 2 алгоритма.
4. Увеличивается тпрае на единицу. Если тпрае > К — 3 , то переходим к пункту 5. Если тпрае < К — 3 ,
то т вновь задается равным 1. Переходим к пункту 2.
5. Минимальное число слагаемых т = тправ + тлев из зафиксированных обозначается т^п , максимальное - т . Класс согласованных оценок, считается построенным.
На рисунках 1-2 приведены плотности распределения и соответствующие классы согласованных оценок, полученных по критерию Пирсона. В качестве аппроксимируемых плотностей вероятности принимаются полигоны частот, построенные по выборке. Объем выборки N=10000. Аппроксимация проводилась по формуле (1) в ортогональном базисе Эрмита, и по формуле (3) в ортогональных базисах Лагерра, Лежандра и Дирихле. Отметим, что построенные оценки являются плотностями вероятности.
0,35 -0,3 -0,25 -0,2 -0,15 -0,1 0,05 -
-2-101234
Рисунок 1 - Классы согласованных оценок для одномодальной плотности вероятности
Функции Эрмита Лагерра Лежандра Дирихле
т ттт 5 12 10 9
А1 1т=тш|п 0.0002 0.0003 0.00022 0.00028
т тах 19 20 19 20
Рисунок 2 - Классы согласованных оценок для двумодальной плотности вероятности
Функции Эрмита Лагерра Лежандра Дирихле
тш1П 9 12 14 10
^ к=ктіп 0.00037 0.0005 0.00013 0.0003
т "*тах 18 20 20 19
А1 к=к к =ктах 0.00024 0.00015 0.00006 0.00006
Из анализа рисунков видно, что оценки для перечисленных ортогональных базисов содержат различ-
ное число слагаемых в сумме ряда т
т
причем различие может быть значительным. Различия в значе-
ограничено
тах оказывается заметно меньшим, поскольку число элементов в сумме ряда т числом интервалов группирования К - (^< К-1).
Если исходить из требования наименьшей сложности аналитического выражения, то из полученного по критерию согласия класса допустимых оценок следует выбирать ту, у которой число слагаемых в аппроксимирующей сумме меньше, не ориентируясь на значение квадратической погрешности аппроксимации полигона частот.
Поскольку класс согласованных оценок найден для одной выборки из генеральной совокупности (для обучающей выборки), представляется целесообразным проверить, какие оценки, принадлежащие найденному классу, остаются согласованными и с другими (контрольными) выборками, то есть выбрать «наиболее согласованные» оценки - оценки, согласующиеся с наибольшим числом контрольных выборок. Их будем называть наилучшими оценками. Для определения наилучших оценок был разработан следующий алгоритм отыскания наилучших оценок:
1. По одной обучающей выборке рассчитывается класс согласованных оценок в соответствии с критерием согласия Пирсона, содержащий оценки с т^п ^т^^ слагаемыми. Переходим к пункту 2.
2. Методом имитационного моделирования генерируются новые контрольные выборки. В тестирующей автоматизированной системе генерируется серия из 2 0 контрольных выборок. Переходим к пункту 3.
3. Для каждой из отобранных в пункте 1 алгоритма оценок проверяется ее согласованность с контрольными выборками. В результате формируется класс наиболее согласованных оценок.
4. Оценки сформированного в пункте 3 алгоритма класса считаются «наилучшими» оценками.
Проведен ряд вычислительных экспериментов для одномодальной и двумодальной плотностей распределения.
В таблицах 1-2 даны результаты проверки согласованности оценок, полученных с помощью функций Лагерра по обучающей реализации случайного процесса (рисунки 1-2), с контрольными реализациями
2
(объем выборки N=10000). Следует заметить, что при проверке процентные точки статистики X рассчитываются для К-1 степени свободы, так как т - число рассчитываемых параметров оценки - в данном случае равно 0. Процентные точки - граничные значения - статистики рассчитываются для уровня значимости X = 0.01 и X = 0.1 . В таблицах жирным шрифтом отмечены те значения критической статистики, которые превышают допустимое значение для X = 0.1 . Видим, что оценки с параметром сложности т,
равным 12 и 14 являются наиболее согласованными.
Полученные результаты вычислительных экспериментов позволяют заметить, что, как правило, количество значений критической статистики, превышающих допустимый уровень, находится в пределах,
соответствующих уровню значимости критерия.
Таблица 1. Проверка согласованности оценки одномодальной плотности вероятности с контрольными реализациями.
При а = 0.01 х1-а(К -1) = 40,289 при а = 0.1 х2-а(к -1) = 30,813
№ реализации Число элементов в сумме
12 14 16 18 20
1 25,972 25,294 25,218 26, 7 99 27,612
2 19,354 17,813 20,251 21,482 22,998
3 11,236 13,414 13,362 13,237 13,688
4 16,134 19,367 19,741 21,216 21,378
5 29, 294 26,533 31,264 34,684 35,731
6 7,583 7,42 8,767 11,691 10,718
7 19,262 17,831 21,568 24,222 27,752
8 21,123 19,622 20,218 24,518 29, 678
9 10,981 9,728 8,257 11,314 12,268
10 18,897 18,643 19,744 20,821 21,215
11 17,413 16,842 14,536 13,843 13,646
12 20,264 19,216 18,906 20,13 20,162
13 13,952 10,752 14,514 15,638 14,929
14 10,457 11,832 11,427 11,166 10,916
15 16,236 15,672 19,472 23,015 23,255
16 22,654 21,193 23,376 23,782 25,202
17 8,572 6,824 11,236 15,496 14,327
18 13,591 15,043 16,237 16,596 14,193
19 6,678 8,607 7,841 7,664 7,218
20 12,485 10,362 13,565 17,587 18,224
Из таблицы 1 видно, что для одномодальной плотности вероятности наилучшими оказались оценки, содержащие число слагаемых в сумме ряда, близкое к т^п . Для двумодальной плотности (рисунок 2) из таблицы 2 видно, что число слагаемых в сумме ряда у наилучших оценок несколько смещается в сторону увеличения по сравнению с одномодальным законом.
Таблица 2. Проверка согласованности оценки двумодальной плотности вероятности с контрольными реализациями.
При а — 0.01 х1а(К -1) — 40,289 ; при а — 0.1 ^-а(К -1) — 30,813
№ реализации Число элементов в сумме
10 11 12 13 14 15 16 17 18 19
1 30,935 29, 84 6 26,077 25,998 25,062 24,745 25,215 27,062 27 , 67 9 28,729
2 22,648 19,784 18,535 18,635 16,903 16,145 19,175 20,846 21,267 21,54
3 14,264 14,963 13,336 13,487 15,311 16,744 15,164 15,201 15,231 16,285
4 28,82 26, 621 2 6, 666 28,613 28,487 28,223 27,932 24,896 24,539 26, 997
5 20,742 18,927 15,127 15,031 18,837 17,239 18,371 18,29 19,076 19,235
6 7,469 7,035 6,481 6,493 6,504 7,357 10,477 9,962 11,614 11,583
7 32,567 30,951 28,079 25,734 24,313 29,825 30,761 29,823 30,924 32,127
8 26, 561 25,49 22,123 18,893 13,724 14,348 20,106 23,372 25,656 29,552
9 10,231 9,738 9,896 12,167 14,65 11,127 10,482 8,503 12,019 12,096
10 23,799 22,352 19,787 19,793 19,662 19,998 20, 941 21,073 22,91 22,584
11 35,885 33,736 32,451 31,724 30,913 29,156 27,436 25,831 25,27 28,255
12 18,821 15,678 15,894 18,648 25,411 17,443 11,411 11,35 16,712 20,965
13 16,175 14,46 14,682 17,099 22,115 18,026 13,658 11,809 14,834 16,214
14 11,593 6,552 6,761 7,198 21,46 16,313 9,174 9,186 9,914 13,121
15 24,685 22,626 19,024 20,715 21,281 23,956 24,906 27,285 28,13 30,876
16 28,973 18,906 19,007 19,607 16,706 16,477 13,084 16,17 17,112 18,516
17 8,562 6,239 5,786 7,337 8,607 7,263 7,841 8,326 9,664 7,233
18 14,793 13,658 10,372 8,237 5,776 9,272 10,726 11,032 14,566 15,771
19 17,96 16,725 12,643 12,951 15,043 12,878 16,237 16,004 16,596 14,564
20 24,929 24,186 19,885 17,203 17,362 17,032 20,565 21,052 24,728 24,963
Класс оценок, согласованных по критерию Пирсона, также проверялся на согласование с выборкой по критерию Колмогорова [2] (непараметрическому критерию).
На рисунке 3 приведен пример построения доверительного интервала для оценки плотности вероятности, изображенной на рисунке 2. Объем выборки N=10000, уровень значимости критерия а — 0.01 , параметр сложности оценки в базисе Лагерра т —18 . Доверительный интервал строится для оценки функции распределения, полученной по ортогональной оценке полигона частот одной реализации. На рисунке также изображены эмпирические функции распределения двадцати других (контрольных) выборок.
Доверительный интервал для оценки функции распределения
■2-10 1 2 3 4
Рисунок 3 Доверительный интервал для согласованной оценки
Оценка функции распределения первой реализации согласуется с другими реализациями, если их эмпирические функции попадают в построенный доверительный интервал. На изображенном рисунке одна эмпирическая функция распределения выходит за границы доверительного интервала, что говорит о несогласованности этой выборки с оценкой.
Доверительные интервалы для выборочной функции распределения строились для различных уровней значимости. Наилучшими в основном оказывались оценки из тех, которые были наилучшими по критерию Пирсона.
При обработке реальных данных, когда нет возможности получить контрольные выборки, предлагается разбить имеющуюся выборку на две части равного объема - обучающую и контрольную, если выборка
достаточно большая. Если выборка имеет малый объем, то из класса согласованных оценок целесообразным представляется рекомендовать для практического применения самую простую, то есть имеющую самое меньшее число слагаемых.
Литература
1. Абрамовиц М., Стиган И. Справочник по специальным функциям. - М.: Наука, 1979. - 832 с.
2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и пер-
вичная обработка данных. - М.: Финансы и статистика, 1983. - 471 с.
3. Деврой Л., Дьерфи Л. Непараметрическое оценивание плотности. Li - подход. Пер. с англ. -М.: Мир, 1988. - 408 с.
4. Дегтярева О.А. Оценивание плотности вероятности в ортогональных базисах с учетом свойств плотности вероятности / Материалы научно-практической конференции «Инновации в условиях развития информационно-коммуникационных технологий Инфо-2006» - М.: МИЭМ, 2006. - с.112-116.
5. Прохоров С.А. Аппроксимативный анализ случайных процессов. - 2-е изд., перераб. и доп. -
Самара: СНЦ РАН, 2001. - 380 с.