УДК 519.24
А. В. Лапко, В. А. Лапко
СРАВНЕНИЕ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ ПРОВЕРКИ ГИПОТЕЗ
О РАСПРЕДЕЛЕНИЯХ СЛУЧАЙНЫХ ВЕЛИЧИН*
С позиций принципов коллективного оценивания развивается методика проверки гипотезы о тождественности законов распределениях случайных величин, основанная на непараметрических алгоритмах распознавания образов. Проведено ее сравнение с критериями Смирнова и Пирсона.
Ключевые слова: непараметрическая статистика, распознавание образов, проверка статистических гипотез, распределение случайных величин, критерий Смирнова, критерий Пирсона.
Для проверки гипотез о распределениях случайных величин широко используется критерий согласия Пирсона, который не зависит от распределений случайных величин и их размерности [1]. Однако методика формирования критерия Пирсона содержит трудно формализуемый этап разбиения области возможных значений случайной величины на многомерные интервалы. Данный этап отсутствует в критерии Смирнова [2] и методике, основанной на использовании непараметрических алгоритмов распознавания образов [3; 4].
Проведем сравнение эффективности указанных критериев при проверке гипотезы о тождественности законов распределения одномерных случайных величин по данным вычислительных экспериментов.
Традиционные непараметрические критерии. Пусть Х1 и Х2 - две генеральные совокупности с произвольными законами распределения.
Необходимо по независимым
V1 = (х1, i = 1, n1) и V2 = (x
выборкам
извлеченным
из данных генеральных совокупностей, либо опровергнуть гипотезу
проверить
Н : р (X ) = Р (X2)
о тождественности законов распределения.
Методика проверки статистической гипотезы Но на основе критерия Смирнова сводится к выполнению следующих шагов.
Шаг 1. По независимым выборкам У1, У2 построить оценки функций распределения
4 i=1
где
1( x -
0, если x - X < 0, если x - x1 > 0.
Шаг 2. Найти максимальное расхождение между эмпирическими функциями распределения
Д2 = maxiP Xх)-P2 Xх)|.
X 1 1
Шаг 3. В соответствии с критерием Смирнова [5] сравнить полученное максимальное расхождение D12 с пороговым:
Da =
а - ln—
2
(
1 1
— + —
n1 n.
/2
2 У
где а - принятый уровень доверия, т. е. риск отвергнуть гипотезу Н0.
Если выполняется условие £>12 < Ба, то гипотеза Н0 справедлива, иначе эмпирические законы распределения различаются.
Критерий Пирсона предполагает выполнение следующих шагов.
Шаг 1. Разбить область изменения исследуемых случайных величин на N непересекающихся интервалов. Их количество может быть определено по эвристическим формулам Старджесса
N = п +1,
Брукса и Каррузера
N = 5 ^ п
или Гаеде
N = у[п ,
где п = п1 + п2 .
Шаг 2. Вычислить частоты Р[], Р2 , р2 попадания элементов последовательностей V , У2 и V ^ У2 в каждый }-й интервал, ] = 1, N . Если для некоторого
]-го интервала значение Р12 = 0, то количество интервалов уменьшается на единицу и производится перерасчет размера интервалов и соответствующих им частот. Эта процедура повторяется до тех пор, пока не будет определено количество интервалов N < N , для которых выполняются условия Р2 ^ 0, ] = 1, N .
*Работа выполнена при частичной поддержке гранта Федеральной целевой программы «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы» (государственный контракт № 02.740.11.0621).
Шаг 3. Рассчитать значение случайной величины по формуле [1, с. 330]
2=Ё п Ё
г=1 :=1
( - Р2)
Р2
которое имеет х2-распределение с к = N -1 степенями свободы.
Шаг 4. По таблице х2 -распределения определить порог х2 (к, а) одностороннего критерия Пирсона при заданных значениях к и уровне значимости а .
Гипотеза Н0 справедлива, если 2 <х2 (к, а) ,
иначе она отвергается.
Методика 1 проверки гипотезы о распределениях. Будем полагать, что элементы последовательностей случайных величин V и У2 принадлежат соответственно классам О1 и О2. Сформируем обучающую выборку V = (, ст(г), I = 1, п | для решения задачи распознавания образов, где п = п1 + п2; ст(г) -
указание о принадлежности значения х1 к тому либо иному классу. На этой основе построим непараметрический алгоритм распознавания образов, соответствующий критерию максимального правдоподобия [6]:
X еО^ если /12 (х) < 0,
т
(х ):'
х еО2, если /12 (х)> 0.
(1)
При формировании оценки уравнения разделяющей поверхности
/12 (х) = Р2 (Х)- Р (Х )
(2)
можно использовать непараметрические оценки р1 (х), р2 (х) плотностей вероятности распределения
х в классах О1, О2 типа Розенблатта-Парзена [7]. Тогда статистика (2) будет представлена выражением
/12 (х) = (пс)-1 ЁСТ1 () Ф
V с У
(3)
где
-р- V х еО,
Р21 V х еО2;
Р: = — - оценка априорной вероятности принадлеж-
■' п
ности ситуаций обучающей выборки к классу О^, ] = 1,2. Ядерные функции в статистике (3) удовлетворяют условиям Ф(и ) = Ф(-и), 0 <Ф(и) <ад,
+ад
| Ф(и)ёи = 1, а значения их коэффициентов размыто-
-ад
сти с убывают с ростом количества элементов множеств V:, : = 1,2.
Выбор оптимального значения с коэффициента размытости непараметрического решающего правила т (х) осуществляется по условию минимума оценки вероятности ошибки распознавания образов
п t=\
где индикаторная функция
), )) = {° '' °<')=5<'))
[1 V ст( )*ст(г);
ст(г) - решение о принадлежности значений х к классу О1 либо О2, полученное в соответствии с алгоритмом распознавания образов (1).
При вычислении р( с) решение ст(г) алгоритма (1) определим в соответствии со знаком статистики
Л (х ) = (пс)-1 Ё ст1 () ф
I=1 V
г ^
т. е. ситуация х, которая подается на контроль, исключается из процесса обучения.
Известно, что если при решении двуальтернативной задачи распознавания образов вероятность ошибки классификации равна 0,5, то законы распределения случайных величин в области определения классов совпадают. Поэтому появляется возможность перехода от задачи сравнения законов распределения случайных величин к проверке гипотезы Но о равенстве статистической оценки вероятности ошибки распознавания образов значению 0,5.
Проверим гипотезу Но: р(С) = 0,5 в соответствии
с критерием Колмогорова. Для этого сравним его пороговое значение
- 1п
а
1
V п1 + п2 У
/2
с отклонением £>12 = |0,5 -р(с )| при вероятности а отвергнуть правильную гипотезу Но.
Гипотеза Но справедлива при выполнении условия £>12 < £)а, иначе она отвергается.
Существуют условия, когда использование предлагаемой методики и критерия Смирнова приводит к сопоставимым результатам. К таким условиям относятся задачи проверки гипотез при разных законах распределения случайных величин и одинаковых законах распределения, когда объемы сравниваемых последовательностей V, V отличаются незначительно [3].
Для различных объемах случайных последовательностей, например при п1 = 2п2, установлено снижение эффективности методики 1 по сравнению
2
г=1
с критерием Смирнова. Данный факт согласуется с результатами работы [8], где показано значительное снижение аппроксимационных свойств непараметрической оценки уравнения разделяющей поверхности при увеличении степени неравномерности распределения элементов обучающей выборки между классами.
Методика 2 проверки гипотезы о распределениях. Пусть количество элементов исследуемых последовательностей случайных величин отличается значительно, например п1 > п2. Сформируем набор сравниваемых последовательностей
2 ) ■)' = 1 Т , где
Анализ результатов вычислительных экспериментов. Сравним эффективность приведенных выше методик проверки гипотезы о распределениях случайных величин по данным вычислительных экспериментов.
Последовательности случайных наблюдений V = (х, 1 = 1, п1) и V2 = (хг, 1 = 1, п2) формировались на основе датчиков случайных величин с равномерным х1 = 8г и нормальным
^ 12 А
законами распре-
I: - множество номеров элементов последовательности V, составляющих сравниваемую последовательность V (: ) . Элементы выборки V (: ) объемом п2 формируются случайным образом из последовательности V .
В соответствии с методикой 1 проверим гипотезы Но (:): р: (с ) = 0,5 и по полученным данным рассчитаем оценки вероятностей Ро = , Р =
справедливости гипотезы Но и ее отклонения соответственно. Здесь £ - количество решений о справедливости, а £ - об отклонении гипотез Но (:),
: = Т7Г.
Проверим достоверность отличия Р1 и Р с использованием критерия Смирнова. Для этого вычислим его пороговое значение
£>„ = ./- 1п—/Т ,
которое сравним с разностью V = |Ро - р| .
Исходная гипотеза Но подтверждается, если О > О и Р > Р, в противном случае, т. е. при Р < Р , она отвергается.
х = 0,5 + 0,15 -6 , 1 = 1,
V:=1 У
деления. Случайные величины 8 с равномерным законом распределения определены на интервале [0,1].
При их формировании использовался стандартный датчик псевдослучайных величин среды визуального программирования Бе1рЫ.
Вычислительные эксперименты при фиксированных условиях исследования проводились 100 раз. По полученным результатам оценивалась вероятность выполнения гипотезы Но о тождественности законов распределения случайных величин на основе исследуемых методик. Риск а отвергнуть гипотезу Но принимался равным 0,05.
Синтез непараметрического классификатора осуществлялся на основе параболических ядерных функции В. А. Епанечникова [9]. При формировании методики 2 значение Т = 10. В критерии Пирсона использовалась формула Старджесса для разбиения области изменения исследуемых случайных величин на N интервалов.
Были получены следующие зависимости оценок вероятностей выполнения гипотезы Н0 от объема экспериментальных данных при априори тождественных (табл. 1, 2) и разных (табл. 3) законах распределения случайных величин. В таблицах использованы следующие обозначения: КС - критерий Смирнова; М1, М2 - методики 1 и 2 соответственно; КП - критерий Пирсона.
Таблица 1
Зависимости оценок вероятностей Г0 справедливости гипотезы Н0 от объема экспериментальных данных п = п1 + п2 при п1 = 1,2п2 в условиях сравнения двух априори тождественных законов распределения случайных величин
п Равномерные законы распределения Нормальные законы распределения
КС М1 М2 КП КС М1 М2 КП
22 0,97 0,98 0,99 0,98 1,00 0,98 0,98 0,98
66 0,96 0,95 0,96 0,94 0,98 0,96 0,98 0,98
110 0,98 0,95 0,96 0,99 0,99 0,99 1,00 0,97
154 0,96 0,92 0,97 0,96 0,96 0,93 0,97 0,97
198 0,98 0,93 0,96 0,92 0,99 0,97 1,00 0,96
242 0,97 0,96 0,97 0,95 0,96 0,96 0,96 0,91
286 0,96 0,92 0,94 0,98 0,96 0,94 0,95 0,96
330 0,96 0,94 0,95 0,97 0,97 0,94 0,98 0,97
374 1,00 0,93 0,97 0,99 0,96 0,93 0,95 0,95
418 0,97 0,93 0,95 0,98 0,97 0,93 0,96 0,96
462 0,96 0,91 0,94 0,94 0,96 0,9 0,94 0,95
Таблица 2
Зависимости оценок вероятностей Г„ справедливости гипотезы Н0 от объёма экспериментальных данных п = и1 + п2 при п1 = 2п2 в условиях сравнения двух априори тождественных законов распределения
случайных величин
п Равномерные законы распределения Нормальные законы распределения
КС М1 М2 КП КС М1 М2 КП
30 0,99 0,98 1,00 0,98 0,99 0,98 1,00 0,94
90 0,98 0,93 0,99 0,99 0,98 0,92 0,99 0,95
150 0,96 0,86 0,97 0,95 0,97 0,87 0,99 0,98
210 0,98 0,82 0,96 0,96 0,97 0,73 0,99 0,94
270 1,00 0,77 0,99 0,99 0,96 0,69 1,00 0,97
330 0,93 0,70 0,97 0,91 0,98 0,65 0,99 0,97
390 0,94 0,74 0,96 0,96 0,97 0,63 0,97 0,94
450 0,96 0,67 0,97 0,97 0,94 0,61 0,98 0,95
Таблица 3
Зависимости оценок вероятностей Г0 справедливости гипотезы Н0 от п в условиях сравнения нормального и равномерного законов распределения случайных величин
п = п1 + п2 при п1 = 1,2 п2 п = п1 + п2 при п1 = 2п2
п КС М1 М2 КП п КС М1 М2 КП
22 0,84 0,76 0,93 0,65 30 0,9 0,45 0,89 0,53
66 0,58 0,21 0,27 0,22 90 0,53 0 0,10 0,02
110 0,23 0,01 0,03 0,01 150 0,17 0 0,02 0
154 0,14 0 0 0,01 210 0,03 0 0 0
198 0 0 0 0 270 0 0 0 0
Анализ данных табл. 1 показывает, что если сравниваемые законы распределения случайных величин априори тождественны, то эффективность критериев Смирнова и Пирсона и методики 2 достоверно не отличается. Показатели методики 1 сопоставимы с ними при малых объемах обучающей выборки (п < 100). Однако эффективность это методики существенно
П , ч
снижается с ростом отношения — (п1 > п2) и зна-
П2
чений п .
При анализе последовательностей случайных величин с равномерным и нормальным законами распределения в условиях п > 200 сравниваемые критерии безошибочно отклоняют гипотезу Ио (см. табл. 2). При п < 30 результаты их использования неудовлетворительны. В интервале 30 < п < 180 применение критерия Смирнова нецелесообразно, так как ему свойственна большая вероятность подтверждения гипотезы Ио в условиях априори разных законов распределения случайных величин. При этом эффективность критерия Пирсона, методик 1 и 2 сопоставима
П1
и повышается с ростом отношения —.
П2
Таким образом, применение принципов коллективного оценивания позволяет повысить эффективность методики 1 проверки гипотезы о распределениях случайных величин, основанной на непараметрическом алгоритме распознавания образов. Показатели методики 2 и критерия Пирсона сопоставимы.
Их применение по сравнению с критерием Смирнова является более предпочтительным в условиях малого объема анализируемых случайных последовательностей. Преимущество методики 2 состоит в обходе проблемы декомпозиции области значений случайных величин на интервалы, свойственной критерию Пирсона. Перспективность этой методики заключается в возможности ее обобщения на решение задач проверки гипотез о распределения многомерных случайных величин.
Библиографические ссылки
1. Пугачев В. С. Теория вероятностей и математическая статистика. М. : Наука, 1979.
2. Смирнов Н. В. Оценка расхождения между кривыми распределения в двух независимых выборках // Бюл. Моск. ун-та. 1930. Т. 2, № 2. С. 3-14.
3. Лапко А. В., Лапко В. А. Непараметрические алгоритмы распознавания образов в задаче проверки статистической гипотезы о тождественности двух законов распределения случайных величин // Автометрия. 2010. № 6. С. 47-53.
4. Лапко А. В., Лапко В. А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Системы упр. и информ. технологии. 2010. № 3 (41). С. 8-11.
5. Шаракшанэ А. С., Железнов И. Г., Ивницкий В. А. Сложные системы. М. : Высш. шк., 1977.
6. Непараметрические системы классификации / А . В. Лапко, В. А. Лапко, М. И. Соколов, С. В. Чен-
цов. Новосибирск : Сиб. изд. фирма СО РАН «Наука», 2000.
7. Parzen E. On Estimation of a Probability Density Function and Mode // Ann. Math. Statistic. 1962. Vol. 33, № 3. P. 1065-1076.
8. Лапко А. В., Лапко В. А. Анализ асимптотических свойств непараметрической оценки уравнения
разделяющей поверхности в двуальтернативной задаче распознавания образов // Автометрия. 2010. Т. 46, № 3. С. 48-53.
9. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.
A. V. Lapko, V. A. Lapko
COMPARISON OF NONPARAMETRIC TESTING CRITERIA OF HYPOTHESIS OF DISTRIBUTION OF RANDOM VARIABLES
From a perspective of collective estimation principles, the authors worked out the technique of testing, for a hypothesis of identity of laws of distributions of random variables, based on nonparametric algorithms ofpattern recognition. Results of its comparison with Smirnov and Pearson criterion are presented.
Keywords: nonparametric statistics, pattern recognition, statistical hypothesis testing, random variables distribution, Smirnov criterion, Pearson criterion.
© Лапко А. В., Лапко В. А., 2011
УДК 62.501
А. В. Медведев
ТЕОРИЯ НЕПАРАМЕТРИЧЕСКИХ СИСТЕМ. АКТИВНЫЕ ПРОЦЕССЫ - I
Исследуется проблема моделирования организационных процессов и управления ими. Существенную роль при этом играет априорная информация. Обсуждаются вопросы принципиального отличия управления техническими и активными системами. Основной особенностью здесь является необходимость введения контуров управления в систему контроля некоторых выходных переменных, а также систему управления процессом реализации найденного управляющего воздействия.
Ключевые слова: активные системы, идентификация, априорная информация, измерение, гипотезы, непараметрические модели, дискретно-непрерывные процессы, К-модели.
В последние десятилетия внимание исследователей все больше привлекают процессы организационного характера. К ним относятся процессы, протекающие с участием человека или коллективов людей, в частности объектов промышленности, коммерческих структур, региональных образований и др. Характерными особенностями последних являются неполнота априорных данных, неопределенность, взаимосвязанность, трудность формирования согласованных целей и способов их достижения и др. Неполнота априорных сведений приводит к необходимости формулировать те или иные задачи локального характера
Теория - в виду практики.
Девиз конгрессов ШЛС
Ограничиваясь одними рассуждениями, мы уподобились бы некоторым древним философам, пытавшимся добывать законы природы из собственной головы. При этом неизбежно возникает опасность, что построенный таким образом мир при всех своих достоинствах окажется весьма мало похожим на действительный...
Л. Д. Ландау
в различных, принципиально отличающихся постановках, а их объединение в единую систему представляет серьезные теоретические трудности. В частности, задача управления организацией, коллективами во многом остается в большей степени искусством, чем наукой. Обусловлено это тем, что присутствие человека (коллектива) в исследуемом процессе требует учета ряда факторов, а именно: морального, психологического, престижного, и других черт, свойственных человеку, наиболее важной из которых является искажение информации о своих возможностях, целях, способах и средствах их достижения.