ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2008 Управление, вычислительная техника и информатика № 1(2)
УДК 519.24
В.П. Шуленин, В.В. Табольжин
ИЗУЧЕНИЕ СВОЙСТВ РАНГОВЫХ АНАЛОГОВ Р-КРИТЕРИЯ ФИШЕРА ПРИ ОТКЛОНЕНИЯХ ОТ ГАУССОВСКОЙ МОДЕЛИ ДИСПЕРСИОННОГО АНАЛИЗА
Проводится сравнение характеристик F-критерия Фишера, Н-критерия Краскела - Уоллиса и L-критерия Пейджа в рамках различных супермоделей, описывающих отклонения от классической гауссовской модели дисперсионного анализа. Сравнение проводится как при конечных объемах выборки методом статистического моделирования, так и в асимптотике путем вычисления относительной эффективности Питмена.
Ключевые слова: ранговые критерии, дисперсионный анализ, непараметрические модели.
Пусть объекты изучаемой совокупности (или популяции) Ж характеризуются некоторым результирующим показателем X. В соответствии с факторным признаком А, который может принимать к значений Аь...,Аь вся совокупность Ж разбивается на к групп Жь...,Жк (или к подпопуляций Ж1,.,Жк популяции Ж). Статистическими данными являются наблюденные реализации х11хп1х1кх„кк
к выборок Х1кХп^к из совокупностей Жь...,Жк с непрерыв-
ными распределениями изучаемого показателя X. Исходные данные кратко записываются в виде [Ху],у = 1,__,к, г = 1,...,Иу , они получены в результате пу на-
блюдений за результирующим показателем X при каждом фиксированном у-м уровне Ау, у = 1,...,к, фактора А. Рассмотрим различные модели наблюдений.
1. Гауссовская модель
Предполагается, что исходные данные [Ху], г = 1,-■■,«/, У = 1,---,к, представляют собой выборку, полученную в результате п независимых наблюдений над показателем X из к нормальных совокупностей Ж,...,Жк со средними значениями
2 2 2 2
ццк и с равными, но неизвестными дисперсиями С) = а2 = ••• = ак = а . Эту модель наблюдений называют нормальной (или гауссовской) моделью 1 однофакторного дисперсионного анализа с фиксированными эффектами. Для удобства дальнейших ссылок выделим в явном виде и пронумеруем все предположения этой модели наблюдений:
X/ = Н/ + £/•, г = 1,-,П] , у = 1,...,к , п = (щ + ••• + пк), (1)
где
а) ц7- = М(X | А = Aj), у = 1,..., к , постоянные величины,
б) Егу - независимые случайные величины,
в) Еу - нормальные случайные величины, т.е. Ь(&у) = N(0; а2),
г) дисперсии совокупностей Жь...,Жк равны неизвестному параметру о2, то
2 2 2 2 есть С) = а2 = • • • = ак = а .
В рамках этой модели требуется убедиться в том, что изменение фактора А не влияет на итоговый показатель X. На статистическом языке эта задача сводится к проверке статистической однородности наблюдаемых данных {Ху}, і = 1,—,Пу ,
І = 1,...,к, которая кратко записывается в виде проверки гипотез:
Н0 : ц1 = ц2 = ••• = Ик = И, Н : не все цу равны , у = 1,...,к . (2)
Эти гипотезы проверяются с помощью F-критерия Фишера (см., например, [1]), основанного на статистике Г = Б'В / ^ , где и Б^ средние квадраты соответ-
ственно между и внутри групп Ж\,...,Щ, вычисляемые по формулам
В 1 к - _ 2
Бгв = ^ /(к -1) = — Е П] (X., - X.. )2 ,
к -1 ]=1
9 1 к «у _ 2
4 = /(И - к) =---- ЕЕ {Ху- Х.у )2 .
П - к у=1 г=1
Статистика Г = Б'В / Б^ при гипотезе Я0 имеет F-распределение Фишера с числами степеней свободы (к -1) и (п - к), то есть справедливо выражение
1{Р = Б2В / БІ | Н0} = Г(к -1, п - к). (3)
Критическая область размера а находится справа от квантиля Г-а (к -1, п - к) уровня (1 -а) для F-рaспределения с числами степеней свободы (к - 1) и (п - к).
2. Непараметрическая модель с произвольными альтернативами
На практике предположения нормальности наблюдений не всегда могут быть обоснованы. В таких случаях рассматривают более общие модели наблюдений и предполагают, что {Ху}, і = 1,—,Пу , 7 = 1,—,к, являются независимыми случайными величинами, которые одинаково распределены лишь при фиксированном у-м уровне Ау , у = 1,...,к, фактора А, то есть ХуXу является выборкой из
условной функции распределения Гу (х) = Р{Хгу < х | А = Ау}, у = 1,..., к, V/ е (1,...,Пу). Отметим, что Гу (х) является произвольным непрерывным распределением, функциональный характер которого не конкретизируется и изучение влияния фактора А на итоговый показатель X в условиях этой непараметрической модели сводится к проверке гипотез
Нд : Г= Г2 =... = Гк , И* : не все Гу равны, у = 1,..., к . (4)
Эти гипотезы проверяются с помощью Н-критерия Краскела - Уоллиса (см., например, [2, 3]), статистика которого вычисляется не по исходным наблюдениям {Ху}, а по их рангам {Лу} , і = 1,...,Пу, у = 1,...,к, по формуле
12 к _
н =-—т Е «у{Я.у -(« +1)/2}2 , (5)
п(п +1) у=1 7 7
где Я,у - средний ранг наблюденийу-й группы, у = 1,...,к . При больших объемах выборки Н-критерий определяется асимптотической критической областью раз-
мера а в виде неравенства Н > %1_а (к -1), где х2-а (к -1) обозначает квантиль уровня (1 - а) для хи-квадрат распределения с числом степеней свободы к - 1.
3. Непараметрическая модель с упорядоченными альтернативами сдвига
Часто на практике уровни Аь...,Ак фактора А отражают эффективность воздействия на показатель X в определенном направлении, например по мере увеличения интенсивности воздействия. В таких случаях рассматривают упорядоченные альтернативы. Предполагается, что XуХп,у - н.о.р. случайные величины
с произвольной непрерывной функцией распределения ¥(х-0у), у = 1,...,к, V/ ё (1,..., пу). Для изучения влияния фактора А на итоговый показатель X в условиях этой непараметрической модели проверяются гипотезы
Я0“ : 0! =02 =... = 0* , К : 01 — 02 *... — 0*, (6)
где хотя бы одно из неравенств строгое. Эти гипотезы также непараметрические, так как ¥(х -0у) - произвольная непрерывная функция распределения, и они
проверяются с помощью Ь-критерия Пейджа (см., например, [2, 3]), статистика которого вычисляется также не по исходным наблюдениям {Ху}, а по их рангам
{Щ}, * = 1, п] , У = 1,..., к, по формуле
1 к -Ь =— X {У - (к +1) / 2}{ Я.у - (пк +1)/2}. (7)
пк у=1
При больших объемах выборки Ь-критерий Пейджа определяется асимптотической критической областью размера а в виде неравенства
Ь > Х-а {(к2 - 1)(пк +1)/144п}172,
где А,1-а = Ф-1 (1 - а) и Ф-1 обозначает квантильную функцию стандартного нормального распределения Ф(х).
4. Рассматриваемые типы супермоделей
Понятие «супермодель» (см., например, [4]) используют при изучении свойств робастности статистических процедур. Существуют различные подходы к заданию супермоделей. При изучении робастности процедур по распределению, один из вариантов задания супермодели состоит в конкретизации семейств распределений, включающих «идеальное» распределение, в которое мы верим и выбираем его в качестве основы, а также распределения, которыми могут характеризоваться наблюдения в условиях реального эксперимента. Мы рассмотрим два типа супермоделей, предложенных Тьюки [6].
Первый тип содержит ^-аппроксимацию стандартных симметричных распределений и задается в виде семейства распределений путем конкретизации их квантильных функций, то есть в виде
3 (Г) = (Г: Г-1 (и) = Х1 + [иХз - (1 - и )^3 ]/Х2}, 0 < и < 1, (8)
где Х1 характеризует параметр положения, Х2 является масштабным параметром и Х3 - параметром формы распределения. Подходы к определению этих параметров
описаны в [7]. В семействе распределений (Г) мы выделим супермодель
(у2), которая описывает отклонения от нормального распределения по эксцессу у2 при следующих значениях эксцесса: 1,75, 3, 4, 5, 9. Отметим, что для нормального распределения эксцесс у2=3. Второе семейство (г) содержит
^-аппроксимацию распределений Стьюдента с числом степеней свободы г, принимающим следующие значения: 1, 5, 6, 7, 8, 9, 10, 25, 50, да. Отметим, что семейство распределений Стьюдента включает нормальное распределение (т^да) и распределение Коши (г=1). Это семейство является удобным для описания широкого класса распределений, упорядоченных по степени «тяжести их хвостов» (см., например, [4]).
Второй тип супермоделей содержит гауссовские распределения с масштабным засорением и определяется в виде
36>т (Ф) = (Г: ^ (х) = (1 -є)Ф(х) + єФ(х/т)}, 0 <є< 1/2 , т> 1. (9)
Отметим, что при є = 0, или при т = 1, имеем нормальное распределение Ф(х), х є Я1.
5. Сравнение критериев при конечных объемах выборки
В рамках описанных типов супермоделей приведем результаты сравнения характеристик F-критерия Фишера, Н-критерия Краскела - Уоллиса и Ь-критерия Пейджа. В качестве сравниваемых характеристик критериев используются их вероятности ошибок первого и второго рода. Изучение робастности F-критерия Фишера по уровню значимости при конечных объемах выборки проводится методом статистического моделирования, при этом исходные наблюдения {X/} вычисляются по формуле
Ху =\ + [и/3 - (1 - и )"3 ]/Х2, і = 1,..., П] , у = 1,..., к , (10)
где и у случайные величины с равномерным распределением в интервале [0,1]. Отметим, что ранговые статистики Н- и Ь-критериев имеют дискретные распределения, поэтому при сравнении критериев, которое проводилось при фиксированном уровне значимости а = 0,05, использовались асимптотические непрерывные аппроксимации их распределений при нулевой гипотезе. При этом в процессе моделирования проверялось качество этих аппроксимаций при различных объемах выборки путем построения оценок уровней значимости критериев по числу опытов М = 10 000. Отметим, что при моделировании использовались равные объемы выборок в группах Жь..., Жк, то есть щ = п2 =.. .= пк = п. Мощности критериев сравнивались при альтернативах сдвига вида (6), при этом параметр положения Х1 в (10) зависел от номера группы у и вычислялся по формуле ^1 (у) = (у -1)А, у = 1,...,к , где А > 0 - заданный параметр, характеризующий сдвиг распределений по группам Жь...,Жк. Результаты моделирования в виде оценок уровней значимости а критериев (при А = 0) и оценок мощностей критериев Ж(А) при различных значениях параметра А, полученные по числу опытов М = 10 000, при числе групп к = 5, приведены в табл. 1 для Г є (у2) и в табл. 2 для Г є (г). Результаты эксперимента для Г є 3Ё т (Ф) приведены в табл. 3.
Объем выбор- ки Парам. У2 = ЗХ2 = 0,1975 Хз = 0,1350 У2 = 4X2 = 0,0262^ = 0,0148 у2 = 5 Х2 = -0,0870 Х3 = -0,0443 Ъ = 9 Х2 = -0,3203 Х3 = -0,1359 у2=1,75 Х2 = 0,5943 Хз = 1,4501
А 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60
Р 0,051 0,093 0,283 0,601 0,872 0,051 0,107 0,300 0,622 0,870 0,046 0,102 0,300 0,622 0,871 0,045 0,103 0,323 0,642 0,862 0,051 0,093 0,273 0,585 0,879
п = 5 Н 0,038 0,069 0,221 0,517 0,813 0,038 0,081 0,257 0,564 0,828 0,036 0,083 0,269 0,587 0,847 0,036 0,091 0,317 0,651 0,864 0,033 0,068 0,194 0,459 0,771
Ь 0,053 0,265 0,644 0,912 0,991 0,051 0,288 0,680 0,930 0,993 0,053 0,302 0,708 0,935 0,992 0,051 0,328 0,757 0,955 0,995 0,052 0,256 0,610 0,889 0,989
Р 0,051 0,169 0,614 0,949 0,998 0,049 0,179 0,613 0,943 0,998 0,051 0,177 0,621 0,943 0,996 0,048 0,184 0,639 0,941 0,992 0,053 0,165 0,603 0,950 0,999
п= 10 н 0,045 0,152 0,569 0,930 0,997 0,041 0,170 0,608 0,942 0,999 0,045 0,179 0,649 0,955 0,998 0,046 0,209 0,720 0,973 0,999 0,044 0,144 0,517 0,897 0,996
ь 0,053 0,424 0,895 0,996 1,000 0,052 0,457 0,922 0,998 1,000 0,051 0,479 0,935 0,999 1,000 0,050 0,544 0,954 0,999 1,000 0,053 0,410 0,871 0,995 1,000
р 0,046 0,350 0,928 1,000 1,000 0,055 0,357 0,929 1,000 1,000 0,047 0,350 0,925 1,000 1,000 0,050 0,356 0,926 0,998 1,000 0,049 0,333 0,935 1,000 1,000
и = 20 н 0,045 0,324 0,914 0,999 1,000 0,051 0,366 0,941 1,000 1,000 0,044 0,386 0,954 1,000 1,000 0,048 0,443 0,977 1,000 1,000 0,045 0,306 0,892 0,999 1,000
ь 0,053 0,658 0,993 1,000 1,000 0,054 0,701 0,996 1,000 1,000 0,047 0,734 0,998 1,000 1,000 0,050 0,788 0,999 1,000 1,000 0,049 0,650 0,990 1,000 1,000
Таблица 2. Оценки уровня значимости и мощности Р-, Н- и Ь-критериев в условиях модели Тьюки - - семейство распределений Стьюдента
Объем выбор- ки Парам. г = 1 Х2 = -3,0674 Х3 = -1,000 г = 5 Х2 = -0,2480 Х3 = -0,1358 г = 9 Х2 = -0,0003 Х3 = -0,0002 г = 25 Х2= 0,1342 Х3 = 0,0892 г = да Х2 = 0,1975 Х3 = 0,1350
А 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60
Р 0,016 0,017 0,027 0,051 0,078 0,042 0,075 0,200 0,436 0,675 0,050 0,089 0,215 0,453 0,714 0,049 0,097 0,271 0,563 0,838 0,051 0,102 0,296 0,609 0,868
п = 5 Н 0,034 0,050 0,102 0,188 0,285 0,036 0,066 0,191 0,418 0,478 0,039 0,072 0,184 0,404 0,669 0,035 0,071 0,216 0,487 0,782 0,036 0,076 0,233 0,521 0,808
Ь 0,056 0,162 0,347 0,523 0,679 0,056 0,247 0,583 0,840 0,962 0,053 0,230 0,550 0,836 0,961 0,054 0,262 0,633 0,898 0,987 0,053 0,269 0,651 0,910 0,992
Р 0,015 0,024 0,032 0,048 0,082 0,044 0,126 0,412 0,767 0,845 0,049 0,130 0,450 0,818 0,975 0,054 0,168 0,564 0,922 0,996 0,053 0,175 0,615 0,946 0,999
п= 10 н 0,046 0,090 0,225 0,417 0,620 0,041 0,137 0,479 0,842 0,978 0,045 0,124 0,447 0,829 0,975 0,047 0,154 0,533 0,906 0,994 0,047 0,157 0,567 0,929 0,998
ь 0,051 0,242 0,539 0,787 0,914 0,052 0,377 0,842 0,984 1,000 0,052 0,366 0,807 0,980 1,000 0,054 0,417 0,886 0,993 1,000 0,052 0,427 0,898 0,996 1,000
р 0,015 0,018 0,032 0,052 0,087 0,049 0,219 0,736 0,976 0,999 0,050 0,242 0,792 0,990 1,000 0,055 0,316 0,905 0,999 1,000 0,052 0,342 0,935 1,000 1,000
и = 20 н 0,046 0,137 0,476 0,784 0,937 0,046 0,272 0,847 0,997 1,000 0,047 0,255 0,815 0,993 1,000 0,051 0,302 0,895 0,999 1,000 0,047 0,318 0,916 1,000 1,000
ь 0,049 0,368 0,790 0,962 0,995 0,05 0,604 0,982 1,000 1,000 0,051 0,569 0,976 1,000 1,000 0,052 0,645 0,991 1,000 1,000 0,048 0,659 0,993 1,000 1,000
Изучение свойств ранговых аналогов Р-нритерия Фишера
Таблица 3
Оценки уровня значимости и мощности Е- и И-критериев для ¥ е Зе т (Ф) , число групп к = 5 , число опытов М = 10000
Объем выборки А 8 = 0 , Т = 1 3 = Т 0, = 8
0,00 0,15 0,30 0,45 0,60 0,00 0,15 0,30 0,45 0,60
п = 20 Б 0,046 0,220 0,803 0,995 1,000 0,048 0,135 0,495 0,892 0,992
Н 0,045 0,203 0,775 0,993 1,000 0,047 0,169 0,639 0,971 1,000
Анализируя данные этих таблиц, можно сделать следующие выводы.
1. Эмпирический уровень значимости F-критерия обладает стабильностью при
отклонениях от гауссовской модели по эксцессу в рамках супермодели (у 2)
(см. табл.1). Однако F-критерий не обладает свойством робастности по уровню значимости в рамках супермодели (г). В частности, для распределений с «тяжелыми хвостами» (см. табл.2 при г = 1), вместо заданного уровня а = 0,005, эмпирический уровень значимости равен « 0,016 . При увеличении числа степеней свободы г «затянутость хвостов» распределений начинает приближаться к гауссовской и эмпирические уровни начинают проявлять стабильность в окрестности заданного уровня.
2. Асимптотическая аппроксимация точного распределения ранговой статистики Н-критерия Краскела - Уоллиса при нулевой гипотезе с помощью выражения Ь(Н | Н0) = %2 (к -1), является неудовлетворительной при малых объемах выборки. См., например, табл. 2 при п = 5 и любом числе степеней свободы, начиная с г = 1 и до г ^ ж. Вместо заданного уровня значимости а=0,005, эмпирический уровень значимости равен « 0,03 . При увеличении объемов выборки качество аппроксимации улучшается, и при п > 10 она уже является удовлетворительной для целей практики. Этот вывод сохраняется и для супермодели, описывающей отклонения от гауссовской модели по эксцессу, то есть для ¥ е (у2).
3. Для рассмотренных в эксперименте альтернатив и для гауссовской модели
наблюдений вида (1), F-критерий имеет незначительное преимущество в мощности перед Н-критерием. Однако при отклонениях от гауссовской модели, то есть в рамках супермоделей (Х2), (г) и 3ЁТ (Ф), ситуация меняется. Н-критерий
имеет преимущество в мощности по сравнению с F-критерием, причем оно проявляется в большей степени при «утяжелении хвостов распределений» и при увеличении объемов выборки. Для рассмотренных в эксперименте упорядоченных альтернатив, Ь-критерий Пейджа, как и ожидалось, имеет существенно большую мощность по сравнению с F и Н-критериями. Причем качество нормальной аппроксимации распределения ранговой статистики Ь при нулевой гипотезе вполне удовлетворительное и для малых объемов выборки, начиная с п = 5.
4. Проведенные эксперименты при числе групп к = 10, качественно не меняют эти выводы.
Отметим, что рассмотренные в предыдущих экспериментах супермодели
(X 2), (г) и 3Ё,Т (Ф), были использованы, в частности, для изучения робаст-
ности по распределению уровня значимости F-критерия. Эти супермодели описывают различные варианты отклонения от предположения нормальности (1в) гаус-
совской модели (1). Изучим теперь робастность уровня значимости F-критерия при отклонениях от предположения (1г) о равенстве дисперсий в группах ЖЬ...,ЖЬ оставив все остальные предположения гауссовской модели (1) верными. Для этого исходные наблюдения [Ху} будем вычислять по формуле (10), в которой ^ = 0, что обеспечивает справедливость предположения нулевой гипотезы (2), то есть Н0 : ц1 = ц2 = ••• = И* = И . Далее, коэффициенты Х2 и Х3 соответственно будут равны Х2 = 0,1975 и Х3 = 0,1350 , что обеспечивает выполнение предположения нормальности модели (1). Затем для нарушения предположения (1г) о равенстве дисперсий в группах Жь...,Жк, сделаем масштабный параметр Х2 зависящим от номера группы j, то есть Х2(у) = уХ2 , j=1,...,k. В результате исходные наблюдения [ Ху} вычисляются по формуле
Ху =Хх + [и/3 - (1 - и у )%3 ]/Х2 (у), / = 1,..., п] , у = 1,..., к . (11)
Результаты эксперимента приведены в табл. 4.
Таблица 4
Оценки уровня значимости F- и ^критериев в случае нарушения предположения о равенстве дисперсий
Тесты Количество уровней и объемы выборок
к = 5, п = 10 к = 10, п = 10 к = 5, п = 20 к = 10, п = 20
Б 0,102 0,137 0,095 0,136
И 0,063 0,067 0,067 0,072
Из табл. 4 видно, что при невыполнении предположения (1г) о равенстве дисперсий в гауссовской модели вида (1) уровень значимости F-критерия превышает заданный уровень а = 0,05 больше, чем в два раза. Причем уровень значимости F-критерия значительно возрастает с увеличением количества уровней факторного признака А. Отметим, что условия рассматриваемого эксперимента для Н-критерия соответствуют альтернативе И\ , так как дисперсии распределений в группах разные и, следовательно, не все ^}, j = 1,■■■,k, равны. Приведенные данные для Н-критерия превышают заданный уровень значимости а = 0,05, что является проявлением свойства «несмещенности» Н-критерия, так как эти данные характеризуют его мощность при рассмотренных альтернативах.
6. Асимптотическое сравнение критериев
В литературе разработаны различные подходы к асимптотическому сравнению критериев. Наиболее часто используют асимптотическую относительную эффективность Питмена (см. [2, 5]), которая вычисляется не для фиксированной альтернативы, а для последовательности контигуальных альтернатив, сходящихся к нулевой гипотезе при неограниченном увеличении объема выборки. Для многих непараметрических критериев получены общие выражения для эффективности Питмена по отношению к их «конкурентам» из нормальной теории. В частности, в [2] показано, что эффективность Питмена для Н-критерия Краскела - Уоллиса относительно F-критерия Фишера вычисляется по формуле
АКЕр (Н: Г) = 12а
= 12а у
| / (г -1 («)^«)
1_0
(12)
где а2 = П(X) и /(х) - плотность функции распределения Г(х) наблюдений
над показателем X. Отметим, что формула (12) имеет достаточно общий характер. По формуле (12) вычисляется также асимптотическая относительная эффективность Питмена для критерия знаковых рангов Уилкоксона и 1-критерия Стьюден-та в одновыборочном варианте и в двухвыборочном варианте для рангового критерия Уилкоксона и двухвыборочного 1-критерия Стьюдента [5]. Это замечание распространяется на относительную эффективность Питмена многих непараметрических критериев по отношению к их «конкурентам» нормальной теории (см., например, [3]).
Отметим, что плотность распределения вероятностей, выражаемая через кван-тильную функцию Г-1 (и) = Х1 + [иХз - (1 - и)^3 ]/ Х2, 0 < и < 1, которая определяет элементы множества (Г) вида (8), записывается в виде
/(Г-1 (и)) = 1/(Г-1 (и))7 = [Х3 (и^3-1 + (1 - и )"3 -1}/Х2 ]-1 , 0 < и < 1. (13)
Далее, можно убедиться, что для Г еЗ^ все центральные моменты = М (X - а)к нечетного порядка равны нулю и, следовательно, коэффициент асимметрии у1 = ц3 / ц^/2 = 0, а коэффициент эксцесса у2 = ц4 / ц2, вычисляется по формуле
_ц1 _ {1/(4Х3 +1) - 4Б(Х3 + 1,3Х3 +1)}
У 2 ^2 2[1 /(2Х3 +1) - Б( Х3 +1, Х3 +1)]2
+ ЪБ(2Хъ +1,2X3 +1) (14)
2[1 /(2Х3 +1) - Б(Х3 +1, Х3 +1)]2 ’
где В(х, у) обозначает бета-функцию. Кроме того, выражение для дисперсии имеет вид
о} = 2[1/(2Х3 +1) - Б(Х3 +1,Х3 +1)]/X2 . (15)
С учетом формул (13) и (15), выражение (12) для Г еЗ1 запишется в виде АЯЕр (Н : Г) = 24 [1 /(2Х3 +1) - Б(Х3 +1, Х3 +1)] х
х(|[Х3{ы%3-1 + (1 -м)Хзйы )2 . (16)
о
Численные расчеты показывают, что для Г е (X2) асимптотическая относительная эффективность Питмена Н-критерия относительно F-критерия при значениях эксцесса у2: 3, 4, 5, 9, 1,75 соответственно равна 0,954, 1,067, 1,167, 1,379, 1,066, а для семейства распределений Стьюдента Г е (г) при числе степеней свободы г: 5, 7, 25 и г она соответственно равна 1,382, 1,162, 0,993, 0,954. Эти результаты на качественном уровне хорошо согласуются с результатами моделирования.
2
2
Рассмотрим теперь гауссовскую модель с масштабным засорением вида (9), то есть предполагаем, что Г е 3Ё,Т (Ф). Отметим, что распределения Р (х) этого семейства характеризуются симметричными относительно нуля плотностями распределения вероятностей вида /Ё т (х) = (1 - б)ф(х) + (б / т)ф(б / т), где
ф(х) = (2п)~1/2 ехр{-х2 /2}, -да < х < да . Для Г е 3Ё,Т (Ф) имеем
ГО
Я/ = I х2А,т (х)^х = 1 + е(х2 -1) ,
-ГО
(1 -6)2 л/2 6(1 -6) б2
_ .1 I _ I -VI / <_• ■ I ____ I С'2
I /Ё,т (х)^х =■
^л(х2 +1) 2тл/я
С учетом этих выражений, из (12) получаем, что асимптотическая относительная эффективность Питмена Н-критерия относительно F-критерия для Г еЗЁ1 (Ф) вычисляется по формуле
ЛЯЕре т (Н: Г) = {3[1 + б(т2 -1)] / п} х
х{(1 -е)2 + 2^2 6(1 -б)/л/ т2 +1 +б2 / т}2 . (17)
Численные значения асимптотической относительной эффективности Питмена Н-критерия относительно F-критерия для гауссовской модели с масштабным засорением приведены в табл. 5.
Таблица 5
Эффективность Питмена ЛЯЕР (Н : Р) для Г еЗЁ1 (Ф)
т 8
0,00 0,01 0,03 0,05 0,08 0,10 0,15 0,20
3 0,955 1,009 1,108 1,196 1,309 1,373 1,497 1,575
5 0,955 1,150 1,505 1,814 2,201 2,412 2,795 3,006
7 0,955 1,369 2,115 2,759 3,553 3,977 4,724 5,099
Из приведенной таблицы следует, что Н-критерий Краскела - Уоллиса, проигрывая лишь 5% в эффективности оптимальному при гауссовском распределении F-критерию Фишера, обладает существенными преимуществами даже при небольших, трудно обнаруживаемых, отклонениях от гауссовской модели. Или, другими словами, можно сказать, что F-критерий Фишера теряет оптимальность очень быстро при переходе от нормальной модели к модели из ее окрестности, содержащей распределения с «более тяжелыми хвостами».
Таким образом, подводя итог, можно сказать, что при возможных отклонениях от предположений гауссовской модели наблюдений вида (1) в условиях реального эксперимента, предпочтение в выборе критерия следует отдать ранговому критерию Краскела - Уоллиса (или критерию Пейджа при упорядоченных альтернативах), а не классическому F-критерию Фишера.
ЛИТЕРАТУРА
1. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ: Пер. с англ. М.: Мир, 1982.
2. Хеттсманспергер Т. Статистические выводы, основанные на рангах. М.: Финансы и статистика, 1987.
3. Холлендер М., Вулф Д. Непараметрические методы статистики. М.: Финансы и статистика, 1983.
4. Шуленин В.П. Введение в робастную статистику. Томск: Изд-во Том. ун-та, 1993.
5. Кендэлл М., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.
6. Randles R.H., Wolf P.H. Introduction to the Theory of Nonparametric Statistics. N.Y.: Wiley, 1979.
7. Ramberg J.S. An approximation method for generation symmetric random variables // Com-mun. ACM. 1972. V. 15. P. 987 - 990.
Статья представлена кафедрой теоретической кибернетики факультета прикладной математики и кибернетики Томского государственного университета, поступила в научную редакцию 17 сентября 2007 г.