УДК 311:61
АНАЛИЗ КОЛИЧЕСТВЕННЫХ ДАННЫХ ДЛЯ ДВУХ НЕЗАВИСИМЫХ ГРУПП
© 2007 г. А. М. Гржибовский
Национальный институт общественного здоровья, г. Осло, Норвегия
В статье рассматриваются способы сравнения количественных данных для двух независимых групп с помощью критерия Стьюдента для непарных выборок и критерия Манна-Уитни. Описывается использование вышеупомянутых критериев с помощью пакета прикладных статистических программ SPSS. Особое внимание уделяется проверке соблюдения необходимых условий применения критерия Стьюдента для непарных выборок, так как данный критерий используется наиболее часто в отечественной биомедицинской литературе, однако соблюдение условий его применения проверяется исследователями крайне редко, что позволяет считать выводы таких публикаций как минимум сомнительными. Изложенный материал дает общие сведения о статистических критериях, применяемых для проверки гипотез о равенстве генеральных средних двух групп, и призван вызвать интерес читателей журнала к прочтению специализированной литературы перед началом работы над будущими публикациями. Ключевые слова: распределение, дисперсия, критерий Стьюдента для непарных выборок, критерий Манна-Уитни, критерий Вилкоксона для непарных выборок.
В предыдущем номере журнала [5] рассмотривалось, какие бывают данные и какие распределения эти данные могут иметь. Также отмечалось, что выбор статистического критерия для проверки гипотез определяется типом и распределением данных. В настоящей статье будет рассмотрен t-критерий Стьюдента для непарных (независимых) выборок, предназначенный для проверки гипотез о равенстве генеральных средних, а также критерий Манна-Уитни, который применяется в тех случаях, когда использовать критерий Стьюдента невозможно из-за несоблюдения необходимых условий для его применения.
Наиболее популярным статистическим критерием в отечественной биомедицинской литературе является t-критерий Стьюдента, который применяется более чем в половине публикаций [4, 6]. Это также справедливо для журнала «Экология человека», где критерий упоминался приблизительно в каждой третьей статье за период с 2000 по 2005 год. Принимая во внимание, что во многих случаях статистические критерии, применяемые для проверки гипотез, вообще не упоминаются, можно предположить, что частота использования критерия Стьюдента еще выше, учитывая его простоту и возможность вычисления с помощью MS Excel, одного из самых популярных в России пакетов для обработки данных. Однако, несмотря на кажущуюся простоту, t-критерий Стьюдента все еще в достаточно большом количестве исследований применяется без проверки соблюдения необходимых условий, что делает выводы, полученные в ходе таких исследований, как минимум сомнительными. Для чего же все-таки предназначен t-критерий Стьюдента и каковы условия его применения?
Критерий Стьюдента был предложен английским химиком и статистиком William Sealy Gösset (1876—1937) и опубликован в 1908 году в журнале «Biometrika», который издавал другой известный статистик Karl Pearson (1857—1936). W. S. Gösset, работавший в то время в пивоваренной компании Guinness, по условиям контракта не имел права публиковать результаты своих исследований, поэтому работа была подписана псевдонимом Student, отсюда и название. Следует различать два критерия Стьюдента: для непарных (независимых) и для парных выборок. каждый из этих критериев должен использоваться только в тех ситуациях, для которых он предназначен. В противном случае возможно ошибочное завышение или занижение значимости различий. В данной статье рассматривается критерий Стьюдента для непарных выборок, который предназначен для сравнения средних величин количественных признаков в двух независимых группах. Принцип, лежащий в основе применения критерия Стьюдента, представляет собой сравнение разности между средними двух изучаемых групп с точностью оценки этой разности. математическое выражение этого
принципа описывается в большинстве учебников по биостатистике для начинающих [1—3, 7] и в данной статье не рассматривается.
Критерий Стьюдента для непарных выборок является критерием выбора, если признак в каждой из групп подчиняется закону нормального распределения и дисперсии в обеих группах равны. Учитывая, что указанный критерий применяется не для любых данных, исследователь должен проверить соблюдение всех нижеперечисленных условий его применения:
1. Количественный тип данных, причем желательны непрерывные, а не дискретные данные.
2. Наличие не более двух независимых выборок.
3. нормальное распределение изучаемого признака в популяциях, из которых отобраны выборки.
4. Равенство дисперсии изучаемого признака в популяциях, из которых отобраны выборки.
некоторые исследователи не рекомендуют применять критерий Стьюдента, если объем каждой их выборок составляет менее 30 наблюдений [8].
Для проверки соблюдения первых двух условий не требуется никаких статистических манипуляций. Типы данных рассматривались в предыдущей статье [5]. Независимость выборок обеспечивается дизайном исследования (например, непарный критерий Стьюдента нельзя применять в исследованиях типа «до — после», в исследованиях с использованием метода подобранных пар, а также в близнецовых исследованиях). Распределение признака в популяции обычно неизвестно, поэтому необходимо проверять распределение на основании выборочных данных. Следует помнить, что подчинение данных закону нормального распределения проверяется отдельно для каждой выборки, а не для всех данных в целом. Проверка распределения проводится с использованием графических методов или статистических критериев. Проверка условия равенства генеральных (популяци-онных) дисперсий тоже осуществляется с помощью выборочных данных. В SPSS проверку распределения графически наиболее целесообразно проводить с помощью квантильных диаграмм (Q-Q plots). Из статистических критериев для проверки нормальности распределения SPSS предлагает критерии Shapiro -Wilk (для малых выборок) и Kolmogorov-Smirnov (для больших выборок). для проверки равенства дисперсий в SPSS используется критерий Levene.
Рассмотрим практический пример с применением непарного критерия Стьюдента в SPSS. В предыдущей статье мы оценивали распределение массы тела новорожденных детей, родившихся в срок у первородящих женщин г. Северодвинска. Большинство литературных источников утверждает, что наличие абортов в анамнезе связано с повышенным риском возникновения осложнений последующих беременностей и что одним из осложнений называется повышенная вероятность рождения ребенка с низкой массой тела. данные, полученные в ходе Северодвинского когортного исследования [9], позволяют проверить гипотезу о равенстве средней массы тела новорож-
денных в группах первородящих женщин с наличием и отсутствием абортов в анамнезе. Нулевой будет являться гипотеза об отсутствии различий между средними. В качестве альтернативной используется гипотеза о существовании различий между средними значениями массы тела новорожденных в изучаемых группах. Файл с данными (Human_Ecology_2_2008. sav) доступен на сайте журнала: http:/ /www.nsmu.ru/ nauka_sgmu/rio/eco_human/. Перед тем как начать проверку гипотезы с помощью критерия Стьюдента для непарных выборок, следует проверить, можно ли применять этот критерий в данной ситуации.
Масса тела новорожденных является непрерывной количественной величиной. Группы являются независимыми, так как одна и та же женщина не может быть классифицирована как с наличием, так и с отсутствием абортов в анамнезе. Для проверки условия о нормальности распределения в каждой из групп с помощью описательной статистики, графических методов и статистических критериев в меню Analyze следует выбрать «Descriptive statistics», а затем «Explore». В открывшемся диалоговом окне слева будет список переменных, из которых следует выбрать те, для которых планируется провести проверку распределения (в данном случае переменную ves). Кроме того, чтобы изучить распределение в обеих группах, следует в окно «Factor List» поместить груп-пировочную переменную «anamnez» (рис. 1). После выбора меню Plots следует в «Descriptive» убрать флажок «Stem and leaf» и отметить гистограмму (Histogram), как показано на рис. 2. В меню Boxplot отметить «None» и поставить флажок на «Normality plots with tests». В меню Spread vs. Level with Levene Test надо отметить «Untransformed» для проверки условия равенства дисперсий.
Полученные данные описательной статистики представлены на рис. 3 и 4. Из данных асимметрии и эксцесса видно, что распределения лишь немного смещены вправо и слегка островершинны, однако для окончательного решения о возможности применения критерия Стьюдента посмотрим на гистограммы, квантильные диаграммы (рис. 5 и 6) и результаты применения статистических критериев для проверки распределения (рис. 7).
■ Explore Щ
^¡d Dependent List: 1 0K 1
Semejnoe polozhenie pol rebenka [pol] ves [ves]
□ ( Paste 1
^dohod ^dohod_2 Factor List: Reset
Cancel
□
[ Help 1
□ Label Cases by:
Display
© Both О Statistics О Plots | Statistics... ] [ Plots... | ( Options... ]
1
Рис. 1. Диалоговое окно «Explore» для определения зависимых переменных (Dependent List) и группировочных переменных (Factor List)
анамнезе представлены на рис. 12 и 13. На рис. 12 представлено общее количество наблюдений в каждой из групп (N), средние арифметические значения (Mean), стандартные отклонения (Std. Deviation) и стандартные ошибки средних арифметических (Std. Error Mean).
Histogram
for anamnez= Est' aborty v anamneze
Mean =3432,31 Std. Dev. =447,578 N =330
Normal Q-Q Plot of ves
for anamnez= Est' aborty v anamneze
Observed Value
Рис. 6. Гистограмма (вверху) и квантильная диаграмма (внизу) распределения массы тела при рождении для детей, родившихся в срок у первородящих женщин г. Северодвинска с наличием абортов в анамнезе
Tests of Normality
Kolmogorov-Smirnov Shapiro-Wilk
anamnez Statistic df Sig. Statistic df Sig.
ves Net abortov v anamneze ,028 53H ,200* ,HH8 53 H ,712
Est' aborty v anamneze ,040 330 ,200* ,HH5 330 ,414
. This is a lower bound of the true significance. a. Lilliefors Significance Correction
Рис. 7. Результаты проверки нормальности распределения данных в каждьй из rnynn с помыцью критериев Kolmogorov-Smirnov и Shapiro-Wilk
Test of Hiemoaeneit^ of Variance
Levene Statistic df 1 df2 Sig.
ves Based on Mean 867
Based on Median Based on Median and with adjusted df Based on trimmed mean ,8HH ,8HH ,H53 1 1 1 867 865,160 867 ,ьиь ,ьиь ,329
Рис. 8. Результаты проверки необходимого условия равенства дисперсий с помощью критерия Levene
На рис. 13 представлены результаты не только для критерия Стьюдента, но и для критерия Levene
(Levene's Test for Equality of Variances). Поскольку в данном примере достигнутый уровень значимости для критерия Levene равен 0,324 (столбец « Sig.»), то можно считать, что дисперсии в изучаемых группах равны, поэтому результаты применения критерия Стьюдента смотрим в первой строке (Equal variances assumed). При обнаружении статистически значимых различий между дисперсиями (р < 0,05) результаты следовало бы оценивать по нижней строке (Equal variances not assumed), в которой приводятся результаты критерия
Independent -Sam р leg Т Test
Semejnoe polozhenie О pol rebenka [pol] $ dohod $ dohod_2
Test Variable(s):
Рис. 9. Диалоговое окно «Independent-Samples T Test»
Define Groups
© Use specified values Group 1: Group 2:
(Cut poin*:
Continue
0
1
Cancel
Help
Рис. 10. Диалоговое окно ----Define Groups»
Independegl-Samples TTest: Options
Confidence Interval: 95 Missing Values
(*) Exclude cases analysis by analysis O Exclude cases listwise
Ри с. 11. Диалоговое окно «In2eHendent-Samples T Test: Op-lioni »
Group Statistics
Stt Error
anamnez N Mean Std. Deviation Mean
ves Net abortov v anamneze 53H 3361,1H 426,610 18,375
Est' aborty v anamneze 330 3432,31 447,578 24,638
Рис. 12. Описательная статистика для сравниваемых групп
Стьюдента для ситуации с неравными дисперсиями. Средние значения массы тела новорожденных в
ТЗ 0
2 ССС
ссс
5 ССС
группах различаются на 71 грамм (Mean Difference) со стандартной ошибкой 30 граммов (Std. Error Difference). Данные различия можно считать статистически достоверными, поскольку достигнутый уровень значимости (Sig. (2-tailed)) равен 0,019, то есть меньше критического значения (0,05), что позволяет отвергнуть нулевую гипотезу об отсутствии различий между групповыми средними.
Upper -11,488
-10,771
Рис. 13. Результаты применения непарного критерия Стьюдента для оценки различий средних величин
Результаты данного примера можно представить следующим образом: дети, родившиеся в срок у первородящих женщин с абортами в анамнезе, были в среднем на 71 (SD = 30) грамм тяжелее, чем дети, рожденные от первородящих женщин без абортов в анамнезе (t = -2,341, df = 867, p = 0,019). Однако результаты противоречат литературным данным. Почему? Во-первых, полученные результаты указывают лишь на наличие достоверных различий в массе тела новорожденных между группами, что не позволяет делать каких-либо выводов о наличии или отсутствии вреда абортов на последующие беременности. выявленные различия могут быть обусловлены многими факторами, поэтому делать какие-либо выводы о причинно-следственных связях на основании только этих (пусть и статистически значимых) результатов нельзя. К сожалению, в очень большом количестве отечественных публикаций обнаружение статистических различий является поводом для декларирования обнаружения новых факторов риска или эффективных методов лечения без приема во внимание особенностей дизайна исследования, обсуждения вероятности наличия систематических и случайных ошибок, а также конфаундинг-факторов, что может серьезно влиять на выводы исследования даже при корректно примененных методах для проверки статистических гипотез.
Поскольку в данном примере используются большие выборки и дисперсии были равны, то результаты применения критерия Стьюдента практически идентичны в обеих строках, однако они могут сильно различаться при меньших группах и при различных дисперсиях между группами. Особенно проблематичной считается ситуация, когда группа с меньшим количеством наблюдений имеет большую дисперсию. Проблема сравнения средних при неравных дисперсиях называется проблемой Беренса-Фишера, которая подробно рассматривалась в отечественной литературе [2]. В биомедицинских исследованиях условие равенства дисперсий соблюдается нечасто, а проверяется исследователями еще реже, поэтому к выводам о наличии или отсутствии различий меж-
ду средними, полученным в результате применения критерия Стьюдента без проверки соблюдения необходимых условий, следует относиться с большой осторожностью. Практические примеры того, как несоблюдение необходимых условий для применения непарного критерия Стьюдента может повлиять на результаты исследования, недавно были представлены в Международном журнале медицинской практики [6]. Среди прочих ошибок применения критерия Стьюдента можно отметить применение этого критерия для сравнения парных выборок (исследования типа «до — после»), а также для попарного сравнения трех и более групп. Последняя проблема наиболее часто встречается в отечественных публикациях и приводит к декларированию обнаружения различий там, где их нет. Так, если для одного сравнения двух групп при уровне альфа-ошибки 5 % мы допускаем, что можно обнаружить статистически значимые различия там, где их нет в 5 % случаев, то при попарном сравнении четырех групп эта вероятность возрастает до 18,5 %. Статистические критерии для сравнения средних для трех и более групп будут рассмотрены в следующей статье.
Что делать, если данные не подчиняются закону нормального распределения? Такие ситуации весьма нередки в медицинских исследованиях и часто сочетаются с малыми объемами выборок. В таких ситуациях следует либо трансформировать имеющиеся данные с помощью различных арифметических преобразований до достижения нормальности распределения [5], после чего можно будет применять непарный критерий Стьюдента, либо применять непараметрические критерии, которые не используют при расчетах параметры нормального распределения (среднее арифметическое и стандартное отклонение). Из непараметрических критериев SPSS позволяет применять критерии Манна-Уитни (Mann-Whitney U test), Вилкоксона для непарных выборок (Wilcoxon rank sum test), Колмогорова-Смирнова (Kolmogorov-Smirnov Z-test), Вальда-Вольфовитца (Wald-Wolfowitz) и Мойзеса (Moses extreme reactions). Критерии Манна-Уитни и Вилкоксона являются наиболее популярными и дают идентичные результаты. При анализе данных с помощью непараметрических критериев используются ранги, что позволяет нивелировать эффект выскакивающих величин. Непараметрические критерии не требуют соблюдения условия нормальности распределения, что позволяет их применять даже при сильно смещенных распределениях, однако распределения данных в обеих группах не должны сильно отличаться друг от друга. Для критерия Манна-Уитни необходимо соблюдение условия независимости сравниваемых выборок, то есть для исследований типа «до — после» критерий Манна-Уитни неприменим. Кроме того, данный критерий предназначен только для сравнения двух групп. Анализ количественных данных, не подчиняющихся закону нормального распределения, для трех и более групп будет рассмотрен в следующей публикации.
Independent Samples Test
Levene's Test for quality of Variance:
F Sig.
e ,974 ,324
ves Equal varianc assumed Equal varianc not assumed
t-test for Equality of Means
ig. (2-tailed;
Mean Difference
Std. Error Difference
95% Con Interval Differe
-2,341 -2,314
867 670,018
-71,122 -71,122
30,383 30,736
130,755 131,472
Рис. 17. Диалоговое окно «Two Independent Samples Test»
Результаты сравнения групп с помощью критерия Манна-Уитни представлены на рис. 20. В нижней таблице — значения критерия Манна-Уитни (U), критерия Вилкоксона для непарных выборок (W), величина Z и достигнутый уровень значимости различий (Asymp. Sig. (2-tailed)). Результаты показывают, что доходы были в среднем выше в группе женщин с наличием абортов в анамнезе (так как средний ранг (Mean Rank в верхней таблице на рис. 20) выше в этой группе), причем эти различия были статистически значимы, так как достигнутый уровень значимости (0,008) ниже критического уровня (0,05).
Рис. 18. Диалоговое окно «Two Independent Samples Test: Define Groups»
Two-Independent-Samples: Options X
Continue
Cancel
Help
Statistics
0 Descriptive I I Quartiles Missing Values
0 Exclude cases test-by-test О Exclude cases listwise
Рис. 19. Диалоговое окно «Two Independent Samples Test: Options»
При представлении результатов применения критерия Манна-Уитни рекомендуется указывать
значения U, Z и достигнутый уровень значимости (р). Для данного примера результаты могут быть представлены следующим образом: средний доход женщин с наличием абортов в анамнезе (Ме = 10 950 руб.) был выше, чем у женщин без абортов в анамнезе (Ме = 9 900 руб.), U = 79445, Z = —2,6, р = 0,008. Напомню, что в обозначение Ме исп ьзуется для медиан.
Ranks
anamnez N Mean Rank Sum of Ranks
dohod Net abortov v anamneze Est' aborty v anamneze Total 539 330 869 417,41 463,73 224985,00 153030,00
Test Statistics1
dohod
Mann-Whitney U 79455,000
Wilcoxon W 224985,0
Z -2,640
Asymp. Sig. (2-tailed) ,008
з. Grouping Variable: anamnez
Рис. 20. Результаты сравнения доходов в группах женщин с отсутствием и наличием абортов в анамнезе с помощью критерия Манна-Уитни
Итак, мы рассмотрели применение непарного критерия Стьюдента для ситуации с нормальным распределением данных в сравниваемых группах и критерия Манна-Уитни при значительном отклонении распределения от нормального. Но можно ли использовать непараметрические критерии при нормальном распределении? Можно, но следует помнить, что параметрические критерии имеют большую статистическую мощность, чем непараметрические при нормальном распределении, и поэтому являются критериями выбора. Можно ли использовать параметрические критерии при отклонении распределения от нормального? не рекомендуется, так как если при наличии больших выборок критерий Стьюдента достаточно устойчив к небольшим отклонениям распределения от нормального, то при малых выборках его применение для скошенных распределений может привести к сильно искаженным результатам.
Список литературы
1. Банержи А. Медицинская статистика понятным языком: вводный курс / А. Банержи. — М. : Практическая медицина, 2007. — 287 с.
2. Браунли К. А. Статистическая теория и методология в науке и технике / А. К. Браунли. - М. : Наука, 1980, С. 376-417.
3. Гланц С. Медико-биологическая статистика / С. Гланц. - М. : Практика, 1998.
4. Гржибовский А. М. Применение статистики в терапии: критический анализ публикаций / А. М. Гржибовский // Бюллетень СГМУ. - 2000. - № 2. - С. 21-22.
5. Гржибовский А. М. Типы данных, проверка распределения и описательная статистика / А. М. Гржибовский // Экология человека. - 2008. - № 1. - С. 52-58.
6. Леонов В. П. Ошибки статистического анализа биомедицинских данных / В. П. Леонов // Международный журнал медицинской практики. - 2007. - № 2. - С.19-35.
7. Сергиенко В. И. Математическая статистика в клинических исследованиях / В. И. Сергиенко, И. Б. Бондарева.
- М. : ГЭОТАР-МЕД, 2001. - 256 с.
8. Chang Y. H. Biostatistics 101: Data presentation / Y. H. Chang // Singapore Medical Journal. — 2003. — N 6.
- P. 280—285.
9. Grjibovski A. M. Social variations in fetal growth in Northwest Russia: an analysis of medical records / A. M. Grjibovski, L. O. Bygren, B. Svartbo, P. Magnus // Annals of Epidemiology. — 2003. — N 9. — P. 599—605.
ANALYSIS OF QUANTITATIVE DATA FOR TWO INDEPENDENT GROUPS
А. М. Grzhibovsky
National Institute of Public Health, Oslo, Norway
In the article, the methods of comparison of quantitative data for two independent groups with the help of Student criterion for unpaired samplings and Mann-Whitney criterion have been considered. The use of the above-mentioned criteria with the help of the package of applied statistical programs SPSS has been described. Special attention has been paid to check of
necessary conditions for application of Student criterion for unpaired samplings, as this criterion is most often used in native biomedical literature, but researchers check conditions for its use very rarely, what allows to consider conclusions in those publications at least doubtful. The stated facts have given general information about statistical criteria used for check of hypotheses about equality of two general average groups, and should arouse interest of journals' readers to reading of single-purpose literature before beginning of work with future publications.
Key words: distribution, dispersion, Student criterion for unpaired samplings, Mann-Whitney criterion, Wilcockson criterion for unpaired samplings.
Контактная информация:
Гржибовский Андрей Мечиславович — старший советник Национального института общественного здоровья, г. Осло, Норвегия
Адрес: Nasjonalt folkehelseinstitutt, Pb 4404 Nydalen, 0403 Oslo, Norway
Тел.: +47 22042392, +47 45268913; е-mail: angr@ fhi.no
Статья поступила 14.01.2008 г.