ТОМ ЛАНГ,
Том Ланг Коммуникейшнс, Мерфи, Калифорния, США
ДВАДЦАТЬ СТАТИСТИЧЕСКИХ ОШИБОК, КОТОРЫЕ ВЫ МОЖЕТЕ ОБНАРУЖИТЬ В БИОМЕДИЦИНСКИХ ИССЛЕДОВАТЕЛЬСКИХ СТАТЬЯХ. Часть 1
ВВЕДЕНИЕ
«Рецензенты биомедицинской литературы единогласно отмечают, что авторы приблизительно половины статей, использовавшие статистические методы, делали это некорректно» [1].
«Хорошая работа заслуживает хорошего представления, и соответствующее представление такая же важная часть работы, как сбор и анализ данных. Мы распознаем хорошее написание, когда оно налицо; давайте же усвоим, что наука имеет право быть хорошо представленной» [2].
Статистическая достоверность впервые обсуждалась в медицинской литературе в 30-х годах ХХ века. С того времени исследователи в различных областях медицины обнаружили высокий процент статистических ошибок в большом количестве научных статей, опубликованных даже в престижных журналах [4-7].
Проблема некорректной статистической обработки имеет давнюю историю, широко распространена, потенциально серьезна и является незаслуженно обойденной вниманием, несмотря на тот факт, что большинство ошибок касается основных статистических правил и их мож-
но было бы легко избежать, если следовать определенным правилам [8].
Проблема плохой статистической обработки привлекла к себе больше внимания одновременно с ростом направления доказательной медицины. Доказательная медицина значительно зависит от качества опубликованных работ. В результате некоторые группы ученых уже предложили правила представления статистической обработки данных для различных типов исследований [9-11], и внушительный набор правил для представления статистического анализа в медицине уже был отобран в результате интенсивной работы с литературой [12].
В данной статье представлены 20 правил для представления статистического анализа, которые могут быть использованы авторами, редакторами и рецензентами, мало знакомыми со статистическим анализом. Данные руководства являются вершиной айсберга: читатели, которые хотят больше узнать о данной проблеме, должны ознакомиться с более подробным изданием [12], а также с другими статьями, упоминаемыми здесь. Чтобы сохранить внимание читателей, данные правила представлены в порядке увеличивающейся важности.
гчш
www.idmz.ru кЛ
2005, №5
Ошибка № 1: представление измерений с излишней точностью
Большинство из нас лучше воспринимают числа с одной или двумя значащими цифрами после запятой, чем числа с тремя или более цифрами. Таким образом, округление чисел до двух значимых цифр после запятой улучшает передачу информации [13]. Например, в представленных ниже предложениях сообщается о количестве мужчин и женщин, однако факт становится более очевидным только после округления:
♦ количество женщин возросло с 29 942 до 94 347, а количество мужчин - с 13 410 до 36 051;
♦ количество женщин возросло с 29 900 до 94 300, а количество мужчин - с 13 400 до 36 000;
♦ количество женщин возросло приблизительно с 30 000 до 94 000, а количество мужчин - с 13 000 до 36 000.
Многие данные не требуют высокой точности. Если пациент весит 60 кг, а вес сообщается как 60,18 кг, то это внесет только излишнее смущение, даже если вес был измерен правильно. По той же самой причине наименьшее значение доверительного интервала, о котором следует сообщать, составляет Р<0,001.
Ошибка № 2: Разделение числовых данных на порядковые классы без объяснения почему и как
Чтобы упростить статистический анализ, числовые данные, такие как рост, измеренный в сантиметрах, часто разделяются на два или более порядковых класса: «невысокие», «нор-
/ / \ / / / \ \
В
/ ^ \ / V
/ \
Рис. 1. Авторы должны указать, почему и как данные были разделены на порядковые категории (А). Для данного распределения категории были, по-видимому, созданы по правилам (В). Рациональность создания данных категорий должна быть объяснена
мальные» и «высокие». Снижение качества измерения таким способом также снижает точность измерений и уровень изменчивости в данных. Авторам следует объяснить, почему они решили снизить эту точность и каким образом были определены границы для данных классов [12]. В некоторых случаях данные границы (или «точки разрыва»), которые определяют классы, могут быть выбраны, чтобы подчеркнуть те или иные результаты (рис. 1).
Ошибка № 3: Представление среднеклассовых значений для парных данных без сообщения об изменениях внутри пары
Данные, собранные с одного пациента, представляются как «парные». В группе пациентов с данными, записанными в определенный период времени, различия могут проявляться как между группами в течение времени, так и среди измерений, относящихся к одному пациенту, в зависимости от времени. Однако изменения в показателях одного пациента могут быть скрыты при сообщении средних показателей для группы (рис. 2). До тех пор как не будут сообщены индивидуальные данные, читатели могут не узнать о противоречиях этих двух измерений. Например, результаты на рис. 2 могут быть представлены как снижение от времени 1 ко времени 2 или как увеличение у двух из трех пациентов. Оба результата технически корректны, но представление только одного может ввести читателей в заблуждение.
>
гчшш
ЬЛ1
Рис. 2. Парные данные должны быть представлены вместе так, чтобы изменения у каждого пациента, а также и в группе могли быть оценены. В данном случае результаты могут быть представлены как среднее значение из 1,6 единиц или что единицы повышены у 2 из 3 пациентов
>
Ошибка № 4: Некорректное использование описательной статистики
Двумя наиболее часто используемыми критериями описательной статистики являются среднее и стандартное отклонение. Однако данные показатели корректно описывают только «нормальное», или гауссово распределение величин. По определению около 68% значений нормального распределения находятся внутри плюс или минус 1 стандартное отклонение; около 95% находятся внутри плюс или минус 2 стандартных отклонения и около 99% находятся внутри плюс или минус 3 стандартных отклонения. В явно ненормальных распределениях эти взаимосвязи не являются истинными и стандартное отклонение не говорит о форме распределения. Вместо этого рекомендуются другие измерения, такие, как медиана (50-й процен-тиль: значение, делящее данные на верхнюю и нижнюю половину) и ранг (обычно сообщаемый предоставлением минимальных и максимальных значений), или интерквартиль-ная широта (обычно сообщаемая предоставлением 25-го и 75-го процентилей) [14].
Хотя среднее и стандартное отклонение могут быть вычислены только лишь из двух наборов данных, данные критерии совсем не могут описывать небольшие выборки. Кроме того, большинство биологических данных не подчиняет-
ся нормальному распределению [15]. По этим причинам медиана и ранг, или интерквартильная широта должны гораздо больше использоваться в медицинской литературе, чем среднее и стандартное отклонение.
Ошибка № 5: Использование стандартной ошибки среднего в качестве описательного критерия или единицы точности измерения
Среднее и стандартное отклонение описывают центр и изменчивость стандартного распределения характеристики образца. Cреднее и стандартная ошибка среднего являются оценкой и мерой его точности для характеристики населения. Однако стандартная ошибка среднего всегда меньше стандартного отклонения; иногда, чтобы сделать измерения якобы более точными, стандартная ошибка среднего выдается за стандартное отклонение [16]. Хотя стандартная ошибка среднего является мерой точности оценки (стандартная ошибка среднего с какой-либо стороны среднего является по существу 68%-ным доверительным интервалом), предпочтительной мерой точности в медицине является 95%-ный доверительный интервал [17].
Таким образом, средняя и стандартная ошибка среднего могут иногда относиться к образцу, а иногда и к популяции. Чтобы избежать путаницы, среднее и стандартное отклонение являются предпочтительными критериями для (нормально распределенных) данных, а среднее и 95%-ный доверительный интервал являются предпочтительными для сообщения оценки и меры ее точности.
гчш
www.idmz.ru кЛ
2005, №5
Например, если средний вес 100 мужчин составляет 72 кг и стандартное отклонение составляет 8 кг, тогда (принимая во внимание нормальное распределение) примерно две трети мужчин (68%) будут весить предположительно от 64 до 80 кг. В данном случае среднее и стандартное отклонение используются корректно, чтобы описать данное распределение весов.
Однако средний вес образца 72 кг является также лучшей оценкой среднего веса всех мужчин популяции, из которой был выбран образец.
Используя следующую формулу: стандартная ошибка среднего = стандартное отклонение/ V п, где стандартное отклонение равно 8 кг и п=100, стандартная ошибка среднего составляет 0,8. Интерпретация в данном случае такова, если схожие (случайные) образцы были повторно отобраны из той же самой популяции мужчин, то около 68% этих образцов должны иметь средние значения между 71,2 и 72,8 кг (ранг значений между одной стандартной ошибкой средней больше и меньше вычисленного среднего).
Предпочтительным выражением оценки и ее точности является среднее и 95%-ный доверительный интервал (ранг значений около двух стандартных ошибок средней больше и меньше среднего). В данном примере выражение могло бы быть следующим: «Среднее значение составило 72 кг (95% доверительный интервал равен от 70,4 до 73,6 кг)», означая, что если схожие (случайные) образцы были повторно выбраны из той же самой популяции мужчин, то около 95% данных образцов могли бы иметь средний вес от 70,4 до 73,6 кг.
Ошибка № 6: Сообщение только значений
вероятности для результатов
Значения вероятности часто неправильно интерпретируют [18]. Даже когда интерпретация правильная, данные значения, однако, имеют некоторые ограничения. Для главных результатов сообщают абсолютную разницу между группа-
ми (относительные или процентные различия могут быть ошибочными) и 95%-ный доверительный интервал для этих различий вместо или в добавление к значениям вероятности. Предложения ниже ранжированы от плохого сообщения к хорошему:
♦ Эффект лекарства был статистически значимый. Данное предложение не отображает величину эффекта, был ли эффект клинически важным или как данный эффект является статистически достоверным. Некоторые читатели могли бы интерпретировать «статистически значимый» в данном случае таким образом, что авторы работы поддерживают использование данного лекарства.
♦ Эффект лекарства на снижение диастоли-ческого кровяного давления был статистически значимый (Р<0,05). В данном случае величина снижения также неуказана, поэтому клиническая важность не известна. В то же время Р может быть 0,049; статистически значимая (на 0,05 уровне), но очень близкая к 0,05, что могло бы быть интерпретировано близко к значению Р, например, 0,51, которое уже не является статистически достоверным. Использование ключевой точки, такой как 0,05, чтобы различить между «значимыми» и «незначимыми» результатами, является одной из проблем интерпретации значений Р.
♦ Среднее диастолическое кровяное давление в группе, получавшей лекарство, снизилось со 110 до 92 мм рт.ст. (Р = 0,02). Данное предложение является наиболее типичным. Даны начальные и конечные значения, но не разница. Среднее снижение (18 мм рт. ст.) является статистически значимым, но это является также оценкой и без 95%-ного доверительного интервала точность (а, следовательно, и полезность) данной оценки не может быть определена.
♦ Лекарство снижало диастолическое кровяное давление в среднем на 18 мм рт. ст., от 110 до 92 мм рт. ст. (95%-ный доверительный интервал составляет от 2 до 34 мм рт. ст.; Р = 0,02).
Г* л
>
гчшш
ЬЛ1
Рис. 3. Разность - это расстояние между реальным наблюдаемым значением и значением, предсказанным регрессионной линией
Рис. 4. Когда графические разности близки у нулю, регрессионная линия точно отображает линейную взаимосвязь данных (А). Какие-либо другие образцы (В,С,й) показывают, что взаимосвязь нелинейная, что означает, что регрессионный анализ не должен применяться
♦ Доверительный интервал показывает, что если данное лекарство было протестировано на 100 образцах, схожих с тем, о ком сообщалось, среднее снижение кровяного давления в 95 из 100 случаев могло бы составлять от 2 до 34 мм рт. ст. Снижение на 2 мм рт. ст. не является клинически важным, в отличие от снижения на 34 мм рт. ст.
Таким образом, хотя среднее снижение кровяного давления в данной работе было статистически значимым, ожидаемые различия в кровяном давлении в других исследованиях могут не всегда быть клинически важными, то есть данная работа является неубедительной. Если работа предоставляет доверительный интервал, в котором все значения являются клинически важными, прием препарата, по-видимому, является клинически эффективным. Если ни одно из значений в данном интервале не является клинически важным, то лечение, вероятно, неэффективно. Если только одно из значений клинически важно, то в исследование, возможно, привлечено недостаточное количество пациентов.
Ошибка № 7: Отсутствует подтверждение, что данные позволяют использовать те или иные статистические тесты, чтобы анализировать их
Существуют сотни статистических тестов, и различные из них могут быть применены к определенному виду анализа. Однако тесты могут не дать точных результатов, если не выполняются условия для их использования [19]. По этой причине наименование теста и утверждение, что его требования были выполнены, должны быть включены в отчеты статистического анализа. Например: «Данные были нормально распределены и таким образом не нарушали требования теста Стьюдента».
Наиболее общими проблемами являются:
♦ Использование параметрических тестов, когда данные не имеют нормального распределения (асимметричны). В частности, когда сравниваются две группы, часто используется тест
F4I
www.idmz.ru hil
2005, №5
Стьюдента, в то время как критерий суммы рангов Вилкоксона (или другой непараметрический тест) является более подходящим.
♦ Использование тестов для независимых образцов на спаренных образцах, которые требуют тестов для спаренных данных. И опять часто используется обычный тест Стьюдента, в то время как необходим спаренный тест Стьюдента.
Ошибка № 8: Использование линейного регрессионного анализа без доказательства,что взаимосвязь реально линейная
Как говорилось в предыдущем пункте, каждая научная статья, которая содержит статистический анализ, должна иметь предложение, подтверждающее, что выполняются необходимые требования [12]. Это подтверждение особенно важно в линейном регрессионном анализе, который предполагает, что взаимосвязь между ответом и объясняющей переменной является линейной. Если данное условие не выполняется, результаты анализа могут быть неверными.
Предположение линейности может быть проверено графически с помощью «остатков»: различием между каждым результатом и регрессионной линией (рис. 3). Если это планарный график и он стремится к нулю, то это линейная взаимосвязь. Если график демонстрирует какое-либо другое поведение (рис. 4а-^, то взаимосвязь нелинейная. Тестирование линейности очень важно, поскольку простое наблюдение за данными графика может быть ошибочным (рис. 5).
Ошибка № 9: Отсутствие учета всех данных и всех пациентов
Пропуск данных является частой, но очень раздражающей проблемой, свидетельствующей, что автор невнимателен, ленив или сочетает оба недостатка [20]. Недостающие данные поднимают следующие вопросы и проблемы:
♦ Какова природа недостающих данных? Были ли включены в анализ крайние значения? Были ли
Рис. 5. Появление линейности в наборе данных может быть ошибочным. В данном случае взаимосвязь, которая представляется линейной (А), очевидно, таковой не является, что отражено на графике различий (В)
утеряны данные вследствие несчастных случаев в лаборатории? Были ли данные проигнорированы, потому что они не поддерживают гипотезу?
♦ Обобщение представленных данных.
♦ Качество целой работы.
Одним из наиболее эффективных способов учесть всех пациентов в клиническом исследовании является схема информационных потоков или схематическое суммирование (рис. 6) [9, 12, 21]. Такое визуальное суммирование может учесть всех пациентов на каждой стадии исследования, эффективно обобщить методы работы и указать возможные знаменатели для пропорций, процентного соотношения и относительной доли. Подобный график рекомендуется Положением CONSORT для сообщения рандомизированных исследований [9].
Ошибка № 10: Отсутствует сообщение о том, как и были ли вообще выполнены условия для критериев множественной проверки гипотезы
Многие исследования сообщают различные значения вероятности, что увеличивает риск сделать ошибку №1: например, сообщая, что обработка является эффективной, когда случайность является наиболее вероятным объяснением результатов [22]. Например, сравнение каж-
>
W-ЩШШ kill
и информационные
технологии
Рис. 6. Схема рандомизированного клинического исследования с двумя схемами лечения
дой из 6 групп друг с другом требует 15 «двуточечных» статистических тестов - 15 значений вероятности. Без учета требований этих множественных критериев шанс делать ошибку первого типа возрастает с 5 раз из 100 (обычный уровень - а = 0,05) до 55 раз из 100 (а =0,55).
С проблемой множественного тестирования можно столкнуться, когда [12]:
♦ определяется эквивалентность групп при тестировании каждой из основных характеристик на предмет различий между группами (с надеждой не обнаружить таковые);
♦ при проведении множественных двуточечных сравнений, которые имеют место, когда три или более группы данных сравниваются дважды в отдельных анализах;
♦ проводят тестирование множественных конечных точек, на которые влияет тот же самый набор объясняющих переменных;
♦ проводят вторичный анализ взаимосвязей, наблюдаемых при исследовании, но не идентифицированных в исходной постановке эксперимента;
♦ проводят подгрупповой анализ, который не был запланирован в исходной работе;
♦ проводят промежуточный анализ накапливающихся данных (одна конечная точка, измеренная при различных временах);
♦ сравнивают группы при множественных временных точках с серией индивидуальных групповых сравнений.
Множественное тестирование является часто желательным, и об исследовательском анализе должно сообщаться как об исследовательском. «Перекапывание данных», однако, может означать слабость проведенной работы. В это понятие входят попытки провести неизвестный анализ вычисления многих значений Р с целью найти что-либо, что является статистических значимым.
ЛИТЕРАТУРА
1. Glantz S.A. Biostatistics: how to detect, correct and prevent errors in the medical literature// Circulation. - 1980. - V.61. - C.1-7.
2. Evans M. Presentation of manuscripts for publication in the British Journal of Surgery//Br.J.Surg. - 1989. - V.76. - C.1311-1314.
3. Mainland D. Chance and the blood count 1934//CMAJ. - 1993. - V.148. - C.225-227.
4. Schor S., Karten I. Statistical evaluation of medical journal manuscripts//JAMA. - 1966. -V.195. - C.1 123-1 128.
2005, №5
5 White S.J. Statistical errors in papers in the British Journal of Psychiatry//Brit. J. Psychiatry. -1979. - V.135. - C.336-342.
6. Hemminki E. Quality of reports of clinical trials submitted by the drug industry to the Finnish and Swedish control authorities//Eur. J. Clin. Pharmacol. - 1981. - V.19. - C.157-165.
7. Gore S.M., Jones G., Thompson S.G. The Lancet's statistical review process: areas for improvement by authors//Lancet. - 1992. - V.340. - C.100-102.
8. George S.L. Statistics in medical journals: a survey of current policies and proposals for editors//Med. Pediatric. Oncol. - 1985. - V.13. - C.109-112.
9. Altman D.G., Schuiz K.F., Moher D., Egger M., DavidoffF., Elbourne D. et al., for the CONSORT Group. The CONSORT statement: revised recommendations for improving the quality of parallel-group randomized trials//Ann. Intern. Med.. - 2001. - V.134. - C.657-662; Lancet. - 2001.
- V.357. - C.1191-1194; JAMA. - 2001. - V.285. - C.1987-1991.
10. Stroup D., Berlin J., Morton S., Olkin I., Williamson G.D., Rennie D., et al. Meta-analysis of observational studies in epidemiology/A proposal for reporting//JAMA. - 2000. - V.283. -C.2008-2012.
11. Moher D., Cook D.J., Eastwood S., Olkin I., Rennie D., Stroup D.F., for the Quorum group. Improving the quality of reports of meta-analyses of randomised controlled trials: the QUORUM statement//Lancet. - 1999. - V.354. - C.1896-1900.
12. Lang T., Secic M. How to report statistics in medicine: annotated guidelines for authors, editors, and reviewers. - Philadelphia (PA): American College of Physicians, 1997.
13. Ehrenberg A.S. The problem of numeracy//Am Statistician, 1981. - V.286. - C.67-71.
14. Murray G.D. The task of a statistical referee//Br.J.Surg. - 1988. - V.75. - C.664-667.
15. Feinstein A.R. X and iprP: an improved summary for scientific communication//J. Chronic. Dis.
- 1987. - V.40. - C.283-288.
16. Feinstein A.R. Clinical biostatistics XXXVII. Demeaned errors, confidence games, nonplussed minuses, inefficient coefficients, and other statistical disruptions of scientific communication// Clin. Pharm. Therapeutics. - 1976. - V.20. - C.617-631.
17. Gardner M.J, Altman D. Confidence intervals rather than P values: estimation rather than hypothesis testing//BMJ. - 1986. - V.292. - C.746-750.
18. Bailar J.C., Mosteller F. Guidelines for statistical reporting in articles for medical journals// Ann. Intern. Med. - 1988. - V.108. - C.266-273.
19. DerSimonian R., Charette L.J., McPeek B., Mosteller F. Reporting on methods in clinical trails//N. Engl. J. Med. - 1982. - V.306. - C.1332-1337.
20. Cooper G.S., Zangwill L. An analysis of the quality of research reports in the Journal of General Internal Medicine//J. Gen. Intern. Med. - 1989. - V.4. - C.232-236.
21. Hampton J.R. Presentation and analysis of the results of clinical trials in cardiovascular disease// BMJ. - 1981. - V.282. - C.1371-1373.
22. Pocock S.J., Hughes M.D., Lee R.J. Statistical problems in the reporting of clinical trials/ A survey of three medical journals//N. Engl. J. Med. - 1987. - V.317. - C.426-432. Исходная статья:
Tom Lang. Twenty Statistical Errors Even YOU Can Find in Biomedical Research Articles// Croat. Med. J. - 2004. - V.45. - C.361-370.
Продолжение в следующем номере
Г* m