Сер. 10. 2010. Вып. 1
ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА
УДК 51-76
В. М. Буре, О. А. Гливинская, А. В. Сотников
ЛОГЛИНЕЙНЫЙ АНАЛИЗ БАЗЫ ДАННЫХ ПО ИНФАРКТУ МИОКАРДА У БОЛЬНЫХ МОЛОДОГО И СРЕДНЕГО ВОЗРАСТА
Целью данного исследования является изучение зависимости между факторами риска развития инфаркта миокарда (ИМ), его осложнениями и локализацией очага поражения. Было обследовано 322 человека с первичным и повторным ИМ в возрасте до 60 лет (средний - 50, 3 ± 0, 4 года). Среди них оказалось больше пациентов с передним им (152 человека, 47,2%), реже встречались нижние (119 - 37,0%) и прочие (боковые (34 - 10,6%), циркулярные (15 - 4,7%), другие (2 - 0,6%)) локализации поражения. Все больные находились на лечении с 2000 по 2006 г. в различных стационарах. Во всех случаях анализировали особенности клинической картины заболевания, а также множество вероятных факторов риска, которые могли бы быть предрасполагающими к развитию ИМ или провоцирующими его возникновение.
Характер изучаемых данных таков, что адекватный анализ имеющихся наблюдений может быть произведен на основе таблиц сопряженности [1, 2] с применением логарифмически-линейных моделей [1-5].
Совместное распределение двух переменных изображается в виде таблицы сопряженности, строки которой соответствуют значениям одной переменной, столбцы - другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков хг и у^. Сумма частот по строке /го называется маргинальной частотой строки, сумма частот по столбцу foj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки п = /оо.
Пусть признак X имеет г категорий, а признак У - в категорий; хг - г-я категория признака X и yj - }-я категория признака У. Тогда таблицу сопряженности размером гхв можно представить в виде табл. 1.
Буре Владимир Мансурович — доцент кафедры математической теории игр и статистических решений факультета прикладной математики-процессов управления Санкт-Петербургского государственного университета. Количество опубликованных работ: более 100. Научные направления: анализ данных, вероятностно-статистическое моделирование. E-mail: [email protected].
Гливинская Ольга Александровна — студентка кафедры математической теории игр и статистических решений факультета прикладной математики-процессов управления Санкт-Петербургского государственного университета. Научный руководитель: доц. В. М. Буре. Научное направление: анализ данных. E-mail: [email protected].
Сотников Алексей Владимирович — преподаватель кафедры госпитальной терапии Военномедицинской академии имени С. М. Кирова. Количество опубликованных работ: 54. Научное направление: особенности диагностики и лечения инфаркта миокарда у людей различного возраста. E-mail: [email protected].
© В. М. Буре, О. А. Гливинская, А. В. Сотников, 2010
Х\У 1 2 3 5 /гО
1 /11 /12 /17 Ьв /ю
2 /21 /22 /27 На По
г 1п /г2 fij Не /гО
г /г-1 /г2 frj /гй /г-0
/(У /01 /о2 /о.,’ /Ой /оо
Проверим нулевую гипотезу независимости
/оо
тт г г -| ■-! ~|
но ■ Ш = —?-------; * = 1, 2 = 1,...,в}
против альтернативной гипотезы
и I./'11;/'
/00
Для проверки гипотезы независимости признаков используем критерий х2 • Вычислим статистики
-^-2 _ (/и е^')2
3
имеющие закон распределения х2 с числом степеней свободы V =(г — 1)(в — 1). Теоретические (ожидаемые) частоты ец определяем по формуле
1го/оЦ
е-- - ■ 3
с-?,-? —
/00
При расчете У2 следует принять во внимание, что таблица сопряженности не должна иметь нулевые клетки. В таких случаях в пустые клетки добавляют числа из интервала (0; 1), чаще всего 0.5.
После выбора уровня значимости необходимо найти по таблице х-квадрат распределения верхнюю квантиль порядка а с числом степеней свободы V - х2 и сравнить вычисленную величину X2 или У2 с х2(а, V).
Если X2 > х2(а, V) или У2 > Хл(а^), то с заданным уровнем значимости гипотеза Но отвергается. Если X2 < х2(а^) или У2 < Хл(а^), то нулевая гипотеза принимается.
Для оценки влияния различных факторов риска на локализацию ИМ было составлено 86 таблиц сопряженности размерностью г х 3, одним из признаков которых является локализация ИМ с тремя категориями, г - число категорий изучаемого параметра. После проверки гипотезы независимости с помощью критерия х2 выделено 14 таблиц, где присутствует статистическая зависимость признаков. Все расчеты были осуществлены с помощью двух программ, написанных на языке программирования Delphi7.
Программы обладают удобным интерфейсом и позволяют проводить анализ таблиц сопряженности с двумя входами и произвольным числом градаций.
Разъясним вышесказанное на примере табл. 2 и 3.
Таблица 2. Распределение больных (человек) по возрасту и локализации ИМ
Возраст, лет Локализация ИМ
Передний Нижний Прочие
До 45 31 29 12
46-60 121 90 39
По данным табл. 2 получим, что X2 = 0.655201 и У2 = 0.656516. Число степеней свободы V = (2 — 1)(3 — 1) = 2, значит, х2(0.05;2) = 5.9915. Так как X2 < У2 < х2, то с уровнем значимости 5% принимается нулевая гипотеза, т. е. локализация ИМ не зависит от возраста.
Таблица 3. Распределение больных (человек) по длительности амбулаторного лечения и локализации ИМ
Длительность амбулаторного лечения Локализация ИМ
Передний Нижний Прочие
Не лечится 40 30 4
Эпизодически 63 48 20
Регулярное (меньше 1 года) 22 14 13
1—5 лет 12 8 9
6-10 лет 7 11 0
Больше 10 лет 8 8 5
По данным табл. 3 получим, что X2 = 22.95568 и У2 = 25.57988. Число степеней свободы V = (6 — 1)(3 — 1) = 10; х2(0,05; 10) = 18.3070. Так как У2 > X2 > х2, то с уровнем значимости 5% нулевая гипотеза отвергается и принимается альтернативная гипотеза, т. е. признаки (длительность амбулаторного лечения и локализация ИМ) статистически зависимые.
Таблицы, признаки в которых являются зависимыми, исследованы с помощью
логлинейного анализа, который позволяет в сжатой форме с помощью относительно
небольшого числа параметров записать информацию, содержащуюся в таблице сопряженности. Кроме того, логлинейная модель поддается содержательной интерпретации получаемых результатов. Основная идея логлинейного анализа заключается в том, что в каждой клетке таблицы сопряженности записывается разложение натурального логарифма частоты на сумму эффектов всех взаимосвязей исследуемых признаков.
Пусть дана двухвходовая таблица сопряженности г х в. Представим теоретические частоты в ячейках таблицы сопряженности в виде
И0+Иа+ИЬ + ИаЬ
ец = е г 3 ,
или, в другой форме, 1пец = ио + и? + иЬ + и“ь, г = 1,...,г, 3 = 1,...,в.
Параметры модели имеют надстрочные индексы, показывающие, к какому признаку они относятся, и подстрочные, говорящие о том, к какой категории они относятся. Оцениваемые параметры: ио - общий эффект, и? - эффект г-й категории признака А, иЬ - эффект ]-й категории признака В, иЦ - эффект взаимодействия двух признаков, г = 1,...,г, з = 1,...,в.
Эти параметры иногда также называют вкладами, вносимыми различными эффектами в теоретическую частоту. Они должны удовлетворять ограничениям
Е < = Е < = Е и? = Е и = °.
4 3 4 3
Пусть 1/у = 111 ' :;. !/<. = = Е4 ^ ■ = Е4 Ед •
Тогда ио = V.., и? = V*. — V.., и^ = — V.., и“ь = ^ — V*. — + V...
Подобные модели называются логлинейными (логарифмически-линейными) моделями таблиц сопряженности.
Гипотеза независимости признаков заключается в том, что эффект взаимодействия
признаков равен нулю: Но : {и°Ц- =0, г = 1,...,г, 3 = 1,...,в}. Для проверки гипотезы
независимости признаков используем критерий х2.
Число степеней свободы при проверке гипотезы определяется следующим образом: ! = г х в — к = г х в — I + т, где г х в - число клеток в таблице, к - число независимых параметров, I - общее число параметров, т - число ограничений, накладываемых на параметры.
Виды моделей.
• Насыщенная модель.
Если модель содержит столько же параметров, сколько и ячеек в таблице сопряженности, то ее называют насыщенной.
Эта модель имеет вид 1п ец = ио + и? + иЬ + иаЬ, г = 1,...,г,3 = 1,...,в.
Для нее число степеней свободы равно нулю для таблиц сопряженности любых размеров, вследствие чего теоретические частоты не отличаются от наблюдаемых, /ц = е4ц. Таблица теоретических частот имеет такой же вид. Тогда X2 = 0 или У2 = 0.
Число независимых параметров в данной модели
к = 1 + (г — 1) + (в — 1) + (г — 1)(в — 1) = г х в.
Модель, у которой один из параметров равен нулю, называется ненасыщенной. Для проверки гипотезы об адекватности любой ненасыщенной модели применяется критерий х2 с вычислением статистики У2. Рассмотрим виды ненасыщенных моделей.
• Модель независимости.
Если в насыщенной модели параметр иц = 0, то полученная ненасыщенная модель называется моделью независимости или независимой. Если признаки А и В независимы, то теоретические частоты находятся по формуле ец = .
Независимая модель имеет вид 1пе4ц = ио + и? + и^, г = 1,...,г, 3 = 1,...,в.
В данной модели число независимых параметров
к = 1 + (г — 1) + (в — 1) = г + в — 1.
Если У2 <
X2, то модель считается адекватной и возможно ее дальнейшее упрощение.
• Модель с отсутствием влияния одного фактора.
о Модель с отсутствием влияния фактора В имеет вид 1пец = ио + и?, г = 1,...,г, 3 = 1,...,в.
Параметры иЬ = 0 и иц = 0.
Число независимых параметров в данной модели к = 1 + (г — 1) = г.
Теоретические частоты в каждой ячейке таблицы ец =
о Модель с отсутствием влияния фактора А имеет вид 1п вц = ио + иЬ, і = Параметры и? = 0 и и?!■ = 0.
Число независимых параметров в данной модели к = 1 + (в — 1) = в.
Теоретические частоты в каждой ячейке таблицы ец =
• Равновероятная модель.
Для этой модели отсутствует влияние факторов А и В, поэтому вероятности для объекта наблюдения попасть в любую из ячеек одинаковые.
Равновероятная модель имеет вид 1п вц = ио, і = 1,...,г, і = 1,...,в.
Число независимых параметров к = 1.
Теоретические частоты в каждой ячейке равны ец = ^.
На практике анализ логлинейных моделей можно проводить, начиная с насыщенной модели, постепенно ее упрощая. Все виды логлинейных моделей представлены в табл. 4.
Таблица 4■ Логарифмически-линейные модели
Название модели Вид модели Число степеней свободы (І
Насыщенная Независимая Нет эффекта В Нет эффекта А Равновероятная 1п ец = гад + «“ + «<; + иаЬ 1п ец = «о + 1п є*, = гад + «“ 1пец = «о + 1п є*, = «о 0 (г - 1)(>- 1) г(з — 1) (г — 1)8 Г X 8 — 1
С помощью программы, реализующей методику логлинейного анализа с двумя признаками для таблиц г х в, были подсчитаны теоретические частоты и параметры логлинейных моделей для каждой из 14 таблиц сопряженности. Однако во всех случаях модель независимости является неадекватной (так как У2 > х2), и дальнейшее ее упрощение не имеет смысла. Адекватна насыщенная модель.
Покажем интерпретацию полученных результатов на примере нескольких таблиц сопряженности (табл. 5 и 6).
Таблица 5■ Распределение больных (человек) по наличию аневризмы и локализации ИМ
Аневризма Локализация ИМ
Передний Нижний Прочие
Нет 120 109 37
Есть 31 10 14
Обозначим: признак А - аневризма (категория а1 - нет, категория а2 - есть), признак В - локализация ИМ (Ы - передний, Ь2 - нижний, 63 - прочие). Исходная таблица запишется в виде табл. 6.
Таблица 6■ Распределение частот по признакам А и В
А\В 61 62 63
а1 120 109 37
«2 31 10 14
Частоты в ячейках не равны. Наша задача заключается в том, чтобы выяснить причины их различия. Есть следующие более или менее очевидные причины:
1) категория а1 встречается чаще, чем категория а2;
2) категория Ь1 встречается чаще, чем категории Ь2 и 63;
3) некоторые сочетания категорий признаков встречаются чаще, чем можно было бы ожидать, если бы переменные А и В были независимы.
Логлинейная модель позволяет количественно сравнивать относительную важность этих эффектов и выявлять случаи, когда эффекты следует признать реальными. Параметры насыщенной модели представим в табл. 7.
Таблица 7. Параметры насыщенной модели
3 ио аЬ 1.7 аЬ и'2і
1 3.578 0.786 0.533 —0.109 0.109
2 -0.786 -0.080 0.409 -0.409
3 -0.453 -0.300 0.300
Видно, что наиболее существенное влияние на частоты ячеек оказывает эффект признака А (п“ = 0.786 - эффект первой категории признака А), показывающий, что больных без аневризмы сердца гораздо больше. Затем следует первый эффект признака В (п\ = 0.533), который говорит о том, что передний ИМ встречается намного чаще, чем другие. Параметр п| = —0.453 (эффект третьей категории признака В) показывает, что «прочие» ИМ встречаются крайне редко, по сравнению с передним и нижним.
Результаты логлинейного анализа свидетельствуют о том, что аневризмы левого желудочка более характерны для «прочих» локализаций ИМ (п^з = 0.3) и не типичны для нижних (па! = —0.409).
Аналогично рассмотрим таблицу сопряженности большей размерности (табл. 8).
Таблица 8. Распределение больных (человек) по количеству ИМ в анамнезе и локализации ИМ
ИМ в анамнезе Локализация ИМ
Передний Нижний Прочие
Нет 101 78 22
1 ИМ 40 33 16
2 ИМ 10 7 11
3 и более 1 1 2
Примем, что признак А - ИМ в анамнезе (категория а1 - нет, категория а2 - 1 ИМ, а3 - 2 ИМ, а4 - 3 и более), признак В - локализация ИМ (61 - передний, 62 - нижний, 63 - прочие). Исходная таблица запишется в виде табл. 9.
Таблица 9. Распределение частот по признакам А и В
А\В 61 62 63
а,1 101 78 22
«2 40 33 16
а,3 10 7 11
0,4 1 1 2
Запишем полученные параметры насыщенной модели в табл. 10.
Таблица 10. Параметры насыщенной модели
3 ио аЬ 1.7 аЬ и'2і аЬ 31 аЬ 4.7
1 2.447 1.574 0.205 0.389 0.165 —0.117 —0.436
2 0.873 0.003 0.333 0.174 —0.273 —0.234
3 -0.231 -0.208 -0.722 -0.339 0.390 0.670
4 -2.216
Наиболее существенное влияние на частоты ячеек оказывают четвертый и первый эффекты признака A (u% = —2.216 и и\ = 1.574), т. е. категория а4 (ИМ в анамнезе 3 и более раз) по сравнению с другими категориями встречается крайне редко, а категория a1 (нет ИМ в анамнезе) - часто.
Достаточно сильные эффекты взаимодействия и^З = —0.722, U43 = 0.670, U33 = 0.39 показывают существование связи между признаками A и B. Параметры uas3 = 0.670 и и^З = 0.390 являются мерой того, насколько сочетания категорий (a4, 63) и (a3, 63) встречаются чаще, чем можно было бы ожидать, если бы переменные A и B были независимы. А и“3 = —0.722 и ua/h = —0.436 - мерой того, насколько сочетания категорий (a1, 63) и (a4, 61) встречаются реже, чем можно было бы ожидать при независимости признаков A и B.
Это свидетельствует о том, что при последовательных ИМ наблюдается следующая очередность поражения коронарных артерий (КА): от проксимальных отделов - к дистальным ветвям, от одной КА - к смешанным окклюзиям, что, как показано выше, встречается довольно редко. Кроме того, большая частота нижних ИМ при третьем эпизоде заболевания, вероятнее всего, отражает распространение вариантов строения бассейнов КА, при которых кровоснабжение нижней стенки в большинстве случаев осуществляется задней КА, реже наиболее нагруженной, передней и еще реже - равных степеней анастомозами бассейнов обеих КА.
Исследовав таким образом остальные 12 таблиц с помощью написанных программ, удалось обнаружить достоверную зависимость между изучаемыми параметрами и локализацией ИМ.
Литература
1. Аптон Г. Анализ таблиц сопряженности / пер. с англ. и предисл. Ю. П. Адлера. М.: Финансы и статистика, 1982. 145 с.
2. Трошин Л. И., Балаш В. А., Балаш О. С. Статистический анализ нечисловой информации. М.: Моск. гос. ун-т экономики, статистики и информатики, 2001. 67 с.
3. Valet F., Guinot Ch., Mary J. Y. Log-linear non-uniform association models for agreement between two ratings on an ordinal scale // Statistics in Medicine. 2007. Vol. 26. P. 647—662
4. Moody M. P., Stephenson L. T., Liddicoat P. V., Ringer S. P. Contingency Table Techniques for Three Dimensional Atom Probe Tomography // Microscopy research and technique. 2007. Vol. 70. P. 258—268
5. Lang J. B. Score and profile likelihood confidence intervals for contingency table parameters // Statistics in Medicine. 2008. Vol. 27. P. 5975—5990.
Статья рекомендована к печати проф. Л. А. Петросяном.
Статья принята к печати 24 сентября 2009 г.