УДК 519.235
А. Н. Антамошкин, О. А. Бакаева
СРАВНИТЕЛЬНЫЙ АНАЛИЗ «ПЕРВЫХ» КРИТЕРИЕВ ВЫЯВЛЕНИЯ СВЯЗИ МЕЖДУ КАЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ
Проведен сравнительный анализ использования «первых» критериев оценки связи между категориальными переменными. Показана согласованность этих критериев на примере выявления связи между типом авиарейса и числом крушений.
Ключевые слова: коэффициент ассоциации, коэффициент коллигации Юла, коэффициент контингенции, быстрый критерий, оценки связи.
Признак - это свойство, характерная черта явления, подлежащая статистическому изучению. Признаки в зависимости от своей природы классифицируются на количественные и качественные (атрибутивные). Признаки, отдельные значения которых различаются по величине, называются количественными (например, возраст, рост, вес). Качественные признаки выражают существенное неотъемлемое свойство предмета. Противоположные качественные признаки называются альтернативными (например, мужчина -женщина, ребенок - взрослый). Любой качественный признак можно свести к альтернативному (например, студент, обучающийся на «отлично», - студент, не обучающийся на «отлично», полет прошел в штатном режиме - возникла аварийная ситуация).
Как известно, основная задача статистики состоит в выявлении связи между признаками независимо от того, какую природу они имеют. Если связь имеется и она значимая, то вопрос о существовании связи влечет за собой вопрос о силе данной связи. Методов измерения тесноты взаимосвязи довольно много, но все они условно делятся на параметрические и непараметрические.
Непараметрические методы были первыми из методов измерения тесноты взаимосвязи количественных признаков. Эти методы применяются для измерения тесноты связи качественных и альтернативных признаков, а также количественных признаков, распределение которых отличается от нормального распределения. Непараметрические методы учитывают направление изменения значений признаков, но не зависят от того, насколько интенсивно колеблются значения результативного признака при изменении факторного признака, что позволяют сделать параметрические методы.
Для измерения связи альтернативных признаков применяются коэффициент ассоциации и коэффициент контингенции. Для расчета этих и других показателей применяется следующая матрица взаимного распределения частот (табл. 1).
Таблица 1
Таблица сопряженности 2 х 2
Категории Вх В2 Всего
А1 Ул /и /10
А2 /и /22 /20
Всего /01 /02 /00
В табл. 1 приняты следующие обозначения:
/11 - число элементов выборки, обладающих признаками А и В одновременно; /12 - число элементов выборки, обладающих признаком А, но не обладающих признаком В; /21 - число элементов выборки, обладающих признаком В, но не обладающих признаком А; /22 - число элементов выборки, не обладающих ни одним из признаков.
Таким образом, / можно определить как наблюдаемую частоту респондентов или каких-то определенных признаков, попавших в ячейку (А,-, В,). Символ /о обозначает частную сумму всех значений признака, попавших в категорию А,, аналогично символ/0, обозначает сумму значений сопряженного ему признака, относящихся к категории В,, а символ/00 - общий итог всех рассмотренных случаев. Представим все сказанное выше на языке формул [1]:
/0 = ^ /ц , /0Ц = ^ /г], /00 = ^ Ло /0Ц = ^ ^ /ц .
3 , , 3 , 3
Суммарные частоты по строке или по столбцу называются маргинальными частотами. Их значения важны, так как они позволяют оценить распределение частот в отдельных столбцах и строках таблицы. Сумма маргинальных частот равна объему выборки /00 = п, а их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
Критериев выявления связи между качественными признаками существует достаточно много. Среди них можно выделить критерий Фишера, который позволяет сделать максимально точный вывод о наличии или отсутствии связи, но расчет которого затруднен, классический критерий х2 и О-критерий Вульфа, точность которых можно увеличить, используя поправку Йетса. Однако суть этих критериев состоит в том, что все они не выявляют связь между переменными, а только проверяют заранее выдвинутую гипотезу о наличии связи. Поэтому сначала следует воспользоваться одним из так называемых «первых» критериев, которые позволяют предварительно оценить возможность существования связи между переменными и выдвинуть правдивую нулевую гипотезу. К таким критериям относятся коэффициент ассоциации, коэффициент коллигации Юла, коэффициент контингенции и быстрый критерий оценки связи.
Коэффициент ассоциации. Метод измерения связи с помощью четырехклеточной таблицы был предложен английскими статистиками Э. Дж. Юлом и М. Дж. Кендаллом. Числитель этого коэффициента, называемого коэффициентом ассоциации, представляет собой определитель исследуемой четырехклеточной таблицы сопряженности, а знаменатель - сумму тех же произведений, разность которых стоит в числителе:
/11/22 - /12 /21
Q = -
(1)
О(Я) = -4(1 - Q2)
(
_1_ _1_ _1
/її /12 /21 /22 1
(2)
Q =
2К
Ю
1 + К
Ю
Статистика коэффициента коллигации имеет вид
л1/11/22 - V/12 /21
КЮ = '
4/11/22 + V /12 /21
а дисперсия вычисляется по формуле
°(КЮ) = т6(! - Кю2) 16
Л
V /11 ^12 ./21 ./2 2 У
/11/22 + /12 /21
Если признаки А и В независимы, то Q = 0. В случае полной связи между признаками Q = ±1.
Самым существенным недостатком использования коэффициента ассоциации является его непригодность в случае, если одна из частот равна 0. При этом коэффициент ассоциации всегда равен ±1, а это можно ложно трактовать как полную зависимость между признаками. Поэтому если хотя бы одна из частот в таблице сопряженности равна 0, то критерий ассоциации применять нельзя и вместо него используется коэффициент контингенции.
Коэффициент ассоциации в плане расчета является относительно простым показателем сопряженности величин. Он применяется к вариации двух качественных признаков, распределенных по двум группам. Его значения принадлежат промежутку от -1 до +1. Интерпретируется он следующим образом: чем ближе коэффициент по абсолютной величине к 1, тем теснее связь (прямая или обратная). Считается, что если значение коэффициента ассоциации достигает 0,3, то это свидетельствует о возможной существенной связи между признаками. Однако можно сказать, что этот показатель очень либерально оценивает тесноту связи, завышая ее.
Если предположить, что суммарная частота /00 достаточно велика, то величина Q имеет нормальное распределение с дисперсией [2]:
Коэффициент контингенции (сходства). Этот коэффициент используется для выявления связи между признаками, не имеющими количественного выражения (альтернативная вариация, или изменчивость качественных признаков), и применяется только в том случае, когда исследуемые признаки имеют лишь две градации.
В математической формуле, описывающей статистику коэффициента контингенции, его числитель аналогичен коэффициенту ассоциации, т. е. представляет собой разность произведения частот на главной и побочной диагоналях, а знаменатель является квадратным корнем из произведения всех четырех маргинальных частот. В буквенных обозначениях табл. 1 имеем:
V =
/11/22 /12 /21
благодаря чему можно найти приближенные доверительные границы для Q. Сравнение Q с полученным значением дисперсии (с учетом масштаба л/5(0) позволяет получить хотя бы первое приближение по оценке связи. Но так как в формуле (2) присутствуют дроби, то, исходя из области определения, дисперсию в виде конечного числа можно вычислить только в том случае, если все значения в ячейках таблицы сопряженности отличны от нуля.
Коэффициент коллигации Юла. Этот способ выявления связи между переменными мало известен и практически не используется.
Существует выражение, позволяющее найти его приближенное значение, зная значение коэффициента ассоциации Q:
Связь считается подтвержденной, если коэффициенты | Q | > 0,5 и | V | > 0,3, в противном случае признаки А и В альтернативны. Это означает, что данный объект либо обладает признаком, либо не обладает (знак «минус» показывает наличие обратной связи при условии ее подтверждения). В случае | Q | > 0,5 и | V | < 0,3 (| Q | < 0,5 и | V | > 0,3) точного ответа о наличии или отсутствии связи нет.
Свойства коэффициента контингенции те же, что и у коэффициента корреляции. Коэффициент контин-генции обращается в 0, если оба произведения в числителе точно уравновешиваются (что крайне маловероятно). Коэффициент контингенции равен +1 лишь в том случае, когда /12 и /21 одновременно равны 0 и -1 или когда /11 и /22 одновременно равны 0. В отличие от него коэффициент ассоциации равен 1 уже в случае, если одно из чисел в клетках таблицы оказалось равным 0, как это уже отмечалось ранее. Величина коэффициента контингенции всегда меньше величины ко-
э ффициента ассоциации.
На практике для проверки гипотезы о существовании взаимосвязи между изучаемыми признаками используется величина х2 = nV 2, имеющая при отсутствии связи распределение х2 с С = 1 степенью свободы.
С учетом поправки на непрерывность статистика критерия контингенции имеет вид
х2 =-
/00 ^1/11/22 /21/1'\ 2 )
где КЮ - коэффициент коллигации Юла.
(./л + /\2 )(./п + /21 ')(/2 + /22 )(/21 + /22 ) где /00 - общее число данных в таблице, /00 = /11 + /12 +
+ /21 + /22.
Если х2 > Ха2, то зависимость признаков А и В с достоверностью а признается значимой.
Критерий х2 = п¥ 2 применяется при /00 > 40 и /и, /\2, /2\,}.22 > 5 [3].
Быстрый критерий оценки связи. Предыдущие коэффициенты позволяют грубо оценить меру связи между качественными переменными и дают возможность получить хотя бы предварительное представление о наличии связи и ее величине, а это в свою очередь позволяет корректно сформулировать нулевую гипотезу о зависимости или независимости переменных и далее проверить ее с помощью более точных критериев. Но кроме грубых оценок связи, позволяющих предварительно оценить ее меру, существуют математически более тонкие и быстрые, хотя также носящие скорее вспомогательный характер, способы оценки связи. К таким оценкам относится быстрый критерий.
В зависимости от некоторых особенностей расположения и значений частот в таблице сопряженности применяются разные статистики.
При /„ + /12 + /21 + /22 > 25 и при условии /и + /12 = = /21 + /22 или /11 + /21 = /12 + /22 быстрым критерием оценки связи является величина
2 _ (/11 + /22 ) - (./12 + /21) (3)
4/11 + /12 + /21 + /22
Связь признаков в таблице сопряженности частот с достоверностью а признается значимой, если г > иа, где иа - а-квантиль стандартного нормального распределения.
Если /11 + /12 > 10 при условии /и + /12 << /21 + /22 или /11 + /21 << /12 + /22, то справедлив критерий
/ _ / + (/11 + /21 _ /12 _ /22)(/11 + /12)
2 _ /11 + /12 + /21 + /22 . (4) л//11 + /12
Если 111 > иа, то связь признаков признается значимой [3].
По внешнему виду таблицы сопряженности частот можно увидеть следующую закономерность. Если связь между признаками является прямой, то частоты значений признаков сконцентрированы на главной диагонали, т. е. в ячейках/11 и/22. При наличии обратной связи значения сосредоточены на побочной диагонали, т. е. в ячейках /12 и /21. При отсутствии связи частоты практически равномерно распределены по всему полю таблицы.
Рассмотренные выше «первые» критерии выявления взаимосвязи имеют ряд преимуществ, к которым относятся простота, легкость в расчетах, получение быстрого ответа на вопрос, существует ли какая-то зависимость между исследуемыми переменными. Но эти преимущества влекут за собой и недостатки их использования, среди которых самыми явными являются неудовлетворительная точность полученных выводов, в основном - завышение оценки силы связи, и отсутствие точного и прямого ответа на вопрос, зависимы ли переменные, потому что «первые» крите-
рии не утверждают, а лишь предполагают отсутствие или наличие связи.
Пример. В последнее десятилетие в связи со все большей востребованностью и доступностью гражданского авиатранспорта появляется много чартерных рейсов. При этом существует точка зрения, что число авиакрушений чартерных рейсов больше, чем обычных - см. данные таблицы 2 [4]. Проверим с помощью всех вышеперечисленных способов выявления связи, действительно ли существует зависимость между типом рейса и количеством аварий.
Таблица 2
Таблица авиакрушений с жертвами за 1959-2007 гг. [4]
Тип рейса Количество авиакрушений с жертвами Всего
1959-1997 гг. 1998-2007 гг.
Обычный 341 74 415
Чартерный 39 4 43
Всего 380 78 458
Расчет коэффициента ассоциации. Так как в таблице сопряженности все ячейки с частотами отличны от нуля, то по формуле (1) можно вычислить значение коэффициента ассоциации:
0 _ 34Ь4_39•74 _-0,358.
341-4 + 39•74
В данном случае знак «минус» говорит о том, что связь обратная, т. е. с течением времени количество авиакрушений уменьшается. Модуль значения коэффициента равен 0,358, т. е. больше 0,3, что говорит о возможной существенной связи между признаками «тип рейса» и «количество аварий».
Исходя из полученного значения коэффициента ассоциации определим дисперсию:
Б(0) _1 ( 1 _(-0,358)2) — + — + — +11_ 0,064,
4' ^ 341 74 39 4)
4щО) _у10,064 _0,253.
Анализируя полученные данные, можно сделать промежуточный вывод о том, что связь между типом рейса и числом аварий скорее не существует, так как коэффициент 0 = -0,358 недостаточно велик по сравнению со своими среднеквадратическим отклонением, т. е. не превышает его более чем в три раза.
Зная дисперсию, рассчитаем приближенный доверительный интервал для истинного значения связи, измеряемой с помощью коэффициента ассоциации 0: 0 ± 1,96,/Б(0). В результате получим:
- 0,358 ± 1,96-у/0,064 или (-0,854; 0,138).
Нетрудно заметить, что этот интервал накрывает значение 0, соответствующее независимости признаков. Следовательно, имеющиеся данные не дают оснований для отбрасывания возможности независимости. Таким образом, коэффициент ассоциации гово-
рит о возможной существенной связи между признаками, не исключая возможности их независимости.
Расчет коэффициента коллигации Юла. Коэффициент коллигации в данном случае составит
кю =
>/341-4 -у1 39 • 74
= - 0,185,
л/341 • 4 W39 • 74 а дисперсия будет
D(K-fn) = — (l-(-0,185)2) I —+—+—+11 = 0,018, v Ю 16 V V ’ 'Л 341 74 39 4 1
yjD( кю) = 0,133.
По рассчитанным показателям можно сделать предварительный вывод о том, что между переменными «тип рейса» и «безопасность полета» связи не существует. Мы имеем право это утверждать, поскольку значение коэффициента коллигации невелико и больше своего среднеквадратического отклонения только в 1,39 раза.
Расчет коэффициента контингенции. По данным табл. 2 рассчитаем коэффициент контингенции:
V=
341 • 4 - 39 • 74
^(341 + 74) (341 + 39—4 + 74) (4 + 39) -1522
-у/528 925 800
= -0,066.
Абсолютное значение коэффициента коллигации
IV = 0,066 можно трактовать как отсутствие связи между переменными. Значение коэффициента ассоциации |0| = 0,358 < 0,5 свидетельствует лишь о возможной существенной связи. Также подтверждается то, что величина коэффициента контингенции всегда меньше величины коэффициента ассоциации:
0,066 < 0,358. Вывод об отсутствии связи очевиден. Но не стоит забывать о том, что коэффициент ассоциации и коэффициент контингенции являются предварительными критериями и делать по ним достоверные выводы нельзя. К тому же, как упоминалось выше, коэффициент ассоциации очень либерально оце-
нивает тесноту связи, завышая ее. Поправку на непрерывность при данном расчете также использовать нельзя, потому что, несмотря на то что объем выборки больше 40 (/00 = 458), частота в одной ячейке меньше 5. Поэтому необходимо воспользоваться одним из более точных критериев.
Быстрый критерий оценки связи. Первое условие, состоящее в том, что сумма всех частот должна быть не меньше 25, для данной задачи выполняется, а второе условие, что суммы частот по строкам или столбцам должны совпадать, не соблюдается. Поэтому формулу (3) применять нельзя.
Сумма частот первой строки /11 + /12 = 415 > 10, но она намного больше суммы частот второй строки: 415 >> 43, и сумма частот первого столбца также намного больше суммы частот второго столбца: 380 >> 78. Следовательно, формула (4) неприменима.
Таким образом, значение коэффициента ассоциации говорит лишь о возможной связи между переменными, коэффициенты коллигации и контингенции свидетельствуют об отсутствии связи, т. е. видна согласованность «первых» критериев.
Итак, практически все критерии показали независимость возникновения аварийных ситуаций и крушений самолетов от типа рейса при общей тенденции к снижению аварийности. Следовательно, при полете на чартерных и обычных рейсах риск потерпеть крушение одинаков и с течением времени он уменьшается.
Библиографические ссылки
1. Аптон Г. Анализ таблиц сопряженности. М. : Финансы и статистика, 1982.
2. Кендалл М. Дж., Стьюарт А. Статистические выводы и связи. М. : Наука, 1973.
3. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. М. : Физматлит, 2006.
4. Статистика авиакатастроф, причины авиакатастроф [Электронный ресурс]. иКЬ: http://www.letaem-bez-straha.ru/otzyvy.html (дата обращения: 21.10.2011).
A. N. Antamoshkin, O. A. Bakaeva
COMPARATIVE ANALYSIS OF «THE FIRST» CRITERIA OF DIAGNOSIS OF RELATION AMONG QUALITATIVE VARIABLES
A comparative analysis of the use of the «first» criteria of estimation of relation among categorical variables is presented in the article. Compatibility of the criteria presented, on the example of revealing of relation of the type of a flight and the number of wreckages, is given.
Keywords: coefficient of association, coefficient of colligacy of Yule, coefficient of contingency, rapid criterion.
© Антамошкин А. Н., Бакаева О. А., 2011