Известия Кабардино-Балкарского научного центра РАН № 5 (49) 2012
НАУКИ О ЗЕМЛЕ
УДК 537.29
МЕТОД КЛАСТЕРНОГО АНАЛИЗА ДЛЯ РАНЖИРОВАНИЯ МЕТЕОТРОПНЫХ РЕАКЦИЙ ЛЮДЕЙ С СЕРДЕЧНО-СОСУДИСТЫМИ И ГИПЕРТОНИЧЕСКИМИ ЗАБОЛЕВАНИЯМИ В ЗАВИСИМОСТИ ОТ ВАРИАЦИЙ ЭЛЕКТРИЧЕСКОГО ПОЛЯ АТМОСФЕРЫ*
С.Л. БЖЕКШИЕВ1, И.Х. МАШУКОВ2, Х.Х. МАШУКОВ2, А.А. ТАШИЛОВА2
1ГКУ Базовый республиканский детский социально-реабилитационный центр «Радуга» 360000, КБР, г. Нальчик, Долинск, ул. Школьная, 4
2ФГБУ Высокогорный геофизический институт.
360030, КБР, г. Нальчик, пр. Ленина, 2.
E-mail: [email protected]
В предложенной работе приводятся результаты кластерного анализа для ранжирования метеотропных реакций людей с сердечно-сосудистыми и гипертоническими заболеваниями в г. Нальчике в период с февраля по июнь 2007 г., полученные при помощи статистической программы SPSS.
Ключевые слова: кластерный анализ, корреляционные зависимости, напряженность электрического поля, сердечно-сосудистые и гипертонические заболевания.
Изменение синоптической ситуации в регионе практически всегда сопровождается изменением природного электромагнитного фона. Параметры электромагнитного поля атмосферы у поверхности земли являются ключевыми для оценки влияния погоды на самочувствие человека.
В период с 2006 по 2008 гг. в г. Нальчике был проведен мониторинг градиента потенциала электрического поля атмосферы у поверхности земли с помощью регистрирующей аппаратуры ФГБУ «ВГИ», включающей датчик напряженности электрического поля «По-ле-2». В это же время со станции «Скорой медицинской помощи» г. Нальчика были собраны и систематизированы среднесуточные данные о количестве обращений по следующим болезням: гипертония, гипертонический криз, общий инфаркт миокарда, сердечнососудистая патология, стенокардия (ИБС), аритмия.
В работе [1] были начаты исследования по выявлению связи изменений напряженности электрического поля атмосферы у поверхности земли с метеотропными реакциями людей с сердечно-сосудистыми и гипертоническими заболеваниями в 2005-2006 гг. На основе собранных данных за первое полугодие (январь-июнь) 2007 года были получены уравнения трендов временного хода напряженности E(t) и количества вызовов по указанным болезням N1.......N6:
E(t) = -184,593 - 2,372t, (1)
N1 = 35,56 - 0,031t , (2)
N2 = 10,36 - 0,028t , (3)
Работа выполнена при финансовой поддержке Минобрнауки России в рамках государственного контракта №П782 от 24 мая 2010 г. по мероприятию 1.2.1 ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы.
N3 = 1,05 - 0,000271, (4)
N4 = 11,36 - 0,0171 , (5)
N = 5,19 - 0,0091, (6)
N = 5,76 + 0,00091, (7)
где 1 - количество дней в январе-июне 2007 г.
Из уравнений (1) - (7) видно, что имеется тенденция к уменьшению как средней напряженности, так и количества вызовов «скорой помощи» с февраля по июль.
Проведенный корреляционный анализ показал, что коэффициенты корреляции между среднесуточной напряженностью и количеством вызовов в день очень малы и меняются от 0,026 до 0,257. Однако имеется значимая корреляция (при уровне значимости р = 0,05) между некоторыми болезнями, и это естественно, поскольку они относятся к одному типу заболеваний.
С помощью факторного анализа вызовы по болезням были сгруппированы по трем компонентам. Из таблицы 1 видно, что в каждом из компонент (1, 2, 3) находятся болезни с максимальными факторными нагрузками. В факторе 1 - гипертонический криз, сердечно-сосудистые заболевания и стенокардия (факторные нагрузки - 0,706; 0,559; 0,775), в факторе 2 - аритмия (факторная нагрузка - 0,878) и в факторе 3 - гипертоническая болезнь и инфаркт миокарда (факторные нагрузки - 0,572; 0860).
Таблица 1.
Ротированная матрица компонент
Компоненты факторного анализа
1 2 3
Гипертоническая болезнь -0,572
Гипертонический криз 0,706
Инфаркт миокарда 0,860
Сердечно-сосудистые заболевания 0,559
Стенокардия 0,775
Аритмия 0,878
Выясним теперь связь напряженности поля атмосферы с полученными компонентами факторного анализа (факторами). Результаты корреляционного анализа для 1-го, 2-го и 3-го факторов и напряженности электрического поля представлены в таблице 2.
Таблица 2.
КОРРЕЛЯЦИЯ КОМПОНЕНТ ФАКТОРНОЙ МОДЕЛИ СО СРЕДНЕСУТОЧНОЙ НАПРЯЖЕННОСТЬЮ ЭЛЕКТРИЧЕСКОГО ПОЛЯ АТМОСФЕРЫ
Напряженность Фактор 1 Фактор 2 Фактор 3
Напряженность поля Коэфф. корреляции г 1,000 0,218* 0,094 0,066
0,000 0,041 0,382 0,542
* Корреляция значима при уровне значимости р = 0,05.
Значимый коэффициент корреляции г = 0,218 (при = 0,041<0,05) имеет место для фактора 1 (гипертонический криз, сердечно-сосудистые заболевания и стенокардия) и среднесуточной напряженности электрического поля.
Таким образом, вызовы «скорой помощи» по гипертоническому кризу, сердечнососудистым заболеваниям и стенокардии имеют положительную значимую зависимость от изменения величины среднесуточной напряженности электрического поля атмосферы у земли, в отличие от болезней, вошедших в фактор 2 (аритмия) и фактор 3 (гипертоническая болезнь и инфаркт миокарда).
Вероятно, значимая корреляционная связь заболеваний первого фактора с градиентом потенциала электрического поля у земли связана с тем, что патология, приводящая к данным заболеваниям, связана с обширной сетью кровеносных сосудов (вен и капилляров), реагирующих на изменения поля более резистивно, чем крупные артерии. Для инфаркта миокарда, аритмии и гипертонии должны быть другие более значимые причины (физиологические и социальные), приводящие к обострению данных заболеваний.
Для дальнейшего определения условий максимальной зависимости метеотропной реакции больных (фактор 1) от изменения напряженности электрического поля необходимо провести классификацию объектов, а именно: произвести разбиение совокупности дней на однородные подмножества с пиками количества вызовов и изменением напряженности поля атмосферы у земли.
Если в факторном анализе (ФА) мы группируем столбцы матрицы данных (количество вызовов по шести заболеваниям), в кластерном анализе (КА) группируются строки (количество исследуемых дней). Для проведения КА необходимо иметь массив данных без пропусков переменных. Поскольку за исследуемый период с января по июнь 2007 г. по техническим причинам в некоторые дни января, марта и мая не были сняты измерения напряженности электрического поля атмосферы, а метод кластерного анализа требует наличия массива данных без пропусков, то мы остановились на исследовании трех месяцев без пропусков: февраль, апрель, июнь (88 дней).
В результате кластерного анализа при помощи предварительно заданных переменных формируются группы дней максимально однородные (гомогенные) внутри и гетерогенные по отношению друг к другу. Решающим критерием схожести и различия элементов в группах (кластеризация) являются дистанционные меры между исходными данными и меры подобия формирующихся кластеров. Дистанционная мера - это расстояние между точками (значениями переменных) на плоскости. Самой распространенной мерой для определения расстояния между двумя точками плоскости является евклидово расстояние:
Для определения расстояния между парой кластеров (меры подобия) могут использоваться разные подходы. В статистическом пакете SPSS [2] по умолчанию устанавливается метод, определяемый на основе среднего расстояния между кластерами.
Проведем иерархический кластерный анализ (ИКА). ИКА отличается от других видов КА тем, что алгоритм его проведения является многоступенчатым. Алгоритм ИКА может быть дивизионным (ДКА) или агломеративным (АКА). ДКА предполагает, что все объекты исследования вначале объединены в один кластер, который поэтапно делится на более мелкие кластеры. АКА, наоборот, предполагает, что все объекты исследования вначале рассматриваются как отдельные кластеры (максимально однородные), которые в ходе алгоритма объединяются. Шаги в процессе агломерации представлены в таблице 3.
Вначале берется N объектов и между ними попарно вычисляются расстояния. Далее выбирается пара объектов, которые расположены наиболее близко друг от друга, и эти объекты объединяются в один кластер. В результате количество кластеров становится равным N-1. Процедура повторяется, пока все кластеры не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объ-
ектами и определения близости между кластерами. Среди данных, выдаваемых пакетом SPSS в качестве результатов КА, в первую очередь выводится таблица «Порядок агломерации», содержащая результаты сравнения объектов исследования (табл. 3).
Таблица 3.
Порядок агломерации
Объединение кластеров Коэффициенты Первое появление кластера Следующий шаг
Шаг Кластер 1 Кластер 2 Кластер 1 Кластер 2
1 17 44 0 0 0 5
2 82 83 3,001E-05 0 0 6
3 31 46 7,173E-05 0 0 60
4 50 71 1,439E-04 0 0 27
5 17 21 2,361E-04 1 0 24
78 18 22 18,154 65 66 84
79 2 6 20,340 62 75 83
80 3 37 23,347 72 63 85
81 25 65 28,110 77 55 84
82 1 4 33,801 76 73 86
83 2 32 39,824 79 68 85
84 18 25 50,069 78 81 87
85 2 3 64,106 83 80 86
86 1 2 116,595 82 85 87
87 1 18 174,000 86 84 0
Каждая строка в таблице агломерации представляет собой этап или шаг формирования кластеров. В столбце «Объединение» указывается, какие именно кластеры объединяются в один. Например, на шаге 1 кластер 17 объединяется с кластером 44, в столбце «Следующий шаг» цифрой 5 указана строка, где новый кластер 17 объединится с кластером 21 и т.д. В столбце «Коэффициенты» указываются значения коэффициента, характеризующего степень гетерогенности (разнородности) формируемых кластеров. На начальном этапе, когда каждый объект (1 день со среднесуточной напряженностью электрического поля и определенным количеством вызовов по болезням фактора 1) рассматривается как один кластер, причем все кластеры являются абсолютно однородными. Коэффициент, характеризующий гомогенность, равен нулю. Гетерогенность кластеров повышается по мере их объединения в более крупные (от k=0 до k=174).
Оптимальным считается число кластеров, равное разности общего количества случаев (N = 88) и количества шагов (N = 85), после которого коэффициент увеличивается скачкообразно, с 64,106 до 116,595. Это означает, что после образования трех кластеров мы не должны производить никаких последующих объединений, а результат с тремя кластерами является оптимальным, то есть N= 88-85=3 кластера. При сохранении принадлежности каждого случая (дня) массива данных к 1-му, 2-му или 3-му кластеру в базу данных с переменными «напряженность электрического поля» (intensit) и «фактор 1» (fact_1) добавлен столбец «кластеры» (clusters) c нумерацией всех дней от 1 до 3. Затем формируются отдельно три массива данных для первого, второго и третьего кластера. В первый кластер вошло 29 дней, во второй кластер - 33 дня и в третий кластер - 25 дней. Фрагмент базы данных с итогами кластерного анализа представлен на рис. 1.
Необходимо заметить, что непосредственное использование переменных в анализе может привести к тому, что классификацию будут определять переменные, имеющие наибольший разброс значений, как в нашем случае: величина напряженности электрического поля меняется от 0 до 1500 В/м, а величина количества вызовов имеет максимальное значение - 64 вызова в сутки (гипертоническая болезнь). Поэтому при разномасштабных сравниваемых величинах двух и более рядов для анализа применяется Z-стандартизация. Стандартизированное значение - это отклонение величины xi от ее среднего значения x , деленное на стандартное отклонение s :
Zxi = ^ . (8)
s
При допустимом уровне ошибки р = 0,01 (доверительный интервал 99 %) стандартизированная величина Zxi меняется в пределах -3 < Zxi < 3. Соответственно легко сравнивать разномасштабные величины:
1) при Zxi ® 0 значение xi близко к среднему x ;
2) при Zxi ® -3 значение xi намного меньше x ;
3) при Zxi ® 3 значение xi намного больше x .
На рисунке 1 для дальнейшего анализа в сформированных кластерах представлены стандартизированные величины группы вызовов по болезням фактора 1 - «zf1_1» и напряженности поля «zint1_1» (кластер 1); «zf1_2» и «zint1_2» (кластер 2); «zf1_3» и «zint1_3» (кластер 3).
File Edit View Data Transform Analyze Graphs Utilities Window Help
g|H|a| «и sal ми •шШ BlffllBl чЫ
|29: intl_2 |5,673242382
¡ntensit date f_aj fac1_1 clusters var00003 ¡nt1_1 date1_1 if1_1 clj zintl _1 ¡nt1_:
1 -578,33 1 feb 1 -.37114 1 -578,33 1 feb -.37 1 -.61 -381
2 -381,25 2 feb 2 2,16779 2 -305,66 4 feb -.63 1 ,42 -296
3 -296,80 3 feb 3 1,17532 2 -308,77 5 feb -.10 1 ,41 -292
4 -305,66 4 feb 4 -.68003 1 -275,81 13 feb -.80 1 ,53 -301
5 -308,77 5 feb 5 -.10123 1 -408,35 16 feb ,41 1 ,03 -214
6 -292,66 6 feb 6 -.54432 2 -204,19 17 feb -.68 1 ,80 -129
7 -301,52 7 feb 7 4,57268 2 -291,65 20 feb ,04 1 ,47 -212
В -214,61 8 feb 8 1,46977 2 -200,15 21 feb -1,68 1 ,81 -109
9 -129,26 9 feb 9 ,65297 2 -220,39 1 apr -.38 1 ,74 -230
10 -212,41 10 feb 10 ,66064 2 -407,01 2 apr -.75 1 ,04 -404
11 -109,06 11 feb 11 -.77544 2 -598,51 10 apr ,16 1 -.68 -231
12 -230,93 12 feb 12 3,89699 2 -247,66 11 apr ,14 1 ,63 -352
13 -275,81 13 feb 13 -.80163 1 -52,53 12 apr -1,24 1 1,37 -950
14 -404,00 14 feb 14 1,78273 2 -181,12 13 apr -.63 1 ,89 -608
15 -231,65 15 feb 15 2,28008 2 -484,26 14 apr -.46 1 -.25 -373
16 -408,35 16 feb 16 ,40785 1 -461,09 18 apr -1,46 1 -.17 -272
17 -204,19 17 feb 17 -.67965 1 -849,41 23 apr 2,29 1 -1,63 -464
1В -897,70 18 feb 18 ,41034 3 -610,93 24 apr ,16 1 -.73 121
19 -352,34 19 feb 19 1,85676 2 -425,89 30 apr -.35 1 -.03 169
20 -291,65 20 feb 20 ,04137 1 -15,51 1 jun -1,90 1 1,51
21 -200,15 21 feb 21 -1,67713 1 -315,99 2 jun -.14 1 ,38 85
22 -556,70 22 feb 22 ,46213 3 -423,56 13 jun -.49 1 -.03 -203
23 -755,91 23 feb 23 -.36719 3 -281,03 14 jun 1,00 1 ,51 74
24 -950,67 24 feb 24 ,46761 2 -786,60 15 jun -.62 1 -1,39 90
25 -681,71 25 feb 25 -.45566 3 -187,73 16 jun -.51 1 ,86 57
26 -608,90 26 feb 26 1,64001 2 -160,19 17 jun -.85 1 ,96 -201
27 -373,70 27 feb 27 1,74824 2 -1095,95 22 jun 1,43 1 -2,55
28 -272,90 28feb 28 -.05595 2 -843,45 25 jun -.85 1 -1,60 52
29 -220,39 1 apr 29 -.37709 1 -859,69 26 jun ,67 1 -1,67
30 -407,01 2 apr 30 -.74634 1 -922
31 -464 15 3 atir 31 2 79659 2
^ | ► |\Data View ^ Variable View / IM I
|5P55 Processor is ready
Рис. 1. Фрагмент базы данных с результатами кластерного анализа
Затем для каждого из трех кластеров был проведен корреляционный анализ среднесуточной напряженности электрического поля атмосферы у поверхности земли с количеством вызовов по болезням из первого фактора.
Таблица 4.
Кластер 1 - корреляция «напряженность - фактор 1»
ЕЧТ1 1 1
ЮТ1 1 Корреляция Пирсона 1,000 -0,590**
0,0 0,001
N 29 29
1 Корреляция Пирсона -0,590 1,000
81§.) 0,001 0,0
N 29 29
* * Корреляция значима при уровне р = 0,01.
Таблица 5.
КЛАСТЕР 2 - КОРРЕЛЯЦИЯ «НАПРЯЖЕННОСТЬ - ФАКТОР 1»
ЮТ1 2 2
ЮТ1 2 Корреляция Пирсона 1,000 0,048
0, 0,792
N 33 33
2 Корреляция Пирсона ,048 1,000
0,792 0,
N 33 33
Таблица 6.
КЛАСТЕР 3 - КОРРЕЛЯЦИЯ «НАПРЯЖЕННОСТЬ - ФАКТОР 1»
ЮТ1 3 3
ЮТ1 3 Корреляция Пирсона 1,000 -0,315
0,0 0,117
N 26 26
3 Корреляция Пирсона -,315 1,000
0,117 0,
N 26 26
Из таблиц 4, 5, 6 видно, что максимальная зависимость количества вызовов по болезням 1-го фактора (гипертонический криз, сосудистые заболевания, стенокардия ) от изменения напряженности электрического поля у земли с коэффициентом корреляции г = - 0,59 (с уровнем значимости Б1§.= 0,001 при допустимой ошибке р < 0,01) имеется для 1-го кластера, в который вошли дни со следующими датами: февраль - 1, 4, 5, 13, 16, 17, 20, 21; апрель - 1, 2, 10, 11, 12, 13, 14, 18, 23, 24, 30; июнь - 1, 2, 13, 14, 15, 16, 17, 22, 25, 26.
Таким образом, имея исходный массив данных для 181 дня с вызовами по гипертоническим и сердечно-сосудистым заболеваниям и среднесуточное значение напряженности электрического поля атмосферы у земли, мы получили, что только группа болезней гипертонический криз, сосудистые заболевания, стенокардия, объединенные в фактор 1, имеет значимую корреляцию со среднесуточной напряженностью электрического поля атмосферы у земли. И далее, лишь в определенные дни, перечисленные выше, имеется высокая
обратная зависимость (r = - 0,59) этой группы болезней от напряженности поля в эти же дни.
Очевидно, для понимания такой зависимости следующим шагом будет исследование особенностей суточного хода градиента потенциала и зависимости увеличения или уменьшения количества вызовов по болезням первого фактора от временного хода изменения напряженности поля с последующим прогнозом возможного обострения данной группы заболеваний. Изучение градиента потенциала напряженности электрического поля атмосферы у поверхности земли дает нам такую возможность, поскольку регистрация изменений напряженности производилась каждые 3 мин. в течение суток на протяжении трех лет (2006 - 2008 гг.), что и будет служить предметом дальнейшего исследования.
ЛИТЕРАТУРА
1. Аджиева О.А., Бжекшиев С.Л., Машуков И.Х., Машуков Х.Х. Исследование связи между изменениями градиента потенциала электрического поля атмосферы у земли и ме-теотропными реакциями у кардио- и гипертонических больных. VI Российская конференция по атмосферному электричеству. 1-7 окт. 2007 г. Нижний Новгород. С. 263-264.
2. Бююль А., Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. М., СПб., Киев: ДиаСофтЮП, 2002. 608 с.
METHOD OF CLUSTER ANALYSIS FOR RANGING METEOREACTIONS OF PEOPLE WITH CARDIO-VASCULAR AND HYPERTENSIVE DISEASES DEPENDING ON VARIATIONS OF ATMOSPHERIC ELECTRIC FIELD
1S.L. BZHEKSHIEV, 2I.KH. MASHUKOV, 2KH.KH. MASHUKOV, 2A.A. TASHILOVA
1Base republican children's socially-rehabilitation centre" Rainbow " 360000, КБР, Nalchik, Dolinsk, 4, Shkolnaya street
2High-mountainous Geophysical Institute
360030, КБР, Nalchik, 2, Lenin's avenue E-mail: [email protected]
In the offered article the results of cluster analysis for ranging meteoreactions of people with cardiovascular and hypertensive diseases in Nalchik during period since February to June 2007, calculated with the help of statistic program SPSS, are introduced.
Key words: cluster analysis, correlation dependencies, intensity of electric field, cardio-vascular and hypertensive diseases.
Работа поступила 09. 07. 2012 г.