ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
КЛАСТЕРНЫЙ АНАЛИЗ СУБЪЕКТОВ ЦФО РФ НА ОСНОВЕ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ПОКАЗАТЕЛЕЙ УРОВНЯ
ЖИЗНИ НАСЕЛЕНИЯ Кузенков Р. С.
Кузенков Роман Сергеевич /Kuzenkov Roman Sergeevich - магистрант, направление: математика и компьютерные науки, кафедра прикладной математики, Смоленский государственный университет, г. Смоленск
Аннотация: в статье представлен сравнительный анализ субъектов ЦФО РФ, полученный с помощью одного из методов многомерной статистической обработки данных на основе различных социально-экономических показателей, характеризующих уровень жизни населения. Разбиение было произведено методом Уорда, в качестве метрики использовалось евклидово расстояние. В результате были получены два кластера. В первый вошли регионы с высоким уровнем жизни населения, во второй - с более низким. Для вычислений был использован пакет для обработки статистических данных Statistica.
Ключевые слова: уровень жизни населения, прикладная статистика, кластерный анализ.
В настоящее время экономика России переживает серьезный упадок. Одной из важнейших проблем в этой области является очень высокий уровень дифференциации регионов России по социально -экономическому развитию. Как известно, приоритетной социально -экономической категорией, определяющей народное благосостояние, является уровень жизни населения. Организацией Объединенных Наций рекомендован перечень условий жизнедеятельности, которые в совокупности составляют понятие «уровень жизни»: рождаемость, смертность, продолжительность жизни, уровень потребления продовольствия, жилищные условия, баланс доходов и расходов, потребительские цены, обеспеченность транспортом и т.д. В данном исследовании для оценки уровня жизни населения использовались следующие показатели:
XI - Среднедушевые денежные доходы населения, руб./мес.;
X2 - Среднемесячная номинальная начисленная заработная плата работников организаций, руб. / мес.;
X3 - Средний размер назначенных месячных пенсий, руб. / мес.;
X4 - Общая площадь жилых помещений, приходящаяся в среднем на одного жителя, кв. м.;
X5 - Число собственных легковых автомобилей на 1000 человек населения, шт.;
X6 - Выбросы в атмосферу загрязняющих веществ на 1 кв. км., тн;
X7 - Текущие затраты на охрану окружающей среды, млн. руб.;
Х8 - Ожидаемая продолжительность жизни при рождении, лет;
X9 - Коэффициент естественного прироста населения;
Х10 - Уровень занятости населения, %;
XII - Уровень безработицы, %;
Х12 - Численность населения с денежными доходами ниже величины прожиточного минимума, %;
X13 - Величина прожиточного минимума, руб. / мес.;
Х14 - Объем работ, выполненных по виду экономической деятельности «Строительство»;
X15 - Стоимость фиксированного набора потребительских товаров и услуг, руб.
Для выявления наиболее оптимального количества групп разбиения разведочная кластеризация была проведена иерархическим методом Уорда. Этот метод был выбран с целью оптимизации оптимальной дисперсии внутри кластеров и создания кластеров приблизительно равных размеров.
В качестве расстояния между объектами использовалось наиболее распространенное - евклидово расстояние.
Анализируя результаты (Рис. 1), можно заметить, что Москва и Московская область выделены в отдельные кластеры. Поэтому данные субъекты исключены из рассмотрения.
Рис. 1. Дендрограмма (метод Уорда, евклидово расстояние)
Далее необходимо определиться с вопросом о количестве кластеров. С этой целью была проанализирована информация о шагах объединения в кластеры. Для определения оптимального количества групп разбиения важнейшее значение имеет показатель linkage distance. Этот показатель характеризует расстояние между кластерами, определяемое на основе выбранной метрики (в данном случае это евклидово расстояние).
На следующем этапе кластеризация была проведена итеративным методом k-средних. Было задано разбиение на 2 кластера. Из рассмотрения исключены город Москва и Московская область. Результаты приведены в таблице 1.
Кластер 1 Расстояние до центра кластера
Брянская область 0,6455466
Владимирская область 0,5295785
Ивановская область 0,5651818
Костромская область 0,6606864
Орловская область 0,672973
Смоленская область 0,5720026
Тверская область 1,049462
Кластер 2 Расстояние до центра кластера
Белгородская область 0,9969756
Воронежская область 0,6731861
Калужская область 0,9650543
Курская область 0,6901234
Липецкая область 0,8976837
Рязанская область 0,748713
Тамбовская область 1,022353
Тульская область 0,8164887
Ярославская область 0,9800861
Из рис. 1 и табл. 1 следует, что кластеры имеют долю совпадений более 70% (позицию изменили Тверская и Орловская области, попав в первый кластер), значит построенное кластерное решение принимается.
Для содержательной интерпретации полученных кластеров был произведен анализ таблицы средних значений рассматриваемых переменных по кластерам (табл. 2).
Таблица 2. Средние значения переменных по кластерам
Переменная Кластер 1 Кластер 2
1 -0,9016363 0,7012727
2 -0,672678 0,523194
3 0,09251588 -0,0719568
4 -0,2393832 0,186187
5 -0,3467845 0,2697213
6 -0,4761143 0,3703111
7 -0,716284 0,5571098
8 -0,7418028 0,5769577
9 -0,2224519 0,1730181
10 0,1169263 -0,09094267
11 0,7720733 -0,6005015
12 0,987806 -0,7682936
13 0,8067736 -0,6274906
14 -0,7613701 0,5921767
15 0,3802901 -0,2957812
Отрицательные значения переменных 1 и 2 говорят о низком уровне среднедушевых денежных доходов населения и среднемесячной номинальной заработной платы, а положительные значения переменных 11 и 12 - о высоком уровне безработицы и большой доле населения с денежными доходами ниже величины прожиточного минимума. Таким образом, логично предположить, что первый кластер составляют области с низким уровнем жизни. Во второй кластер вошли субъекты ЦФО, аналогичный показатель которых более высок. Следовательно, второй кластер составляют области с более высоким уровнем жизни.
Литература
1. Буреева Н. Н. Многомерный статистический анализ с использованием ППП STATISTICA, 2007. 112 с.
2. Мандель И. Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.
3. Регионы России. Социально-экономические показатели. 2015: Стат. сб. / Росстат. М., 2015. 1268 с.