УДК 519.25, 330.46
ОЦЕНКА ИНФОРМАТИВНОСТИ РЕШЕНИЯ ЗАДАЧИ ПОСТРОЕНИЯ ИНТЕГРАЛЬНОГО ИНДИКАТОРА ИЗМЕНЕНИЯ КАЧЕСТВА СЛОЖНОЙ СИСТЕМЫ
Т.В.Жгун, А.В.Липатов
ESTIMATION OF INFORMATIVITY OF A SOLUTION FOR THE PROBLEM OF CONSTRUCTING AN INTEGRAL INDICATOR OF CHANGES IN A COMPLEX SYSTEM QUALITY
T.V.Zhgun, A.V.Lipatov
Институт электронных и информационных систем НовГУ, [email protected]
Рассмотрено вычисление оценки информативности решения задачи построения латентной интегральной характеристики изменения качества системы на основании регистрируемых измерений для ряда наблюдений. Задача относится к классу задач выделения полезного сигнала из массива данных в условиях априорной неопределенности и решается на основании задаваемого отношения сигнал/шум. Построение латентной интегральной характеристики изменения качества системы на основе статистических показателей для ряда последовательных наблюдений производится с помощью метода главных компонент с учетом наличия шума в измеряемых данных (ОСШ-алгоритм). В отличие от классического метода главных компонент, где информативность вычисленной интегральной характеристики задается априорно и обеспечивается выбором числа главных компонент, в предлагаемом алгоритме информативность решения оценивается апостериорно на
основании дисперсионного критерия и выбранного параметра отношения сигнал/шум. С помощью предложенного алгоритма построены интегральные индикаторы качества жизни субъектов Российской Федерации за 2007-2012 гг.
Ключевые слова: качество системы управления, интегральная характеристика качества, изменение характеристики качества, интегральные индикаторы качества жизни, шум измеряемых данных, отношение сигнал/шум, метод главных компонент, информативность метода главных компонент
This work deals with constructing the estimation of informativity of a solution for the problem of constructing the latent integral characteristics of changes in the system quality based on the recorded measurements of a series of observations. This problem belongs to complex problems of signal allocation from a multidimensional array in terms of a priori uncertainty of noise and signal. Its solution is based on the specified signal-to-noise ratio. Constructing the latent integral characteristics of changes in the system quality concerning the statistical data for a series of observations is performed on the basis of the principal component analysis taking into account the presence of noise in the measured data (SNR-algorithm). In classical PCA, the informativity of integral characteristics is given a priori and is provided by selecting the number of principal components. In the proposed algorithm, the informativity of solution is evaluated a posteriori on the basis of the variance test and selected SNR-parameter. We constructed integral indicators of quality of life of Russia's Federal Subjects for the years 2007-2012 using the proposed algorithm.
Keywords: control system quality, integral characteristics of quality, change in characteristics of quality, integral indicators of quality of life, noise in the measured data, signal-to-noise ratio, principal component analysis, informativity of the principal component analysis
Введение
Интегральные характеристики качества системы используются при решении задач управления для совершенствования механизмов управления на основании сопоставления интегральных индикаторов рассматриваемых объектов и рейтингов объектов, определяемых их интегральными характеристиками, и являются показателем степени достижения цели управления. Сводные (интегральные) показатели различных синтетических категорий социально-экономического развития широко используются в межстрановом и межрегиональном макроэкономическом анализе, в теории и практике социально-экономического управления [1,2]. С 1974 г. выходит специальный международный журнал «Social Indicators Research», который публикует результаты исследований, касающихся измерения качества жизни муниципальных, региональных, национальных и международных систем. К числу наиболее часто используемых интегральных показателей относится индекс развития человеческого потенциала (ИРЧП), который активно используется Организацией Объединенных Наций, начиная с 1990 г. В рамках ежегодных «Докладов о человеческом развитии» даются определенные представления о соотношении качества жизни в разных странах мира на основании этого рейтинга [2].
Согласно методике С.А.Айвазяна [3,4], вектор интегральных индикаторов есть проекция матрицы предобработанных данных А на первую главную компоненту. Так же поступают и авторы современного исследования качества жизни в Европейском Союзе [5]. Этот метод используется для оценки статических систем, когда первая главная компонента хорошо приближает моделируемую ситуацию, т.е. если максимальное собственное число ковариационной матрицы дает вклад не менее 70% в сумму всех собственных чисел. Такое соотношение выполняется, если рассматривается небольшое количество признаков (не более пяти), и одно из свойств системы доминирует над остальными. При описании социально-экономических систем число переменных значитель-
но более пяти, а структура системы не допускает простого приближения. В качестве выхода из этой ситуации рассматривается, согласно [4], понижение порога информативности до 55% и деление исходной системы на подсистемы, описываемые меньшим количеством переменных. Однако применение этой методики для ряда последовательных наблюдений дает неудовлетворительные результаты.
1. Постановка задачи вычисления интегральной характеристики изменения качества системы
Рассмотрим построение интегральной оценки системы из т объектов, для которой известны таблицы из п описаний объектов для ряда t наблюдений — матрицы размерностью т*п А' ={а^ }п,т, ' = 1, 2,..., р.
Для каждого момента ' вектор интегральных показателей имеет вид
^ = А ■ w', (1)
Т
— вектор интегральных
t t t t где q = (q 1, q 2,...,q m
индикаторов момента ', w' = (^\,w'2, ...,wtm^ —
вектор весов показателей для момента ', А' — матрица предобработанных данных для момента '. Для построения интегрального индикатора качества системы требуется найти веса показателей wt для каждого момента времени.
Будем рассматривать оцениваемый объект как сложную (не поддающуюся удовлетворительной формализации), большую (число состояний выше современных вычислительных возможностей) систему. Такими системами являются как каждый биологический объект, так и любая социальная система. Система доступна для наблюдения, и известно конечное, достаточно большое число регистрируемых с некоторой точностью численных характеристик этой системы в разные моменты времени. Значимость регистрируемых показателей для функционирования системы в общем случае неизвестна. Для решения задачи управления требуется дать мотивированную оценку каждого наблюдаемого объекта на всем промежутке наблюдений, т.е. вычислить в динамике ин-
тегральную характеристику качества системы. Численные характеристики системы предварительно подвергнуты унификации — приведению значений переменных на отрезок [0, 1] по принципу «чем больше, тем лучше».
Любое измерение, в том числе и статистическое, неизбежно связано с точностью измерительного прибора, поэтому результат измерения неизбежно содержит неустранимую ошибку. Построение интегральной характеристики системы можно рассматривать как задачу выделения полезного сигнала на фоне шумов в условиях отсутствия априорной информации о статистических характеристиках аддитивного шума и полезного сигнала при наличии единственной реализации измеряемого процесса. Эта задача аналогична задаче восстановления цифровых изображений, искаженных белым гауссовским шумом. Метод главных компонент (МГК) позволяет выделить структуру в многомерном массиве данных и с успехом применяется для распознавания изображений в потоке за-шумленных данных и для шумоподавления.
Количественные характеристики конкретной системы, функционально связанные с ее структурными особенностями и условиями ее работы, зависят от отношения сигнала к шуму. Это отношение часто используется для количественной оценки эффективности различения сигналов в оптико-электронных, телевизионных автоматических системах, в средствах контроля и диагностики.
ОСШ — отношение сигнал/шум (англ. signal-to-noise ratio, сокр. SNR) представляет собой отношение сигнала (а если точнее, суммы сигнала и шума) к шуму. Величина может быть вычислена либо как безразмерное отношение амплитуды сигнала к амплитуде шума SNR = As /An, либо в децибелах SNR (dB) = 20• log10(As /An). Эта величина наиболее полно описывает качество воспроизведения сигнала в телевизионных системах, в системах мобильной связи, в астрофотометрии.
Выбор порогового значения отношения полезного сигнала к шуму фона, позволяющего различить сигнал на фоне шума, обоснован в [6]. Современные технические системы (и человеческий глаз) уверенно
выделяют сигнал из шума, если уровень ОСШ в системе составляет около 7 дБ (или в безразмерных единицах — 2,2). Такое пороговое значение используется в фотометрии слабых объектов: при регистрации сигнала от тусклых звезд необходимо, чтобы отношение сигнал/шум превышало 2,2. Телевизионные системы могут восстановить неповрежденную картинку, если отношение уровня сигнала к уровню шумов превосходит пороговое значение около 7дБ. Именно это значение SNR = 2,2 и будет использоваться далее.
Статистические данные неизбежно содержат погрешность измерения. Любой результат, полученный на основании этих данных, будет содержать неустранимую ошибку. Переход к другому моменту времени означает изменение данных, которое при неизменной структуре системы вызвано как изменением ситуации, так и случайными ошибками. Метод главных компонент на основании различных для разных моментов значений собственных векторов и собственных значений описывает неизменную структуру системы. Следовательно, именно значения собственных чисел и собственных векторов будут тем сигналом, который нужно распознать, т.е. по имеющимся реализациям выделить сигнал из зашумленных данных. Предположение о том, что при вариации входных данных у собственных чисел имеется общая тенденция, иллюстрирует рисунок, где представлены значения пяти наибольших (при упорядочении по убыванию) собственных чисел для разных наблюдений. В среднем значении рассматриваемых величин хорошо просматривается тенденция (сигнал) и случайное отклонение от нее.
Собственные векторы определяются с точностью до направления, в отличие от собственных чисел, определяемых однозначно. Среднее значение факторных нагрузок переменных зависит от выбранного направления и не может однозначно характеризовать сигнал. Следовательно, на основе вычисленных для различных наблюдений собственных векторов (упорядоченных в порядке убывания собственных чисел) нужно распознать случайные и неслучайные компоненты этих векторов и определить значения координат неслучайных переменных этих векторов.
5,5 g 5,0
о
Р 2,5
о
Годы
Собственные значения ковариационной матрицы переменных для различных моментов наблюдения
Наличием неслучайного (т.е. значимого) вклада переменной в структуру главных компонент будем считать не большую величину факторной нагрузки, а инвариантность факторной нагрузки при возмущениях, признаком которой будет величина отношения сигнал/шум, определяемая средними значениями переменной и среднеквадратичным отклонением. Если это отношение выше порогового значения, такую переменную считаем неслучайной — действующей. При невыполнении такого соотношения переменная характеризует шумовую составляющую сигнала и не участвует в дальнейшем рассмотрении. Для проверки этого условия нужно согласовать направления собственных векторов на основании некоторого критерия.
2. Информативность интегральной характеристики изменения качества системы
В алгоритмах вычисления интегральной характеристики по ОСШ-методу [6-9] используется традиционное для метода главных компонент (МГК) понятие информативности, которое определяет число главных компонент I, используемых для вычисления интегральной характеристики.
^ ^2 ^ ■■■
у >Ж -
>11 + >12 + - - + ^
(3)
Уа--'
>е.
(2)
^ ^2 ^... ^ ^п
Однако размерность пространства признаков в задачах вычисления интегральной характеристики качества сложной системы не является чересчур большой, и вычислительных проблем при определении собственных чисел и векторов не возникает. А качественное описание структуры системы требует либо всех главных компонент, либо их достаточно большого количества. Может оказаться, что ценная для конкретной задачи информация содержится как раз в направлениях с меньшей дисперси-ей._ Например, при создании цифровой модели рельефа, которая строится по оцифрованным снимкам, искомый рельеф дают восьмая и девятая главные компоненты, а главные компоненты 12 и 13 в методе «Гусеница» свидетельствуют о наличии в анализируемых данных периодики с дробным периодом [10,11].
Подходы к оценке числа главных компонент по необходимой доле объясненной дисперсии формально применимы всегда, однако неявно они предполагают, что нет разделения на «сигнал» и «шум», и любая заранее заданная точность имеет смысл. При разделении данных на полезный сигнал и шум задаваемая точность теряет смысл и требуется переопределить понятие информативности.
Увеличивая значения SNR, можно надеяться, что информативность будет выше. Однако при увеличении значения SNR число действующих переменных будет уменьшаться, большинство факторных нагрузок эмпирических главных компонент (ЭГК) окажутся просто нулевыми, что фактически уменьшит их информативность.
Аналогично дисперсионной информативности согласно (2) можно определить -информативность для выбранного числа эмпирических главных компонент N
>21 + >22 + -- + >2М
где >1к — сумма величин ОСШ у действующих переменных к-й ЭГК, >2к — сумма ОСШ всех переменных к-й ЭГК. Эта величина будет апостериорной оценкой (сверху) SNR--информативности. В отличие от дисперсионной информативности, SNR--информативность не может достигать 100% по логике построения. Информативность выбранной системы признаков определяется дисперсионной и SNR--информативностью: У- Уа-Уяж. (4)
3. Определение информативности интегральных индикаторов
Рассмотрим работу алгоритма на примере вычисления интегральной характеристики уровня благосостояния населения. Описание алгоритма приведено в [6-9]. Воспользуемся списком переменных из исследования, выполненного под руководством С.А.Айвазяна [12]. В табл.1 приведены переменные первого блока: Уровень благосостояния населения. Значения переменных взяты из открытых справочников Росстата [13]. Отсутствующие значения показателей для ряда лет дополнены средними значениями по тому федеральному округу, к которому относится рассматриваемый субъект Федерации. Отсутствующие единичные пропуски восстановлены линейной интерполяцией.
Таблица 1
Переменные для вычисления разрозненных индикаторов
Уровень благосостояния населения
1 Отношение ВРП на душу населения к прожиточному мин, единиц
2 Покупательская способность среднедушевых денежных доходов по отношению к наборам прожиточного минимума (%)
3 Доля численности населения с денежными доходами ниже прожиточного минимума (%)
4 Отношение совокупных доходов 20% самых богатых и 20% самых бедных
5 Обеспеченность населения собственными легковыми автомобилями (автомобилей/1000 чел.)
6 Доля семей, состоящих на учете на получение жилья (%)
7 Приходится общей площади жилищного фонда на одного жителя (кв. м/10 чел.)
8 Доля ветхого и аварийного жилья (%)
9 Плотность автомобильных дорог общего пользования (км/10 000 кв. км)
Определение четвертой эмпирической главной компоненты (ЭГК) представлено в табл.2. Выбранные направления собственных векторов максимизируют сумму значений ОСШ у действующих переменных,
Таблица 2
Определение четвертой эмпирической главной компоненты Блока 1
4 ГК Переменные
1 2 3 4 5 6 7 8 9
2007 -0,25 0,16 0,40 0,23 -0,32 -0,54 0,41 -0,12 0,36
2008 -0,17 0,03 0,38 0,30 -0,16 -0,41 0,69 -0,23 -0,07
2009 0,07 -0,04 0,27 0,33 -0,15 -0,56 0,66 -0,19 0,05
2010 0,07 -0,05 0,37 0,30 -0,24 -0,41 0,68 -0,24 -0,16
2011 0,18 0,01 0,36 0,38 -0,28 -0,03 0,56 -0,55 -0,06
2012 0,02 0,08 0,32 0,38 -0,22 0,30 0,31 -0,71 -0,03
Среднее, т -0,01 0,03 0,35 0,32 -0,23 -0,27 0,55 -0,34 0,01
Выб. ср. квадр. откл., s 0,16 0,08 0,05 0,06 0,07 0,34 0,16 0,23 0,18
ОСШ 0,09 0,41 7,57 5,51 3,42 0,80 3,46 1,45 0,08
Сумма ОСШ ЭГК 22,80
Сумма действующих ОСШ ЭГК 19,97
для которых отношение сигнал/шум — отношение среднего к среднеквадратичному отклонению — не менее 2,2. В этой ЭГК действующих переменных оказалось четыре (выделены темным цветом в табл.2). Факторные нагрузки этих переменных в ЭГК определит средняя величина нагрузок по годам, остальные переменные в ЭГК обнуляются.
Число эмпирических главных компонент выбирается, чтобы максимизировать информативность полученного решения согласно (4). В табл.3 приведен пример определения информативности интегрального показателя уровня благосостояния населения (переменные табл.1). При рассмотрении всех 9 ЭГК суммарная информативность максимальна и составит около 91%. Поэтому для вычисления интегрального показателя используем все эмпирические главные компоненты.
Заключение
В работе рассмотрено построение оценки информативности решения задачи построения латент-
ной интегральной характеристики изменения качества системы на основании регистрируемых измерений для ряда наблюдений. Задача относится к классу задач выделения полезного сигнала из массива данных в условиях априорной неопределенности и решается на основании задаваемого отношения сигнал/шум. Предложен новый подход к выбору числа главных компонент, к определению весов рассматриваемых подсистем и к определению информативности полученной характеристики на основании дисперсионного критерия и выбранного параметра — отношения сигнал/шум. Алгоритм был использован для получения интегральных индикаторов качества жизни населения субъектов Российской Федерации. Предлагаемая методика может быть использована для вычисления интегральных оценок изменения качества плохо формализуемых систем.
Работа выполнена при финансовой поддержке проектной части государственного задания в сфере научной активности Министерства образования и науки Российской Федерации, проект №1.949.2014/К.
Таблица 3
Определение информативности интегрального показателя Уровень благосостояния населения
Номер эмпирической главной компоненты
1 2 3 4 5 6 7 8 9
Сумма ОСШ ^й ЭГК 99,2 67,1 30,3 22,8 12,9 12,9 21,9 46,7 59,7
Сумма действующих ОСШ ^й ЭГК 98,6 64,5 23,6 20,0 10,1 8,1 17,0 43,2 55,6
Накопленные %%, у ^ 26,4 43,7 50,0 55,3 58,0 60,2 64,8 76,3 91,2
Эмпирические собственные числа 3,1 2,0 1,1 0,8 0,6 0,5 0,5 0,3 0,1
Накопленные %%, уа 34,1 56,6 69,2 78,0 85,0 90,7 95,8 99,1 100,0
Информативность, уа у^ , % 9,0 24,7 34,6 43,1 49,3 54,6 62,0 75,6 91,2
1. Handbook on Constructing Composite Indicators: Methodology and User Guide. OECD Publication. Paris: CEDEX 1б. 2008. 1б2 p.
2. Доклады ООН о развитии человека (Human Development Reports). 1990-2013 / United Nations Development Programme, 1990-2014. URL: http://hdr.undp.org/en/reports/ (дата обращения: 13.01.201б).
3. Айвазян С.А. Интегральные индикаторы качества жизни населения: их построение и использование в социально-экономическом управлении межрегиональных сопоставлениях. М.: ЦЭМИ РАН, 2000. 5б с.
4. Айвазян С.А. К методологии измерения синтетических категорий качества жизни населения // Экономика и математические методы. 2003. Т.39. №2. С.33-53.
5. Somarriba N., Pena B. Synthetic Indicators of Quality of Life in Europe // Social Indicators Research. 2009. Vol.94. Issue 1. P.115-133.
6. Жгун Т.В. Построение интегральной характеристики изменения качества системы на основании статистических данных как решение задачи выделения сигнала в условиях априорной неопределенности // Вестник НовГУ. Сер.: Технические науки. 2014. №81. С.10-1б.
7. Жгун Т.В. Построения интегральной характеристики демографического развития территорий на примере муниципальных образований Новгородской области // Региональная экономика: теория и практика. 2013. №3б(315). С.2-12.
8. Жгун Т.В. Вычисление интегрального показателя эффективности функционирования динамической системы на примере интегральной оценки демографического развития муниципальных образований Новгородской области // Вестник НовГУ. Сер.: Физико-математические науки. 2013. №75. Т.2. С.11-1б.
9. Жгун Т.В. Исследование формальных методов построения латентной характеристики качества систем // Вестник НовГУ. Сер.: Физико-математические науки. 2014. №80. С.13-19.
10. Голяндина Н.Э., Усевич К.Д., Флоринский И.В. Анализ сингулярного спектра для фильтрации цифровых моделей [Электронный ресурс] // Геодезия и картография. 2008. №5. С.21-28. Режим доступа: http://iflorinsky.narod.ru/Florinsky-2008c.pdf (дата обращения: 13.01.201б).
11. Голяндина Н.Э. Метод «Гусеницал-SSA: анализ временных рядов. СПб., 2004. 74 с.
12. Исакин М.А. Модификация метода k-средних с неизвестным числом классов// Прикладная эконометрика. 200б. Вып.4. С.б2-70.
13. Федеральная служба гос. статистики. М., 2002-2014. URL: http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/sta tistics/publications/catalog/doc_1137674209312 (дата обращения: 13.01.201б).
1.
References
Handbook on Constructing Composite Indicators: Methodology and User Guide. Paris, OECD, 2008. 162 p.
2. Human Development Reports. 1990-2013. United Nations Development Programme, 1990-2014. Available at: http://hdr.undp.org/en/reports/ (accessed 13.01.2016).
3. Ayvazyan S.A. Integral'nye indikatory kachestva zhizni nase-leniia: ikh postroenie i ispol'zovanie v sotsial'no-
ekonomicheskom upravlenii i mezhregional'nykh sopostav-leniiakh [Integral indicators of life quality of population: their construction and use in social and economical management and for inter-regional comparisons]. Moscow, CEMI RAS, 2000. 56 p.
4. Aivazian S.A. K metodologii izmereniia sinteticheskikh kategorii kachestva zhizni naseleniia [The methodology for measuring synthetic categories of life quality of population]. Ekonomika i matematicheskie metody - Economics and Mathematical Methods, vol. 39, 2003, no. 2, pp. 33-53.
5. Somarriba N., Pena B. Synthetic indicators of quality of life in Europe. Social Indicators Research, 2009, vol. 94, no. 1, pp. 115-133.
6. Zhgun T.V. Postroenie integral'noi kharakteristiki izmeneniia kachestva sistemy na osnovanii statisticheskikh dannykh kak reshenie zadachi vydeleniia signala v usloviiakh apriornoi neopredelennosti [Constructing the integral characteristic of the system quality changes on the basis of statistical data as a solution to the problem of signal allocation under conditions of prior uncertainty]. Vestnik NovGU. Ser. Tekhnicheskie nauki - Vestnik NovSU. Issue: Engineering Sciences, 2014, no. 81, pp. 10-16.
7. Zhgun T.V. Postroeniia integral'noi kharakteristiki demo-graficheskogo razvitiia territorii na primere munitsipal'nykh obrazovanii Novgorodskoi oblasti [Creation of the integrated characteristics of demographic development of territories by the example of the Novgorod region municipalities]. Region-al'naia ekonomika: teoriia i praktika, 2013, no. 36(315), pp. 212.
8. Zhgun T.V. Vychislenie integral'nogo pokazatelia effektiv-nosti funktsionirovaniia dinamicheskoi sistemy na primere integral'noi otsenki demograficheskogo razvitiia munitsi-pal'nykh obrazovanii Novgorodskoi oblasti [Calculating the integrated index of the dynamical system efficiency by the example of integral evaluation of demographic development of the Novgorod region municipalities]. Vestnik NovGU. Ser. Fiziko-matematicheskie nauki - Vestnik NovSU. Issue: Physico-Mathematical Sciences, 2013, no. 75, vol. 2, pp. 1116.
9. Zhgun T.V. Issledovanie formal'nykh metodov postroeniia la-tentnoi kharakteristiki kachestva system [The research of formal methods for building latent characteristics of a system quality]. Vestnik NovGU. Ser. Fiziko-matematicheskie nauki - Vestnik NovSU. Issue: Physico-Mathematical Sciences, 2014, no. 80, pp 13-19.
10. Goliandina N.E., Usevich K.D., Florinskii I.V. Analiz sin-guliarnogo spektra dlia fil'tratsii tsifrovykh modelei [Singular spectrum analysis for filtering of digital terrain models]. Ge-odeziya i kartografiya, 2008, no. 5, pp. 21-28. Available at: http://iflorinsky.narod.ru/Florinsky-2008ts.pdf. (accessed 13.01.2015).
11. Goliandina N.E. Metod «Gusenitsa»-SSA: analiz vremen-nykh riadov [The "Caterpillar"-SSA method: time series analysis]. Saint Petersburg, SPSU Publ., 2004. 74 p.
12. Isakin M.A. Modifikatsiia metoda fe-srednikh s neizvestnym chislom klassov [Modification of the ¿-means method with an unknown number of classes]. Prikladnaia ekonometrika -Applied Econometrics, 2006, no. 4, pp. 62-70.
13. Federal State Statistics Service of the Russian Federation, 2002-2014. Available at: http://shchshchshch.gks.ru/shchps/ shchtsm/tsonetst/rosstat_main/rosstat/ru/statistitss/publitsatio ns/tsatalog/dots_1137674209312. (accessed 13.01.2016).