УДК 519.25, 330.46
ВЫЧИСЛЕНИЕ ИНТЕГРАЛЬНЫХ ИНДИКАТОРОВ ИЗМЕНЕНИЯ КАЧЕСТВА СИСТЕМЫ КАК РЕШЕНИЕ ЗАДАЧИ ВЫДЕЛЕНИЯ ПОЛЕЗНОГО СИГНАЛА НА ФОНЕ ШУМОВ
Т.В.Жгун
COMPUTATION OF INTEGRAL INDICATORS OF CHANGES IN THE SYSTEM QUALITY AS A SOLUTION TO THE PROBLEM OF EXTRACTING A USEFUL SIGNAL OUT OF NOISE
T.V.Zhgun
Институт электронных и информационных систем НовГУ, [email protected]
Рассмотрено решение задачи построения латентной интегральной характеристики изменения качества системы на основании регистрируемых измерений для ряда наблюдений в условиях отсутствия обучения. Задача относится к классу задач выделения полезного сигнала из массива данных в условиях априорной неопределенности свойств полезного сигнала и шума и решается на основании задаваемого отношения сигнал/шум. Предложен алгоритм построения интегральных характеристик изменения качества системы с определением неслучайных составляющих главных компонент, характеризующих структуру рассматриваемой системы. Предлагаемая методика может быть использована для вычисления интегральных оценок изменения качества плохо формализуемых систем, в том числе для вычисления интегральных индикаторов качества жизни населения.
Ключевые слова: качество системы управления, интегральная характеристика качества, интегральные индикаторы качества жизни, шум в измеряемых данных, отношение сигнал/шум, метод главных компонент
This article considers a solution to the problem of constructing the latent integral characteristics of changes in the system quality based on the recorded measurements of a series of observations. Constructing the latent integral characteristics is considered as a problem of signal allocation from a multidimensional array in terms of a priori uncertainty of noise and signal. Its solution is based on the specified signal-to-noise ratio. We proposed an algorithm for constructing the latent integral characteristics of changes in the system quality with finding non-random elements of the principal components describing the system structure. The proposed method can be used for calculating the integrated assessments of changes in the quality of poorly formalized systems, in particular, for calculating the integral indicators of the population's quality of life.
Keywords: control system quality, integral characteristic of quality, integral indicators of quality of life, noise in the measured data, signal-to-noise ratio, principal component method
Введение
При рассмотрении сложных социальных систем и понятий (политических, экономических, территориальных) постоянно приходится ранжировать объекты на основе оценочных категорий «лучше — хуже», «больше — меньше». Для характеристики объекта рассматривают численную агрегацию ряда присущих оцениваемому объекту показателей в единый композитный индекс (комплексный индикатор, интегральную характеристику). Хотя научное сообщество не пришло к единому мнению, возможно ли в принципе охарактеризовать многогранное явление единым скаляром, международные организации, аналитические центры и социальные науки на рубеже тысячелетий существенно увеличили количество применяемых интегральных индикаторов (композитных индексов) для измерения разнообразных латентных характеристик социума: социального капитала, человеческого развития, качества жизни, качества управления и др.
Переломным моментом в отношении использования композитных индексов стало внедрение в 1990 г. в социальные практики разработанного ООН индекса развития человеческого потенциала (ИРЧП, Human Recources Development Index), который публикуется ежегодно [1] и выступает в качестве инструмента оценки эффективности социально-экономических программ. Поскольку ИРЧП позволяет дать оценку только трем аспектам развития (здоровье, образование и уровень благосостояния), это послужило поводом для разработки индексов, характеризующих другие аспекты человеческого развития. С тех пор ООН были разработаны новые индексы: гендерный индекс развития (Gender Empowerment Measure), 1995 г.; индекс нищеты (Human Poverty Index), 1997 г.; индекс технологических достижений (Technology Achievement Index), 2001 г.; индекс готовности к электронному правительству ООН (United Nations e-Government Readiness Index), 2001 г. Место России в рейтинге стран по последнему индексу входит в число контрольных показателей Стратегии развития информационного общества в Российской Федерации и государственной программы «Информационное общество (2011-2020 годы)». В 2010 г. ООН был представлен новый индекс — индекс тендерного неравенства (Gender Inequality Index).
Проект Всемирного банка «Качество государственного управления» (Worldwide Governance Indicators, 1996 г.) публикует шесть индексов: свободы слова и контроля за властями (Voice and Accountability);
политической стабильности и отсутствия насилия (Political Stability and Absence of Violence); качества госуправления (Government Effectiveness); качества регуляторной политики (Regulatory Quality); законности (Rule of Law); коррумпированности (Control of Corruption). Кроме этого, разработками Всемирного банка являются также индекс легкости ведения бизнеса (Doing Business, 2003 г.) и индекс экономики знаний (The Knowledge Economy Index, 2004 г.) [2].
Ряд исследовательских центров и консалтинговых компаний, таких как Freedom House, Economist Intelligence Unit и Transparency International, ввели в оборот такие композитные показатели, как индекс восприятия коррупции (Corruption Perceptions Index), 1995 г.; барометр мировой коррупции (Global Corruption Barometer), 2003 г.; индекс свободы прессы (Freedom of the Press), 2002 г.; индекс развития демократии в странах переходного периода (Nations in Transit), 1995 г., обзор прав женщин (Women's Rights Survey), индекс качества жизни (Quality of Life Index), 2005 г. [3].
В России тоже ведется работа в этом направлении. Центром политических исследований России в 2010 г. разработан индекс международной безопасности iSi (international Security index), призванный показать, насколько в данный момент международная ситуация с точки зрения безопасности отличается от идеальной.
Обзор феноменального роста количества применяемых сводных индексов показывает, что из почти двухсот используемых ныне композитных индексов около 90% было сформировано после 1991 г. Среди причин, по которым композитные индексы нашли такое широкое применение в последние годы, можно выделить следующие.
Во-первых, композитные индексы обобщают сложную и многомерную информацию в простой форме, что дает возможность использовать их в меж-страновом или межрегиональном сравнении, в оценке эффективности управления. Использование для оценки объекта единой численной характеристики обеспечивает лучшее понимание конкретной ситуации, чем таблица со множеством показателей.
Во-вторых, композитные индексы удобны для интерпретации: количественный анализ позволяет оценить динамику ситуации и выделить случаи, когда может потребоваться вмешательство.
В-третьих, обязательства регулярно выпускать и обновлять международными и государственными структурами композитные индексы облегчает общение этих структур с заинтересованными сторонами, в том числе и с институтами гражданского общества и
с бизнесом, и демонстрируют приверженность этих структур к конкретной стратегии развития. Определение и обнародование композитных индексов человеческого развития дает в обществе толчок к началу дискуссии о том, что следует понимать под качеством управления.
Несмотря на огромное количество применяемых композитных индексов, нерешенные методические проблемы разработки интегральных индикаторов, неполнота и проблемы достоверности большинства статистических показателей приводят к тому, что часто вычисленные композитные индексы вызывают больше вопросов, чем дают ответов. Огромное количество применяемых методик оценивания латентных характеристик социальных систем свидетельствует о неудовлетворенности получаемыми результатами и о необходимости дальнейших исследований в этой области.
1. Постановка задачи вычисления интегральной характеристики изменения качества системы
Рассмотрим построение интегральной оценки системы из т объектов, для которой в моменты времени t = 1,... , р известны таблицы описаний объектов —
матрицы размерностью т*п А' ={а^ }^ ' = 1, 2,..., р.
Для каждого момента ' вектор интегральных показателей будет иметь вид
д' = А' ■ м', (1)
где
д' = (д'\,д'2,...,д'т} — вектор интегральных
индикаторов, = {у>\,М2,...,м'т^ — вектор весов
показателей для момента ', определенный с помощью метода главных компонент, А' — матрица предобра-ботанных данных для момента '. Для построения интегрального индикатора требуется найти веса показателей м'.
При использовании методов вычисления интегральных характеристик «с учителем» веса в (1) назначаются экспертами. Метод экспертных оценок широко используется в силу простоты получения информации. Однако применение этого метода имеет некоторые особенности. Во-первых, не для каждой сложной системы существует достаточное количество квалифицированных экспертов. Во-вторых, экспертные услуги, как правило, являются товаром, поэтому не могут быть объективными. От этих недостатков свободны формальные методы, не использующие человеческих предпочтений для оценки ситуации. К таким методам относят метрический метод и метод главных компонент.
Обычно вектор интегральных индикаторов дРСА = Ам есть проекция векторов — строк матрицы унифицированных данных А на первую главную компоненту, а собственный вектор м соответствует максимальному собственному значению ковариационной матрицы [4]. Этот метод используется для оценки статических систем в случае, если первая главная компонента хорошо приближает моделируемую ситуацию, т.е. в случае, если максимальное собственное число ковариационной матрицы дает
вклад не менее 55% в сумму всех собственных чисел. Такое соотношение выполняется, если рассматривается небольшое количество признаков и одно из свойств системы явно доминирует над остальными. При описании социально-экономических систем такое предположение не выполняется и структура системы не допускает простого приближения. В этом случае проекцию на первую компоненту нельзя считать удачной оценкой. Ситуацию можно исправить, если вместо одной компоненты выбрать I таких компонент, чтобы относительная доля разброса, приходящаяся на первые I главных компонент:
+ ^2 +... +
УI =
^ + 12 +... + ^п
>е
(2)
была не менее определенной величины е. Выбрав главные компоненты в случае, когда результаты применения метода главных компонент (или метода факторного анализа) устраивают исследователя, для каждого признака эффект воздействия выбранных факторов суммируем и так определяем веса в (1).
Если максимальное собственное число ковариационной матрицы дает вклад менее 55% в сумму всех собственных чисел, то в качестве выхода из этой ситуации рассматривается согласно [4] деление исходной системы на блоки-подсистемы, описываемые меньшим количеством переменных, в которых необходимое условие выполнено. Однако применение этой методики для ряда последовательных наблюдений дает неожиданные результаты, в частности скачкообразное резкое изменение рейтинга для многих объектов в условии стабильной ситуации. В работе [5], исследующей интегральные показатели качества жизни населения юга Тюменской области за 2005-2008 гг., среднее изменение рейтинга за 3 года составило около 18%, причем 10 объектов из 25 имеют среднее изменение рейтинга более 20%. В исследовании [6] приводятся ранги муниципальных образований Самарской области для трех последовательных наблюдений (2002-2004 гг.). Среди 25 представленных сельских поселений среднее изменение рейтинга составит около 23% за год, среди 10 городов — около 17%. Для сравнения можно привести цифры, характеризующие изменение рейтинга 25 стран ЕС для трех последовательных наблюдений (2009, 2010, 2011 годы) по методике ООН расчета ИРПЧ. Среднее изменение рейтинга по трем наблюдениям составит менее 8% в год, и только один объект из 25 имеет изменение рейтинга более чем 20% .
Следует отметить, что использование при предобработке данных локальных (по текущему наблюдению) значений параметров унификации позволяет отследить не динамику изменения характеристики, а только положение объектов относительно друг друга. В ситуации, когда вектор весовых коэффициентов целевой функции (координаты собственного вектора) имеет коэффициенты разных знаков, предлагается рассматривать после соответствующей нормировки квадраты таких коэффициентов. Такой подход очевидно меняет геометрический смысл решения. Влияние особенностей алгоритма на адекватность получаемого решения исследовано в [7].
2. Построение интегральной характеристики изменения качества системы как решение
задачи выделения сигнала в условиях априорной неопределенности
Чтобы иметь возможность оценивать характеристики системы в динамике, посмотрим на получаемую информацию как на слабый сигнал, который нужно выделить из шума. Измерение неизбежно связано с точностью измерительного прибора, поэтому полученный с помощью измерения результат неизбежно содержит ошибку. Статистические данные тоже неизбежно содержат погрешность измерения и любой результат, полученный на основании этих данных, будет содержать неустранимую ошибку. Переход к другому моменту времени означает изменение данных, которое вызвано как изменением ситуации, так и случайными факторами. Предполагая непрерывную зависимость вычисляемого показателя от изменения входных данных, выделим сигнал из за-шумленных данных на основе метода главных компонент.
На основе вычисленных для различных наблюдений собственных векторов (упорядоченных в порядке убывания собственных чисел) нужно распознать случайные и неслучайные компоненты этих векторов и определить значения координат неслучайных переменных этих векторов. Наличием неслучайного (т.е. значимого) вклада переменной в структуру главных компонент будем считать не большую величину факторной нагрузки, а инвариантность факторной нагрузки при возмущениях, признаком которой будет величина отношения сигнал/шум, определяемая средними значениями переменной и среднеквадратичным отклонением. Если это отношение выше некоторого порогового значения, такую переменную считаем неслучайной — действующей. При невыполнении такого соотношения переменная характеризует шумовую составляющую сигнала и не участвует в дальнейшем рассмотрении. Для проверки этого условия нужно согласовать направления собственных векторов, которые определяются с точностью до направления, в отличие от собственных чисел, определяемых однозначно. На рисунке представлен выбор
направления собственных векторов для первой главной компоненты.
Направление собственных векторов выбираем, чтобы максимизировать услышанный сигнал — сумму величин отношения сигнал/шум у действующих переменных. На левом рисунке видно, что направление собственного вектора для 2007 г. нужно изменить, для того чтобы описание системы для разных моментов времени было корректным.
3. Алгоритм построения интегральной характеристики изменения качества системы на основании регистрируемых измерений как решение задачи выделения полезного сигнала на фоне шумов
Построение латентной интегральной характеристики системы на основе измеряемых показателей для ряда последовательных наблюдений на основе метода главных компонент с учетом наличия шума в измеряемых данных (ОСШ-алгоритм) включает следующие шаги.
1 шаг. Подготовка данных:
— выбор значения ОСШ для рассматриваемой системы;
— определение набора переменных и деление исходных переменных на блоки исходя из содержательных соображений;
— обеспечение однородности выборки: устранение пропущенных значений, коллинеарности данных;
— унификация показателей.
Дальнейшие шаги проделываем для каждого блока отдельно.
2 шаг. Определение априорных собственных векторов и собственных чисел для каждого наблюдения:
— центрирование унифицированных переменных;
— вычисление по центрированным значениям унифицированных показателей ковариационной матрицы, совпадающей в этом случае с матрицей корреляций;
— нахождение для каждого наблюдения собственных значений ковариационной (корреляционной) матрицы, ранжированных по убыванию;
Согласование направлений собственных векторов для первой главной компоненты. Слева — исходные направления, справа — выбор направления собственных векторов, обеспечивающего максимальную сумму амплитуд действующих сигналов
— нахождение собственных векторов, соответствующих собственным числам.
3 шаг. Определение эмпирических собственных чисел. Согласование направлению собственных векторов и определение эмпирических главных компонент:
— вычисление эмпирических значений собственных чисел как среднего значения собственных чисел, упорядоченных для различных выборок по убыванию;
— выбор направления собственных векторов, которое максимизирует сумму ОСШ у действующих переменных (у переменных, для которых вычисленное ОСШ превосходит заданный порог);
— определение эмпирических главных компонент: факторные нагрузки у недействующих переменных обнуляются, для действующих переменных в качестве значения факторной нагрузки принимаем среднее значение по всем наблюдениям (при согласовании направлений собственных векторов).
4 шаг. Согласование направлений главных компонент:
— нормирование главных компонент умножением на квадратный корень из соответствующего эмпирического собственного числа;
— согласование направлений получившихся главных компонент, обеспечивающих максимальное значение целевой функции;
— нахождение весовых коэффициентов целевой функции суммированием нагрузок согласованных эмпирических главных компонент;
— вычисление интегрального показателя как суммы произведений значений вектора весов и матрицы унифицированных показателей.
^ = А'-Ж * (3)
* / * * * \ „ где Ж = Ы 1, » 2,...,— вектор, полученный суммированием эмпирических собственных векторов.
Для фиксированного момента ' интегральную оценку удобнее записать для каждого рассматриваемого объекта с номером i в виде аддитивной свертки
данных с весами, определяемыми вектором Ж *, координаты которого представляют сумму значений факторных нагрузок у выбранных значимых переменных:
4' -а'], i = 1, 2,---т, »** = , 1 = 1, 2,...,и. (4) 1=1 ?=1
5 шаг. Определение весовых коэффициентов блоков и вычисление интегральной характеристики системы:
— для каждого блока определяем его вес, исходя из выбранного критерия информативности (дисперсионного или иного);
— вычисляем характеристику всей системы, учитывая веса блоков.
Вычисленные по этому алгоритму весовые коэффициенты эмпирических главных компонент дают удовлетворительное решение задачи шумоподавления в рассматриваемом наборе данных и позволяют достаточно точно представить структуру рассматриваемой системы, о чем свидетельствует адекватность
получаемых по этому алгоритму интегральных характеристик системы.
Подходы к оценке числа главных компонент по необходимой доле объясненной дисперсии формально применимы всегда, однако неявно они предполагают, что нет разделения на «сигнал» и «шум», и любая заранее заданная точность имеет смысл. При разделении данных на полезный сигнал и шум задаваемая точность теряет смысл и требуется переопределить понятие информативности. Очевидным образом информативность определяется применяемым параметром ОСШ и требует дальнейшего уточнения.
Если при применении МГК используется эвристика, основывающаяся на гипотезе о наличии «сигнала» и «шума», то считается, что метод главных компонент работает как фильтр: сигнал содержится, в основном, в проекции на первые главные компоненты. Однако может случиться, что именно младшие главные компоненты несут необходимую смысловую нагрузку, и качественное описание структуры системы требует либо всех главных компонент, либо их достаточно большого количества. Может оказаться, что ценная для конкретной задачи информация содержится как раз в направлениях с меньшей дисперсией. Размерность пространства признаков в задачах вычисления интегральной характеристики качества сложной системы не является чересчур большой, вычисления производятся небольшой серией и вычислительных проблем при определении собственных чисел и векторов не возникает, что позволяет вычислять достаточное количество главных компонент. Однако отказ от редуцирования пространства данных не снимает с повестки для обсуждения критерия информативности при применении алгоритма.
Работа выполнена при финансовой поддержке проектной части государственного задания в сфере научной активности Министерства образования и науки Российской Федерации, проект №1.949.2014/К.
1. Human Development Reports. 1990-2014. [Электронный ресурс]. URL: http://hdr.undp.org/en/reports/ (дата обращения: 13.01.2015).
2. The World Bank Group. 2013. The Worldwide Governance Indicators (WGI) project [Электронный ресурс]. URL: http://info. worldbank. org/ governance/wgi/index.asp (дата обращения: 13.01.2015).
3. Freedom House. 2015 [Электронный ресурс]. URL: http://www.freedomhouse.org/ (дата обращения: 13.01.2015).
4. Айвазян С.А. Интегральные индикаторы качества жизни населения: их построение и использование в социально-экономическом управлении межрегиональных сопоставлениях. М.: ЦЭМИ РАН, 2000. 56 с.
5. Гайдамак И.В., Хохлов А.Г. Моделирование интегральных показателей качества жизни населения юга Тюменской области // Вестник Тюменского гос. ун-та. 2009. №6. С.176-185.
6. Айвазян С.А., Степанов В.С., Козлова М.И. Измерение синтетических категорий качества жизни населения региона и выявление ключевых направлений совершенствования социально-экономической политики (на примере Самарской области и ее муниципальных образований) // Прикладная эконометрика. 2006. №2(2). С.18-84.
7. Жгун Т.В. Исследование формальных методов построения латентной характеристики качества систем // Вестник НовГУ. Сер.: Физико-математические науки. 2014. № 80. С.13-19.
References
1. Human Development Reports. 1990-2014. United Nations Development Programme, 1990-2014. Available at: http://hdr.undp.org/en/reports/ (accessed 13.01.2015).
2. The World Bank Group. 2013. The Worldwide Governance Indicators (WGI) project. Available at: http://info.worldbank.org/governance/wgi/index.asp (accessed 13.01.2015).
3. Freedom House. 2015. Available at: http://www.freedomhouse. org/ (accessed 13.01.2015).
4. Ayvazyan S.A. Integral'nye indikatory kachestva zhizni nase-leniia: ikh postroenie i ispol'zovanie v sotsial'no-ekonomicheskom upravlenii i mezhregional'nykh sopostavlenii-akh [Integral indicators of life quality of population: their construction and use in social and economical management and for inter-regional comparisons], Moscow, CEMI RAS, 2000. 56 p.
5. Gaidamak I.V., Khokhlov A.G. Modelirovanie integral'nykh pokazatelei kachestva zhizni naseleniia iuga Tiumenskoi
oblasti [Modelling of integral indexes of life quality for the south of Tyumen region]. Vestnik Tiumenskogo gosu-darstvennogo universiteta - Tyumen State University Herald, 2009, no. 6, pp. 176-185.
6. Ayvazyan S.A., Stepanov V.S., Kozlova M.I. Izmerenie sin-teticheskikh kategorii kachestva zhizni naseleniia regiona i vy-iavlenie kliuchevykh napravlenii sovershenstvovaniia sot-sial'no-ekonomicheskoi politiki (na primere Samarskoi oblasti i ee munitsipal'nykh obrazovanii [Measuring the synthetic categories of quality of life in a region and identification of main trends to improve the social and economic policy (Samara Region and its constituent territories)]. Prikladnaia ekonometrika
- Applied Econometrics, 2006, no. 2(2), pp. 18-84.
7. Zhgun T.V. Issledovanie formal'nykh metodov postroeniia la-tentnoi kharakteristiki kachestva system [The research of formal methods for building latent characteristics of a system quality]. Vestnik NovGU. Ser. Fiziko-matematicheskie nauki
- Vestnik NovSU. Issue: Physico-Mathematical Sciences, 2014, no. 80, pp 13-19.