Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
УДК 004.62
Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.», государственный контракт № 07.514.11.4115.
Миргалеев А.Т., Тутов А.А.
МЕТОД ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ФОРМИРОВАНИЯ ОПИСАНИЙ ОБСТАНОВКИ В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМАХ
Рассмотрен метод интеллектуального анализа данных для формирования описаний обстановки в информационноаналитических системах на основе алгоритмов кластеризации MST и Fuzzy C-means.
Особенности данных, используемых в ИАС для описания последствий ЧС, определяют ряд требований к методам интеллектуального анализа данных:
- учет разнородности моделей, используемых для описания обстановки на территориях субъектов РФ и отсутствие механизмов их интеграции;
- необходимость адаптации и сопряжения с существующими методиками прогнозирования ЧС;
- учет неопределенности, нечеткости, неточности, неполноты.
Методы, основанные на кластеризации, рассмотренные в работах
[1 - 7], могут быть использованы в ИАС для формирования описания последствий ЧС в подразделениях ОВ. Вместе с тем четкое разделение на кластеры возможно только в «идеальных» условиях и при сильно различающихся параметрах объектов кластеризации. Поэтому для решения задач интеллектуального анализа данных в ИАС ОВ субъектов РФ целесообразно применять нечеткие методы кластеризации, в которых разбиение данных выполняется на частично пересекающиеся под-множества.
109
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
Разработан метод интеллектуального анализа данных в ИАС на основе алгоритмов MST и Fuzzy C-means. Схема метода представлена на рис. 1.
Рис. 1 - Схема метода интеллектуального анализа данных в ИАС
110
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
Входные данные метода:
1 =(«> *2 - in \ - множество наблюдаемых и контролируемых
параметров обстановки на территории субъекта РФ, где im - значения факторов (параметры обстановки), описываемые данными мониторинга, для кластеризации, n - количество параметров кластеризации, m =т n;
im =( (Value ml, tx), {Value m2,12 )-{Valueml, tt )|, где Valuemj - значение j-го фактора m-го параметра, описывающего обстановку, tj - тип атрибута параметра обстановки, l - количество атрибутов параметра обстановки, j =17;
tj —\ValueTypej,FieldTypej1, где ValueTypej - тип значения атрибута, VaiueType j <EVaiueTypes, FieldType. - вид значения атрибута,
FieldType . e FieldTypes •
j 5
Множество типов значений атрибута:
ValueTypesI=d^o4ucneHHuu тип Денежный тип Дин гвистический тип},
где Целочисленный тип e Z Денежный тип e R
5
Лингвистический тип с Словарная система •
Словарная система —( Лингв.тип1, Лингв.тип2,..., Лингв .типи | ,
где Лингв.типи - объект словарной системы, характеризующий оценочные/качественные показатели параметров обстановки.
Множество видов значений атрибута:
- FieldTypes —(Входное, Идентифицирующее, Информационное \ , где
«Входное» - означает участие атрибута параметра обстановки в дальнейших расчетах, «Идентифицирующее» - обозначает ключевой атрибут параметра обстановки, идентифицирующий каждый параметр обстановки во входном наборе данных, «Информационное» -обозначает атрибут параметра обстановки, не оказывающий влияние на результаты работы метода;
- q - максимальное количество кластеров, q <n;
- K —(Ki.K2,■■■ .Kn\, где Km - весовой коэффициент влияния атрибута параметра обстановки, Km Gl 0;1J;
- p - размазанность кластеров, p e{ 0;10J;
- w - степень удаленности элементов, w e {0;1J;
- Metric - способ определения расстояния между параметрами обстановки, Metric e Metrics .
Множество способов определения расстояния между параметрами обстановки:
D Евклидово расстояние, Квадрат Евлидова\\
Metrics —\ \ -
\ расстояния, расстояние Чебышева \ ’
111
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
OstTreeMethod - способ построения минимального остовного
дерева, OstTreeMethod Е OstTreeMethods ;
Множество способов построения минимального остовного дерева:
J Алгоритм Борувки, Алгоритм Крускала,\\
OstTreeMethods =J J •
J Алгоритм Прима J’
NormMethod - способ проведения нормализации значений
атрибутов, NormMethod Е NormMethods ;
Множество способов проведения нормализации значений
атрибутов:
NormMethodsЛt{нейная нормализация Статистич еская нормализация}.
Выходными данными метода являются входные данные, распределенные по кластерам, соответствующим типам возможной обстановки на территории субъекта РФ:
C =|CPC2,..., Cc | Oc ^ max,c <q, C1 U C2 U... U Cc =I\
(3.28)
Е 0,1|
i Е C , m =1, n, j =1, c .
Метод интеллектуального анализа данных в ИАС состоит из пяти этапов.
Этап 1. Нормализация значений атрибутов
В случае линейной нормализации выполняется следующее выражение:
Value.
mj
)
tЕ
Целочисленный тип, Денежный тип\
В случае статистической нормализации выполняется следующее выражение:
У Value
Lu m
п Value - ——
j mj n
Value :=J n
mj u
MaxWalueJ Ф0.
ViValue )2 Lu mj m= ■ n У Value ' mj m= n
n J n n
t Е
] Целочисленный тип\ ] Денежный тип [
Этап 2. Вычисление матрицы взаимных расстояний между параметрами обстановки
dmj = | |im " j =Metric^im , ij ) ,
112
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
где Metric - способ определения расстояния между параметрами обстановки.
Если Metric =Евклидово расстояние то
d
mj
- Value
Если Metric = Квадрат Евклидова расстояния то
d . = Z( Value. - Value .
mj L iw jw
2
Если Metric = Расстояние Чебышева то
d . =Max\Value. - Value I*K
mj L iw jw J w
J w J ?
где m, j e[1, l J, w =1, l при условии FieldType [ wJ =' Входное" .
Этап 3. Построение минимального остовного дерева Построение минимального остовного дерева выполняется по выбранному способу построения дерева с использованием матрицы взаимных расстояний между параметрами обстановки D.
Этап 4. Разделение параметров обстановки на кластеры и построение матрицы нечеткого разбиения Матрица нечеткого разбиения
F =[Vnj \, Vmj e[ 0 1]. m ^ J =1, l ,
где vmj - степень принадлежности m-го параметра обстановки j-му кластеру. Матрица разбиения обладает следующими свойствами
n __
ZBmj =1, j =1, h
m=1
0 <Z^mj ^n, m =1, n
j=1
Шаг 1. Определение количества кластеров итерации: n :=q.
Шаг 2. Разделение минимального остовного дерева на n кластеров на основании длины ребер дерева по убыванию величины определяется по формуле
П m-J = •l п
dn :=П 0| dn = Max□
mj П mJ п •
Шаг 3. Расчет центров выделенных кластеров
Vn = Avg(|i. |i. eCI)
где Avg - оператор вычисления среднего значения показателей параметров обстановки, входящих в кластер n, m =тn, j =тг.
Для числовых типов оператор Avg определяется выражением:
Z | Value r | FieldType [ w] = Входное"|
Avg[ r\=—------------Vn-----------------’ j =*> ^ r =!’l.
I m I
Для лингвистических типов оператор Avg определяется выражением, учитывающим взаимное расстояние между значениями
113
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
анализируемого атрибута параметра обстановки в целях его минимизации или выбирающего значения атрибута, имеющего наибольшую частоту повторяемости:
[ r J =□ □ □
__ □
| .FieldType [ -^J —' Входное''^ .
□
□
□
lue . - Valu i . , ih eV
h eV
j —1,l,
где r =1л, , ф - частота значения атрибута в пределах кластера VJ .
h —1,l
Шаг 4. Расчет матрицы расстояний от параметров обстановки до центров кластеров Vm
d" —I\V" - ill —MetriCvn, i.), m =\n, j =\J
где Metric - способ определения расстояния между параметрами обстановки.
Если Metric —Евклидово расстояние то
d
mj
- Value
Если Metric —Квадрат Евклидова расстояния то
d . —Y{Value. - Value. |*K )2
mj L iw jw J w
Если Metric —Расстояние Чебышева то
d —MaxlVaiue - Value |*K
mj
jw J
где W — при условии FieldType IwJ —’ Вх°дное".
Шаг 5. Нормализация матрицы расстояний от параметров обстановки до центров кластеров Vm
□ dn
ln.
mj
, □---r—г, Maxidn.) ^0 — —
dj —□ Max(dnmj)’ mj , m —1,n, j—1,l
□ 1, Maxi dn) —0 .
Шаг 6. Соотнесение параметров обстановки к кластерам в соответствии со степенью удаленности элементов кластера (w)
i. eVn | dn'. <w или dn'. —Minid"’.), m —1,n, j —1,l
Шаг 7. Расчет степени принадлежности кластеру.
Um
{1 - d"’.)2, m —1, n, j —1, l
mj 5 4 4 J 5
Шаг 8. Нормализация матрицы нечеткого разбиения
и —. —1, l
i mj n 9 J 9
Y Umj .
m—1
Шаг 9. Вычисление центров полученных кластеров с использованием матрицы нечеткого разбиения
114
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
Ilp *i
*—i 1 mj J
m_1
| i eVn'
yn ____ lj^m
Щ
m _1, n
II
m_1
Для лингвистических атрибутов центра кластера вычисление
Vn'\ r I _ Value
j _Max{l
производится с использованием выражения:
Г Г Lmj _Max{LmJ ’
Шаг 10. Оценка качества полученного разбиения Оценка качества полученного разбиения на n кластеров с использованием полученных центров кластеров:
|Vn'| *Iup. *
m i mj
I
m_1,n
j_1
Vn - i.
m J
Min
m*j
On _-
1 Vn - i. m J □ * Max -- Vn - i. mj ]*I|\Vn' - i \ m j * n
□ ‘jeK' ‘j eVm' ] i. V
m * n
где |vm I - количество элементов в кластере m;
||Vn' - i.ll _Metric(vn', i ) .
m j
расстояние от центра кластера m до
i. ev.
элемента l,;
ije vm - отражение условия о принадлежности элемента кластеру. Шаг 11. n :_n - 1
Шаг 12. Если n>0, то переход на шаг 2 Этап 5. Выбор наилучшего разбиения:
Оопт _MAXO)
n_1,q
Разработанный метод обладает следующими преимуществами:
- двухэтапная кластеризация данных;
- работа с лингвистическими атрибутами параметров обстановки с применением нечеткой логики и введением словарной системы для вычисления расстояний между параметрами обстановки во входном наборе данных;
- использование весовых коэффициентов для анализируемых атрибутов параметров обстановки с целью повышения/понижения влияния атрибутов на результаты кластеризации и адаптации метода к различным ОВ;
- использование степени удаленности параметров обстановки для соотнесения их в кластеры при разделении;
- использование «размытости» кластера, для определения нечеткости отнесения параметра обстановки к кластеру;
- использование критерия оценки разбиения на кластеры с учетом специфики параметров обстановки.
115
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
Таким образом, в результате применения в процессе формирования описаний обстановки на территории субъектов РФ методов кластеризации в начале при помощи метода MST происходит разбиение мониторинговых данных на кластеры по видам ЧС, а затем при помощи метода Fuzzy C-means - по последствиям ЧС.
Библиографический список
1. Загоруйко, Н.Г. Прикладные методы анализа данных и знаний. -Новосибирск: Изд-во ин-та математики, 1999.
2. Барсегян, А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. - 2-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2007. - 384 с.: ил.
3. Барсегян, А.А., Куприянов, М.С., Степаненко, В.В., Холод, И.И. Методы и модели анализа данных: OLAP и Data Mining - СПб.: БХВ-Петербург, 2004. - 336 с.: ил.
4. Макарычев, П.П., Афонин, А.Ю. Оперативный и интеллектуальный анализ данных - Пенза: ПГУ, 2010. - 142 с.
5. Паклин, Н. Алгоритмы кластеризации на службе Data Mining -
http://www . basegroup.ru/library/analysis/clusterization/datamining/ -
Доступность страницы проверена на 19.07.2011.
6. Мандель, И.Д. Кластерный анализ - М.: Финансы и статистика, 1988. - 176 с.: ил.
7. Дюран, Б., Оделл, П. Кластерный анализ. Пер с англ. Е.З. Демиденко. Под ред. А.Я. Боярского. Предисловие А.Я. Боярского. - М.: «Статистика», 1977. - 128 с.: ил.
116