Научная статья на тему 'Алгоритм классификации экологических рисков методами нечеткой кластеризации'

Алгоритм классификации экологических рисков методами нечеткой кластеризации Текст научной статьи по специальности «Математика»

CC BY
239
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРИЗАЦИЯ / ЭКОЛОГИЧЕСКИЙ РИСК / ГЕОИНФОРМАЦИОННАЯ СИСТЕМА / ГИС / КЛАССИФИКАЦИЯ / РИСК / ГЕОДАННЫЕ / МОНИТОРИНГ / CLUSTERIZATION / ECOLOGICAL RISK / GEOINFORMATION SYSTEM / GIS / CLASSIFICATION / RISK / GEODATA / MONITORING

Аннотация научной статьи по математике, автор научной работы — Захаров Сергей Геннадьевич, Володина Юлия Юрьевна, Таганов Александр Иванович, Колесенков Александр Николаевич

Рассматривается формализованный подход к анализу и классификации рисков, основанный на использовании методов автоматической классификации и нечеткого кластерного анализа. Выявлено, что для анализа и мониторинга экологических рисков необходима оперативная переработка нечеткой рисковой информации в удобную форму для специалистов, принимающих ответственные решения по экологическому мониторингу территорий. Предлагается алгоритм нечетких с-средних, имеющий итеративный характер последовательного улучшения некоторого исходного нечеткого разбиения рисков, которое задается исследователем или формируется автоматически по некоторому эвристическому правилу. Предложенный алгоритм решения задачи нечеткой кластеризации экологических рисков реализован в виде программного модуля для применения в составе ГИС.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Захаров Сергей Геннадьевич, Володина Юлия Юрьевна, Таганов Александр Иванович, Колесенков Александр Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ALGORITHM OF CLASSIFICATION OF ENVIRONMENTAL RISKS BY METHODS OF FUZZY CLUSTERIZATION

Formalized approach to risk analvsis and classification based on the use of automatic classification methods and fuzzy cluster analvsis Is considered. It was revealed that for the analvsis and monitoring of environmental risks, operative processing of fuzzy risk Information In a convenient form for specialists making responsible decisions on environmental monitoring of territories Is necessary. The algorithm of fuzzy c-means Is proposed, which has the Iterative character of sequential Improvement of some Initial fuzzy partition of risks, which Is set by the researcher or Is formed automatically according to some heuristic rule. The proposed algorithm for solving the problem of fuzzy clustering of environmental risks Is Implemented as a software modulefor appl ication In the GIS.

Текст научной работы на тему «Алгоритм классификации экологических рисков методами нечеткой кластеризации»

MATHEMATICAL MODEL FOR DETERMINING THE COMPOSITION AND UNIFICATION OF SOFTWARE INTEGRATED ONBOARD INFORMATION

AND CONTROL SYSTEMS

O. V. Esikov, S.M. Tsybin, A. V. Peteshov

Formalized the problem of optimizing selection of a single core software on-Board information management systems. Proposed options for harmonization of the structure of the software side of automation.

Key words: on-Board information and control systems, discrete optimization, swarm algorithms.

Esikov Oleg Vitalyevich, doctor of technical sciences, professor, chief specialist, cdbae@,cdbae.ru, Russia, Tula, JSC Central Design Bureau of Automation,

Tsybin Stanislav Michailovich, leading engineer, cdbae@,cdbae. ru, Russia, Tula, JSC Central Design Bureau of Automation,

Peteshov Andrey Viktorovich, candidate of technical sciences, professor, head of the department, D-john_post@mail. ru, Russia, Cherepovets, Cherepovets Higher Military Engineering School of Radioelectronics

УДК 004.9; 528.87

АЛГОРИТМ КЛАССИФИКАЦИИ ЭКОЛОГИЧЕСКИХ РИСКОВ МЕТОДАМИ НЕЧЕТКОЙ КЛАСТЕРИЗАЦИИ

С.Г. Захаров, Ю.Ю. Володина, А.И. Таганов, А.Н. Колесенков

Рассматривается формализованный подход к анализу и классификации рисков, основанный на использовании методов автоматической классификации и нечеткого кластерного анализа. Выявлено, что для анализа и мониторинга экологических рисков необходима оперативная переработка нечеткой рисковой информации в удобную форму для специалистов, принимающих ответственные решения по экологическому мониторингу территорий. Предлагается алгоритм нечетких с-средних, имеющий итеративный характер последовательного улучшения некоторого исходного нечеткого разбиения рисков, которое задается исследователем или формируется автоматически по некоторому эвристическому правилу. Предложенный алгоритм решения задачи нечеткой кластеризации экологических рисков реализован в виде программного модуля для применения в составе ГИС.

Ключевые слова: кластеризация, экологический риск, геоинформационная система, ГИС, классификация, риск, геоданные, мониторинг.

Теория и практика экологического мониторинга территорий регионов и анализа географических данных по экологическим рискам свидетельствует о достаточно высокой сложности этой задачи. Субъективная информация, циркулирующая на этапах идентификации и анализа рисков,

усложняет эффективное выполнение процесса анализа и оценки экологических рисков. Для анализа и мониторинга экологических рисков необходима оперативная переработка нечеткой рисковой информации в удобную форму для специалистов, принимающих ответственные решения по экологическому мониторингу территорий. Для решения этой задачи в статье рассматривается формализованный подход к анализу и классификации рисков, основанный на использовании методов автоматической классификации и нечеткого кластерного анализа.

Теоретическая часть

Формально задача нечеткого кластерного анализа экологических рисков выглядит следующим образом: имеется конечное множество экологических рисков, полученное после этапа идентификации

R = {Ri, R2,..., Rn}. Другими словами, имеется множество объектов кластеризации [1-3]. Пусть также есть некоторое конечное множество характеристик региона P = {Pi,P2,...,Pn}. На характеристики влияют потенциальные рисковые события, при этом значения последствий этого влияния можно оценить.

Далее полагаем, что для каждого объекта кластеризации из множества, в некоторой количественной шкале измерены все признаки P. То есть каждому элементу Rj е R некоторым образом поставлен в соответствие

вектор Xj = (xi,x2,...,xlq), где xj - количественное значение характеристики pj е P для объекта кластеризации Rj е R. Для определенности предположим, что Xj это некоторое действительное значение.

Для того чтобы определить каждый вектор Xj = (xj, x2,..., xj) применяется одна из шкал, используемых для измерений:

- номинальная (классификационная) шкала;

- ранговая (ординальная) шкала;

- шкала интервалов;

- шкала подобий (отношений).

Наборы значений всех признаков xj = (xi,x2,...,xj) представим двумерным массивом данных D размерностью (n х q), каждая строка в котором соответствует вектору xj.

Чтобы более точно понять вид целевой функции f (3( A)) добавим в рассмотрение еще несколько вспомогательных понятий [4,5].

Нечеткими множествами Ak будем называть искомые нечеткие группы экологических рисков, которые образуют нечеткое покрытие исходного множества объектов кластеризации A = R . Условие покрытия описывается формулой (1).

X тл, (R) = 1 (Щ е R)

i

I

(1)

где c - предварительно заданное общее число нечетких кластеров экологических рисков Л,(kе {2,...,c}).

Центром нечеткого кластера (или геометрическим центром) будем называть его типичного представителя. Вычисление центров для наших нечетких кластеров рисков Л, (k е{2,..., c}) будем производить по каждому признаку, используя формулу (2).

n

X (m Лк (R))m * x

v, = Mn--------------, ("kе {2,...,c},"pj е P), (2)

X (m Лк (Ri ))m

i=1

где m - экспоненциальный вес (некоторое действительное число больше единицы).

В общем случае, центр кластера это вектор v, = {vk, v|,..., v,} в некотором q-мерном пространстве. Это пространство является нормированным и, если характеристики региона измерены с использованием шкалы

отношений, изоморфным R,, другими словами v,j е R, [6].

Таким образом, сумма квадратов отклонений координат экологических рисков от центров нечетких кластеров это и есть наша целевая функция, которую будем вычислять по формуле (3).

, n c

f (л,, v)) XX (тл, (Ri))

i=1,=1

q

m X (xj - v] )2 j=1

(3)

При этом значение m выбирается в зависимости от числа элементов в рассматриваемом множестве экологических рисковых событий R. Чем больше мощность множества, тем меньше экспоненциальный вес m [7,8].

Беря во внимание все вышесказанное, окончательно обозначим задачу нечеткой кластеризации экологических рисков.

Исходные данные:

D - двумерный массив, с наборами значений всех характеристик ре-

гионов;

с - общее число кластеров (c е N и c > 1);

m - экспоненциальный вес.

Необходимо найти такое размещение экологических рисков Ri е R по нечетким кластерам, которое минимизирует нашу целевую функцию (3) при дополнительно накладываемых ограничениях (4) и (5). Размещение определяется матрицей U со значениями функций принадлежности.

n

^тлк (ai) > 0 ("кe{2,...,c})

i=1

тлк (a) > 0 ("кe{2,...,c}, "ai e л)

(4)

(5)

Ограничение (4) гарантирует отсутствие пустых кластеров в результирующем размещении. А условие (5) по сути, ни к чему не обязывает, так как следует из определения функции принадлежности.

По совокупности всех условий нашу задачу можно отнести к многоэкстремальной задаче математического неопределенного программирования [9,10].

Для выбора оптимального метода решения поставленной задачи автоматической кластеризации экологических рисков, с учетом важности и требований к размеру выделяемых наборов рисков по характеристикам экологии региона, будем придерживаться следующих советов [11,12]:

1) если у проработчика рисков имеются некоторые понятия об условиях группировки рисков в наборы, то предлагается использовать эвристические методы нечеткого подхода кластерного анализа;

2) если заранее установлено число кластеров, на которое необходимо разбить наш набор экологических рисков, то предлагается использовать методы оптимизации нечеткого подхода кластерного анализа;

3) если в результате необходимо получить небольшое по объему наглядное представление нечеткой структуры кластеризуемого набора рисков, то предлагается использовать иерархические методы.

Чтобы выбрать среди всего разнообразия методов, такой, который в наибольшей степени подходит для реализации нашего подхода к решению поставленной задачи, можно воспользоваться следующими наблюдениями:

1) при довольно большом количестве экологических рисков в исходном множестве, в котором можно выделить нечеткое подмножество, рекомендуется применять метод Г итмана-Лёвина;

2) при необходимости выполнить анализ исходного множества, в результате которого мы извлечем разбиение рисков на указанное количество чётких групп, рекомендуется применять метод Тамури-Хигути-Танаки;

3) при имеющемся представлении о минимальном количестве объектов в нечетком кластере и разрешенной возможности их пересечения, необходимо аргументировать выбранный порог кластеризации и рекомендуется применять метод Кутюрье-Фьёлео;

4) при необходимости наглядного представления результата кластеризации в условиях малого количества экологических рисков в исходном множестве и допущении о том, что полученные кластеры могут быть сложной формы, рекомендуется метод Бернштейна-Дзюбы;

5) при условии, что все рисковые события должны быть размещены по нечетким кластерам, количество которых является произвольным (то есть заранее неизвестным), рекомендуется метод Ягера-Филева;

6) при выборе одного из методов оптимизации, для аргументирования вида функционала, рекомендуется учитывать содержательную интерпретацию. Это объясняется тем, что помимо всего прочего (вид массива исходных значений, тип шкалы и т.д.) на выбор функционала оказывает влияние также специфика решаемой задачи.

Основываясь на указанных предложениях к решению задач такого типа, для кластеризации экологических рисков выберем подход, базирующийся на использовании метода нечетких c-средних (FCM) [13].

Данный подход основывается на том, что аналитиком указывается некоторое начальное разбиение *K(A) = {Ak | Ak с A} исходного множества (в принципе, такое разбиение может получаться и автоформированием по заданному эвристическому правилу). Далее в ходе нескольких итераций (количество которых задается априорно) происходит корректировка разбиения на основе пересчитанных значений функций принадлежности рисковых событий и центров кластеров.

Алгоритм выполняется до тех пор, пока не выполнится одно из двух условий:

выполнено заданное число итераций;

минимальный модуль разности значений функций принадлежности на двух соседних итерациях меньше некоторой величины, которая указывается априорно;

Представим запись разобранного выше алгоритма в псевдокодах, другими словами разобьем всю последовательность действий на предложения, каждое из которых представляет очередной шаг в алгоритме:

Фаза 1 - Инициализация:

1. Ввод необходимого количества кластеров экологических рисков - c(c е N и c > 1).

2. Ввод числа итераций алгоритма - s (s е N).

3. Ввод некоторой величины e(e е R+), которая описывает сходимость алгоритма.

4. Ввод экспоненциального веса - m.

5. Выбор исходного распределения рисков на кластеры ^(A) = {Afc | Afc с A} (при этом ни один из всех кластеров не должен быть пустым).

6. Ввод функций принадлежности рисков

Mk(Ri)("kе {2,...,c},Ri е R).

Фаза 2 - Выполнение алгоритма:

7. Рассчитать геометрические центры исходных кластеров по формуле (2).

8. Рассчитать целевую функцию по формуле (3).

9. НАЧАЛО цикла <параметр цикла i меняется от 1 до s, с шагом единица >

10. Образовать новое разбиение рисковых событий Ж^ (A) = {Afc | Afc с A} (при этом также ни один из всех кластеров не должен быть пустым).

11. Определить функции принадлежности для нового разбиения м/(R,)(Vk€ {2,...,c},R, e R).

12. НАЧАЛО если имеются кластеры для которых

q

Е (Xj - vkj )2 = 0, для ke{2,...,c} и R, e R. j=1

13. ТО, для меньшего к устанавливаем тк (Ri) = 1, для остальных

mi(Rj) = 0 (где l e {2,...,c},lФ к).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. КОНЕЦ если.

15. Выполнить пункты 7 и 8 для нового нечеткого разбиения экологических рисков.

16. НАЧАЛО если абсолютное значение разницы целевых функций

не больше заданного

f (Ak, vk) - f'(Ak, vkj )

£ £

17. ТО досрочный выход из цикла <параметр цикла i>.

18. ИНАЧЕ устанавливаем Ж(A) = Ж/(A).

19. КОНЕЦ если.

20. КОНЕЦ цикла <параметр цикла i>.

Фаза 2 - Окончание:

21. Вывод результирующего распределения экологических рисковых событий по кластерам Ж/ (A) = {Ak | Ak с A}.

Рис. 1. Окно ввода данных

147

Метод FCM, беря во внимание условия (1), (2), (4), (5), по своей сути является приближенным методом определения экстремума некоторого критерия оптимальности. Таким образом, полученные распределение экологи*

ческих рисков ^ (A), набор функций принадлежностей

mk(Rj)("kе {2,...,c},Rj e R) и геометрические центры кластеров являются локально-оптимальными.

Наименование риска Влияние риска на В функц-ть | надеж-ть | удоб.прим. | эффект-ть | удоб.сопр. | перен-ть В

Отсутствие описания основных функций л 0.76 0.54 0.22 0.34 0.61 0.39 А

Отсутствие описания частных функций 0.62 0.32 0.41 0.51 0.25 0.19

Отсутствие описания данных 0.56 0.44 0.51 0.18 0.26 0.33

Отсутствие описания алгоритмов 0.71 0.54 0.43 0.26 0.36 0.43

Отсутствие описания интерфейсов между к 0.52 0.49 0.36 0.42 0.33 0.19

Отсутствие описания интерфейсов с пользе 0.44 0.26 0.13 0.36 0.39 0.42

Отсутствие описания всех параметров 0.39 0.37 0.29 0.19 0.25 0.38

Отсутствие описания методов настройки ср 0.37 0.26 0.19 0.24 0.32 0.19

Отсутствие описания всех диагностических 0.42 0.35 0.27 0.41 0.26 0.13

Отсутствие описания способов проверки рг 0.45 0.42 0.34 0.25 0.19 0.18

Нереализованность всех исходных модулей 0.25 0.18 0.19 0.24 0.15 0.08

Нереализованность всех основных функций —1 0.23 0.09 0.20 0.19 0.17 0.13

Нереализованность всех частных функций 0.19 0.18 0.16 0.14 0.05 0.17

Нереализованность всех алгоритмов 0 0.17 0.06 0.06 0.09 0.06 0.05 0

<1 NN из _

|— Риски----------------------------------------------

©функциональности О эффективности

О надежности О удобства сопровождения

О удобства применения О преносимости

Кластеризация по важности

Рис. 2. Результат кластеризации по группам

Для достижения наиболее эффективного разбиения требуется неоднократно прогнать метод FCM для разнообразных входных данных, после чего сопоставить полученные значения целевых функций для одинакового количества кластеров [14]. На основе сравнения выбрать наиболее оптимальный вариант разложения экологических рисков по нечетким кластерам.

Практическая реализация

Для автоматизации алгоритма, и соответственно увеличения скорости решения описанной задачи, были написаны программные модули, которые без труда можно интегрировать в существующие геоинформационные системы.

Модули имеют графический пользовательский интерфейс, что позволяет в кротчайшие сроки обучиться работе с программой. Ввод исходных данных (экспертных оценок влияния рисков) производится на специальной форме (прототип формы представлен на рисунке 1), что делает его

интуитивно понятным и позволяет избежать ошибочных действий. Результаты выполнения анализа для наглядности также представляются на специальных формах в таблице (по группам качества) и на графике (по важности) (прототипы экранных форм представлены на рисунках 2 и 3).

Все это делает разработанные модули быстрым и удобным способом анализа большого числа рисковых событий, с наглядным представлением результатов.

Рис. 3. Результат кластеризации по важности

Заключение

Разработанный алгоритм нечеткой кластеризации экологических рисков, получивший программную реализацию, может интегрироваться в существующие ГИС для определения рационального состава экологических рисков в зависимости от характеристик региона.

Такая интеграция повышает эффективность работы, сокращает время анализа экологических рисков в условиях нечеткости исходных данных [15,16].

Дальнейшим направлением исследований выбранной области задач, связанных с оптимизацией процессов в условиях неопределенности, можно считать рассмотрение теоретических вопросов связанных с бионическими методами теории математического программирования в условиях нечеткости.

Список литературы

1. Вятченин Д.А. Содержательная интерпретация нечетких отношений сходства. Полигнозис. 2001. № 1. С. 20-25.

2. Гинко В.И. Экологический риск в системе управления риском // В мире научных открытий, 2013. №7.2 (43). С. 301-312.

3. Kolesenkov A., Kostrov B., Ruchkina E., Ruchkin V. Anthropogenic situation express monitoring on the base of the fuzzy neural networks // Proceedings - 2014 3rd Mediterranean Conference on Embedded Computing, MECO 2014 - Including ECyPS, 2014. 3. С. 166-168.

4. Батыршин И.З., Недосекин А.О., Стецко А.А., Тарасов В.Б., Язе-нин А.В., Ярушкина Н.Г. Нечеткие гибридные системы. Теория и практика М.: ФИЗМАТЛИТ, 2007. 208 с.

5. Таганов А.И. Методика анализа и сокращения рисков проектов сложных программных систем по характеристикам качества // Научнотехнический журнал «Вестник РГРТУ». Рязань: РГРТУ, 2010. Вып. 1 (31). С. 77-82.

6. Борисов В.В., Круглов В. В., Федулов А. С. Нечеткие модели и сети. М.: Горячая линия - Телеком, 2007. 284 с.

7. Костров Б.В., Свирина А.Г., Злобин В.К. Спектральный анализ изображений в конечных базисах. Монография. М: Курс, 2016. 172 с.

8. Таганов А.И. Применение нечетких наборов для формализации процессов анализа и идентификации важности рисков программного проекта // Научно-технический журнал «Системы управления и информационные технологии», 2007. № 4(30). С. 46-51.

9. Колесенков А.Н., Николаев Н.А. Исследование алгоритма нейросетевого прогнозирования нелинейных временных рядов // современное состояние и перспективы развития технических наук: сборник статей Международной научно-практической конференции. 2015. С. 59-62.

10. Конкин Ю.В., Колесенков А.Н. Распознавание изображений на основе текстурных признаков Харалика и искусственных нейронных сетей // Известия Тульского государственного университета. Технические науки. Тула: Изд-во ТулГУ, 2016. Вып. 2. С. 117-123.

11. Kolesenkov A.N., Taganov A, Babaev S. Ecological Monitoring of Dangerous Objects on the Basis of Vegetation Indexing and Evolutionary Approach // Proceedings - 2016 5rd Mediterranean Conference on Embedded Computing (MECO), Bar, Montenegro, 2016. P. 468-472.

12. Костров Б.В., Костров В.В., Саблина В.А. Алгоритм восстановления изображений с периодическими низкочастотными искажениями // Радиотехника. 2009. № 11. С. 92-95.

13. Леоненков А. Нечеткое моделирование в среде MATLAB и fuzzyTECH. СПб.: БХВ-Петербург, 2003. 736 с.

14. Лю Б. Теория и практика неопределенного программирования / Пер. с англ. М.: БИНОМ. Лаборатория знаний, 2009. 416 с.

150

15. Колесенков А.Н. Технология поддержки принятия управленческих решений на основе оперативного мониторинга пожарной обстановки // Известия Тульского государственного университета. Технические науки. 2015. Вып. 9. С. 157-163.

16. Бабаев С.И., Елесина С.И., Костров Б.В. Сравнение модифицированного поискового и генетического алгоритмов нахождения глобального экстремума в системах навигации // Вопросы радиоэлектроники. 2010. Т. 1. № 1. С. 145-152.

Захаров Сергей Геннадьевич, асп., ser_zah@mail.ru, Россия, Рязань, Рязанский государственный радиотехнический университет,

Володина Юлия Юрьевна, асп., volodina.djuliaggmail.com, Россия, Рязань, Рязанский государственный радиотехнический университет,

Таганов Александр Иванович, д-р техн. наук, проф., alxtag@yandex. ru, Россия, Рязань, Рязанский государственный радиотехнический университет,

Колесенков Александр Николаевич, канд. техн. наук, доц., sk62@mail.ru, Россия, Рязань, Рязанский государственный радиотехнический университет

ALGORITHM OF CLASSIFICA TION OF ENVIRONMENTAL RISKS BY METHODS OF

FUZZY CL USTERIZA TION

S.G. Zakharov, J.V. Volodina, A.I. Taganov, A.N. Kolesenkov

Formalized approach to risk analysis and classification based on the use of automatic classification methods and fuzzy cluster analysis is considered. It was revealed that for the analysis and monitoring of environmental risks, operative processing of fuzzy risk information in a convenient form for specialists making responsible decisions on environmental monitoring of territories is necessary. The algorithm of fuzzy c-means is proposed, which has the iterative character of sequential improvement of some initial fuzzy partition of risks, which is set by the researcher or is formed automatically according to some heuristic rule. The proposed algorithm for solving the problem of fuzzy clustering of environmental risks is implemented as a software module for application in the GIS.

Key words: clusterization, ecological risk, geoinformation system, GIS, classification, risk, geodata, monitoring.

Zakharov Sergey Gennadievich, postgraduate, ser_zah@mail. ru, Russia, Ryazan, Ryazan State Radio Engineering University,

Volodina Julia Yurevna, postgraduate, volodina. djulia@,gmail. com, Russia, Ryazan, Ryazan State Radio Engineering University,

Taganov Aleksandr Ivanovich, doctor of technical science, professor, alx-tag@yandex. ru, Russia, Ryazan, Ryazan State Radio Engineering University,

Kolesenkov Aleksandr Nikolaevich, candidate of technical science, docent, sk62@mail.ru, Russia, Ryazan, Ryazan State Radio Engineering University

151

i Надоели баннеры? Вы всегда можете отключить рекламу.