Алгоритмы нечеткой кластеризации в задачах диагностики технических систем

Алексеев Алексей Александрович; Попова Юлия Борисовна; Шестопалов Михаил Юрьевич

УПРАВЛЕНИЕ, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И ИНФОРМАТИКА

УДК 004.3

АЛГОРИТМЫ НЕЧЕТКОЙ КЛАСТЕРИЗАЦИИ В ЗАДАЧАХ ДИАГНОСТИКИ ТЕХНИЧЕСКИХ СИСТЕМ

Санкт-Петербургский государственный Saint Peterburg Electrotechnical

электротехнический университет «ЛЭТИ» University «LETI»

Рассматривается задача диагностики технических систем как классификационная, для решения которой используется кластерный анализ, направленный на формирование набора кластеров в диагностическом пространстве признаков, каждый из которых соответствует определенному состоянию диагностируемого объекта. Приведены результаты анализа некоторых алгоритмов нечеткой кластеризации и оценки их адекватности с помощью имитационного моделирования с использованием инструментальных средств на базе пакета MatLab.

Ключевые слова: диагностика технических систем; кластер; нечеткая кластеризация; статистическое моделирование; функция принадлежности.

The article observes the problem of technical systems diagnostics as a classification problem, which is solved by means of cluster analysis, targeted to cluster a set in a diagnostic feature space formation, where each cluster corresponds to defined diagnosted object state. Analysis of algorithms for fuzzy clustering and evaluation of their adequacy made by means of simulation using MatLab package are given.

Keywords: technical systems diagnostics; cluster; for fuzzy clustering; statistical simulation; membership function.

Задачу диагностики технических систем в общем случае можно сформулировать как необходимость определения текущего состояния объекта диагностики посредством отнесения его на основе выбранного критерия к тому или иному классу возможных состояний из заранее определенной общей совокупности состояний в некотором признаковом пространстве. В такой постановке диагностическая задача является классификационной, для решения которой используются методы теории распознавания образов [1].

В типовой структуре диагностической системы (рис. 1) процесс распознавания имеет два разных по характеру и способу решения этой проблемы уровня.

На первом уровне осуществляется распознавание полезных сигналов в их смеси с помехами в целях обнаружения, выделения и формирования диагностических признаков. Эта задача решается с помощью алгоритмов, реализуемых в блоках измерения первичной информации и предварительной обработки, вычисления первичных диагностических признаков и текущих параметров диагностической модели. Блок вычисления диагностических признаков состояния исследуемого объекта в соответствии с алгоритмами преобразования информации, используемыми в конкретной системе диагностики, выполняет роль формирователя компонент вектора диагностических признаков. Однако эти признаки, как правило, оказываются малочувствительными к небольшим вариациям

состояния объекта и, следовательно, не могут быть использованы для выявления дефектов объекта на стадии их зарождения. В этих случаях возникает необходимость дополнительных вычислений с целью получения диагностических признаков, которые отвечают требованиям информативности параметров диагностической модели, характеризующих текущее состояние диагностируемого объекта.

На втором уровне на основании сравнения текущих и эталонных значений параметров диагностической модели в блоке классификации состояния объекта диагностирования осуществляется процедура принятия решения о принадлежности к тому или иному заранее определенному классу состояний.

Одним из возможных подходов к решению задачи классификации является кластерный анализ, направленный на формирование набора кластеров в диагностическом пространстве признаков, каждый из которых соответствует определенному состоянию диагностируемого объекта [2].

Одним из способов формирования кластеров является такой, при котором задается точное определение кластера и отыскивается скопление точек, обладающее соответствующими свойствами. Поэтому основой такого подхода кластерного анализа является разбиение совокупности точек (в нашем случае - диагностических признаков) на части, каждая из которых представляет собой кластер в данном смысле.

Рис. 1. Типовая структура диагностической системы

Однако в настоящее время не существует универсального метода кластеризации, пригодного для любых типов исходных данных, контекстов и целей классификации. Кроме того, большинство практических задач классификации не допускают точной математической формулировки. Причиной этого является возможная случайная природа свойств диагностируемых объектов, воздействие помех на этапах получения первичной информации и влияние случайных факторов на этапе её передачи. Случайная неопределенность характеризуется предположением, что существует распределение вероятностей по возможным состояниям (классам) диагностируемого объекта. Таким образом, алгоритмы кластерного анализа допускают применение неоднозначного подхода к решению задачи классификации, при котором допускается принадлежность объектов, находящихся на границе двух кластеров, им обоим.

Подобная постановка задачи кластеризации при диагностике сложных объектов с учётом априорной неопределенности и объективно существующей неоднозначности в описании подобных объектов определяет эффективность и перспективность применения нечетких (fuzzy) классификационных систем в системах диагностики.

Если большинство реальных классов размыты по своей природе в том смысле, что переход от принадлежности к непринадлежности для этих классов скорее постепенен, чем скачкообразен, то это предопре-

деляет связь между теорией нечетких множеств и теорией классификации. Так, для данного объекта u и класса D в большинстве случаев вопрос состоит не в том, принадлежит ли u к D , а в том, до какой степени u принадлежит к D .

Неопределенность такого типа описывается с помощью функции принадлежности, её значение выражает степень уверенности, с которой данное явление (состояние объекта наблюдения) относится к указанному классу. Сам класс в итоге становится неопределяемым однозначно и может быть описан лишь в терминах теории нечетких множеств.

Проведем анализ алгоритмов нечеткой кластеризации, оценив их адекватность с помощью инструментальных средств на базе пакета MatLab.

В качестве основы разработанных алгоритмов были выбраны процедуры прямой нечеткой кластеризации, позволяющие работать с пересекающимися классами, использующие априорные сведения о классах и эталоны. В качестве меры близости использованы метрические методы: евклидово расстояние и диагностика по расстоянию до эталона как наиболее общий случай.

1. Одним из основных методов выделения кластеров является метод, основанный на минимальном расстоянии от объекта (точки) до всех точек класса. Пусть K - число классов состояний объекта классификации и каждый j -класс (j = 1,...,К ) характеризуется в и-мерном диагностическом пространстве обу-

чающей выборкой - набором векторов |X11,

X1 — (х(,...х/,...,х]п |. Результатом применения метода кластеризации к обучающим выборкам являются

эталонные кластеры - области в признаковом про* / * * * \ *

странстве X

— I Х1 ,... X^ ,..., Хп ). Точка X принадле-

*

жит 1 -му кластеру, если расстояние от точки X до точек кластера D1■ меньше, чем расстояние до точек остальных кластеров:

max

(l (х *, Dj ))< max (l (x *, Dk)), (1)

j = 1,...,K , j Ф k .

Этот метод был положен в основу одного из алгоритмов нечеткой кластеризации и диагностики. При его реализации входными данными служит набор точек обучающих последовательностей K классов, при этом в качестве входных данных могут использоваться наборы ранее классифицированных точек. Каждый класс характеризуется числом точек в классе (Count) и максимальным расстоянием в классе (d).

Выходными данными являются кластеры, построенные в соответствии с формулой (1). Число кластеров определяется числом наборов выходных параметров.

Если инициализация ранее не проводилась, то выполняется инициализация, которая заключается в добавлении в каждый выходной класс по одному элементу из исходной выборки. При этом для каждого класса величина d устанавливается равной нулю, величина Count - единице.

Если инициализация ранее была проведена, то выполняются следующие действия:

a) для каждого класса вычисляется максимальное расстояние между всеми парами точек в кластере, а для каждой текущей точки из исходных данных вычисляются расстояния от данной точки до всех точек каждого класса;

b) из полученного набора расстояний выбирается номер класса, для которого это расстояние минимально, и производится сравнение этого расстояния с максимальным расстоянием в классе d, и если оно больше, то d необходимо переопределить (установить d равным максимальному расстоянию);

c) число элементов в выбранном классе увеличивается на единицу и подсчитывается новое максимальное расстояние между элементами класса.

Решение задачи диагностики с использованием данного алгоритма кластеризации осуществляется следующим образом.

Входными данными могут быть либо кластеры, сформированные путем вычислений, проведенных в соответствии с алгоритмом кластеризации, либо одна или более точек, подлежащих диагностике. Выходными данными является массив из K элементов, где

К - число кластеров. В процессе диагностирования для каждой диагностируемой точки вычисляется максимальное расстояние от нее до всех точек каждого кластера и далее определяется номер класса, для которого это расстояние является минимальным, на основе чего делается вывод о принадлежности точки данному классу.

2. Другой способ построения кластера, являющийся частным случаем метода динамических сгущений, состоит в следующем. Точка X* принадлежит

*

1 -му кластеру, если расстояние от точки X до центра С1 кластера Dj меньше, чем расстояние до центров остальных кластеров:

I(X*,С1 )< I (X*,Ск), к — 1,..., К , 1 * к (2)

При этом кластеризация состоит в таком разбиении множества объектов на заранее заданное число классов К , чтобы минимизировался функционал

г = К^1, *1 = I 12 ^ С1) .

1=1 X eD1■

Отличием алгоритма кластеризации, реализующего метод формирования кластера по формуле (2), от предыдущего являются только действия, вытекающие из его особенностей и выполняемые при наличии ранее проведенной инициализации. В этом случае на первом шаге для каждой текущей точки из исходных данных вычисляются расстояния от данной точки до центров каждого класса, причем первоначальными центрами считаются первые точки каждого класса. Далее из полученного набора расстояний выбирается номер класса, для которого это расстояние минимально. Число элементов в выбранном классе увеличивается на единицу, а величина d переопределяется по формуле (2).

На этапе решения задачи диагностики для каждой диагностируемой точки вычисляются расстояния до центров каждого кластера и далее определяется номер класса, для которого расстояние является минимальным, на основании чего делается вывод о принадлежности точки данному классу.

3. Третий способ построения кластера основан на

методе формирования кластера, при котором точка

*

X принадлежит 1-му кластеру, если среднее расстояние от точки X * до точек кластера D1■ меньше среднего расстояния до точек остальных кластеров:

_ (X*, D ■ )< _ (X*, Dк ), 1 — 1,..., К , 1 * к . (3)

При решении диагностической задачи входными данными являются кластеры, сформированные в соответствии с алгоритмом (3), а также точки, подлежащие диагностике. В процессе вычислений для каждой диагностируемой точки вычисляются средние расстояния до всех точек каждого кластера, на основании чего определяется класс, для которого расстояние

является минимальным, и таким образом делается вывод о принадлежности точки данному классу.

Метод статистического моделирования с использованием обучающей и тестовой (контрольной) выборок при различных вариантах взаимного расположения эталонных классов и классифицируемого объекта позволяет оценить эффективность разработанных алгоритмов классификации. Достаточным является проведение вычислительных экспериментов для случаев априорной независимости и априорной зависимости классов (в последнем случае классы имеют пересечение, диагностируемый объект попадает в область их пересечения).

При организации вычислительного эксперимента генерировались искусственные выборки с различными математическими ожиданиями, дисперсией, количеством сигналов в выборке, формой класса, т.е. математическая модель предусматривала изменение объема, размерности обучающих выборок, формы и дисперсии («размытости») классов.

Очевидно, что на качество классификации значительно влияет степень пересечения классов. Для оценки области пересечения классов информативным параметром является объем пересечения нечеткого множества классов V.

Пусть определена функция принадлежности класса (нечеткого множества) ц(х). Тогда объем этого

множества определяется величиной V = Ц...|ц(х,

D

где D - область, которая охватывает все точки данного множества.

Учитывая, что

ц(х) = Ц 2 ( х(2))^3 (х(3)) "Ц и (Х (П)) ,

где i = 2,3,...,и - число диагностических признаков, то объем, занимаемый классом, будет определяться величиной

i ")

правильно распознанных точек класса Dj. Общее

N

число точек класса D]■ равно Nj = £ а] , тогда коэф-

г=1

фициент правильного распознавания для D] класса

определяется формулой k. , 0<k. < 1, в иде-

j Nj '

альном случае этот коэффициент равен kj = 1.

Если в процессе распознавания использован только один алгоритм классификации, то качество алго-

к /

ритма можно определить как ^ = £ KjK .

j=i /

Определив объем Vj, занимаемый классом Dj, по формуле Vj = J цj (x)dx, где D'j - область

n -мерного пространства признаков; ц j (x) -n -мерная функция принадлежности D j класса, отметим, что определенная по этой формуле величина объема Vj есть мера класса D j . Общий объем, занимаемый всеми классами, вычисляется как V = J sum (цj (x)dx). Тогда оценка качества распозна-

D'

1< j<K

вания определяется как ^ < V £ v. . Величина

V = Ц...|ц2 (x<2))^3 (Х(3)) .. . цn (x(n))dx(2)dx(3)... dx

Объем пересечения К классов определяется по формуле

^р =Я ...|Ц(1)( X )Ц(2)( X) ... Ц( *)(X ) dx ,

D

где D - общая область, занимаемая К классами. Положим, что каждый из классов D], ] = 1,...,К,

характеризуется обучающей выборкой, состоящей из N] объектов (точек), и при использовании соответствующего алгоритма кластеризации для каждого из классов определено М] объектов. Полученные результаты распознавания можно представить в виде матрицы размером К х К, элементы которой а]]

представляют собой число точек класса Di, отнесенных к классу D]■. Естественно, что а] - это число

/ ]=1

/К

V £ V] = 1 только, если все классы D]■, ] = 1,2,...,К,

/ ]=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

не пересекаются между собой. Если значение разно-

К

сти V/ £ V] - ^ достаточно велико, то это свидетель-

]=1

ствует о том, что функция принадлежности выбрана неудачно и не отражает адекватно реальных данных.

Пример результатов кластеризации, проведённой по второму алгоритму при условии, что число сигналов в каждом классе N = 500, число диагностических признаков и = 2, приведен на рис. 2, 3.

Анализ полученных результатов исследования алгоритмов классификации на модельных данных позволил сделать следующие выводы.

Алгоритмы классификации, основанные на разных критериях расстояния, по результатам моделирования практически мало отличаются друг от друга, но при этом имеют разную скорость: минимальное машинное время у второго алгоритма, максимальное - у третьего алгоритма. Исходя из этого при выборе из этих алгоритмов отдано предпочтение второму алгоритму.

Показатели эффективности всех алгоритмов улучшаются с ростом объема N обучающей выборки. С ростом N наблюдается тенденция снижения доли недостоверно распознанных точек. Такое поведение ошибки распознавания обусловлено следующим: чем более полно представлена обучающая выборка, тем выше плотность точек, соответствующих объектам разных классов в диагностическом пространстве.

Границы классов становятся более выраженными, а следовательно, классификация объекта проходит более успешно.

2,0

1,5

1,0

0,5

-0,5

-1,0

2,0 Г

1,5

1,0

0,5

-0,5

-1,0

+ * *

+ ч**.Х* J» • *♦•;• • * ♦.* .

ft* Aiw*» i *

* * + **$ + * *

-0,5 0 0,5 1,0 1,5 Рис. 2. Исходное множество точек

2,0

••VVif* 1'¿»''у '•«

• . ' : : •:/ /г':;.!.

+ vj +

ft* »Kffii»*«

-0,5

0

0,5

1,0

1,5

2,0

В случае предъявления неполной информации о классифицируемом объекте (используется меньшее число диагностических признаков, характеризующих объекты обучающей выборки) наблюдается снижение качества распознавания. Но когда классы компактны и практически не пересекаются, то потеря даже 20 % признаков не ведет к росту ошибки распознавания. В условиях наложения классов потеря исходной информации оказывается более значимой, что обусловлено присутствием большей неопределенности в описании задачи.

При увеличении дисперсии классов (нечеткости) ошибка распознавания при работе всех алгоритмов увеличивается, так как увеличивается плотность точек, соответствующих объектам разных классов в одном и том же диапазоне диагностического пространства, границы классов становятся более размытыми и классификация объекта проходит менее успешно. При этом предложенные алгоритмы нечеткой классификации работают более эффективно, поскольку введение понятия нечеткости классов предполагает работу с данными, занимающими один и тот же объем в диагностическом пространстве, но принадлежащими разным классам.

Рис. 3. Результат кластеризации

Указанная закономерность сохраняется независимо от величины дисперсии эталонных классов. При меньшей дисперсии классов качество распознавания закономерно выше, но разработанный алгоритм нечеткой классификации предполагает его применение в условиях частичного пересечения классов.

Литература

1. Алексеев А.А., Кораблев Ю.А., Шестопалов М.Ю. Методы управления и диагностики в технических системах с применением нечеткой логики // СПб., 2008. 188 с.

2. Козлова О.А., Попова Ю.Б., Шестопалов М.Ю. Диагностика технических объектов на основе методов кластеризации информации: учеб. пособие. СПб., 2009. 114 с.

Поступила в редакцию

26 декабря 2011 г.

0

Алексеев Алексей Александрович - канд. техн. наук, доцент, кафедра «Автоматика и процессы управления», Санкт-Петербургский государственный электротехнический университет «ЛЭТИ».

Попова Юлия Борисовна - аспирант, Санкт-Петербургский государственный электротехнический университет «ЛЭТИ».

Шестопалов Михаил Юрьевич - канд. техн. наук, доцент, проректор по научной работе, Санкт-Петербургский государственный электротехнический университет «ЛЭТИ».

Alekseev Aleksey Aleksandrovich - Candidate of Technical Sciences, assistant professor, department «Automatics and Process Control», Saint Peterburg Electrotechnical University «LETI».

Popova Yuliya Borisovna - post-graduate student, Saint Peterburg Electrotechnical University «LETI». Saint Peterburg Electrotechnical University «LETI».

Shestopalov Michail Yurievich - Candidate of Technical Sciences, assistant professor, pro-rector by scientific-research work, Saint Peterburg Electrotechnical University «LETI».

Алгоритмы нечеткой кластеризации в задачах диагностики технических систем Текст научной статьи по специальности «Компьютерные и информационные науки»

ALGORITHMS OF FUZZY CLUSTERING IN PROCESSING OF TECHNICAL SYSTEMS DIAGNOSIS

Текст научной работы на тему «Алгоритмы нечеткой кластеризации в задачах диагностики технических систем»