Алгоритм классификации графиков с последовательным укрупнением признаков

Ханеев Д.М.; Сидоров К.В.; Филатова Н.Н.

УДК 004.855.5, 004.853 Дата подачи статьи: 10.06.2014

АЛГОРИТМ КЛАССИФИКАЦИИ ГРАФИКОВ С ПОСЛЕДОВАТЕЛЬНЫМ

УКРУПНЕНИЕМ ПРИЗНАКОВ

Н.Н. Филатова, д.т.н., профессор; Д.М. Ханеев, аспирант; К.В. Сидоров, аспирант (Тверской государственный технический университет, наб. Аф. Никитина, 22, г. Тверь, 170026, Россия, [email protected])

Для решения ряда прикладных задач могут оказаться полезными классификаторы, работающие с выборками двухмерных графических зависимостей. В статье рассматривается новый подход к решению задачи классификации графических зависимостей, объединяющий ее с задачей сегментации. Описывается алгоритм выделения интервальных последовательно укрупненных признаков при работе классификатора на основе нейроподобной иерархической структуры. Данный классификатор основан на идее растущей пирамидальной сети, адаптированной для работы с нечеткими описаниями объектов. В процессе обучения в иерархической структуре классификатора формируются модели классов, которые интерпретируются в нечеткие высказывания (правила) для системы нечеткого логического вывода. Нечеткие высказывания отражают основные характеристики всех объектов обучающей выборки и представляются в понятной эксперту форме. Интервалы укрупнения признаков находятся путем анализа правил, полученных после обучения классификатора на первичных данных. Алгоритм автоматической генерации интервальных признаков позволяет локализовать участки с одинаковыми значениями нечетких признаков, что фактически приводит к сегментации исследуемых графических зависимостей на участки с близкими оценками их структурных свойств. Особенности работы алгоритма выделения последовательно укрупненных признаков подробно рассмотрены на примере искусственно сформированных данных. Программная реализация алгоритма протестирована на искусственно сформированных данных, а также на реальных клинических данных, представленных записями дыхательных шумов, речевых сигналов и электроэнцефалограмм. В статье исследовано влияние применения последовательно укрупненных признаков на результаты успешности классификации рассмотренных данных.

Ключевые слова: нейроподобная иерархическая структура, растущие пирамидальные сети, сигнал, графическая зависимость, алгоритм, нечеткое множество, обучающая выборка, тестовая выборка, сегментация.

Received 10.06.2014

DIAGRAMS CLASSIFICATION ALGORITHM WITH CONSEQUENT ENLARGING OF FEATURES Filatova N. N. , Dr.Sc. (Engineering), Professor; Khaneev D. M. , Postgraduate Student; SidorovK. V. , Postgraduate Student (Tver State Technical University, Quay Nikitin, Tver, 22, 170026, Russian Federation, [email protected]) Abstract. In order to solve a number of applied tasks the classifiers for samples of two-dimensional graphic dependencies could be useful. The paper discusses a new approach to solving the problem of graphic dependences classification combining it with the segmentation problem. The article also describes an algorithm of interval consequently enlarged features allocation when the classifier works based on neuron-like hierarchical structure. This classifier is based on the idea of growing pyramidal network that is adapted for work with fuzzy objects descriptions. While learning, the classes models are being formed in the classifier hierarchical structure. The models are interpreted to fuzzy expressions (rules) for fuzzy inference system. The fuzzy expressions reflect the major characteristics of all objects of training set and are presented in a form understandable for an expert. Features enlarging intervals are obtained by analyzing the rules after training the classifier on primary data. The algorithm of interval features automatic generation allows localizing areas with the same values of fuzzy features. This actually results in investigated graphic dependences segmentation on areas with similar structural properties estimation. The operational peculiarities of consequentially enlarged features allocation algorithm are discussed in detail on the example of an artificially generated data. The algorithm software implementation is tested on artificially generated data and

on real clinical data (recordings of respiratory sounds, voice and electroencephalograms). The paper studies consistently enlarged features application influence on success of the examined data classification results.

Keywords: neural-like hierarchical structure, growing pyramidal networks, signal, graphical dependance, algorithm, fuzzy set, training set, test set, segmentation.

В системах автоматической диагностики широко используются средства классификации объектов, представленных дискретным набором признаков. Успешность решения задачи во многом зависит от соблюдения компромисса между числом признаков и точностью описания свойств объектов. Очевидно, что при повышении точности отображения свойств необходимо увеличивать количество признаков. Однако чрезмерная детализация и внимание к субъективным особенностям объектов могут привести к усложнению алгоритмов классификации и увеличению ошибок. Это особенно часто проявляется при создании нейро-сетевых классификаторов. Анализ выборок описаний объектов можно построить на основе последовательного расширения признаков, что связано с уточнением деталей в описании объекта. Но при таком подходе возникает вопрос о том, какие признаки необходимо добавлять. Более простым, на взгляд авторов, является построение классификаций на основе идей последовательного формирования вторичных понятий, которые позволяют укрупнять признаки, создавая, в конце концов, лаконичные описания классов объектов наиболее общими признаками [1].

Для решения ряда прикладных задач могут оказаться полезными классификаторы, работающие с выборками двухмерных графических зависимостей. Задача анализа графических зависимостей подробно рассматривается в работах [2-5]. В работе [6] был предложен новый подход к решению этой задачи на основе создания шароподобной иерархической структуры (НИС). Он представляет собой развитие идеи растущей пирамидальной сети, адаптированной для работы с

нечеткими описаниями объектов и дополненной системой нечеткого логического вывода. Исследование особенностей работы подобных алгоритмов показало, что создаваемые правила классификации на основе НИС обладают более широким набором свойств, помимо разделения классов. В частности, в работе [7] было отмечено, что применение подобных классификаторов позволяет выделять на графиках интервалы с одинаковой топологией (характером изменений). Эти результаты позволяют по-новому взглянуть на общую стратегию решения задач классификации графических зависимостей, объединив ее с задачей сегментации сигналов [8].

Описание объектов классификации

Исходные графики, являющиеся объектами классификации, обычно представлены большим числом точек. Если каждую точку графика использовать как признак, размерность вектора описания объекта может возрасти до нескольких тысяч признаков. В то же время визуальный анализ графических зависимостей, выполняемый экспертом, как правило, сводится к выделению не более десяти качественных признаков, характеризующих морфологические (или топологические) особенности. Например, на рисунке 1 приведены графики спектров мощности дыхательных шумов, каждый из которых можно представить вектором из 200 признаков.

Приведенные примеры говорят о существовании большого разброса значений спектров мощности на всех частотах для всех объектов класса Патология. Аналогичный вывод получается и при

_- Патология _- Норма

Рис. 1. Графическое представление спектров мощности дыхательных шумов: абсцисса - номер признака (шаг по частоте 11 Гц); ордината - значение спектра мощности

Fig. 1. Graphical representation of respiratory noises power spectrum: abscissa-feature number (frequency step 11 Hz); ordinate - power spectrum value

оценке свойств класса Норма. Эти факты, а также существующие индивидуальные особенности источников сигналов (субъективные особенности пациентов) позволяют выдвинуть гипотезу о целесообразности перехода к лингвистическим переменным при описании подобных графиков.

Пусть координаты точек графика по оси абсцисс рассматриваются как список признаков. Тогда для каждого признака его значение будет определяться как нечеткое множество, Supp которого задается на оси ординат. Таким образом, нечеткими становятся все оценки ординат точек графика.

Для нелинейных графиков разброс значений каждого признака на множестве объектов одного класса будет различный. В связи с этим для фази-фикации каждого признака необходимо создавать индивидуальную лингвистическую шкалу. Так как все признаки характеризуют точки одного графика, для построения всех нечетких шкал можно использовать одно и то же терм-множество, включающее три терма: HI, MID, LOW (рис. 1).

Тогда описанию графика вида X={x1, Х2, ■■■, Xf, ..., xu}, где xf - координаты i -й точки и шаг по оси абсцисс постоянный, будет соответствовать множество пар вида 200

XF = и{(T \ h), (T \ ц), (T \ Ц)>,,

i= 1

где ц1>2,3 - соответствие значения признака терму

Tl,2,3.

Подобная процедура фазификации применяется в алгоритме классификации графических зависимостей, построенных на основе НИС [6]. В результате работы алгоритма для n классов обучающей выборки формируются n классификационных правил, которые отражают основные характеристики всех объектов обучающей выборки с соответствующими разделительными метками.

В рабочем режиме интеграция созданной НИС и алгоритма нечеткого логического вывода позволяет определить для каждого нового объекта класс, степень принадлежности объекта к которому является максимальной.

Проведенный анализ результатов работы НИС-классификатора [7] показал, что программа позво-

ляет локализовать участки с одинаковыми значениями нечетких признаков, но это фактически приводит к сегментации наших графиков на участки с близкими оценками их структурных свойств.

Выдвинута гипотеза о возможности использования процедуры сегментации графиков для формирования нового пространства укрупненных признаков. Для проверки этого предположения создан новый алгоритм, расширяющий возможности НИС-классификатора.

Алгоритм генерации интервальных признаков

Рассмотрим решение задачи классификации на примере двух классов графиков. Для каждого класса определяется собственный набор значимых признаков Мъ к = 1, К , К - количество классов.

На каждом множестве М^ (рис. 2) выполняется поиск участков, внутри которых лингвистическая переменная признака принимает одинаковые значения. Такие участки множества М^ будем называть интервалами постоянства:

для VMk

p = p+i, i = m, z

пРи i = z, Pz+i Ф Pz

интервал Ink m : ( pm, F>m+l, pz )

P - нечеткое значение

где I - номер признака; признака Р,.

На рисунке 2 представлено описание фрагмента временного ряда (графика), представляющего собой конъюнкцию признаков (Ш7л118л...л258). Для объектов класса 1 из описания выделено множество М\, в котором все признаки (указанные в конъюнкции) имеют значение «Н1» (однако следует отметить, что основания у всех термов могут быть разные в зависимости от состава обучающей выборки (ОВ)). Особенность фазификации признаков рассмотрена в работе [7].

В классе 2 выделяется множество М2, в котором все признаки (указанные в конъюнкции) имеют значение LOW. Множества М\ М2 имеют пересечение: РР=МгпМ2= 150, 161, 172, 183, 193, 204,

P_ln u

In ц

ln 1,1

№

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

Имя

107 118 129 139 150 161 172 183 193 204 215 226 236 247 258

М1

hi: 17 hi: 17 hi:17 hi:17 hi:17 hi:17 hi:17 hi:17 hi:17 hi:17 hi:17 hi:17 :mid:7 : hi:16 hi:17

М2

mid:7

! mid:7 ! low:8 low:8 low:8 low:8 low:8 low:8 low:8 low:8 low:8 low:8 low:8

ln

P ln ■

Рис. 2. Пример распределения значимых признаков двух классов Fig. 2. Example of two classes significant features distribution

215, 226, то есть объекты класса 1 имеют высокие значения этих признаков, а для объектов класса 2 характерны малые значения этих же признаков. Из приведенного примера следует, что на всем выделенном интервале РР первичные признаки имеют одинаковые значения по лингвистической шкале. Значения изменяются только при переходе из одного класса в другой. Отмеченная закономерность позволяет рассматривать весь выделенный интервал признаков РР как новый признак РР4-1 1, который характеризует целый фрагмент графика (временного ряда).

Процедура введения нового признака включает следующую последовательность действий.

Определяются пересечения классов на выделенных интервалах признаков (Ук) 1пк/п.

Пусть имеется фрагмент описания класса 1 11 м

!п\$ = и Р ; Кл1 = ир . Фрагмент описания клас-1 = 0 1

14 Т

са 2 1п2,4 = и Р ; Кл2 = и Рк, где Т, М - число при-

I=4 к

знаков, определяющих класс 1 и класс 2 соответственно, причем (V/) ^¡е1п10 |Р,=Ш}, (V/) {PIe/n2,4|PI=LOW}.

Введем новый признак (РР4-11), общий для 1п10 и 1п2 4 (значения признаков не важны, они могут различаться). Тогда на всем интервале образуются свои подынтервалы для каждого из классов: Р1П10 с /п10, Р _ 1п2,4 С 1п2А , Р_1П\,о и Р_1п2А содержат одни и те же признаки, но значения неодинаковые. Для использования подынтервала Р_1п1 0 в качестве самостоятельного признака необходимо рассмотреть объединение нечетких множеств.

Рассмотрим объединение на примере подынтервала Р_/п1)0(/ь /„), который описывается одноименными термами и может рассматриваться как значение нового признака РР4-11 (рис. 3). Значени-

P_lni,0

Рис. 3. Объединяемые признаки Fig. 3. Unified features

ем РР4-11 для объекта 1ь будет множество точек на интервале (Р3<Р2<Р1)::АР. Интервал АР будет рассматриваться как Supp(PP), то есть носитель нечеткого множества РР. Вершина РР соответствует середине интервала АР.

При рассмотрении участка (/1, /) на всех объектах обучающей выборки получаем конечное число нечетких множеств (рис. 4) 11, 12, ..., 1к=Ь. Объединяя все эти нечеткие множества, получим новое нечеткое множество, определяющее значение нового признака: РР4-11 = /1и/2и ...и/к.

Основанием РР4-11 является интервал [ттРР, тахРР]. Используя эту процедуру, можно построить для нового признака всю лингвистическую шкалу, то есть определить новые значения. Например: И1РРа_п = И/, и И/, Ц.и И/,. В итоге можно изменить описания классов:

т _________

Кл1 = и Р и (рр4-ц); рр 4-11 = Р _ Чо,

1=0

Кл2 = и Рк и (РР4-ц); РР4-ц = Р _ К 4,

к=0

где т=М\РР4-11; ^ТРР^ъ

Из старых признаковых пространств классов удаляются подынтервалы р^о, Р _ Ы2А и добавляется новый признак РР4-11 (рис. 5). В описаниях классов участвуют значения признаков, поэтому

а) Кл1 = (Кл1\Р_/п1,о) и РР4-и , Кл2 = (Кл2\Р_/п2, 4) и РР4-11 ; б) значения удаляемых признаков равны значению нового признака. Если условие (б) не выполняется, то есть и Р1 Ф Р4_п, нужно корректировать границу подынтервала, изменяя число объединенных признаков, вошедших в РР4-11.

№ признака 0 1 2 3 4 (PP4-11) 5 6

Имя признака 107 118 129 139 150-226 236 247-258

Класс 1 (К1) hi:17 hi:17 hi:17 hi: 1 7 hi:17 mid:17 hi:17

Класс 2 (К2) mid:7 mid:7 low: 8 :

Рис. 5. Распределение признаков после обучения НИС на новом признаковом пространстве

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Fig. 5. Features distribution after training NIS on the new feature space

Тестирование алгоритма на искусственных данных

Искусственная ОВ представлена тремя классами монотонных линейных графиков (рис. 6). Графики класса 1 характеризуются наибольшей производной dy/dx, значение которой во всем интервале меньше 0. Максимальное значение производной лежит в интервале 0<Х<10. Графики класса 2 имеют производную в абсолютной величине, близкую к нулю. Графики классов 1 и 2 имеют пересечение на интервале 0<Х<25. Графики класса 3 имеют такой же характер производной, как и графики класса 2, однако значения по оси ординат (У) класса 3 всегда меньше значений У класса 2 (графики класса 2 лежат выше класса 3). Графики класса 3 пересекаются с графиками класса 1 на интервале 35<Х<70. При Х>70 объекты класса 1 и класса 3 идут параллельно друг другу, пересечений нет, но оба имеют объекты, лежащие у самой границы классов.

Общая характеристика трех классов: графики во всех трех классах представлены полосой одинаковой ширины во всем диапазоне X, таким образом, они могут рассматриваться как 3 нечетких графика (нечеткими являются значения по оси ординат (У), X - четкая величина).

Три класса графиков использованы в качестве ОВ для НИС, каждый график представляется в НИС с помощью 91 признака. В результате обуче-

ния классу 1 поставлены в соответствие два контрольных элемента (КЭ), классу 2 и классу 3 - по одному КЭ (рис. 7).

Выдвинута гипотеза о том, что такое распределение КЭ связано с тем, что класс 1 имеет два пересечения (1-2, 1-3), а классы 2 и 3, соответственно, имеют по одному пересечению.

Алгоритм построения классификационных правил включает в правила выделения класса 3 признаки из КЭ, описывающие участок 0<Х<27, на котором класс 3 имеет существенное расстояние от классов 1 и 2 (линейно разделим). Аналогичная ситуация наблюдается в правиле для класса 2, в котором КЭ использует признаки, ха-растеризующие объекты, от Х>28, на этом участке значения У класса 2 существенно превышают значения объектов класса 1 и класса 3.

С учетом монотонности изменения X на выделенных интервалах, которые отражены в КЭ, для класса 2 и класса 3 формируются вторичные признаки. Для класса 3 вторичный признак описывает интервал 0<Х<27. Для класса 2 НИС позволяет выделить интервал 48<Х<91, который не содержит промежутков, использующихся для идентификации объектов других классов. Это позволило интервал Х>48 также конвертировать во вторичный признак (РР48-90).

Анализ выборки показывает, что выделение таких интервалов классификатор осуществляет для участков, на которых соответствующий класс

Рис. 6. Графические зависимости, представленные в ОВ искусственных данных Fig. 6. Graphical dependencies presented in an artificial data training set

№ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

0 48

Имя - 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 -

27 90

КЭ1.1 КЭ1.2 КЭ1.1

hi mid mid mid mid mid mid mid low

:18 :19 :19 :19 :19 :19 :18 :17 :19

КЭ2.1

hi hi hi hi hi hi hi hi hi hi hi hi hi hi hi hi hi hi hi hi hi

:22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22 :22

КЭ3.1

low low low low low low

:22 :22 :22 :22 :22 :22

Рис. 7. Распределение признаков по классам после обучения НИС на ОВ искусственных данных

Fig. 7. Features distribution by classes after training NHS on an artificial data training set

наиболее сильно отделяется от других классов (там, где расстояние между описываемым классом и прочими наибольшее). В нашем примере для участка Х>48 таким классом является класс 2, классы 1 и 3 на участке имеют существенное пересечение (фактически сливаются). На участке Х<28 наибольшее расстояние от других классов имеет класс 3.

Таким образом, для классификации (распознавания объектов) класса 3 выделен участок, объекты которого имеют наибольшее удаление от прочих классов. Для выделения объектов класса 2 тоже используется участок, в котором только наиболее удаленные объекты.

Более сложными для классификации являются объекты класса 1, НИС для их идентификации включила в состав правила описания двух КЭ. В классе 1 есть объекты с максимальными значениями У из всей выборки (при Х=0), а также объекты с минимальными значениями У (70<Х<80).

Выдвинута гипотеза о том, что именно такой характер выборки привел к включению в правила класса 1 двух КЭ, один из которых, КЭ2, определяет объекты, не лежащие на пересечении с другими классами (26<Х<35), и КЭ1, который опирается на два фрагмента графиков класса 1: фрагмент 1 при Х<20 включает не только объекты на пересечении с классом 2, но и графики, имеющие максимальное значение У на этой выборке; фрагмент 2 содержит графики с участком Х>70, на котором ординаты объектов класса принимают наименьшее значение на этой выборке.

Таким образом, в правиле для класса 1 объединяются условия для объектов, лежащих вблизи ядра класса (КЭ2), и условия, характеризующие объекты с минимальными и максимальными значениями признаков на выборке, несмотря на то, что эти объекты могут находиться вблизи пересечений с другими классами (КЭ1).

Причина объединения в КЭ1 участков с максимальными значениями У и участков с пересече-

ниями классов 1 и 2 можно объяснить нечеткостью оценки ординат графиков, так как оценки ординат Y1 и Y2 при X<20 достаточно близки и оказываются в области действия одного и того же терма, то есть входят в одно и то же нечеткое множество, итог - загрубение условий правила.

Классификационные правила, полученные с применением алгоритма объединения признаков, лучше описывают исследуемые классы кривых и позволяют добиться увеличения точности классификации (табл. 1). Максимально допустимый уровень шума, обеспечивающий разделение объектов, ~ 20 %. Объекты классов 1 и 3 трудно разделить при уровне шума свыше 21 %.

Таблица 1

Результаты эксперимента c искусственными данными

Table 1

Results of an artificial data experiment

Параметр Без интервальных признаков С интервальными признаками

Общее число признаков 91 52

Ошибки при классификации ОВ 0 0

Ассоциативные элементы 167 247

Множество вершин Vc 45 61

Количество связей 606 771

Контрольные элементы Кл1: 2; Кл2: 2; Кл3: 1 Кл1: 4; Кл2: 2; Кл3: 2

Ошибки при классификации ТВ 5 (Кл3 ^ Кл1) 3 (Кл3 ^ Кл1)

Тестирование алгоритма на реальных клинических данных

Тестирование алгоритма рассмотрено на реальных клинических данных и проведено для двух типовых задач: классификации речевых сигналов

(РС) и электроэнцефалограмм (ЭЭГ), отображающих изменение знака эмоций человека, и классификации дыхательных шумов (ДШ) человека.

Экспериментальная выборка, образцы которой отображают изменение знака эмоций человека при предъявлении ему видеостимулов различного эмоционального окраса, включает 210 РС (русских фраз) различных дикторов продолжительностью 3-10 секунд, с частотой дискретизации 22 050 Гц и разрешением 16 бит и соответствующие им 240 паттернов ЭЭГ продолжительностью по 12 секунд, с частотой дискретизации 250 Гц. Регистрация ЭЭГ проводилась по стандартной системе отведений «10-20», включающей 19 отведений (O2-A2, O1-A1, P4-A2, P3-A1, C4-A2, C3-A1, F4-A2, F3-A1, Fp2-A2, Fp1-A1, T6-A2, T5-A1, T4-A2, T3-A1, F8-A2, F7-A1, Pz-A1, Cz-A2, Fz-A1). В формировании выборки участвовали мужчины и женщины в возрасте от 18 до 60 лет.

Экспериментальная выборка записей ДШ представлена образцами, записанными с помощью устройства регистрации 3M Littmann 4100, и с добавлением образцов, взятых из открытых источников (база примеров патологий Rale, 3M Littmann collection, Unmc). Регистрация ДШ (частота дискретизации 8 кГц, разрешение 16 бит) производилась у здоровых людей и у пациентов с патологическими изменениями функции дыхания. ДШ классифицированы экспертом (врачом высокой квалификации с хорошим состоянием органов слуха) на два класса: норма, патология.

В таблице 2 приведен состав экспериментальной выборки сигналов (показаны составы ОВ и тестовых выборок (ТВ)). (Классы 1, 2, 3 - положительные эмоции, нейтральное состояние, отрицательные эмоции соответственно.)

Для описания приведенных образцов сигналов можно применять как гомогенный, так и гетерогенный набор признаков, однако в обоих случаях необходимо учитывать амплитудно-частотный состав сигнала. Для этой задачи в качестве разделяющих признаков могут быть использованы спектральные характеристики, что обосновано наличием характерного частотного состава у патологических образцов ДШ и у образцов РС и ЭЭГ с характерным эмоциональным окрасом.

Таблица 2

Структура экспериментальной выборки сигналов

Table 2

The structure of signals test sample

В качестве спектральных характеристик используются отсчеты спектральной плотности мощности (СПМ (PSD)), найденные по методу Уэлча с применением оконного быстрого преобразования Фурье (FFT) [6]. Каждый объект представляется вектором видаX={xb x2, ..., x,, ..., xu}, где x, - ордината спектра мощности на частоте f=Afi; x, соответствует значению i-го признака; Af - шаг по частоте, Af =fx/Fw, fx - частота дискретизации, Fw - ширина окна FFT. В работе применялось окно преобразования Хемминга (ширина 1024 для РС и ДШ, ширина 128 для ЭЭГ). Границы частотного диапазона для РС составляют 0-11 кГц, для ДШ - 0-4 кГц, для ЭЭГ - 0-125 Гц.

Описание каждого объекта выборки (табл. 2) представляется в следующем виде:

X(/)fg=<{XI , x2, xk}, X(v)^<{xi, x2, xb}),

^ xr}b {xb x2-, xr}2-,

{xi, x2, ..., xr}2), (1)

где X(l)pc, X(v)^, Х(^)ЭЭГ - векторы признаков СПМ; l - номер объекта РС, 1=1, ..., 210; v - номер объекта ДШ v=1, ..., 69; s - номер объекта ЭЭГ, s=1, ..., 240; z - номер отведения ЭЭГ, z=1, ..., 19; k - номер признака СПМ для РС, k=1, ..., 1 000 (шаг расчета СПМ составляет 11 Гц); b - номер признака СПМ для ДШ b=1, ..., 363 (шаг расчета СПМ составляет 11 Гц); r - номер признака СПМ для ЭЭГ, r=1, ..., 62 (шаг расчета СПМ составляет 2 Гц).

Исследования СПМ сигналов на основе НИС показали возможность выделения интервалов наиболее информативных признаков, позволяющих обеспечить хороший уровень обобщения и уточнения описания объектов в классах. Для ДШ наиболее информативные признаки СПМ находятся в диапазоне 0-2 100 Гц (рис. 1), для РС - в диапазоне 1 100-5 100 Гц (рис. 8). Для паттернов ЭЭГ таковыми оказались признаки, получаемые из отведений только правого полушария головного мозга (O2-A2, P4-A2, C4-A2, F4-A2, Fp2-A2, T6-A2, T4-A2, F8-A2, Cz-A2) (рис. 9). В конечном итоге каждый объект ДШ вида X(v)^ описывается 200 признаками, объект РС вида Х(1)РС - 400, а представление объекта ЭЭГ вида Х(5)ЭЭГ рассматривается вектором из 558 признаков.

Картина распределения образцов сигналов экспериментальной выборки по признакам СПМ имеет довольно сложную структуру. Для образцов ДШ (рис. 1) характерна ситуация, при которой класс Патология имеет весьма большой диапазон разброса значений спектра мощности, в составе которого класс Норма имеет узкий соответствующий диапазон. Для образцов РС (рис. 8) и паттернов ЭЭГ (рис. 9) характерна ситуация множественного пересечения границ классов на всем частотном диапазоне.

С помощью НИС созданы правила, описывающие объекты ДШ (норма, патология) и объек-

Сигнал | Выборка Количество объектов

Классы объектов Класс 1 Класс 2 Класс 3

РС ОВ (110) 31 29 50

ТВ (100) 39 24 37

ЭЭГ ОВ (90) 30 30 30

ТВ (150) 50 50 50

Классы объектов Норма Патология

ДШ ОВ (32) 17 15

ТВ (37) 24 13

Примечание: _— Класс 1; _— Класс 2;.....— Класс 3 (разброс признаков СПМ для РС).

Рис. 8. Представление ОВ РС: абсцисса - номер признака, ордината - СПМ, усл. ед. (1) Fig. 8. Voice signals training set representation: abscissa -feature number, ordinate - PSD, c.u. (1)

Примечание:_— Класс 1 _— Класс 2.....— Класс 3 (разброс признаков СПМ для ЭЭГ (на примере отведения F4-A2)).

Рис. 9. Представление ОВ ЭЭГ: абсцисса - номер признака; ордината - СПМ, усл. ед. (1) Fig. 9. The EEG training set representation: abscissa - feature number; ordinate - PSD, c. u. (1)

ты РС и ЭЭГ (классы 1, 2, 3), их применение к ОВ и ТВ сигналов иллюстрируют таблицы 3 и 4.

Таблица 3

Результаты классификации ДШ по признакам СПМ (Х(у)дщ)

Table 3

Respiratory noises classification results on the PSD features (Х(у)дШ)

Результаты экспериментов с ДШ (табл. 3) показывают, что выделение интервальных признаков способствует сокращению признакового пространства, улучшению результатов классификации, однако при этом НИС приобретает более

сложную конфигурацию, что видно в увеличении количества ассоциативных элементов и связей между ними.

Особо следует отметить тот факт, что НИС безошибочно разделяет объекты класса норма, ошибки возникают при попытке классифицировать объекты из класса патология. Использование графиков СПМ в качестве объектов классификации позволяет НИС выделить (при формировании правил) наиболее информативные интервалы частот для ДШ.

Таблица 4

Результаты классификации сигналов ЭЭГ и РС по признакам СПМ (Х(у)ЭЭг и Х(/)РС), %

Table 4

EEG and voice signals classification results on the PSD features (Х(у)ЭЭГ and Х(/)РС)

Успешность классификации ЭЭГ РС

ОВ ТВ ОВ ТВ

Общая 100 77 100 87

Класс 1 100 86 100 91

Класс 2 100 73 100 83

Класс 3 100 71 100 87

Получены результаты классификации образцов РС и паттернов ЭЭГ при использовании двух режимов обучения НИС (режим 1 - без интервальных признаков, режим 2 - с интервальными при-

Параметр Без интервальных признаков С интервальными признаками

Общее число признаков 200 31

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ошибки при классификации ОВ 5 (Патология ^ Норма) 2 (Патология ^ Норма)

Ассоциативные элементы 179 214

Множество вершин Уе 29 37

Количество связей 980 1058

Контрольные элементы Норма (6) / Патология (4) Норма (6) / Патология (6)

Ошибки при классификации ТВ 3 (Патология ^ Норма) 2 (Патология ^ Норма)

знаками (табл. 4)). Переход от режима 1 к режиму 2 позволил выявить ряд тенденций: 1) уменьшилось общее число признаков (минимум на 30 %), обеспечивающих хороший уровень обобщения и уточнения описания объектов в классах; 2) увеличилось число составляющих НИС ассоциативных элементов, вершин (Ус), характеризующих группы близких объектов, связей и контрольных элементов по классам объектов; 3) в большинстве случаев отмечается увеличение успешности (точности) классификации, то есть сократилось число ошибок при распознавании ОВ и ТВ.

Полученные результаты исследований показали приемлемую точность классификации образцов РС и паттернов ЭЭГ в соответствии со знаком порождаемой эмоции (классы 1, 2, 3). Объединение результатов классификации показывает, что неправильно классифицированные образцы РС и паттерны ЭЭГ принадлежат одним и тем же людям. НИС безошибочно разделяет два крайних класса (классы 1 и 3), ошибки возникают при попытке разделить объекты из классов 2 и 3 или объекты из классов 2 и 1.

На основании изложенного можно сделать следующие выводы. Дополнение интерпретатора на основе НИС алгоритмом автоматической генерации интервальных признаков позволяет выделять наиболее информативные интервалы признакового пространства и тем самым сократить размерность описаний объектов, а также уменьшить погрешность классификации.

Как видно из результатов тестирования, проведенных на искусственных и реальных клинических данных, алгоритм позволяет работать с различными типами экспериментальных графиков. Набор сгенерированных классификационных правил, отображающих закономерности в структуре НИС, и результаты классификации выборок сигналов (ДШ, РС и ЭЭГ) в большинстве случаев согласуются по форме с логическими выводами, сделанными экспертами при анализе этих же выборок.

Литература

1. Гладун В.П. Растущие пирамидальные сети // Новости искусственного интеллекта. 2004. № 1. С. 30-40.

2. Лоскутов А.Ю. Анализ временных рядов: курс лекций. М.: Изд-во МГУ, 2006. 113 с.

3. Ifeachor E.C., Jervis B.W. Digital Signal Processing: A Practical Approach (2nd ed.). Pearson Education, Upper Saddle River, NJ, USA, 2002, 933 p.

4. Mirowski P., Madhavan D., LeCun Y., Kuzniecky R. Classification of patterns of EEG synchronization for seizure prediction. Clinical neurophysiology, 2009, no. 120 (11), pp. 1927-1940.

5. Rangayyan R.M. Biomedical Signal Analysis: A Case-Study Approach. IEEE Press and Wiley, NY, 2002, 516 p.

6. Филатова Н.Н., Ханеев Д.М., Сидоров К.В. Интерпретатор сигналов на основе нейроподобной иерархической структуры // Программные продукты и системы. 2014. № 1 (105). С. 92-97.

7. Ханеев Д.М., Филатова Н.Н. Применение нейроподоб-ных сетевых структур для генерации гипотез правил классификации // Нечеткие системы и мягкие вычисления. 2013. Т. 8. № 1. С. 43-58.

8. Keogh E., Chu S., Hart D., Pazzani M. An online algorithm for segmenting time series. IEEE Intern. Conf. on Data Mining, 2001, pp. 289-296.

References

1. Gladun V.P. Growing pyramidal networks. Novosti iskusstvennogo intellekta [News of artificial intelligence]. 2004, no. 1, pp. 30-40 (in Russ.).

2. Loskutov A.Yu. Analiz vremennykh ryadov: Kurs lektsiy [Time Series Analysis: Lectures]. Moscow, Moscow State Univ. Publ., 2006, 113 p. (in Russ.).

3. Ifeachor E.C., Jervis B.W. Digital signal processing: a practical approach. 2nd ed., Pearson Education Publ., Upper Saddle River, NJ, USA, 2002, 933 p.

4. Mirowski P., Madhavan D., LeCun Y., Kuzniecky R. Classification of patterns of EEG synchronization for seizure prediction. Clinical neurophysiology. 120 (11), 2009, pp. 1927-1940.

5. Rangayyan R.M. Biomedical signal analysis: a case-study approach. IEEE Press and Wiley, NY, 2002, 516 p.

6. Filatova N.N., Khaneev D.M., Sidorov K.V. Signals interpreter based on neural-like hierarchical structure. Programmnye produkty i sistemy [Software & Systems]. 2014, no. 1 (105), pp. 92-97 (in Russ.).

7. Khaneev D.M., Filatova N.N. Use of neurolike structures for automatic generation of hypotheses for classification rules. Nechetkie sistemy i myagkie vychisleniya [Fuzzy systems and soft computing]. 2013, vol. 8, no. 1, pp. 43-58 (in Russ.).

8. Keogh E., Chu S., Hart D., Pazzani M. An online algorithm for segmenting time series. IEEE Int. Conf. on Data Mining. 2001, pp. 289-296.

Алгоритм классификации графиков с последовательным укрупнением признаков Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ханеев Д. М., Сидоров К. В., Филатова Н. Н.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ханеев Д. М., Сидоров К. В., Филатова Н. Н.

Текст научной работы на тему «Алгоритм классификации графиков с последовательным укрупнением признаков»