Научная статья на тему 'О синтезе факторов в искусственных нейронных сетях'

О синтезе факторов в искусственных нейронных сетях Текст научной статьи по специальности «Математика»

CC BY
182
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Игнатьев Н. А.

Рассматриваются способы предобработки данных из разнотипных признаковых пространств для минимизации конфигурации нейронной сети при решении задач распознавания с учителем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

To synthesis of factors in artificial neural networks

Algorithms of pre-processing of the various types of data from attribute spaces are considered for the purpose of minimization of the neural network configurations. These algorithms are applied to the problems of recognition with a teacher.

Текст научной работы на тему «О синтезе факторов в искусственных нейронных сетях»

Вычислительные технологии

Том 10, № 3, 2005

О СИНТЕЗЕ ФАКТОРОВ В ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЯХ

Н.А. Игнатьев Национальный университет Узбекистана, Ташкент e-mail: [email protected]

Algorithms of pre-processing of the various types of data from attribute spaces are considered for the purpose of minimization of the neural network configurations. These algorithms are applied to the problems of recognition "with a teacher".

Введение

Искусственные нейронные сети (НС) находят широкое применение там, где необходимо моделировать подобие человеческой интуиции и, как правило, трудно построить явные алгоритмы. Предобработка данных требуется для синтеза НС с минимальной конфигурацией и достижения высокой точности решения прикладных задач. Из теории и практики вычислений известно, что эти требования часто бывают диаметрально противоположными. Так, в задачах распознавания образов использование квадратичных решающих функций вместо линейных, с одной стороны, позволяет увеличить точность распознавания, а с другой — приводит к экспоненциальному росту объема вычислений.

Попытка увязать сложность конфигурации НС с наборами признаков, на которых эта конфигурация строится, предпринималась в [1]. Большое разнообразие условий, накладываемых на количественные признаки, включаемые в набор, отсутствие единого критерия отбора и трудности интерпретации процесса принятия решения в различных прикладных задачах сдерживали широкое практическое применение описанного в этой работе метода.

В настоящей статье рассматривается синтез факторов (комбинированных признаков) разнотипных признаковых пространств с целью построения нейронной сети с минимальной конфигурацией для корректных (не делающих ошибок) на обучающей выборке алгоритмов решения задач распознавания с учителем, дается формальное объяснение некоторых деталей процесса принятия решения. Вводятся новые способы определения:

— оценки межклассового различия и вклада признаков в разделение классов для отбора информативных наборов признаков;

— меры внутриклассового сходства (степени однородности) градаций номинальных признаков для вычисления синаптических весов нейронов и коррекции взвешенной суммы входных сигналов нейронов с учетом пропущенных значений (пропусков в данных) признаков.

Число комбинаций разнотипных признаков, используемых для синтеза НС с минимальной конфигурацией по алгоритмам из [2, 3], может определяться разными соображениями,

© Институт вычислительных технологий Сибирского отделения Российской академии наук, 2005.

в том числе и экспертно-экспериментальными. Абсурдность разделения выборки на обучающую и контрольную для оценки качества распознавания НС, показанная в [2], служит веским аргументом для поиска новых критериев эффективности работы НС.

1. Синтез факторов разнотипного признакового пространства

Рассматривается стандартная задача распознавания образов с учителем. Задано множество объектов обучения Е0 = {$!,..., Бт}, содержащее представителей I непересекающихся классов К1,..., Кг с описанием объектов в разнотипных признаковых пространствах. В описании объектов возможны пропуски данных.

Обозначим через 1, 3 множество номеров соответственно количественных и номинальных признаков в описании допустимых объектов (| I1 + 131 = п). Результат перемножения значений к (к > 1) количественных признаков считается новым количественным признаком. Объединение номинальных признаков представляет номинальный признак с номером р € 3, количество градаций которого ограничено сверху произведением числа градаций

признаков, входящих в объединение, и значением шт |К,-1.

1 <]<г

Считается, что синтез НС с минимальной конфигурацией аналогично [2] осуществляется в форме решения задачи о минимальном покрытии обучающей выборки Е0 объектами-эталонами множества П = {51,...,5а}, а < т, П € Е0, ] = 1,2,... Состав объектов покрытия П зависит от порядка выбора объектов-кандидатов на удаление из Е0 процедурой "последовательное исключение". На множестве номинальных признаков вводится функция от трех переменных

{£, а = @ или Ь = 0, а = Ь, 1 , а = Ь,

где £ — степень однородности градаций номинального признака в классе К и Бг € (К П П); а, Ь — значения градаций; @ — код пропуска. Обозначим через I*, 3* множества номеров исходных и комбинированных признаков со значениями соответственно в количественной и номинальной шкалах измерений. Положим, что объекты покрытия Пj € Е0 описываются признаками из I* и 3* и |1 *| + 13*| = 8.

Для распознавания принадлежности произвольно допустимого объекта Б = (Ь1, ...,Ьп) к классам К1,..., Кг по П производятся отображение (Ь1,..., Ьп) ^ (у1, ...,у$) и вычисление

™ггУ% + ^ /+ ^го, (1)

г€/* г€J *

где {/шг0, /шг1,..., 'Шгъ} — веса нейронов сети, определяемые по объекту-эталону Бг = (хг1,..., хг&). Номер класса объекта Б есть результат использования принципа "победитель забирает все" к значениям (1) на Пj.

Будем считать, что {^г}т — множество значений количественного признака д € I* объектов из Е0, А = (а0,...,аг) — целочисленный вектор со значениями элементов: а0 = 0, аг = т, аг < аг+1, г =1,1 — 1. Пусть

, П%2 , ..., %

(2)

— упорядоченная последовательность (пг)™, (Mi, •••, •••, ui> •••,uil, набор целых чисел, элемент uP в котором является количеством значений q-го признака объектов класса Kp в (2) с порядковыми номерами от at-1 + 1 до at.

Очевидно, что наилучшая разделимость классов, получаемая при переводе к номинальной шкале измерений, будет тогда, когда значения номинального признака одинаковы внутри каждого класса и не совпадают ни с одним значением из других классов, а число градаций признака равно числу классов.

Все значения количественного признака q £ I* в (2) с номерами от at-1 до at, t = 1,/ согласно критерию

i i \ / i ЕЕ(uP- 1)u? E|Ki|(m-|Ki|)

-г--> min (3)

i i i \ / i \ {A}

E EuP(m- IK| - E up + uP) E |Ki|(|Ki| - 1) ip=1 i=1 j=1 / \i=1

считаются эквивалентными в номинальной шкале измерений.

Обозначим через p число градаций признака c £ J*, gdc, gfc — количество значений t-й (1 < t < p) градации c-го признака в описании объектов соответственно класса Kd и его дополнения CKd, ^dc, ^dc — число значений c-го признака без пропусков соответственно в Kd и CKd, /¿с, /de — число градаций c-го признака соответственно в Kd и CKd. Межклассовое различие по c-му признаку определяется как величина

i p _

Е Е gicg

гс

Ас =1 ----• (4)

Е(^с - /гс + 1)(0ie - /гс + 1) + (т1п(/*, /гс) - 1)

г=1

Степень однородности (мера внутриклассового сходства) значений градаций c-го признака по классу Kd вычисляется по формуле

idc

Е gdÄ -1)

ß - ^с + 1)(6^с - /dc) ( )

и используется в качестве значения £ функции f (r, a, b) в (1). С помощью (4),(5) стало возможным определять "индивидуальные" веса номинального признака в разных классах. Так, для объекта Sr £ П П Kd вес c-го признака в (1) вычисляется по формуле w^ = А,^с-

Другим применением значения (4) является использование его в качестве показателя для сравнения при отборе информативных комбинаций разнотипных признаков. Множество сравниваемых комбинаций признаков может быть получено с помощью переборных или генетических алгоритмов. В качестве побочного эффекта от объединения номинальных признаков отметим следующее: возрастает вероятность того, что комбинированный признак произвольного допустимого объекта S содержит градации, отсутствующие у объектов обучения. Преобразование количественных признаков по критерию (3) позволяет синтезировать новые номинальные признаки как комбинации из количественных и номинальных признаков.

Процесс синтеза нового количественного признака xq, q £ I*, в общем виде представляется как

Xq = ^(Хг!) X ^2(хг2 ) X ••• X ^),

где ^(х^) — преобразование (в том числе и тождественное) признака х^ в определенную количественную шкалу измерений. Примером преобразования, меняющего порядок следования (2) на обратный, служит уравнение

I / \ ^тах ^ *г.\

^(х) =-, (6)

^тах ^тт

в котором хтах, хт;п — соответственно максимальное и минимальное значения признака х. Исследование и обоснование выбора различных преобразований при синтезе количественных признаков в данной работе не рассматриваются.

Аналогично [1] выбор весов количественных признаков в (1) осуществляется с помощью взвешенной евклидовой метрики

р(б,бО = ^2(Ус — ^^ (7)

у с&1*

где Б = (у1,...,у^), Б г = (хг1,...,хг£). С этой целью для каждого признака хс,с € I *, по критерию (3) определяются значения градаций в номинальной шкале измерений и вычисляется

\

l Idc

-,t (Л

е Е gdc(gdc -1)

Ac

dc

d=lt=l

l

E ($dc — ldc + 1)(0dc — ldc) d=l

max Xjc — mm Xjc

l<j<m l<j<m

Значения весов количественных признаков объектов покрытия П = {S1,..., Sа} в (1) определяются как wri = v2xri и wr0 = — Е

ш*

2. Критерии оценки качества синтеза признаков и вычислительный эксперимент

При выборе критериев оценки качества синтеза признаков имеет смысл отдельно рассматривать случаи, когда признаковое пространство представлено: а) количественными признаками; б) разнотипными признаками.

В первом случае на множестве объектов обучения E0 определяется линейная оболочка L(E0) [1], являющаяся подмножеством граничных объектов классов по метрике (7). Различные наборы признаков сравниваются по критерию

Е p(S.S*)

Si£L(E о)

---> max,

S|L(Eo)| Ео

в котором S* £ CKd, d = 1,/, — ближайший (по метрике (7)) объект к Si £ Kd, S — число признаков в наборе. Предпочтительным считается тот набор признаков, на котором получено максимальное в среднем расстояние между линейными оболочками классов.

При наличии пропусков в данных для анализа комбинаций количественных признаков целесообразно использовать преобразование по критерию (3) и определять значение

v

c

вклада каждого признака р £ I* в разделение классов как

I Ир I Ир _

У ^ У ^ 1) У ^

Ар - —---1-—, (8)

53 Ьгр(Ьгр 1) ЬгрЬгр

г=1 г=1

где гр^, гр^ — количество значений ^'-й градаций р-го признака соответственно класса К и его дополнения СК — ир — число градаций р-го признака; Ьр, Ьр — число зна-

чений р-го признака без пропусков соответственно в К и СК^. Упорядочение множества значений {Ар} позволяет производить направленный отбор информативных наборов признаков. Для заполнения пропусков значений количественных признаков можно использовать хорошо известные и описанные в научной литературе методы. Для анализа качества заполнения тем или иным методом рекомендуется сравнивать значения (8), полученные до и после заполнения пропусков.

Для разнотипных признаков (второй случай) критерием качества служит оценка сложности решающей функции на локально-оптимальном покрытии обучающей выборки объектами-эталонами, используемая в [1]. Оценка сложности вычисляется как произведение числа объектов-эталонов локально-оптимального покрытия обучающей выборки на размерность признакового пространства и базируется на таком фундаментальном понятии, как емкость класса решающих функций в методе структурной минимизации риска [4].

Значения (4),(5) могут быть использованы для интерпретации экспериментальных табличных данных в терминах нечетких логик. Всегда нужно помнить, что эксперта-исследователя чаще всего интересует не только результат распознавания, но и объяснение того, как этот результат получился.

Обозначим через (£) пространство из £ признаков, в котором > 1) определяет максимальное число исходных признаков, используемое для синтеза комбинированного признака. Для вычислительного эксперимента были взяты медицинские данные из [5], содержащие описания 177 объектов с помощью 29 количественных признаков. Объекты выборки разделены на два непересекающихся класса: класс 1 — контрольная группа (111 человек), класс 2 — больные гипертонией (66 человек). Количество пропусков в данных равно 7.23%, и для заполнения их при выборе минимальной конфигурации НС использовались средние значения признаков в классах.

Перечень из 29 признаков, упорядоченный по мере уменьшения их вклада (8) в разделение объектов классов, выглядел следующим образом:

1) среднее артериальное давление;

2) систолическое артериальное давление;

3) диастолическое артериальное давление;

4) пульсовое артериальное давление;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5) размер полости левого предсердия;

6) возраст;

7) конечный систолический размер левого желудочка;

8) конечный систолический объем левого желудочка;

9) удельное периферическое сопротивление;

10) конечный диастолический объем левого желудочка;

11) конечный диастолический размер левого желудочка;

12) вес;

13) индекс Кердо;

14) фракция выброса;

15) степень укорочения переднезаднего размера левого желудочка в систолу;

16) ударный объем;

17) рост;

18) коэффициент К1;

19) минутный объем;

20) систолический показатель;

21) длительность интервала QT на ЭКГ;

22) длительность систолы;

23) длительность диастолы;

24) коэффициент К2;

25) длительность интервала QRS на ЭКГ;

26) частота пульса;

27) сердечный индекс;

28) длительность интервала PQ на ЭКГ;

29) длительность интервала RR на ЭКГ.

Для сравнительного анализа были рассмотрены два пространства: Л1 (29) из 29 исходных признаков и Л2 (7), содержащие семь парных комбинаций признаков, вклад (8) каждой из которых больше, чем у среднего артериального давления. Синтез признаков для Л2(7) осуществлялся с помощью тождественного ^тож(х) = х и обратного ^обр(*) преобразований (6). Перечень из семи комбинированных признаков, расположенных в порядке убывания значений (8), был получен как результат произведения следующих преобразований исходных признаков:

— "0тож (рост) х ^обр (систолическое артериальное давление);

— "0тож (диастолическое артериальное давление) х ^обр (среднее артериальное давление);

— "0ТОЖ (рост) х ^обр (среднее артериальное давление);

— "0тож (систолическое артериальное давление) х ^Тож (размер полости левого предсердия) ;

— "0тож (размер полости левого предсердия) х ^Тож (среднее артериальное давление);

— "0тож (сердечный индекс) х ^Тож (удельное периферическое сопротивление);

— "0тож (систолическое артериальное давление) х ^тож (среднее артериальное давление).

Эффект от предобработки данных в виде количества объектов покрытия при синтезе НС с минимальной конфигурацией приведен в таблице. В пространстве с евклидовой метрикой для каждого объекта покрытия Бг € Пj, Бг = (хг1, ...,хгг), веса в (1) вычислялись

г

по формулам = хгг, = — ^ и^/2. Для выбора локально-оптимальных покрытий в

г=1

Л1 (29) и Л2(7) процедурой "последовательное исключение" использовался один и тот же порядок подачи объектов-кандидатов на удаление с номерами от 1 до 177. Трудоемкость вычисления информативных наборов признаков выразилась в форме линейной зависимо-

Пространство Л1 (29) Л2(7)

С евклидовой метрикой 22 13

С метрикой (7) 18 9

сти между затратами процессорного времени и числом признаков, предъявляемых для отбора.

Синтез НС в обобщенном признаковом пространстве, определяемом информативным набором комбинированных признаков, позволил в несколько раз снизить сложность (произведение числа эталонов покрытия на размерность признакового пространства) решающих функций по сравнению с аналогичными показателями для исходного признакового пространства.

Список литературы

[1] Игнатьев Н.А. Выбор минимальной конфигурации нейронных сетей // Вычисл. технологии. 2001. Т. 6, № 1. С. 23-28.

[2] Игнатьев Н.А. Извлечение явных знаний из разнотипных данных с помощью нейронных сетей // Вычисл. технологии. 2003. Т. 8, № 2. С. 69-73.

[3] Игнатьев Н.А., Мадрахимов Ш.Ф. О некоторых способах повышения прозрачности нейронных сетей // Вычисл. технологии. 2003. Т. 8, № 6. С. 31-37.

[4] Прикладная статистика: Классификация и снижение размерности: Справочное издание / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. М.: Финансы и статистика, 1989.

[5] Ignat'ey N.A., Adiloya F.T., Matlatipoy G.R., Chernysh P.P. Knowledge discovering from clinical data based on classification tasks solving // MediNFO. Amsterdam: IOS Press, 2001. Р. 1354-1358.

Поступила в редакцию 28 октября 2003 г., в переработанном виде — 24 декабря 2004 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.