Научная статья на тему 'Построение адаптивных систем классификации на основе нейронных сетей с латеральным торможением'

Построение адаптивных систем классификации на основе нейронных сетей с латеральным торможением Текст научной статьи по специальности «Математика»

CC BY
100
23
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — В И. Дубровин, C А. Субботин

Рассмотрено решение задачи классификации на основе нейронных сетей с латеральным торможением. Реализованы методы обучения карт признаков самоорганизации Кохонена. Рассмотрены вопросы использования априорной информации о значимости признаков. Сделан анализ применимости рассмотренных моделей. Результаты работы могут быть использованы при построении адаптивных систем диагностики

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The solution of the task of a classification by the lateral inhibition neural networks is considered in this paper. The methods of Kohonen Self-organizing Maps learning are realized. The questions of use of the a priori information on a significance of the characteristics are considered. The analysis of applicability of the considered models is made. The results of work can be used for diagnostics adaptive systems design.

Текст научной работы на тему «Построение адаптивных систем классификации на основе нейронных сетей с латеральным торможением»

УДК 681.322:681.5

ПОСТРОЕНИЕ АДАПТИВНЫХ СИСТЕМ КЛАССИФИКАЦИИ НА ОСНОВЕ НЕЙРОННЫХ СЕТЕЙ С ЛАТЕРАЛЬНЫМ ТОРМОЖЕНИЕМ

В. И. Дубровин, С. А. Субботин

Рассмотрено решение задачи классификации на основе нейронных сетей с латеральным торможением. Реализованы методы обучения карт признаков самоорганизации Кохонена. Рассмотрены вопросы использования априорной информации о значимости признаков. Сделан анализ применимости рассмотренных моделей. Результаты работы могут быть использованы при построении адаптивных систем диагностики.

Розглянуто розв'язок задач1 класифжацп на основ1 нейронних мереж з латеральним гальмуванням. Реалгзовано методи навчання карт ознак самооргатзацп Кохонена. Роз-глянуто питання про використання апргорног гнформацп про значимгсть ознак. Зроблено аналгз можливостг застосування розглянутих моделей. Результати роботи можуть бути використаш при будувант адаптивних систем д1агностики.

The solution of the task of a classification by the lateral inhibition neural networks is considered in this paper. The methods of Kohonen Self-organizing Maps learning are realized. The questions of use of the a priori information on a significance of the characteristics are considered. The analysis of applicability of the considered models is made. The results of work can be used for diagnostics adaptive systems design.

ВВЕДЕНИЕ

В последнее время наша промышленность понимает необходимость сертификации систем качества и внедрения систем качества, соответствующих стандартам ISO 9000. Однако эти стандарты являются завершающим этапом развития, и, чтобы построить такие современные системы качества, необходимо пройти определенные этапы, а именно, избавиться от такого серьезного недостатка, как высокий уровень дефектности. Эффективным средством против данного недостатка является диагностика процессов и изделий [1]. Несмотря на наличие большого числа разработанных алгоритмов диагностики нерешенным остается ряд задач. Одной из таких задач является рассматриваемая в данной работе задача классификации по признакам в условиях малого размера обучающей выборки.

1. ПОСТАНОВКА ЗАДАЧИ

Пусть имеется ограниченная обучающая выборка экземпляров изделий xs , каждый из которых характеризуется конечным числом признаков xst и номером

класса, к которому относится экземпляр. Задача состоит в том, чтобы отыскать некоторый оператор, удовлетворяющий заданному критерию качества классификации и позволяющий на основании значений признаков опреде-

лять номер класса, к которому относится экземпляр, не входящий в обучающую выборку.

Если размер выборки достаточно велик, классы легко разделимы и число признаков N невелико, то, как правило, используют статистические методы классификации [2]. В тех случаях, когда число признаков велико и классы трудно разделимы, могут быть применены, в частности, методы дискриминантных и потенциальных функций [3,4].

Однако если размер обучающей выборки мал (в случаях, когда из-за уникальности или дороговизны изделий и сложности испытаний невозможно или нежелательно проводить большое число экспериментов), статистические и эвристические алгоритмы, как правило, не позволяют решать задачу классификации с достаточной достоверностью. Естественно, обладая лишь информацией о признаках и номере класса нескольких случайно выбранных экземпляров, как правило, невозможно построить приемлемую модель генеральной совокупности. Вместе с тем, в таких случаях в отношении некоторого количества экземпляров, номера классов которых неизвестны, может иметься информация о значениях признаков. Будем считать, что в наборе обучающих данных X имеются экземпляры, номера классов которых известны, и экземпляры, номера классов которых неизвестны. Обозначим Х^ - множество экземпляров, номер фактического класса которых известен, X^с X. При этом возникают задачи получения приемлемой модели генеральной совокупности при небольшом количестве испытаний и использования информации о значениях признаков экземпляров, номер класса которых не известен, для улучшения модели генеральной совокупности.

2. КАРТА ПРИЗНАКОВ САМООРГАНИЗАЦИИ

КОХОНЕНА

Альтернативой традиционно используемым методам при построении моделей на основе обучающих выборок могут служить нейронные сети (НС).

Одним из важнейших свойств НС является способность к аппроксимации многомерных функций, что позволяет использовать их для моделирования сложных процессов и объектов.

Не менее важное свойство НС - обучаемость дает возможность строить на их основе адаптивные системы.

Благодаря этому НС могут применяться в задачах классификации.

Наиболее мощным нейросетевым средством для аппроксимации многомерных функций на сегодняшний день являются многослойные нейронные сети [5,6]. Однако они требуют достаточно большого объема обучающих данных, длительного обучения и мало приспособлены к самоорганизации.

Для решения задачи классификации в условиях малого размера обучающей выборки весьма перспективным является использование НС с латеральным торможением - карт признаков самоорганизации Кохонена (КПСК).

2.1 Модель сети

Карта признаков самоорганизации Кохонена (Koho-nen Self-organizing Map) [5-7] является нейронной сетью с латеральным торможением и относится к классификаторам, для обучения которых используются выборки образов с заранее не заданной классификацией. Задачей сети является определение принадлежности входного вектора признаков s-го экземпляра выборки T

xs = {Xs 1, Xs2, •••, XSN} к одному из L возможных кластеров, представленных векторными центрами

TT w. = {w.,, w.„, •.., w. } j = 1, 2, •.., L , где T - символ j 1 j1 j2 JN

транспонирования.

Обозначим i-ю компоненту входного вектора xs в момент времени t как xsj(t) , а вес i-го входа j-го узла в момент времени t как w Jt) .

2.2 Алгоритм классификации

Если узлы КПСК являются линейными, а вес i-го входа j-го узла равен w, , i = 1, 2, •..,N, j = 1, 2, •..,L ,

то, очевидно, что при соответствующих значениях порогов каждый i-й выход сети с точностью до несущественных постоянных будет равен евклидовому расстоянию

dj между предъявленным входным вектором xsi и j-м

центром кластера.

Считается, что вектор xs принадлежит к j-му кластеру, если расстояние dj для j-го центра кластера wj

минимально, т. е. если d, < dk для каждого кФ j .

J к

2.3 Алгоритм формирования карты

признаков самоорганизации

При обучении НС предъявляются входные векторы без указания желаемых выходов и корректируются веса согласно алгоритму, который предложил Теуво Кохонен [7]. Алгоритм Кохонена, формирующий карты признаков, требует, чтобы возле каждого узла было определено поле NE, размер которого с течением времени постоянно

уменьшается.

Шаг 1. Инициализируются веса входов узлов малыми случайными значениями. Устанавливается начальный размер поля КБ.

Шаг 2. Предъявляется новый входной вектор х**.

Шаг 3. Вычисляется расстояние (метрика) между

входным вектором и каждым выходным узлом } :

dj = £(xsi(t) - w (t))2

(1)

i = 1

Шаг 4. Определяется узел ;* с минимальным расстоянием .

Шаг 5. Корректируются веса входов узлов, находящихся в поле Г) узла ]*, таким образом, чтобы новые значения весов были равны

WJl(Г + 1) = WJl(Г) + П(Г)(х- Г)) , ] £ МЕ^Г) , 1 = 1, 2, ..., N.

При этом корректирующее приращение п( Г) (0 < п(Г) < 1 ) должно убывать с ростом Г .

Шаг 6. Если сходимость не достигнута, то перейти к шагу 2.

Сходимость считается достигнутой, если веса стабилизировались и корректирующее приращение п в шаге 5 снизилось до нуля.

Если число входных векторов в обучающем множестве велико по отношению к выбранному числу кластеров, то после обучения веса сети будут определять центры кластеров, распределенные в пространстве входов таким образом, что функция плотности этих центров будет аппроксимировать функцию плотности вероятности входных векторов. Кроме того, веса будут организованы таким образом, что топологически близкие узлы будут соответствовать физически близким (в смысле евклидова расстояния) входным векторам.

2.4 Планирование обучающего эксперимента

Из выше изложенного следует, что КПСК способны разделять экземпляры по степени близости их признаков. Это позволяет применять КПСК для выделения центров сосредоточения экземпляров, что может быть использовано при планировании обучающего эксперимента, в случае, когда большое количество опытов ставить затруднительно, например, по причине дороговизны или уникальности изделий. Планирование обучающего эксперимента в этом случае может быть проведено следующим образом: на основании значений признаков всех экземпляров обучающей выборки производится формирование КПСК, а затем для экземпляров, которые наиболее близки к сформированным векторным центрам КПСК, проводятся эксперименты по определению фактических классов.

N

3. ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ

КЛАССИФИКАЦИИ

Важно отметить, что при классификации с помощью КПСК, номер узла, к которому отнесен экземпляр, и фактический номер его класса в общем случае не совпадают - разделяя экземпляры, КПСК производит субъективную классификацию, не имеющую того реального физического смысла, которым мы наделяем классы.

Результаты классификации КПСК могут быть наделены фактическим смыслом путем постановки в соответствие номеру каждого узла КПСК номера того фактического класса, к которому относится большая часть экземпляров обучающей выборки, отнесенных КПСК к данному узлу. Для этого может быть использовано ассоциативное запоминающее устройство (АЗУ).

Алгоритм обучения системы КПСК-АЗУ имеет вид:

Шаг 1. Реализуется обучающий эксперимент и определяются фактические классы экземпляров. Производится обучение КПСК для всех экземпляров обучающей выборки

Шаг 2. Для каждого узла КПСК подсчитывается число экземпляров, относящихся к каждому из фактических классов.

Шаг 3. Каждому узлу КПСК ставится в соответствие тот фактический класс, к которому относится большая часть экземпляров, отнесенных КПСК к данному узлу. Постановка соответствия производится путем записи пары (кортежа) <номер узла КПСК, номер класса> в АЗУ. В качестве АЗУ может быть использован как блок линейной или динамической памяти, обслуживаемый соответствующей процедурой, так и нейросетевая ассоциативная память:

а) для системы с двумя классами - однослойный дискретный перцептрон [5,6];

б) для системы с большим числом классов - многослойная нейронная сеть [5,6] или комбинация ассоциативной памяти на основе НС Хопфилда [6] с нейросетевым селектором максимума [5]. При этом на соответствующие входы НС Хопфилда подаются сигналы от каждого из узлов КПСК, а на выходе получают

0, если номер узла КПСК не сопоставлен данному классу и 1 - если сопоставлен. Нейросетевой селектор максимума определяет номер узла НС Хопфилда (т.е. номер фактического класса), для которого выход равен

1, для всех остальных узлов КПСК выход НС Хопфилда будет равен 0.

Блок КПСК-АЗУ может быть рекомендован для использования в системах классификации в случае, когда:

а) реальный принцип деления экземпляров на классы совпадает или близок к методу классификации КПСК.

б) размер обучающей выборки, т.е. совокупности значений признаков экземпляров и сопоставленных им

номеров классов, недостаточен для классификации другими методами (статистическими, нейросетевыми), а экземпляры одного и того же класса имеют близкие значения признаков, т.е. классы хорошо разделяются и имеют центры, вокруг которых достаточно плотно сосредоточены экземпляры, относящиеся к данному классу.

4. ВЫБОР МЕТРИКИ

Евклидово расстояние (1), является частным случаем метрики Минковского:

а. =

]

£ |х*1 (Г) - w (Г)\-

, \£ Я .

Так, как метрика а. вычисляется для всех узлов по

одной и той же формуле, то вычисление корня X -й степени можно опускать. Изменяя X, можно получить неограниченное число других метрик. Однако на практике следует ограничиваться легко вычислимыми метриками, топологически близкими к фактическому разделению классов. Очевидно, чем ближе выбранная метрика к реальной закономерности разделения на классы, тем точнее и с меньшими потерями будет производиться классификация. При построении систем диагностики возникает задача автоматического выбора наилучшей метрики из множества заданных для каждого конкретного набора классов изделий.

Пусть Б = {ар} - множество заданных метрик ар , р = 1, 2, ..., Мр , где Мр - число заданных метрик. Тогда,

очевидно, метрика ач для данного класса изделий является наилучшей на этом множестве в смысле точности классификации, если число принимаемых ошибочных решений при этой метрике минимально.

Алгоритм итеративного подбора метрики имеет вид:

Шаг 1. Установить счетчик р = 1 .

Шаг 2. Принять в качестве текущей метрики а метрику ар : БББ бы а = ар.

Здесь БББ БЫ - означает определение/переопределение функции.

Шаг 3. Произвести обучение блока КПСК-АЗУ на всей выборке X

Шаг 4. Определить число ошибочных решений Мош[р ] для р-й метрики в отношении экземпляров, о

которых известен фактический номер класса.

Шаг 5. Если р >Мр - перейти на шаг 6, иначе увеличить счетчик р : р = р + 1 и перейти на шаг 2.

Шаг 6. В качестве лучшей принимается та метрика ар , для которой Мош[р] - минимально.

5. ИСПОЛЬЗОВАНИЕ АПРИОРНОЙ

ИНФОРМАЦИИ О ЗНАЧИМОСТИ ПРИЗНАКОВ

Выше рассмотренные метрики, как правило, предполагают, что все признаки, по которым производится классификация, являются одинаково значимыми. Однако на практике признаки разделяются на значимые и незначимые. В отношении некоторых признаков, может быть заранее известно или предполагаться, что они являются наиболее или наименее значимыми, но степень такой значимости точно неизвестна и не позволяет производить классификацию только на основе данного признака или исключить данный признак в случае его малозначимости.

Если использовать такую априорную информацию при обучении НС, то, очевидно, классификация изделий будет производиться с меньшим числом ошибок.

Для КПСК задача состоит в том, чтобы использовать априорную информацию о значимости признаков при вычислении метрики. Для примера, далее будем рассматривать в качестве метрики евклидово расстояние (1). Априорная информация о значимости признаков в КПСК может быть использована путем введения в формулу метрики положительно определенной коэффициентной функции а(г) . В этом случае метрика может быть задана в одной из следующих форм:

N N

й = £ (а(г)х*(Г)-* (Г))2 или й = £ а(г) -(х*(Г)^ (Г))2

1

1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Чем информативнее 1-й признак, тем меньшее значение должна принимать функция а(г) и, наоборот, чем менее значимый признак - тем большее. Вариантов задания такой функции может быть достаточно много, рассмотрим те из них, что имеют наибольшее практическое значение.

Вариант 1. Если априорно известно о значимости только некоторых признаков, то для тех признаков, которые предположительно значимее других, а(г) полагают равной значению а , 0 < а < 1 . Если о 1-ом признаке известно или предполагается, что он - незначимый или малозначимый, то такой признак либо вообще исключается, либо функцию а(г) полагают равной значению Ь , Ь > 1 . Для признаков, о которых неизвестна априорная информация о значимости функцию а (I) полагают равной 1.

Вариант 2. Значимость признаков определяется степенью их влияния на фактический номер класса, к которому относится экземпляр. В этом случае, функцию а(I) можно положить равной дополнению до единицы модуля коэффициента корреляции 1-го признака и номера фактического класса у* :

Ух5 е Хп : а(г) = 1 - \г А .

^ х, у*

6. ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ И ВЫВОДЫ

Для НС Кохонена был разработан программный комплекс, позволивший осуществлять моделирование на ЭВМ. На основе разработанных моделей НС решалась задача прогнозирования надежности элементов изделий электронной техники (ИЭТ), решенная ранее с помощью эвристических алгоритмов классификации [8]. Предварительно в результате анализа были выбраны 15 информативных признаков ИЭТ. Результаты влияния объема обучающей выборки М и значения X на число ошибочных решений представлены на рисунке.

Как видно из рисунка, с уменьшением объема обучающей выборки надежность прогнозирования имеет тенденцию к уменьшению. Вместе с тем, при подборе соответствующего значения X даже для небольшой обучающей выборки возможно достижение точности прогнозирования порядка 80-90%.

№ш В 5.5 5 4.5 4 3.5 3 2.5 2 1.5 1

\ Х=2, 6, 8 Х=6 у

Х=8 -у/-

/ \ Х=2

Х=1, 2, 6 N. \

Х=1 Х=1 \л

9 10

12 М

Рисунок - Зависимость числа ошибочных решений от размера обучающей выборки М и показателя степени X.

Использование НС Кохонена в комбинации с АЗУ при соответствующем подборе метрики позволяет достигать приемлемых результатов даже для небольших обучающих выборок. В этом заключается преимущество данного метода при решении задачи диагностики дорогостоящих изделий над эвристическими алгоритмами, требующими достаточно большого объема обучающих данных. Результаты моделирования на ЭВМ позволяют рекомендовать предложенные модели и алгоритмы для использования при построении систем диагностики уникальных и дорогостоящих изделий, а также при планировании длительных и дорогостоящих обучающих экспериментов.

Однако следует отметить, что результаты работы КПСК критичны к степени близости используемой метрики к реальному разделению экземпляров на классы и подбор наилучшей метрики может быть достаточно долгим и трудоемким.

ПЕРЕЧЕНЬ ССЫЛОК

1. AyôpoeiH В., Степаненко О., Луценко А. Д1агностика процессе та керування якютю // Досв1д розробки i застосу-вання САПР в мiкроелектроницi /Mатерiали п'ято! мiжна-родно! науково-техшчно! конференцп CADSM'99. - ËbâiB, Державний ушверситет "Львiвська полiтеxнiка", 1999, С.22-24.

2. Внуков Ю.Н., Аубровин В.И. Методики прогнозирования с использованием теории статистических оценок и статистической классификации //Высокие технологии в машиностроении /Материалы VI международного научно-технического семинара. - Харьков: ХГПУ, 1996, С.26-27

3. Внуков Ю.Н., Аубровин В.И. Алгоритм классификации с использованием дискриминантных функций //Высокие

технологии в машиностроении /Сборник научных трудов ХГПУ. - Харьков: ХГПУ, 1998, С.64-66.

Аубровин В.И., Корецкий Н.Х. Об одном подходе к прогнозированию надежности изделия //Электронное моделирование, 1986, т.8, N 6, ноябрь-декабрь, С.97-98. Бовель Е.И., Паршин В.В. Нейронные сети в системах автоматического распознавания речи //Зарубежная радиоэлектроника. 1998. №4 . C.50-57.

Нейрокомпьютеры и интеллектуальные роботы /под. ред. Амосова Н.М. - Киев: Наукова думка, 1991. - 272 с. Кохонен Т. Ассоциативная память: Пер. с англ. - М.:Мир, 1980.-204 с.

Аубровин В.И. Эвристические алгоритмы классификации// Машиностроитель, 1998, №7, С. 6-9.

Надшшла 04.07.99

УДК 519.854

ОБУЧЕНИЕ И ДВУХУРОВНЕВАЯ НЕЧЕТКАЯ ОПТИМИЗАЦИЯ В РАЗРАБОТКЕ КОМПЬЮТЕРНО-ИНТЕГРИРОВАННЫХ СИСТЕМ

А. А. Лавров, О. И. Лисовиченко, Л. С. Ямпольский

Данная статья рассматривает повышение эффективности решения задач смешанной нелинейной целочисленной оптимизации, которые возникают при разработке компьютерно-интегрованных систем, с позиций: (1) трактование этого как, в свою очередь, снова задачи такого же типа, (2) использование комбинированных способов, которые базируются на нейронных сетях и/или нечетком представлении для управления поиском в смешанном (непрерывном/дискретном/ комбинированном) пространстве управляемых переменных (в прикладной задаче) и значений параметров самих поисковых процедур (в задаче второго уровня).

Рассматриваются две стадии. На первой выполняется поиск (второго уровня) в пространстве параметров оптимизационных процедур, и собранная при этом информация используется для построения опорной поверхности, которая, в свою очередь, используется для выбора эффективных значений параметров на стадии решения прикладных задач разработки систем.

Дана стаття розглядае тдвищення ефективностг ршення задач змгшаног нелшшног щлочисленог оптимгзацп, що вини-кають при розробц комп'ютерно-ттегрованих систем, з позиций: (1) трактування цього як, у свою чергу, знову задачг такого ж типу, (2) використання комбтованих засобгв, що базуються на нейронних с1тках та/або неч1ткому поданш для керування пошуком у змгшаному (неперервному/дискрет-ному/комбтованому) просторг керованих змгнних (у прикладной задачг) та значень параметр1в самих пошукових процедур (у задачг другого ргвня).

Розглядаються дв1 стади. На першт виконуеться пошук (другого ргвня) у просторг параметргв оптим1зацтних процедур, г згбрана при цьому гнформацгя використовуеться для побудови опорноi поверхт, яка, в свою чергу, використовуеться для вибору ефективних значень параметр1в на стадп ргшення прикладних завдань розробки систем.

This paper views a problem of increasing the efficiency of mixed integer nonlinear optimization (MINLO), arising in computer-integrated system development, from the standpoints of (1) dealing with it as being itself a MINLO problem and (2) using a combined, neural net-based and/or fuzzy set-based setup for

guiding the search in a mixed (continuous/integer/composite) space of the controllable variables (in the application problems), and of the algorithm settings (in the second-level problem).

Two stages are considered. At the training stage, the (second-level) search proceeds in the space of the settings, and the information gathered here is accumulated in the form of a support surface, which is used at the second, application stage for choosing appropriate search settings.

1. ВВЕДЕНИЕ

Современные компьютерно-интегрированные системы, представленные, в частности, гибкими автоматизированными производствами, отличаются большой сложностью, размерностью, разнообразием элементов входных и выходных потоков, высокой стоимостью и т.д. Как следствие, разработка таких систем нацелена не только на обеспечение выполнения ими определенного набора функций, но и, прежде всего, на выполнение этих функций наиболее эффективным (с точки зрения некоторого критерия) путем, т.е. коренным образом сопряжена с решением задачи оптимизации. Вследствие чрезвычайно широкого спектра характеризующих эти системы параметров (например, количество станков -целая (дискретная) величина, длительность обработки -непрерывная, типы компоновки - символьные (дискретные) значения), указанная задача является, по своей сути, задачей смешанной нелинейной целочисленной оптимизации. Этот тип задач относится к наиболее сложным в математическом программировании (СНЦО) [8,19].

В ее общей постановке, задача СНЦО ^СНЦО (1)-(5)

направлена на минимизацию целевой функции f при наборе ограничений, среди которых - требование цело-

i Надоели баннеры? Вы всегда можете отключить рекламу.