Повышение качества распознавания сцен нейронной сетью "Неокогнитрон"

Аксёнов С.В.; Новосельцев В.Б.

УДК 004.89

ПОВЫШЕНИЕ КАЧЕСТВА РАСПОЗНАВАНИЯ СЦЕН НЕЙРОННОЙ СЕТЬЮ «НЕОКОГНИТРОН»

С.В. Аксёнов, В.Б. Новосельцев

Институт «Кибернетический центр» при ТПУ E-mail: [email protected]

Изложены базовые принципы обучения и использования нейронной сети «Неокогнитрон». Показаны особенности модификаций неокогнитрона, инвариантного к вращению и с переменной селективностью. Предложены варианты расширения данной парадигмы для уменьшения избыточности сети.

Идея неокогнитрона впервые была предложена Фукушимой в [1—4] как универсальная система распознавания двумерных образов. Считается, что организация работы неокогнитрона наиболее близка к процессам, происходящим в зрительной коре головного мозга человека. К главному достоинству системы можно отнести её нечувствительность к позиционным сдвигам, масштабированию и зашумлениям анализируемого образа. Процесс классификации разбивается на этапы, каждый из которых характеризуется анализом содержательно различных признаков, но выполняется согласно общей процедуре. На каждой стадии обработки происходит выделение существенных свойств выходов предыдущей стадии и формирование сжатого представления этих свойств для следующего этапа обработки. Важно подчеркнуть, что на любом текущем шаге в качестве входных используются только данные, являющиеся выходом предыдущего шага. На рис. 1 приведена иллюстрация поэтапного функционирования неокогнитрона.

Рис 1. Этапы иерархического извлечения свойств неокогни-троном

Каждая стадия обработки выполняется фиксированными слоями неокогнитрона. Первоначальный слой нейронной сети носит название входного или рецептивного. Послойная обработка образа выполняется до тех пор, пока не будут найдены его меры сходства со всеми классами, известными сети.

Нейронные клетки соединены между собой посредством передаточных устройств - синапсов, которые, помимо прочего способны усиливать либо гасить сигнал. Можно сказать, что все знание о запоминаемых объектах, накапливаемое в процессе обучения сети, сконцентрировано в величинах силы передачи синапсов между нейронными клетками. В отличие от полносвязных моделей нейронных сетей, в которых все нейроны текущего слоя соединены со всеми нейронами предшествующего слоя,

в неокогнитроне нейроны соединены только с определенной областью нейронов предыдущего слоя, называемой областью связи. Каждый слой нейронной сети состоит из непересекающихся фрагментов, называемых плоскостями нейронов. На наш взгляд термин «плоскость» не совсем удачен, но мы будем его употреблять, учитывая его традиционность. Плоскость нейронов - это область, состоящая из нейронов, обрабатывающих соседние фрагменты анализируемого образа, и служащая для распознавания или сжатия информации.

В состав неокогнитрона для распознавания входит несколько видов нейронных клеток, а именно простые (8-клетки) и сложные (С-клетки). Эти клетки составляют плоскости соответственно простых (8-) и сложных (С-) плоскостей. Основная задача простых плоскостей - производить извлечение существенных характеристик. Каждая 8-плоскость обучена так, чтобы реагировать на определенный входной вектор. 8-плоскости разбиты на пересекающиеся области - области конкуренции. В каждой области конкуренции, после возбуждения плоскости, определяется нейрон с максимальным значением выходного сигнала, выходы же остальных нейронов из этой области становятся равным нулю. Такой эффект носит название бокового или латерального торможения. Вообще говоря, торможение - процесс влияния одного нейрона на другой с целью уменьшения выходного сигнала последнего, целью процесса возбуждение напротив является увеличение выходного сигнала нейрона, на который производится воздействие.

Каждая 8-клетка из простой плоскости на вход получает вектор из областей связей сложной плоскости предыдущей стадии. Набор весовых коэффициентов синапсов, соединяющих область связи и каждую 8-клетку одинаков для всех 8-клеток, находящихся в одной 8-плоскости. Это гарантирует, что существенные характеристики объекта будут обнаружены вне зависимости от их расположения на входной плоскости клеток. С-клетка последующей сложной плоскости активируется (выдает сжатое приближение), если активна хотя бы одна 8-клетка, входящая в область связи данной С-клетки.

Заключительный этап обработки реализуется алгоритмом «победитель забирает все» - среди всех выходов сети выбирается максимальный, соответствующий наиболее похожему из запомненных классов.

Помимо 8- и С-клеток в состав неокогнитрона входят тормозящие У-клетки. Если С-клетки служат для возбуждения 8-клеток, то У-клетки служат для торможения последних. Выходом У-клетки служит среднее значение выходных сигналов сложных нейронов, попадающих в область связи. Следует заметить, что каждой 8-клетке соответствует одна У-клетка, причем их области связи одинаковы.

Все синапсы в нейронной сети принадлежат одному из следующих классов:

1) модифицируемые возбуждающие: а(у,р,к) - используются для возбуждения 8-клетки из рецептивных областей С-клеток, здесь и ниже / -номер слоя, к - номер плоскости, V - расположение синапса внутри области связи, р - номер С-плоскости, в которой располагается связь;

2) немодифицируемые возбуждающие: е^) - используются для активации У-клеток из областей связи С-клеток, сС(у) - для возбуждения С-клеток из рецептивных полей 8-клеток и е(1,п,к) - при латеральном торможении 8-клеток внутри областей конкуренции, где I - расположение синапса внутри области конкуренции между нейронами;

3) модифицируемые тормозящие: Ь (к) - используются для торможения активности 8-клеток активностью соответствующей У-клеткой;

4) немодифицируемые тормозящие: г(1,п,к) - используются при латеральном торможении 8-клеток внутри областей конкуренции.

С-клеток попадают в область связи выделенных 8-клеток и служат для возбуждения отмеченной на рисунке тормозящей У-клетки.

После попадания образа на входной слой неокогнитрона последовательно возбуждаются слои из простых и соответствующих им сложных плоскостей. Выход 8-клетки на позиции п в к-той плоскости слоя вычисляется как

и81 (п к) = г,у

1 +и а, (V, р, к) ■ ис1 (п + V, к)

р=1 vєAl

—1

1+-

•Ь,(к) ■ иу1 (п)

где Л1 - область связи соответствующей 8-клетки, т1 - параметр селективности (степень близости входного сигнала и сигнала, которому были научены синапсы клетки), функция (р(...) есть пороговолинейная функция:

[ 0, ¡/ х < 0

х) =1 V > 0

[ х, ух > 0.

Выход оказывающей тормозящее действие на соответствующие ей 8-клетки У-клетки на позиции п слоя описывается выражением:

ип (п) =

X иС,-1(п+V,р).

р=1 vєAl

КС1 - количество С-плоскостей в слое /.

Плоскости 8-клеток делятся на перекрывающиеся области конкуренции, внутри этих областей обучается только один нейрон, обладающий максимальным значением выходного сигнала. Подавление активности нейронов-соседей в области конкуренции происходит методом латерального торможения, аналогичного используемому в нейронной сети МАШЕТ [5].

Чтобы избежать длительной итеративной процедуры исключения слабейших выходов в [6] предложена модель ускоренного латерального торможения (рис. 3).

Рис. 2. Связи между нейронами слоев плоскостей С-, V- и 5-клеток

На рис. 2 представлен пример связей между С-, У- и 8-клетками. Темные клетки в плоскостях

Рис. 3. Ускоренное латеральное торможение

Выход нейрона на позиции п плоскости к слоя I латерального торможения описывается формулой:

к

иы (п, к) =

1 + и51 (п, к)

1 + £ ^ (*, п, к) -и81 (п + V, к)

-1.

Значения весов тормозящих синапсов области конкуренции берутся из расчета:

^ ег 0, п, к) = 1,

! €1,

где I - область конкуренции внутри слоя I. После извлечения свойств и определения нейрона-поб-едителя в каждой области конкуренции происходит активация сложных плоскостей. Выход С-клетки на позиции п в к-той плоскости слоя I выражается как:

ис1 (п, к) =у

X і( р к) • Е 4 ^) • иы(п+^ р )

р=1 vєDl

где Д - область связи соответствующей С-клетки, Лр,к) - число связности р-той 8-плоскости и к-той С-плоскости. (Фукушима [1] предполагал величину Лр,к) равной 1). Функция (р(...) определяется как:

„( х) =_т_.

1 + Р(х)

Пример соединения плоскости латерального торможения и плоскости сложных клеток приведен на рис. 4.

Плоскость латерального Плоскость

Рис. 4. Пример соединения плоскости латерального торможения и сложной плоскости

Весовые коэффициенты а(у,р,к) и Ь(к) в начале обучения устанавливаются близкими нулю и далее вычисляются в процессе обучения неокогнитрона. Значения остальных весовых связей берутся следующим образом:

С1 (V) = 7^,

ё, (V) = 55,

где у>0, 5<1 и 5, >0.

Как уже отмечалось выше, настройке подлежат значения весов а(у,р,к) и Ь(к). После определения нейрона-победителя в каждой рецептивной области производится настройка его весов:

Аа, (¥, p,к) = ц, ■ с, (¥) •ис1 _1(Пк,т + V, р),

АЬ, (к) = ц, -иу, (щ1т),

где т - номер обучающего образа, % - коэффициент скорости обучения.

К сожалению, данная модель нейронной сети не способна к правильному определению образа, если последний был повернут на угол, превышающий 30° (тестировалось на выборке из печатных букв). Для того, чтобы создать структуру, инвариантную к вращению образа, в работах [7, 8] была предложена модель, основанная на стеках плоскостей клеток. Двумерный вариант нейронной сети (положение образа по осям X и У) был изменен на трехмерный (добавился угол поворота образа относительно запомненного вектора). При прохождении сигнала по сети 8-/С-клеток, плоскость, находящаяся на вершине стека, получает входной вектор без изменений. На вход последующей в стеке плоскости 8-/С-клеток поступает тот же вектор, но умноженный на матрицу вращения на определенный угол поворота, заданный проектировщиком сети (нами был взят угол 25°). На вход третьей плоскости - образ с углом поворота 25°+25° = 50° и т. д. В работе [7] показано, что при наличии стеков плоскостей с углами поворота 90, 180 и 270° нейронная сеть способна безошибочно распознавать 85,3 %

ио

1Ш

исі

И82

иС2

иэз

исз

Рис. 5. Структура неокогнитрона, инвариантного к вращению образов. Примечание: 1151, 1152, 1153 ~ слои 5-плоскостей, ІІС1, иС2, иС3 - слои С-плоскостей, и0 - входной слой

образов символов против 76,2 % образов, опознанных классическим неокогнитроном.

Графическое представление модели стеков плоскостей представлено на рис. 5.

Дальнейшим расширением способности к рас-познованию этой нейронной сети является регуляция параметра селективности гк1. В работе Гильде-брандта [9] разработан алгоритм настройки данного параметра. Основная идея алгоритма Гильде-брандта состоит в том, чтобы производить регуляцию селективности Б-клеток, при этом области связи в разных Б-плоскостях были как можно больше без взаимного перекрытия. После обучения вектор весов Б-клетки й становится пропорционален вектору суммы входных обучающих векторов:

0СЫ,1+ ^0-1,2+ иО-1,3+...

Практически [10] данный метод определяет селективность клетки на основе усредненных обучающих характеристик. Таким образом, метод Гильдебрандта не гарантирует, что среди всей обучающей выборки не найдется вектора, не попадающего в требуемую область связи, рис. 6.

Рис. 6. Пример непопадания обучающего вектора (в данном случае исш) в область связи с селективностью гк, соответствующей углу О

Рис. 7. Определение значения отклика Б-кпетки при её возбуждении тремя обучающими векторами после обучения

Значения отклика S-клетки при её активации векторами UCM;1, UCl-1,2 и UCl-1,3 равны соответственно 0, длине вектора OB и длине вектора OC (рис. 7).

Одним из решений отмеченной проблемы обучающей выборки может стать настройка селективности, при котором гарантируется минимальный отклик S-клетки на все обучающие образы USl min. Основанный на такой настройке метод называют «близкое к оптимуму обучение, основанное на характеристике» (Sub-Optimal Feature-based Training, SOFT) [11-13]. Параметр Uslmin выбирают в пределах от 0 до 1.

В [12] показано, что изменение селективности r]ll разумно производить, первоначально настраивая весовые коэффициенты слоя, а затем модифицируя селективности. Таким образом, первоначально инициализируется начальное значение селективности rkl и значение минимального отклика клетки min^, затем производится активизация слоя m-тым обучающим вектором, и, если активация клетки победителя в области конкуренции XSi(nkjm,k) меньше текущего минимума отклика, производится обновление текущего минимума на величину активации победителя, т. е. если Xsi(nkim,k)<mmjs> то тт^Х/п^к). После предъявления всех обучающих образов начинается настройка параметра селективности rkl:

rkl + min XSl

(k)

rkl + 1

-US

1-

rkl + minXSl (k) rkl +1

Рис. 8 наглядно иллюстрирует изменение рецептивной области по сравнению с ситуацией, показанной на рис. 7. Ясно, что в последнем случае все обучающие вектора попадают в требуемую рецептивную область. Заметим, что при этом происходит и увеличение значений выхода клетки при возбуждении векторами и0і-12 и и0і-1,3.

Рис. 8.

Уменьшение селективности рассматриваемой S-клетки

rkl

При данном обучении может случиться, что все вектора иа_^ приблизительно равны, тогда селективность рецептивной области примет вид узкого лепестка (высоко селективная клетка). Если же на вход клетки поступит сигнал, значительно отличающийся от остальных, то селективности нейронов существенно уменьшатся. Пример изменения селективности клеток представлен на рис. 10. Селективность клеток № 2 и 3 увеличилась, а клетки № 1 - уменьшилась.

Представленные результаты служат основой для дальнейших исследований по повышению эффективности неокогнитрона. Далее планируется провести работы в двух направлениях. Первое -построение расширенной иерархической модели на основе уже обученной сети. Второе направление

- замена стека плоскостей, отвечающих за реагирование на вращение образа, на рекурсивную модель обработки входного вектора в слое, когда каждая последующая стадия сравнения с эталонами начинается, если не нашлось похожего образа с тем же углом, при этом производится изменение соответствующего параметра входного образа. Предполагается также распространить предложенный подход на родственные классы задач прогнозирования и контроля. Таким образом, проведен анализ нескольких вариантов при построении систем иерархического извлечения свойств. Предложены подходы по дальнейшему расширению возможностей существующих моделей на основе использования уже запомненных системой знаний.

СПИСОК ЛИТЕРАТУРЫ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Fukushima K. Neocognitron: A Self-Organizing Neural Network model for a Mechanism of Pattern Recognition Unaffected Shift in Position // Biological Cybernetics. - 1980. - № 4. - P. 193-202.

2. Fukushima K. Analysis of the Process of Visual Pattern Recognition by the Neocognitron // Neural Networks. - 1989. - № 2. -P. 413-420.

3. Fukushima K. Neocognitron: A Hierarchical Neural Network Capable of Visual Pattern Recognition // Neural Networks. - 1988. -№ 1. - P. 119-130.

4. Fukushima K. Neocognitron for Handwritten Digit Recognition // Neurocomputing. - 2003. - № 51. - P 161-180.

5. Lippman R. An Introduction to Computing with Neural Nets // IEEE ASSP Magazine. - 1987. - № 4. - P. 4-22.

6. Fukushima K. Cognitron: A Self-organizing multilayered neural network // Biological Cybernetics. - 1975. - № 2. - P. 121-136.

7. Satoh S., Kuroiwa J., Aso H., Miyake S. Recognition of Hand-written Patterns by Rotation-invariant Neocognitron // 5th Intern. Conf. on Neural Information Processing. - Tokyo, 1998. - № 1. - P. 295-299.

8. Satoh S., Kuroiwa J., Aso H., Miyake S. Pattern Recognition System with Top-Down Process of Mental Rotation // 5th Intern. Work-Conference on Neural Network. - Alicante, 1999. - № 1. -P. 816-825.

9. Hildebrandt TH. Optimal Training of Threshold Linear Correlation Classifiers // IEEE Transactions on Neural Networks. - 1991. -№ 2. - P. 577-588.

10. http://svr-www.eng.cam.ac.uk/~drl/Publications/Publications.html

11. Lovell D.R., Downs T., Tsoi A.C. A Note on a Closed-Form Training Algorithm for the Neocognitron // IEEE Transactions on Neural Networks. - 1993. - № 2. - P 367-368.

12. Lovell D.R., Downs T., Tsoi A.C. An Evaluation of the Neocognitron // IEEE Transactions on Neural Networks. - 1997. - № 8. -P. 100-105.

13. Lovell D.R., Downs T., Tsoi A.C. Is the Neocognitron Capable of State-of-the-art Digit Recognition? // IEEE Transactions on Neural Networks. - 1995. - № 1. - P. 94-97.

Повышение качества распознавания сцен нейронной сетью "Неокогнитрон" Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Аксёнов С. В., Новосельцев В. Б.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Аксёнов С. В., Новосельцев В. Б.

Increasing the Quality of Scene Recognition by Neural Network "Neocognitron"

Текст научной работы на тему «Повышение качества распознавания сцен нейронной сетью "Неокогнитрон"»