Сер. 10. 2010. Вып. 4
ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА
УДК 004.032.26+004.81+004.932 А. В. Мищенко
МОДЕЛИРОВАНИЕ ОСОЗНАННОГО ВНИМАНИЯ В ПРОЦЕССАХ ОБРАБОТКИ ИЗОБРАЖЕНИЙ ЧЕЛОВЕЧЕСКИМ МОЗГОМ НА БАЗЕ АДАПТИВНО-РЕЗОНАНСНЫХ НЕЙРОСЕТЕЙ
Введение. Интроспективный анализ запомненных образов, прежде всего их сравнение и структурирование, является одной из ключевых стадий процесса кодирования визуальной информации в мозге. Его результат - создание структурных связей между запомненными образами - одна из основ осознанного внимания в процессах обработки изображений человеческим мозгом.
Моделирование интроспективного анализа и последующего осознанного внимания относится к ключевым подходам к моделированию сознательной обработки информации [1-4]. Эти процессы являются важнейшим свойством мозга, одной из основ логики и абстрактного мышления вообще.
В последнее время исследования и разработка соответствующих моделей внимания и сознания ведутся в области не только психологии [5-7], концептуальных моделей [7-9], но и вычислительной нейрофизиологии и искусственных нейронных сетей (ИНС) [1016]. Поскольку вычислительные мощности современных ЭВМ и знания нейрофизиологии мозга пока еще недостаточны для разработки точных моделей интроспективного анализа и осознанного внимания, актуальность приобретает исследование упрощенных моделей этих процессов.
Цель настоящей работы - разработка упрощенной модели интроспективного анализа и осознанного внимания в процессе обработки зрительной информации человеческим мозгом. Будем называть целевую ИНС СВ-сетью (или сетью «сознательного внимания»). Перед ней ставится задача обработки бинарных (состоящих из нулей и единиц) изображений, включая их запоминание, кластеризацию и образование новых кластеров для изображений, мало похожих на уже запомненные.
Эта модель будет разрабатываться в рамках адаптивно-резонансной теории, обеспечивающей, подобно человеческому мозгу, самостоятельное (без учителя и заданных целевых функций) обучение нейросети.
Адаптивно-резонансная теория (АРТ или, в английской транскрипции, ART) является одним из последних крупных достижений в области разработки упрощенных моделей биологических когнитивных процессов. АРТ-сети фактически представляют собой простейшую модель восприятия, объединяющую импринтинг (запоминание
Мищенко Алесь Викторович — магистр физико-математических наук, соискатель степени кандидата физико-математических наук кафедры компьютерного моделирования и многопроцессорных систем факультета прикладной математики-процессов управления Санкт-Петербургского государственного университета. Научный руководитель: доктор физико-математических наук, проф. С. Н. Андрианов. Количество опубликованных работ: 18. Научные направления: искусственный интеллект, искусственные нейронные сети, вычислительная нейрофизиология, моделирование психологических процессов. E-mail: [email protected].
© А. В. Мищенко, 2010
кардинально новых образов) и распознавание (отнесение знакомых образов к соответствующим классам).
APT была создана в 1987 г. как решение дилеммы пластичности-стабильности [17, 18]. Aрхитектуры APT строятся по принципу биологического подобия. Как и биологические системы, сети APT сохраняют пластичность, необходимую для изучения новых образов, и стабильность, предотвращая изменение ранее запомненных образов.
В течение последних лет наблюдался «всплеск» исследований в области APT. Были предложены многочисленные важные дополнения к исходному варианту APT-сети: APT 2, способная обрабатывать не только бинарный, но и вещественный вход [19, 20], более точная с биологической точки зрения APT 3 [21], инвариантная к малым отклонениям ДИСAPT [22], модулируемая производительностью ПAPT [23], объединение APT-сети с сетью нечеткой логики ФAЗИAPT [24] и др. Особенную актуальность в последнее десятилетие приобрели разработка и применение APT-сетей для обработки визуальной информации [22, 25]. Pастущие массивы изображений требуют не только методов полностью автоматической сортировки и кластеризации, но и полностью автоматического создания новых и уточнения старых кластеров [26, 27]. Именно такой высокой степенью самостоятельности обладают APT-нейросети. Более того, все чаще от современных алгоритмов обработки массивов изображений требуют анализа структуры изображений [11, 22]. Сохранение перечисленных преимуществ обработки изображений с помощью APT-сетей и добавление возможности анализа структуры изображения - важная и интересная задача. Она актуальна как развитие APT-теории, с одной стороны, и машинного зрения - с другой, что важно не только для решения задач сегодняшнего дня, но и для задач будущего. По прогнозам рынок компьютерного зрения будет расти в сторону именно разработок высокоуровневого, самостоятельного и аналитического зрения. К 2020 г. объем рынка интеллектуальных роботов будет сравним с объемом рынка нанотехнологий [28, 29]. Уже сейчас производительность видящих роботов на автозаводах в 10 раз выше «слепых» моделей, а суммарная экономия крупного автопроизводителя может достигать 15 000 дол. ежеминутно [30].
Элементы СВ-сети: искусственный нейрон и полносвязный классификатор. Искусственный нейрон является элементом, из множества которых строятся все ИНС. Он состоит из активационного блока и синапсов, передающих взвешенную сумму входных сигналов в этот активационный блок (рис. 1). Tаким образом, он имитирует в первом приближении свойства биологического нейрона. Существуют логические, непрерывные и импульсные модели нейрона. Логические модели активно исследовались в 1960-1970-х годах, но не получили развития. Импульсные модели близки к физической природе процессов, однако их теория не так развита, как у непрерывных.
Непрерывная модель нейрона (рис. 1) работает следующим образом. Входные сигналы xi, x2,..., xn, в совокупности обозначаемые вектором X, поступают на блоки, реализующие функцию синапсов. Каждый вход умножается на вес wi, w2,..., wn, соответствующий синаптической силе в биологическом нейроне. Положительные веса wij соответствуют возбудительным синапсам, отрицательные - тормозным. Все произведения суммируются, определяя уровень активации нейрона: y = f (wq + ХП=1 wixi). Иногда модель нейрона также включает в себя сдвиг wq , который добавляется к результату сложения входных сигналов. После этого результат сложения поступает на блок активационной функции, главная задача которой - это отображение результата сложения в диапазон [G, 1] или [— 1,1]. Известно, что среди широко используемых активационных функций точнее всего отражает активацию биологического нейрона гиперболический тангенс y = (ex — e-x)/(ex + e-x). После этого, если нейрон
активизировался выше определенного заданного порога, он испускает единичный сигнал, который после прохода по выходному синапсу и умножения на соответствующий вес, поступает на вход следующего нейрона сети. В такой модели пренебрегают многими характеристиками биологического нейрона. В ней не учитывают нелинейность суммирования, задержки, рефрактерность, эффекты частотной модуляции. Несмотря на это, ИНС демонстрируют многие свойства, напоминающие свойства человеческого мозга.
В настоящей работе используется также и функциональный элемент более высокого уровня - полносвязный классификатор (ПК), представляющий собой полный двудольный граф нейронов с латеральным торможением, являющийся основным для большинства типов АРТ-сетей (рис. 2). Первая доля этого графа называется слоем сравнения, вторая -слоем распознавания. Нейроны второго слоя связаны между собой отрицательной связью и)ъ (латеральным торможением), обеспечивающей разряд только одного, самого активированного, нейрона.
Целевая ИНС состоит из трех ПК:
ПКц, обрабатывающего изображения целых образов, ПКч, обрабатывающего изображения частей образов, и ПКа, осуществляющего анализ образов. Они соединены в слаженно функционирующий ансамбль с помощью управляющих модулей: модуляторов сравнения (МС), включающих/выключающих активность в слое сравнения; модуляторов распознавания (МР), управляющих активностью в слое распознавания; модулей сброса-принятия (МСП), сбрасывающих активность очередного воспоминания, если оно недостаточно похоже на входное изображение. При этом мерой
Ш А ■
Рис. 1. Модель нейрона с простейшей активационной функцией
Синапсы, обозначенные пунктирными стрелками, проводят входные данные, обозначенные квадратами, в активационный блок.
похожести считается простое количество совпадающих пикселей, а порог похожести настраивается с помощью специального параметра р.
Веса синапсов, соединяющих доли всех трех ПК, одинаковы. Они отличаются лишь тем, что управляются разными модуляторами (МС, МР и МСП). Опишем архитектуру и функциональность каждого из этих ПК. Рассмотрим для начала функционирование ПКч при опознании неструктурированных изображений.
Опознание неструктурированных изображений задействует один ПК (ПКч), один модулятор сравнения (МСч), один модулятор распознавания (МРч) и один модулятор сброса-принятия (МСПч). Оно происходит сходно базовому варианту АРТ-сети [17]. Количество нейронов в слое сравнения - N (размерность входного бинарного изображения). В слое распознавания запоминается М классов образов, по одному классу на каждый нейрон т = 1, М (рис. 3). Входной вектор X размерности N (х\,..., хп) поступает на слой сравнения. Порог активации нейронов слоя сравнения выбирается так, чтобы соответствовать ровно двум любым входным сигналам. Потому, для того чтобы слой сравнения активизировался, МСч должен быть равным единице (это достигается включением МСч при условии наличия у вектора X ненулевых компонент - см. положительную связь на рис. 3). Тогда нейроны слоя сравнения активны и позволяют X пройти в слой распознавания без изменений.
Входное бинарное изображение (X)
Рис. 3. Подробная схема работы при опознании неструктурированных изображений Усиливающие связи обозначены стрелками, тормозящие - «булавами».
Каждый столбец матрицы весов Wij между слоем сравнения и слоем распознавания ПК (каждый индекс j) хранит одно запомненное изображение. В слое распознавания активируются несколько нейронов, но, благодаря латеральному торможению, остается один, соответствующий максимальному соответствию с входным вектором X. В результате в распознающем слое тот нейрон j имеет ненулевую реакцию, веса синапсов которого Wj максимально соответствуют входному изображению (вектору X): j = arg(maxj^П=1 wijxi). Выбор механизма запоминания по принципу «победитель забирает все» не случаен - согласно последним исследованиям, он играет ключевую роль в механизмах запоминания [31, 32] и является одним из основных в APT. То есть в распознающем слое только нейрон с наивысшим уровнем активации будет иметь ненулевой выход. Этот нейрон возвращает «вспомненные» пиксели обратно в слой сравнения в виде «веерного» выхода матрицы весов Wij.
Выход слоя распознавания должен приводить к МСч = 0, чтобы МСч не позволял X продолжать проникать в слой распознавания (см. отрицательную связь на рис. 3). Без МСч в слое сравнения остаются активированными только нейроны, получившие импульс от слоя распознавания. Их суммарную активность (количество ненулевых выходов) подсчитывает МСПч.
Если суммарная активность больше порога сходства р, считается, что входной вектор X должен принадлежать к активированной в слое распознавания категории. Если же критерий сходства не выполняется, считается, что входное изображение недостаточно соответствует вспомненному образу. В результате МСПч вырабатывает сигнал торможения слоя распознавания, который деактивирует нейрон, свойственный выигравшей категории. Это делается для того, чтобы соревнование выиграл другой нейрон.
Выход слоя распознавания становится равным нулю, МСч - равным единице и опять позволяет X пройти в слой распознавания без изменений. Теперь в слое распознавания выигрывает другой нейрон, отличный от предыдущего и отвечающий максимально возможному соответствию входному вектору X.
Данный процесс повторяется до тех пор, пока не встретится подходящий образ либо все образы не окажутся перебраны. Численно это выражается в том, что такой поиск выполняется до тех пор, пока суммарная активность не станет больше параметра сходства р, либо после перебора всех запомненных категорий входной вектор X «приписывается» к первой же пустой категории (если таковые еще имеются). В последнем случае входное изображение формирует новый запомненный образ. Инициализация весов с учетом неравенства Wupij < L/(L — 1 + m) (где L > 1 - некоторая константа, обычно L = 2, m - количество запоминаемых образов) обеспечивает [17], что несвязанные нейроны не будут получать возбуждения, большего, чем обученные нейроны в слое распознавания. И, следовательно, последовательность перебора и «приписки» будет правильной.
Состояние, отвечающее этим двум событиям (1: нахождение в памяти образа, похожего на предъявляемый, или 2: «записывание» предъявляемого образа в свободную ячейку памяти), означает, что произошел резонанс, который увеличивает сигнал, проходящий по синапсам и, таким образом, активизирует обучение сети (рис. 4).
Обучение сети (коррекция старых и создание новых категорий) обеспечивается уменьшением/увеличением весов в зависимости от проходящих по ним сигналов. Веса связей между слоем сравнения и слоем распознавания соответствуют запомненным образам. Обучение весов корректирует данные образы, сортирует входные вектора X по образам-категориям и создает новые категории для векторов X, не похожих на ранее запомненные.
В АРТ [17] такие веса обычно вычисляются следующим образом: Wupi,j = Lci/ (L — 1 + 5^n=i °i), где ci - *-тая компонента выходного вектора слоя сравнения; j - номер выигравшего нейрона в слое распознавания. Сумма в знаменателе представляет собой количество единиц на выходе слоя сравнения.
Целиком СВ-сеть (целевая сеть сознательного внимания и анализа структуры изображений) реализует не только кластеризацию и запоминание, но и структурирование воспринимаемого изображения, а также влияние запомненных структур на восприятие входного изображения. Это достигается, во-первых, обучением иерархических связей типа «часть-целое» между ПКч и ПКц (в процессе интроспективного анализа изображений) и, во-вторых, влиянием данных связей на процесс опознания. Рассмотрим последовательно оба процесса.
Рис. 4. Блок-схема работы при опознании неструктурированных изображений Надписи в двойных рамках - состояния сети; надписи в одиночных рамках - события, инициирующие переходы между состояниями сети; состояние (00) - начало работы; «серое» состояние (20) - конец работы с очередным изображением.
Интроспективный анализ изображений задействует все три ПК, при этом ключевую роль играет ПКа. Заметим, что при решении задачи анализа и опознания изображений возникает проблема одновременности, которая состоит в том, что фактически мы не можем требовать одновременного опознания и анализа изображений. Легко показать, что в противном случае будет происходить интерференция опознаваемых и вспоминаемых в данный момент образов.
Для решения данной проблемы было предложено разделение работы сети на фазу восприятия входных изображений и фазу интроспективной обработки запомненных изображений. Нечто подобное существует и в мозге, где обработка сенсорной информации и интроспективное обдумывание производятся не одновременно. То есть процессы опознания и анализа образов в мозге также разделены по времени. Мозг сначала опознает увиденное, а затем, оперируя этим образом внутри своего сознания, пытается разделить его на ранее увиденные, знакомые части.
Переключение между такими фазами производится по тому же принципу, что и в мозге: при отсутствии входной сенсорной информации (при подаче на вход бинарного изображения с одними нулевыми пикселями) сеть переключается в «режим воспоминаний». При этом запомненные образы из слоя распознавания (из памяти) подаются на слой сравнения ПКа и обрабатываются точно так же, как обрабатывались бы внешние входные изображения.
Итак, формирование иерархических связей (т. е. ассоциативного комплекса вертикальной структуры) требует введения дополнительного набора состояний (рис. 5, над тройной чертой), который отражает «процесс воспоминаний», проходящий в сети в отсутствие «процесса опознания».
Рис. 5. Блок-схема работы при опознании структурированных изображений Ниже тройной черты: функционирование СВ-сети без формирования вертикальных (иерархических) структур (целиком приведено на рис. 4); выше тройной черты: процесс формирования вертикальных структур (процесс воспоминаний и «обдумывания» запомненных образов, в который сеть переходит
при отсутствии входной информации).
При этом запомненные образы из слоя распознавания (из памяти) подаются на слой сравнения ПКа и обрабатываются им точно так же, как обрабатывались бы внешние входные изображения. СВ-сеть входит в резонанс, если между двумя образами из памяти будет обнаружена связь типа «часть-целое». Резонанс провоцирует обучение соответствующей связи между ПКч и ПКц.
Рассмотрим данный процесс подробнее. При отсутствии входного изображения (состояние «СС [все] = 0» на рис. 5) активизируется связь, изображенная на рис. 6 толстой штрихованной стрелкой. Она последовательно посылает запомненные в ПКч изображения на слой сравнения ПКа, который обрабатывает посланные образы как входные. При резонансе в ПКа (если в ПКа найден образ, включающий в себя посланный образ) активизируется обучение иерархической связи между посланным и охватывающим его образами. Эта иерархическая связь изображена на рис. 6 пунктирной дуговой стрелкой. Последовательность посылаемых в ПКа образов регулируется, подобно работе ПК при опознании входных изображений, с помощью соответствующих модуляторов сравнения, распознавания и сброса-принятия. Инициализация весов ПКа с учетом неравенства < Ь/(Ь — 1 + т) обеспечивает [17] реакцию ПКа на образы, являющиеся
частями запомненных в нем образов.
Рассмотрим теперь, как обученные в процессе анализа иерархические связи влияют на опознание.
Рис. 6. Формирование ассоциативного комплекса вертикальной структуры а - ПКч; б - ПКц; в - ПКа, на который подаются запомненные в ПКч образы.
Влияние сознательного внимания на опознание состоит в том, что, если нейрон отвечает структурированному изображению, в нейроны, соответствующие и его частям, и его целому, идут сигналы. В итоге выигрывает не единичный нейрон, а комплекс нейронов. Назовем его ассоциативным комплексом вертикальной структуры. Он строится (обучается) по статистическому принципу: чем чаще часть была увидена в составе целого, тем больше вес соединяющего их синапса.
В результате влияние структуры изображений на работу подсети опознания изображений заключается в том, что теперь между сравнением и поиском присутствует еще одна фаза - фаза выискивания целого по частям (фаза роста опознанных регионов). Этот процесс описывает выискивание «целого» при обнаружении какой-либо его «части», по принципу которого и действует сознательное зрительное внимание.
Рассмотрим подробнее функционирование подсети анализа. Заметим, что активация нескольких нейронов (соответствующих «целому» и «части») в одном распознающем слое нарушает основной принцип APT и, действительно, как показывают сопутствующие эксперименты, нарушает стабильность работы сети. В этом заключается вторая проблема, возникающая при моделировании сознательного внимания.
Именно для соблюдения принципа одиночности воспоминания в каждом ПК было предложено разделение одного ПК на два - ПКц и ПКч, которые отличаются тем, что модуль сброса-принятия для ПКц (МСПц) имеет более низкий порог принятия (изображения, менее похожие на запомненные категории, приписываются им), но нейроны его слоя распознавания (СРц) активируются только в случае подпитки со стороны нейронов СРч.
Процесс опознания в СВ-сети выглядит следующим образом. В предъявленном изображении могут находиться различные ранее увиденные части. Нейрон, соответствующий наиболее проявленной части, т. е. части, наиболее полно соответствующей запомнившемуся образу, выигрывает первичное соревнование. Без запомненной информации о структурах СВ-сеть на этом завершила бы свою работу. Заметим, что данный выигравший нейрон находится в ПКч (СВ-сеть изначально предполагает, что это часть некоторого, более большего, целого), так как нейроны слоя распознавания целого (СРц) активируются только в случае подпитки со стороны нейронов СРч.
Нейроны в слоях распознавания СРц и СРч связаны между собой структурными взаимоусиливающими связями (их обучение описано выше). Поэтому, если нейрон в СРч действительно соответствует части какого-то целого, то в нейрон в СРц, отвечающий данному целому, также идет сигнал. В итоге в ПКц и ПКч выигрывает комплекс из двух нейронов (структурный комплекс). Наряду с порогом сходства р, важную роль в СВ-сети играет степень возбуждения целого при возбуждении его части. Эта степень (веса соответствующих синапсов) обучается в процессе интроспективного анализа запомненных изображений, рассмотренного ниже, и влияет на степень внимания, с которым СВ-сеть «выискивает» в изображении знакомые структуры. Такие взаи-моусиливающие связи побуждают ИНС усиливать не только образ, соответствующий изначально выигравшему нейрону, но и сопутствующие образы, свойственные другим нейронам, входящим с ним в один ассоциативный комплекс.
Взаимоусиливающие связи внутри ассоциативного комплекса, как и все связи ИНС, находятся в постоянном обучении. Те связи, которые «подтверждаются» (сеть, действительно, «находит» сопутствующие образы), усиливаются с течением времени. Если же связь не подтверждается в течение длительного времени, ее вес стремится к нулю (ИНС «забывает» соответствующую ассоциацию). Именно так действует сознательное внимание человека.
Рассмотрим подробнее архитектуру и функционирование СВ-сети при опознании изображения. Исходное бинарное изображение поступает на вход не одного, а двух ПК. На рис. 7 это верхний ПК, отвечающий за обработку целых объектов (ПКц), и нижний ПК, обрабатывающий части объектов (ПКч). Они содержат одни и те же объекты и имеют одинаковую архитектуру.
Распознавание. Слой распознавания СРц не может активизироваться без изначальной подпитки со стороны СРч, поэтому активизируется только ПКч. Распознавание в ПКч реализуется, как обычно, вычислением взвешенной суммы для каждого нейрона СРч. Как и в случае неструктурных изображений, в слое распознавания СРч активируется нейрон, наилучшим образом соответствующий входному вектору. На рис. 7 он обозначен черным кружком. Это означает, что сеть «вспомнила» какой-то образ, хранящийся в весах нейронов слоя распознавания. Далее ИНС проверяет, не является ли вспомненный образ частью какого-то большего образа. Происходит это следующим образом: нейрон в СРч, активируясь, посылает сигналы в двух направлениях: как и прежде, в свой слой сравнения ССч и одновременно в чужой слой распознавания СРц (на рис. 7 - пунктирная стрелка, идущая вверх). Благодаря этому, в СРц получает возможность активироваться нейрон, обозначенный на рис. 7 большим овалом с горизонтальной штриховкой. Это тот нейрон, который связан с возбужденным нейроном в СРч связями типа «часть-целое» (они появились и их веса были обучены в результате функционирования подсети анализа структуры). С данного момента оба ПК работают одновременно.
Рис. 7. Работа подсети опознания изображений с учетом структуры изображений
Оба нейрона (нейрон в СРч, отвечающий за часть, и нейрон в СРц, отвечающий за целое) возвращают единицы обратно в свои слои сравнения в виде «веерного» выхода матрицы весов Wdown(ПК)ij. Эта обратная нисходящая связь соответствует активированным вспомненным образам: части Х(ПКч)х и целому Х(ПКц).
Модули сброса-принятия (МСПч и МСПц) решают, достаточно ли часть и целое присутствуют в увиденном изображении. Причем МСПц имеет более низкий порог сравнения. Это означает, что если у целого объекта уже обнаружена какая-то часть, то, для того чтобы решить, что он весь присутствует в изображении, достаточно довольно низкой степени проявленности (вероятности присутствия). Если же у объекта не было достоверно обнаружено никаких частей, то, для того чтобы «обнаружить» его в изображении, необходима более высокая степень проявленности.
Сравнение. Теперь, в отличие от описанного выше, между сравнением и поиском присутствует еще одна фаза - фаза выискивания целого по частям (роста опознанных регионов).
Происходит это следующим образом.
(1) если ни часть, ни целое не прошли через отбор модулей сброса-принятия, поиск стартует немедленно (МСПч = МСПц = 0);
(2) если часть подходит, а целое нет (МСПч = 1, МСПц = 0), поиск не стартует вообще - считается, что в изображении присутствует часть, но не присутствует целое и выискивать больше нечего;
(3) если и часть, и целое прошли через отбор модулей сброса-принятия (МСПч = МСПц = 1), необходимо перед поиском проверить, не является ли обнаруженное целое частью какого-либо большего целого. Другими словами, опробовать рост опознанного региона до тех пор, пока не наступит либо случай (1), либо случай (2).
Происходит фаза роста опознанных регионов следующим образом. Принятие целого (сигнал МСПц = 1) провоцирует посыл двух сигналов: во-первых, сигнала в МСПч для уменьшения его порога (выравнивания порогов МСПч и МСПц), во-вторых, сигнала активации от активированного нейрона в СРц (овал с горизонтальной штриховкой на рис. 7) в тождественный ему нейрон в СРч (овал с косой штриховкой на рис. 7). С помощью этих двух сигналов бывшее целое становится частью. Если она является частью нового, более «высокоуровневого» целого, т. е. если существуют соответствующие связи, обученные во время работы подсети анализа структур, то по ним идет сигнал активации от нейрона-части в СРч в нейрон-целое из СРц. Таким образом, описанные выше фазы распознавания и сравнения повторяются, что означает рост опознанных регионов - до тех пор, пока не наступит либо случай (1), либо случай (2).
Если наступает случай (2) и все иерархические связи исчерпаны, последнее сходство является адекватным, и процесс классификации завершается, поиск не требуется. Если наступает случай (1) на втором или более позднем повторении фаз распознавания и сравнения, предпоследнее сходство - адекватное и процесс классификации завершается, поиск не требуется. Если же наступает случай (1) на первом же повторении фаз распознавания и сравнения, схемы сбросов в обоих ПК вырабатывают сигнал сброса и начинается обычный поиск. Этот сигнал тормозит выигравший нейрон в каждом слое распознавания, и далее все происходит по схеме, описанной выше. Другими словами, фазы распознавания и сравнения повторяются, но уже для других, ранее заторможенных комплексов нейронов.
Как и в случае отсутствия иерархических связей, поиск прекращается, когда встретится одно из двух событий:
1. Найден запомненный образ, сходство которого с вектором Х(ПК) выше уровня параметра сходства. Если это происходит, проводится обучающий цикл, в процессе которого модифицируются веса векторов W(ПК)^-, связанных с возбужденным нейроном в слое распознавания.
2. Все запомненные образы проверены, определено, что они не соответствуют входному вектору, и все нейроны слоя распознавания заторможены. В таком случае предварительно не распределенный нейрон в распознающем слое выделяется этому образу и его весовые векторы W (ПК)^- устанавливаются соответствующими новому входному образу.
Рассмотрим сравнение СВ-сети, моделирующей один из видов сознательного внимания (внимание в соответствии с запомненными структурами), с нейросетью СААРТ
[11] (SAART в английской аббревиатуре), моделирующей один из видов непроизвольного внимания (отделение знакомого объекта от фона). Обе сети созданы по принципам APT и являются упрощенной моделью внимания.
Задача выделения «чистого» контура объекта из зашумленного фона ставится следующим образом: АРТ-сети предъявляют для запоминания один или несколько «чистых», незашумленных объектов. Затем АРТ-сети предъявляют для опознания соответствующие зашумленные объекты. Как видно из рис. 8, в процессе подавления шума сеть СААРТ частично подавляет и исходный контур, ведя к его искажению, в то время как СВ-сеть практически идеально восстанавливает исходный контур.
В этом примере количество ошибочных пикселей СВ-сети составляет 8.5%, сети СААРТ - около 30%.
Задача восстановления искаженного контура объекта до его запомненной, недеформированной формы ставится следующим образом: АРТ-сети предъявляют
для запоминания один или несколько эталонных неискаженных объектов. Затем АРТ-сети предъявляют для опознания соответствующие искаженные объекты.
% ■
Рис. 8. Сравнение СААРТ и СВ-сети на примере первого контура из [11] а - исходный запомненный сетью эталонный контур; б - зашумленный контур; в, г - результат «очистки» зашумленного контура с помощью соответственно СААРТ и СВ-сети.
Как видно из рис. 9, в процессе восстановления искаженного объекта СВ-сеть, наоборот, уступает сети СААРТ в точности восстановления. Сеть СААРТ практически идеально восстанавливает исходный контур. Количество ошибочных пикселей сети пикселей сети СААРТ в этом примере составляет около 7% для обоих искаженных контуров, сети СВ - 21 и 27% для соответственно нижнего и верхнего искаженных контуров.
а б в г
Рис. 9. Сравнение работы СВ- и СААРТ-сети в выполнении задачи восстановления искаженного объекта на примере первого контура из [11]
Показан один эталонный неискаженный объект (слева) и обработка двух искаженных объектов — верхний и нижний ряды соответственно: а - неискаженный исходный запомненный сетью эталонный контур; б - искаженный контур; в, г - результаты восстановления искаженного контура с помощью
соответственно СААРТ и СВ-сети.
По сравнению сетей СВ и СААРТ были проведены 24 эксперимента. В итоге были получены следующие результаты:
Нейросеть ..................... СВ СААРТ
Средняя ошибка шумоподавления,
% ошибочных пикселей........... 9 40
Средняя ошибка восстановления,
% ошибочных пикселей........... 23 8
Заключение. Разработаны элементы и архитектура ИНС сознательного внимания и анализа структуры изображений (СВ-сети), способной упрощенно моделировать процесс интроспективного анализа и структурирования запомненных образов, происходящий в мозге. Структура запомненных образов отражается в обучении иерархических связей, соединяющих соответствующие объектам нейроны в ассоциативные комплексы. Данные комплексы влияют на процесс опознания
изображений СВ-сетью с помощью подавления или подчеркивания различных частей изображения согласно усвоенным структурным связям. Таким образом, СВ-сеть моделирует сознательное внимание, направляющее процесс опознания изображений, например она, подобно человеку, способна «выискивать» целое по уже узнанной его части. СВ-сеть создана по принципам APT, реализована на C++ и сравнена с адаптивнорезонансной нейросетью СААРТ, моделирующей другой тип выборочного внимания. Результаты сравнения показывают преимущество СВ-сети в задачах шумоподавления.
Литература
1. Steinman S. B., Steinman B. A. Vision and attention. I: Current models of visual attention // Optom. Vis. Sci. 1998. Vol. 75 (2). P. 146-155.
2. Baddeley A. Exploring the central executive // Quarterly J. Experimental Psychologica. 1996. Vol. 40 A. P. 5-28.
3. Crick V.H., Koch C. Towards a neurobiological theory of consciousness // Semin. Neuros. 1990. Vol. 2. P. 263-275.
4. Dehaene S., Changeux J-P. Neuralmechanisms for access to consciousness // The Cognitive Neurosciences. 3rd ed. by Gazzaniga. New York: WW Norton, 2004. P. 1145-1157.
5. Крюков В. И. Модель внимания и памяти, основанная на принципе доминанты и компараторной функции гиппокампа // Журн. высшей нервной деятельности. 2004. Т. 54 (1). C. 10-29.
6. Niebur E. Electrophysiological correlates of synchronous neural activity and attention: A short review // BioSystems. 2002. Vol. 67. P. 157-166.
7. Theeuwes J. Visual selective attention: A theoretical analysis // Acta Psychologica. 1993. Vol. 83 (2). P. 93-154.
8. Иваницкий А. М. Главная загадка природы: как на основе работы мозга возникают субъективные переживания // Психол. журн. 1999. Т. 20, №3. С. 93-104.
9. Сергин В. Я. Сознание как система внутреннего видения // Журн. высшей нервной деятельности. 1994. Т. 44, вып. 4-5. С. 627-639.
10. Мищенко А. В. Искусственное сознание на основе нового алгоритма самообучения и адаптации // Искусственный интеллект. 2004. Т. 4. С. 212-219.
11. Lozzo P. Selective attention adaptive resonance theory: Intern. patent WO 97/04400 6.2.97.
12. Itti L., Koch C. Computational modeling of visual attention // Nature Reviews Neuroscience. 2001. Vol. 2 (3). P. 194-203.
13. Cleeremans A. Computational correlates of consciousness // Progress in Brain Research / ed. by S. E. Laureys. Elsevier, B. V., 2005. Vol. 150. P. 81-98.
14. Крюков В.И. Модель внимания и памяти, основанная на принципе доминанты //IV Всерос. конференция «Нейроинформатика-2002». М.: МИФИ, 2002. Т. 1. С. 66-113.
15. Mathis W. D., Mozer M. C. On the computational utility of consciousness // Advances in Neural Information Processing Systems. Cambridge: MIT Press, 1995. Vol. 7. P. 10-18.
16. Deco G., Schermann B. A hierarchical neural system with attentional top-down enhancement of the spatial resolution for object recognition // Vision Research. 2000. Vol. 40 (20). P. 2845-2859.
17. Carpenter G., Grossberg S. A massively parallel architecture for a self-organizing neural pattern recognition machine // Computing Vision. Graphics and Image Processing. 1987. Vol. 37. P. 54-115.
18. Crossberg S. Competitive learning: From interactive activation to adaptive resonance // Cognitive Science. 1987. Vol. 11. P. 23-63.
19. Carpenter G. A., Grossberg S. ART 2: Self-organization of stable category recognition codes for analog input patterns // Applied Optics. 1987. Vol. 26 (23). P. 4919-4930.
20. Carpenter G.A., Grossberg S., Rosen D.B. ART 2-A: An adaptive resonance algorithm for rapid
category learning and recognition // Neural Networks. 1991. Vol. 4. P. 493-504.
21. Carpenter G. A., Grossberg S. ART 3: Hierarchical search using chemical transmitters in self-
organizing pattern recognition architectures // Neural Networks. 1990. Vol.3. P. 129-152.
22. Westmacott J. An artificial neural network for robust shape recognition in real time: Thes. MSc (electronic eng.). Australia, Adelaide: University of South Australia, Knowledge-based Intelligent Eng. systems centre, 2000. URL: http://ariic.library.unsw.edu.au/context/unisa/article/1047/ index/1/type/native/viewcontent/.
23. Palmer-Brown D., Lee S. W., Tepper J., Roadknight C. Fast Learning Neural Nets with Adaptive Learning Styles // Proc. of the 17th European Simulation Multiconference. 9-11th June. Nottingham, UK: The Nottingham Trent University, 2003. P. 118-123.
24. Carpenter G.A., Grossberg S., Rosen D.B. Fuzzy ART: Fast stable learning and categorization of analog patterns by an adaptive resonance system // Neural Networks. 1991. Vol. 4. P. 759-771.
25. Mahyabadi M. P., Soltanizadeh H., Shokouhi Sh. B. Facial Detection based on PCA and Adaptive Resonance Theory 2A Neural Network // Proc. of the IJME-INTERTECH Conference. New York: Kean University, USA, 2006. P. 501-509.
26. Jain A. K., Murty M. N., Flynn P. J. Data Clustering: A Review // ACM Computing Surveys. 1999. Vol. 31, N 3. P. 264-323.
27. Классификация и кластер: сб. науч. трудов / под ред. Д. В. Райзина. М.: Мир, 1980. 393 с.
28. Мищенко А. В. Накапливание знаний в процессе сознательной деятельности: переход количества в качество // Искусственный интеллект. 2005. Т. 4. С. 497-506.
29. Мищенко А. В. Апгрейд в сверхлюди. Технологическая гиперэволюция человека в XXI веке. М.: Изд-во техн. лит-ры, УРСС, 2008. 168 с.
30. Weimer G. Robots ’See’ Factory’s Future // Material Handling Management, March 2002. URL: http://mhmonline.com/systems-automation/mhm_imp_2954/.
31. Lee D.K., Itti L., Koch C., Brau J. Attention activates winner-take-all competition among visual filters // Nature Neuroscience. 1999. Vol. 2 (4). P. 375-381.
32. Standage D.I., Trappenberg T.P., Klein R.M. Modeling divided visual attention with a winner-take-all network // Neural Networks. 2005. Vol. 18. P. 620-627.
Статья рекомендована к печати проф. Л. А. Петросяном.
Статья принята к печати 10 июня 2010 г.