УДК 004.032.26
Лагунов Н.А.
Применение сверточных нейронных сетей в задачах распознавания многопараметрических объектов
Лагунов Никита Алексеевич, аспирант кафедры информационных систем Северо-Кавказского федерального университета, ассистент кафедры информационных систем СКФУ
E-mail: [email protected]
Представлена характеристика процессов распознавания сложных объектов, истории развития и сущности искусственных нейронных сетей, проанализированы архитектура и основные свойства сверточных нейронных сетей, варианты и перспективы использования рассмотренной логико-математической модели.
Ключевые слова: нейронные сети, многопараметрические объекты, восприятие, распознавание образов, вентральный путь, зеркальные нейроны, моделирование, субдискретизация, локальное восприятие.
На сегодняшний день можно считать общепризнанным представление о современном обществе как об информационном. Большие надежды возлагаются на новые высокие информационные технологии, открывающие широкие перспективы для творческой и практической деятельности человека. Важной составляющей этих процессов является не экстенсивное наращивание мощностей вычислительной техники, а её интеллектуализация -создание принципиально новых программно-аппаратных комплексов. Существенно помочь решению проблем создания компьютерных устройств, обеспечивающих более комфортную жизнедеятельность, может разработка распознающих алгоритмов средств, способных к распознаванию объектов. Несмотря на большое число разработок в этой области, современные системы искусственного интеллекта способны распознавать лишь немногие характерные признаки объекта и могут допускать грубейшие по меркам человеческого сознания ошибки.
В окружающем нас мире существует огромное количество разнообразных объектов, которые сложным образом взаимосвязаны друг с другом, имеют множество характеристик и появляются в поле нашего зрения, как правило, не по отдельности, а вместе. При этом человеческий мозг способен воспринимать объекты реального мира, различать их, взаимодействовать с ними, выделяя наиболее существенные характерные признаки, параметры и инварианты, адекватно реагировать на них.
Для того чтобы наделить систему способностью к сложному распознаванию, логично использовать вычислительные структуры, подобные существующим в человеческом мозге.
Несмотря на успехи, достигнутые как в теоретической информатике, эффективность распознания объектов различных предметных областей в настоящее время далека от желаемой.
Одним из основных направлений в распознавании образов является использование искусственных нейронных сетей. И хотя этот подход, как и любой другой, имеет свои слабые и сильные стороны, определенно можно сказать, что на сегодняшний день потенциал нейронных сетей раскрыт далеко не полностью.
В широком смысле распознавание объектов можно также определить как способность различать физические свойства (например, форму, цвет, текстуру), вследствие чего применять к этому объекту различные семантические атрибуты, определяющие понимание возможностей и предыдущего опыта его использования, учитывающие взаимосвязи с другими объектами.
Исходя из вышесказанного, процесс распознавания можно разделить на четыре этапа:
1. Обработка основных свойств объекта, таких как форма, цвет, контрастность и т.д.
2. Группировка вышеназванных основных свойств на основе сходства.
3. Описание визуального представления объекта с помощью логических структур в памяти.
4. Сопоставление семантических атрибутов с визуальным представлением, обеспечивающее общий смысл, и, следовательно, распознавание объекта.
Искусственные нейронные сети частично, в некотором приближении, моделируют процессы, происходящие в человеческом мозге. При таком подходе приходится мириться с определенными упрощениями, используя соответствующие абстракции. Тем не менее, данный вид распознавания позволяет не учитывать строго все четыре этапа процесса распознавания, описанные выше.
История исследования нейронных сетей тесно связана с исследованием человеком собственного мышления. В 1943 г. Дж. Маккалок и У. Питт опубликовали работу «Логическое исчисление идей, относящихся к нервной деятельности», в которой была построена модель нейрона и сформулированы принципы построения искусственных нейронных сетей. Позднее, в 1962 г. американский нейрофизиолог Фрэнк Розенблатт предложил модель пер-
септрона, которая оказала существенное влияние н5а все последующие исследования в данной области. Персептрон представляет собой простейшую нейронную сеть с пороговой передаточной функцией и прямым распространением сигнала, содержащую один скрытый слой. Несмотря на кажущуюся простоту, модель способна решать задачу линейного разделения любых нелинейных множеств, иными словами, создавать набор «ассоциаций» между входными и выходными сигналами. В нервной системе человека эта задача имеет очень большое значение и используется, например, для преобразования зрительной информации в ответную реакцию двигательных нейронов или для «узнавания» образа.
Впоследствии было предложено огромное количество разнообразных моделей и методов построения искусственных нейронных сетей, значительная часть которых основана на одних и тех же базовых принципах: сеть состоит из большого числа элементарных процессоров - нейронов, выполняющих простые вычисления, и связанных друг с другом таким образом, который обеспечивает возможность решения сложных, плохо формализованные задачи.
Нейроны группируются в слои таким образом, что на вход каждого нейрона в следующем слое поступают выходные значения всех нейронов предыдущего слоя (такие сети называют полносвязными). При этом каждой связи, соединяющей два нейрона, соответствует определенный вес, определяющий силу взаимодействия между ними. Связи между нейронами могут быть возбуждающими или тормозящими. Иногда они также подразделяются по типу передатчика возбуждения, что обеспечивает различие эмоциональных стилей поведения на уровне нейромедиаторной регуляции.
При всех своих объективных достоинствах нейронные сети остаются чрезвычайно сложным механизмом обработки информации. Обучение нейронной сети схоже с обучением ребенка: мы можем контролировать качество обучения, но не можем гарантировать конечный результат функционирования системы. Поэтому очень важно заранее серьезно подойти к выбору модели сети, чтобы хотя бы примерно определить, какие результаты мы можем ожидать от системы при решении конкретной поставленной задачи.
На практике процент использования различными моделями сильно различается. Так, например, нейронные сети Хопфилда распознают примерно 3-6 % объектов, а процент правильного распознавания сетями, основанными на радиально-базисных функциях, стохастическими, сверточными и нечеткими сетями значительно выше1. На сегодняшний день существует точка зрения, в соответствии с которой распознавание образов в коре головного мозга возможно благодаря иерархической структуре областей мозга, называемой «вентральным путем», простирающимся от первичной коры через зрительную зону к вентральной (нижней) части височной доли коры (рис. 2). Вентральный путь связан с процессом распознавания формы, с представлением об объекте, а также с долговременной памятью. Существуют области, одинаково реагирующие на различные входные данные - визуальный образ, ощущение, звук, т. е. существует единообразие в способе обработки разнотипной информации человеческим мозгом2.
В распознающих системах представляется вполне логичным использование иерархической структуры. «Стандартные» сети прямого распространения способны выполнять очень сложные задачи по распознаванию объектов. Однако этот вид архитектуры нейронных сетей имеет некоторые ограничения. В ситуациях, когда исследуемый объект появляется вместе с другими объектами, сети прямого распространения могут быть перегружены и не способны корректно осуществить распознавание.
Сверточные нейронные сети обрабатывают исходное изображение не полностью, а отдельными «порциями», последовательно уменьшая его размер или выделяя характерные наиболее важные признаки, уходя на новый уровень абстракции. В этих сетях формируются так называемые карты признаков, которые стороннему наблюдателю кажутся размытыми, искаженными копиями исходного изображения, но для нейронной сети имеют совершенно иной смысл, содержат инварианты и характерные признаки. Основная идея сверточной нейронной сети заключается в чередовании субдискретизирующих (£-1ауеге) слоев, сверточных (С-1ауеге) слоев, а также полносвязных ^-1ауеге) выходных слоев. Таким образом, объединяются воедино три архитектурные идеи, которые помогают достичь инвариантности к искажениям и сдвигам исходного изображения: идеи о локальных полях восприятия, о разделяемых весах и о пространственной субдискретизации (рисунок 3).
Под локальным подразумевается такое восприятие, когда на вход одного нейрона подается не всё изображение, а некоторые определенные его области, например, слои. При таком подходе топология изображения сохраняется от слоя к слою.
1 Cm.: Zhenghao Shi. Application of Neural Networks in Medical Image Processing. School of Information Science and Technology, Aichi Prefectural University, Nagoya, Japan, 2010.
Cm.: Riesenhuber M. Object recognition in cortex: Neural mechanisms, and possible roles for attention. Department of Neurosci-enceGeorgetown University Medical Center, Washington, DC, 2007.
Фрэнк Розенблатт (Frank Rosenblatt, 19281971), американский психолог, нейрофизиолог, исследователь искусственного интеллекта.
Рис. 2. Вентральный путь головного мозга
Карты
признаков
5x5
____________ нейронов
10
нейронов
Рис. 3. Структура сверточной нейронной сети с тремя скрытыми слоями
Вторая идея - концепция разделяемых слоёв - заключается в том, что для большого количества связей используется очень небольшое количество весов. Иными словами, если, к примеру, на вход подается изображение размерами NхM пикселей, то на вход каждого из нейронов следующего слоя поступит небольшой участок этого изображения. Размеры такого участка могут быть различными, к примеру, pхq, где р < N q < М. Причем для обработки каждого из фрагментов будет использован один и тот же набор ядер.
Суть третьей идеи о пространственной субдискретизации с помощью 8-слоев в сверточных нейронных сетях заключается в уменьшении пространственной размерности изображения.
Чередование слоев позволяет составлять карты признаков из карт предыдущего слоя, что способствует на практике распознаванию сложных иерархий признаков. Модель предполагает выделение большого числа областей из исходного изображения, а, следовательно, в данном случае рациональным является использование вычислительных средств, способных быстро обрабатывать большие объемы векторных данных. Векторно-матричные процессоры №ишМаМх обладают такими качествами и специально разработаны для моделирования нейронных сетей
В сверточных слоях каждый фрагмент изображения поэлементно умножается на небольшую матрицу весов, результат подвергается операции суммирования. Полученная сумма определяет один пиксель выходного изображения, называемого картой признаков. На каждом слое происходит формирование нескольких таких карт.
Из предложенной схемы видно, что все типы слоев имеют сходный алгоритм реализации, но каждый слой имеет свои характерные черты, главным образом связанные с распределением весовых коэффициентов и входов слоя.
Изначально исходное изображение разделяется на области, из которых строятся карты признаков. При этом используется один и тот же набор весовых коэффициентов, а на выходе получается единственное число, соответствующее одному элементу выходной карты. Иными словами, алгоритм выполняется несколько раз для каждого элемента, затем загружаются другие коэффициенты и формируется следующая карта признаков.
Рис. 4. Структурная схема реализации сверточной нейронной сети
На субдискретизирующих слоях выходами являются не одно, а несколько значений, примерно в два раза меньше числа входов, что позволяет понижать размерность изображения и выявлять в дальнейшем более общие, инвариантные к масштабированию признаки.
Наконец, полносвязные слои представляют собой классические сети прямого распространения, хорошо зарекомендовавшие себя в распознавании простых образов. Обобщенная схема сверточной нейронной сети приведена на рис. 4.
Архитектура сверточных нейронных сетей близка строению человеческого мозга, этот подвид сетей является универсальным для задач распознавания. В мозге также есть области, не имеющие ярко выраженной специализации и одинаково обрабатывающие всю входящую информацию (зрительную, сенсорную, звуковую, логическую и т. д.). Еще одним преимуществом сверточных нейронных сетей является следующее: благодаря тому, что признаки изображения извлекаются обособленно, эти сети способны находить инварианты в изображении и реагировать главным образом на них, не обращая внимания на прочий шум.
Стоит отметить достаточно большую универсальность сверточных нейронных сетей. Эта модель может быть дополнена и расширена другими алгоритмами и методами, разрабатываемыми как в теории искусственных нейронных сетей, так и в других областях знания.
Важным свойством человеческого мозга является возможность использования ассоциаций - способность очень быстро находить по известному образу другие ассоциативно связанные с ним образы. В различных контекстах мы ожидаем увидеть одни объекты с большей вероятностью, чем другие. На кухне - столовые приборы и посуду, в офисе - принтер, на улице - машины и здания. В одних ситуациях мозг помогает нам проще делать вывод об образе, в других, напротив - мешает. До конца не ясно, как именно происходит сопоставление образа и контекста: начинается ли распознавание с анализа частей паттерна, ведущего к узнаванию целого, или же с выдвижения гипотезы о целом, что приводит к идентификации его отдельных частей. Нейронная сеть Хопфилда, с обратными связями, является распространенным механизмом реализации ассоциативной памяти. При замене полносвязных слоев на слои с обратными связями сеть может быть наделена свойствами ассоциативности и учета контекста. Важная особенность рекуррентных сетей - способность восстанавливать зашумленные входные образы.
Можно сказать, что на сегодняшний день потенциал сверточных нейронных сетей до конца не раскрыт и используется едва ли наполовину. Исследования в этой области могут помочь создать высокоточные системы компьютерного зрения, распознавания сложных комплексных объектов.
В последние годы особые надежды возлагаются на исследование так называемых «зеркальных» нейронов (англ. mirror neurons, итал. neuroni specchio), которые возбуждаются как при выполнении определённого действия, так и при наблюдении за выполнением этого действия другим существом, и, как считают ученые, могут быть задействованы в эмпатии, понимании других людей, а также в освоении новых навыков путем имитации. И хотя на сегодняшний день вокруг зеркальных нейронов существует множество споров и не предложено адекватной модели их реализации, очевидно, что для осуществления когнитивных функций, в том числе имитации, любым программно-техническим средствам на основе данного типа нейронов понадобится мощная система распознавания и анализа изображений и других типов информации. А в этом важную роль наряду с другими алгоритмами и методами могут сыграть и сверточные нейронные сети.
С другой стороны, исследование и моделирование искусственных нейронных сетей может помочь нам лучше понять функционирование и природу своей собственной психики. Так, ученые в Остине, штат Техас, на основании экспериментов с нейросетевой моделью DISCERN, созданной с расчетом понимания естественного языка, выдвинули теорию о природе шизофрении. По их мнению, эта болезнь связана с гиперобучаемостью и неспособностью мозга достаточно быстро забывать информацию. Когда человек теряет способность отличать важное от неважного, он становится неспособен к связному изложению своих мыслей и тонет в хаотичном потоке предположений и умозаключений.
На наш взгляд, существует взаимозависимость и взаимовлияние развития медицинской диагностики и интеллектуальных систем распознавания (ИСР): совершенствование нейропсихологии позволяет существенно повысить эффективность распознавания системами искусственного интеллекта на базе нейронных сетей, и, с другой стороны, развитие теории искусственного интеллекта обеспечивает возможность более глубокого понимания патологических состояний и разработку более совершенных методов лечения. Поэтому применение интеллектуальных систем распознающих (ИСР) в медицинской диагностике - очень перспективное направление.
ЛИТЕРАТУРА
1. Барский А.Б. Логические нейронные сети. М.: Бином, 2007.
Barskii A.B. (2007). Logicheskie neironnye seti. Binom, Moskva.
2. Круглов В.В. Искусственные нейронные сети. Теория и практика. М.: Телеком, 2001.
Kruglov V.V. (2001). Iskusstvennye neironnye seti. Teoriya i praktika. Telekom, Moskva.
3. Gorban A.N., Novokhodko A.Yu. Neural Networks in transposed regression problem. Proceedings of the 1996 World Congress on Neural Networks. International Neural Network Society, 1996.
4. Riesenhuber M. Object recognition in cortex: Neural mechanisms, and possible roles for attention // Department of NeuroscienceGeorgetown University Medical Center, Washington, DC, 2007.
5. Rizzolatti G., Fogassi L., Gallese V. Mirrors in the Mind. Scientific American Band 295, №>. 5, November 2006.
6. Simard P.Y., Steinkraus D., Platt J. Best practices for convolutional neural networks applied to visual document analysis. Proc. Int. Conf. on Document Analysis and Recognition (ICDAR), IEEE Computer Society, Los Alamitos, 2003.
7. Zhenghao Shi. Application of Neural Networks in Medical Image Processing. School of Information Science and Technology, Aichi Prefectural University, Nagoya, Japan, 2010.