Научная статья на тему 'Исследование метода обучения с подкреплением спайковой нейронной сети'

Исследование метода обучения с подкреплением спайковой нейронной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
607
116
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СПАЙКОВАЯ НЕЙРОННАЯ СЕТЬ / ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ / ОЦЕНКА КАЧЕСТВА КЛАССИФИКАЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Козов А. В., Чернышев А. С.

В статье рассмотрен метод обучения с подкреплением спайковой нейронной сети, построенной при применении определенного типа связи между нейронами, называемого гедонистическим синапсом. Приведено описание метода, алгоритма получения тестовых данных и способов оценки качества обучения, использованных при исследовании. Представлены выводы по результатам работы и возможные направления дальнейших исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование метода обучения с подкреплением спайковой нейронной сети»

Наука и Образование

МГТУ им. Н.Э. Баумана

УДК 004.852

Исследование метода обучения с подкреплением спайковой нейронной сети

Козов А. В.1, Чернышев А. С.1' "^ехеу.сЬети^еу® gmail.com

1МГТУ им. Н.Э. Баумана, Москва, Россия

В статье рассмотрен метод обучения с подкреплением спайковой нейронной сети, построенной при применении определенного типа связи между нейронами, называемого гедонистическим синапсом. Приведено описание метода, алгоритма получения тестовых данных и способов оценки качества обучения, использованных при исследовании. Представлены выводы по результатам работы и возможные направления дальнейших исследований.

Ключевые слова: спайковая нейронная сеть, обучение с подкреплением, оценка качества классификации

Введение

Искусственные нейронные сети в настоящее время имеют широкую область применения. Большой интерес представляет такой класс нейронных сетей как спайковые, также называемые импульсными, нейронные сети. Спайковые нейросети - это одно из направлений исследования резервуарных вычислений в области рекуррентных сетей неустойчивых состояний (Liquid State Machine) [1]. В основе таких сетей лежит представление взаимодействия между отдельными нейронами в виде спайков — сигналов одинаковой амплитуды и длительности. Передаваемая информация при этом закодирована посредством времени возникновения и частоты отдельных импульсов (спайков). Это отличает спайко-вые нейросети от классических искусственных нейронных сетей, в которых эта информация представлена некоторым действительным числом. В работе [2] предложено условное разбиение нейронных сетей по принципу их работы на поколения, и спайковые нейросети выделены как отдельное, третье, поколение искусственных нейронных сетей.

Отличия в принципе функционирования сетей третьего и предыдущих поколений требуют пересмотра, приспособления или разработки новых правил и методов работы с ними [3]. В работе доктора Сеунга (Sebastian H. Seung) [4] предложен метод обучения с подкреплением, применимый для определенного типа связи между нейронами, названного гедонистическим синапсом. Такая связь представляет собой модель стохастического си-

Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2016. № 06. С. 174-183.

DOI: 10.7463/0616.0842238

Представлена в редакцию: 09.05.2016 Исправлена: 23.05.2016

© МГТУ им. Н.Э. Баумана

напса, частично отражающего свойства своего биологического аналога. Гедонистический синапс изменяет собственную активность в зависимости от своей активности в предыдущие моменты времени и подкрепления. Положительное («награда») или отрицательное («наказание») подкрепление показывает, насколько активность данного синапса соответствует ожидаемой. Функции параметров синапса заданы таким образом, что синапс стремится реже получать «наказание» и чаще — «награду». По этой причине синапс был назван гедонистическим.

1. Модель гедонистического синапса

Гедонистический синапс реализует механизм стохастического градиентного подъема по поверхности ожидаемой награды. Предложенная модель является теоретической по своей сути и не претендует на серьезное нейробиологическое основание. Тем не менее, она отражает некоторые известные биологические феномены, например, такой как выработка оперантного условного рефлекса [5].

Пусть ситуация, когда синапс передает возникающий в пресинаптической области импульс в постсинаптическую, будет называться проведением входного спайка синапсом. Модель гедонистического синапса устроена так, что синапс может провести входной импульс (в терминах нейробиологи - высвободить нейромедиаторы) с некоторой вероятностью 5. Эта вероятность зависит от состояния, которое имеет синапс в момент возникновения передаваемого спайка: доступности (A) или невосприимчивости (R). В состоянии невосприимчивости синапс не может производить высвобождение нейромедиаторов, и, соответственно, 5 = 0 при любых входных спайках (любой пресинаптической активности). В состояние невосприимчивости синапс переходит сразу после успешного проведения спайка, и через некоторое время, заданное константой тг, меняет свое состояние на A. В состоянии доступности вероятность того, что он высвободит нейромедиаторы задана зависимостью

1

5 =-,

1 + е-ч~с

которая является функцией от показателя натренированности синапса q и показателя с. Роль последнего в том, чтобы производить кратковременную потенциацию активных синапсов (Short Term Potentiation). Чем больше значение этих двух переменных, тем выше вероятность проведения спайка.

Переменные q и с изменяют свои значения во времени и имеют различную динамику. Изменение переменной q(t) происходит на большом промежутке времени, обучение нейрона охарактеризовано именно этим показателем. Его можно описать как вероятностный вес синапса. Переменную c(t) можно охарактеризовать как катализатор спайков синапса — при большом числе проведенных импульсов синапс увеличивает вероятность своего спайка.

Каждый входной импульс оставляет так называемый след e(t) на синапсе, который угасает за заданный промежуток времени. Этот след выступает в качестве ключевого по-

казателя в обучении синапса следовать награде. Угасание следа описывает динамика, заданная уравнением

de е dt те'

где те — временная константа длительности затухания следа.

Величина переменной с возрастает при каждом входном спайке на небольшую константу Ас, после чего с угасает с динамикой, аналогичной динамике переменной е, но с временной константой тс.

При включении системы награды и наказания в данную модель, где уровень награды задан переменной h(t), динамику изменения вероятностного веса синапса q(t) можно описать уравнением

dq

— = л /1(0 е(0,

где п — малый коэффициент скорости обучения.

След активности синапса e(t) играет роль градиента стратегии системы (policy gradient [6]). Изменение вероятностного веса в соответствии с данной политикой приведет к повышению правдоподобности модели и стабилизации ответа сети на стимул. При входном спайке переменная е возрастает на значение Ае: если спайк был успешно проведен («release»), тогда Ае = 1 - 5, или же Ае = - 5 в случае неудачи («failure»). В состоянии невосприимчивости синапса изменения е не происходит (Ае = 0). Корреляция е(^ с подкреплением h(t) - это центральный механизм в данной модели, который позволяет изменять вероятностные веса нейронов в соответствии с ожидаемой наградой, максимизируя ее.

Когда на синапс в состоянии доступности поступает входной спайк, изменения описанных выше параметров происходят в следующем порядке: попытка высвобождения нейромедиатора с вероятностью 5, изменения е на Ае, изменение с на Ас. Если же синапс находится в состоянии невосприимчивости, то изменения этих параметров не происходит.

2. Оценка качества обучения нейронной сети

В настоящее время нет устоявшихся критериев по оценке качества обучения спайко-вых нейронных сетей, а некоторые стандарты оценок, например, скорость реагирования сети на изменение класса входного сигнала, для спайковых сетей не разработаны. Без проведения отдельных исследований на эту тему, целесообразным является применение наиболее простых и практически значимых критериев. При этом использование сразу нескольких критериев позволяет более объективно оценить работу классификатора. В данной работе для каждой эпохи обучения нейросети выполнена оценка обученности по двум критериям: показатель числа ошибок и разделимость плотности распределения вероятности классификации.

В качестве самого простого способа оценки успешности работы сети может быть выбран показатель числа ошибок. Он представляет собой отношение ошибочных класси-

фикаций к общему числу поданных примеров. Если ассоциировать активность нейронов выходного слоя с распознаваемыми классами согласно их номерам, то ошибками будут следующие ситуации:

- номер наиболее активного нейрона в выходном слое не совпадает с номером класса, поданного на вход;

- имеется несколько одинаково активных нейронов при условии, что активность остальных нейронов выходного слоя меньше;

- активных нейронов нет.

Такая простая оценка позволяет сразу получить представление о текущем уровне обученности сети.

Вторая оценка демонстрирует, насколько хорошо могут быть разделимы выходные сигналы сети. Графически эта оценка представляет собой набор диаграмм плотности распределения вероятности классификации примеров из текущей эпохи, а также построенная по этим данным кривая ошибок ^ОС-кривая) [7]. В качестве вероятности классификации рг за некоторое время использовано отношение числа импульсов пг, которые произвел соответствующий классу г нейрон, к числу всех импульсов нейронов выходного слоя за это время:

71■

= —,1 = 1,2,

%

Здесь N — число распознаваемых классов. При моделировании для каждой пары распознаваемых классов строятся соответствующие диаграммы оценки плотности (рис. 1).

Рис. 1. Классификация примеров двух классов. Выходные данные сети, оценка плотности верояности классификации образца как класс «1» при предъявлении примеров классов «1» (черные линии) и «2» (красные линии). Изображены результаты моделирования: а) плохо разделимые сигналы, будет получена низкая оценка обученности; б) хорошо разделимые сигналы, будет получена высокая оценка обученности

ROC-кривая строится по последовательности полученных вероятностей и показывает зависимость доли верных положительных классификаций от доли ложных положительных классификаций при различных значениях порога решающего правила. Количественную интерпретацию этой оценки можно получить путем подсчета площади, ограниченной кривой ошибок и осью долей ложных положительных классификаций (АиС). Расчет ЛИС

происходит для каждой пары распознаваемых классов, итоговое значение получено как среднее арифметическое. Как и показатель количества ошибок, AUC-показатель изменяется в пределах от 0 до 1, но, в противоположность первой оценке, чем выше значение AUC, тем более качественный ответ был выдан нейронной сетью. В качестве обобщенной оценки обученности может быть использована взвешенная сумма показателя количества ошибок и величины (1 - AUC).

3. Тестовые данные

Первоначальная настройка и отладка сети, построенной с использованием модели гедонистического синапса, была проведена на простейших тестовых данных. Они представляют собой набор из двух чередующихся спайковых последовательностей. В первой последовательности нейроны входного слоя производят импульсы поочередно в порядке своих номеров по возрастанию, во второй - по убыванию (рис. 2, а).

Рис. 2. Карты спайков нейронов входного слоя сети. По оси абсцисс отложено время симуляции t, по оси ординат - номера нейронов входного слоя; каждая окружность означает спайк нейрона в момент времени t, тонкая линия посередине - граница классов. Примеры: а) два простых класса для отладки; б) «сложные»

классы

После того как была достигнута корректная работа сети, тестовые примеры были заменены более сложными. Каждый класс представляет собой уникальный паттерн последовательности спайков. Он получен при соотнесении с каждым нейроном входного слоя некоторой интенсивности порождения спайков (рис. 2, б). В обучающем примере классы остаются неизменными, чередуясь друг с другом. Такой способ получения обучающих примеров приведен в работе [8]. Для испытания обученной сети использованы дополнительные тестовые данные, полученные добавлением некоторого шума между исходными тестовыми классами. В каждой обучающей выборке задано по 50 примеров данных для каждого класса продолжительностью по 500 миллисекунд. Соответственно, за одну эпоху происходит обучение нейронной сети на 100 образцах данных. По результатам их обработки выполняется оценка качества обучения за эпоху. Итоговая оценка для нескольких

последовательно проведенных эпох может быть рассчитана как среднее арифметическое оценок по эпохам.

4. Исследование метода обучения

Для исследования обучаемости нейросети с гедонистическими синапсами была использована библиотека динамических нейронных сетей dnn [9]. Была построена нейронная сеть из трех слоев нейронов: входного, скрытого и выходного. Модель нейронов -"Leaky integrate-and-fire" [1, 3]. Связи между слоями — стохастические возбуждающие, внутри скрытого слоя присутствуют также тормозные синапсы. Генерация подкрепления в системе задана таким образом, что в случае, если спайк был произведен нейроном, номер которого совпадал с номером класса текущего примера, система получает положительное подкрепление («награда»), в противоположной ситуации — отрицательное («наказание»). Общая награда в системе представлена в двух формах - как текущая (или мгновенная) величина награды r и ее среднее значение rm за больший промежуток времени. Расчет текущего значение происходит по формуле

dr г — 1

Иг ~ т '

U-L L trace

где Е — сумма всех «наград» и «наказаний» за текущий такт времени симуляции; т Гасе — временная константа мгновенной награды. Среднее значение награды задано временной константой тт t и зависимостью

dfm _ Тm ~ Т

dt £

В качестве величины уровня награды для гедонистического синапса использована разность между этими двумя значениями: h = r - rm, как это рекомендовано в оригинальной работе [4] для уменьшения шума при обучении.

Нейронная сеть имеет большое число параметров, от которых зависят скорость и качество обучения. Эти зависимости, а также оптимальные значения параметров могут быть определены эмпирическим путем (для предварительной оценки) и при помощи байесовского метода оптимизации, который позволяет находить экстремумы сложных функций. Моделирование с различными параметрами выявило границы областей допустимых значений для параметров гедонистических синапсов и некоторые зависимости для параметров нейронной сети в целом. Например, высокая связность сети (каждый нейрон с вероятностью 0,9 имеет возбуждающую связь с нейронами другого слоя) увеличивает время, необходимое для достижения заданного уровня оценки качества обучения, но при этом обеспечивает его воспроизводимость, позволяя с большей вероятностью получить одинаковую оценку за одинаковое время при нескольких симуляциях.

Эффективность байесовской оптимизации [10] обеспечена благодаря использованию предположений о характере и поведении функции для определения точек испытаний в области поиска. В основе метода лежит теорема Байеса, связывающая апостериорную и априорную вероятности события, наступившего при некотором условии. Вначале необходи-

мо выбрать наиболее достоверное предположение о характере исследуемой функции, в данном случае - о зависимости качества обучения нейронной сети от ее параметров. Для этого была проведена серия последовательных симуляций для получения значений качества обучения при различных параметрах из определенной ранее области их допустимых значений. По полученному набору значений параметров и соответствующих им значений функции происходит расчет и оценка возможных предположений. В качестве основного предположения должно быть выбрано то, которое наиболее точно предсказывает значения функции-оригинала при заданных параметрах. Далее можно провести непосредственно Байесовскую оптимизацию с целью определить такой набор изменяемых параметров, чтобы функция оценки качества обучения сети имела наилучшее, с точки зрения используемого критерия, значение.

Результаты байесовской оптимизации подтвердили первоначальные предположения о прямом влиянии корреляции временной константы синапса те и константы текущей награды т^асе на качество обучения. Для достижения устойчивости при обучении сети эти параметры должны иметь примерно равные значения. Для исследуемой системы они имеют порядок 100 миллисекунд при тт t равном продолжительности одного класса. Активность нейронов выходного слоя и сети в целом определена соотношением констант тс, Ас, тг. По результатам оптимизации эти константы получили достаточно большие значения: тс = 205, Ас = 39 и тг = 12. Высокая активность синапсов не переходит в гиперактивность сети благодаря продолжительному периоду невосприимчивости отдельного синапса (тг). Стоит отметить, что найденные значения констант обеспечивают высокую скорость обучения нейронной сети. Уже после второй эпохи активность сети во входном и скрытом слоях приобретает устойчивый характер для каждого из классов и практически не меняется при дальнейшем обучении. Процесс стабилизации активности в этих слоях не зависит от коэффициента скорости обучения синапса п, поскольку влияние параметра натренированности q на вероятность провести спайк значительно меньше влияния параметра с. Из этого можно сделать вывод, что при данных параметрах процесс обучения сети сосредоточен в выходном слое и незначителен в других слоях. Благодаря тому, что выходной слой имеет существенно меньший размер по сравнению с другими слоями, обеспечена высокая скорость обучения и устойчивость работы нейронной сети.

Заключение

Предложенный в работе [4] метод обучения с подкреплением для спайковых нейронных сетей на основе модели гедонистического синапса показал свою работоспособность. Проведено исследование по определению параметров синапса, обеспечивающих высокие значения скорости, качества и устойчивости обучения таких сетей. Гедонистический синапс может применяться в системах распознавания образов, в том числе, для классификации многомерных временных рядов. Определение оптимальной структуры сети с гедонистическими синапсами и возможность их практического применения могут быть направлениями дальнейших исследований.

Список литературы

1. LukosEvicIus M., Jaeger H. Reservoir computing approaches to recurrent neural network training // Computer Science Review. 2009. Vol. 3. №. 3. Pp. 127-149.

DOI: 10.1016/j.cosrev.2009.03.005

2. Maass W. Networks of spiking neurons: The third generation of neural network models // Neural Networks. 1997. Vol. 10. №. 9. Pp. 1659-1671. DOI: 10.1016/S0893 -6080(97)00011 -7

3. Paugam-Moisy H., Bohte. S.M. Computing with Spiking Neuron Networks // Handbook of Natural Computing. Springer. 2009. pp 335-376. DOI: 10.1007/978-3-540-92910-9 10

4. Seung H. S. Learning in Spiking Neural Networks by Reinforcement of Stochastic Synaptic Transmission // Neuron. 2003. Vol. 40. №. 6. Pp. 1063-1073.

DOI: 10.1016/S0896-6273(03)00761 -X

5. Skinner, B.F. "The Behavior of Organisms: An Experimental Analysis". New York: Appleton-Century-Crofts. 1938

6. Peters J., Bagnell J.A. Policy Gradient Methods // Encyclopedia of Machine Learning. Springer US. 2011. Pp. 774-776

7. Bradley A.P. The Use of the Area Under the ROC Curve in the Evaluation of Machine Learning Algorithms // Pattern Recognition. 1997. Vol. 30. № 7. Pp. 1145-1159.

DOI: 10.1007/978-0-387-30164-8 640

8. Kappel D., Nessler B., Maass W. STDP Installs in Winner-Take-All Circuits an Online Approximation to Hidden Markov Model Learning // PLoS Comput. Biol. 2014. Vol. 10. № 3. DOI: 10.1371/journal.pcbi.1003511

9. Library of Dynamic Neural Networks // https://github.com : веб-сайт. Режим доступа: https://github.com/alexeyche/dnn (дата обращения 01.05.2016).

10. Brochu E., Cora V.M., De Freitas N. A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning. CoRR abs. 2010

Science ¿Education

of the Baumail MSTU

Science and Education of the Bauman MSTU, 2016, no. 06, pp. 174-183.

DOI: 10.7463/0616.0842238

Received: 09.05.2016

Revised: 23.05.2016

© Bauman Moscow State Technical Unversity

Studying a Reinforcement Learning Technique for the Spiking Neural Network

A.V. Kozov1, A.S. Chernyshev1'*

alexev-chemusheviS gmail.com :Bauman Moscow State Technical University, Moscow, Russia

Keywords: spiking neural network, reinforcement learning, evaluation of classification

The article describes a reinforcement learning technique for the spiking neural network. Spiking artificial neural networks, also called neural networks of the third-generation are a special class of the artificial neural networks, in which the signal is a set of impulses (spikes) of the same amplitude and duration. There is a need to use special techniques to learn these networks. Development and research of such techniques is a relevant task now. The article discusses a reinforcement learning technique for the neural network using a particular type of connections between neurons, called a hedonistic synapse. The hedonistic synapse partly reflects the properties of its real biological counterpart. It alters its activity depending on the intrinsic activity in previous times and on the reinforcement in the system. The study was conducted to define an impact of such synapse parameters on the learning efficiency of the spiking neural network. The article shows a mathematical model of the hedonic synapse and gives a description of its parameters and variables. It describes the role of these variables and parameters in reinforcement learning the neural network. To assess the learning quality are used such criteria as an error index and AUC. The article describes their application to have a generalized assessment of learning.

It also describes a generation technique and gives examples of test data used in the study. A technique to calculate the reinforcement for the network is described depending on the output signals. The impact of the variables and parameters of the hedonic synapse model on the learning quality for the neural network is analysed. The article reviews the features of the Bayesian optimization technique and describes its using to optimize quality of classification. It provides an in-depth analysis of the optimization results and comes to the conclusion, as a result of the study, that such a learning technique can be used to classify the multivariate time series. The article defines potential trends for further research in the field concerned that is an optimization of the neural network structure and its applications.

References

1. LukosEvicIus M., Jaeger H. Reservoir computing approaches to recurrent neural network training. Computer Science Review., 2009, vol. 3, no. 3, pp. 127-149.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

DOI: 10.1016/j.cosrev.2009.03.005

2. Maass W. Networks of spiking neurons: The third generation of neural network models // Neural Networks, 1997, vol. 10, no. 9, pp. 1659-1671. DOI: 10.1016/S0893-6080(97)00011-7

3. Paugam-Moisy H., Bohte. S.M. Computing with Spiking Neuron Networks. Handbook of Natural Computing. Springer. 2009. pp. 335-376. DOI: 10.1007/978-3-540-92910-9 10

4. Seung H.S. Learning in Spiking Neural Networks by Reinforcement of Stochastic Synaptic Transmission // Neuron, 2003, vol. 40, no. 6, pp. 1063-1073. DOI: 10.1016/S0896-6273(03)00761-X

5. Skinner, B.F. The Behavior of Organisms: An Experimental Analysis. New York: Appleton-Century-Crofts, 1938.

6. Peters J., Bagnell J.A. Policy Gradient Methods. Encyclopedia of Machine Learning. Springer US, 2011, pp. 774-776. DOI: 10.1007/978-0-387-30164-8 640

7. Bradley A.P. The Use of the Area Under the ROC Curve in the Evaluation of Machine Learning Algorithms. Pattern Recognition, 1997, vol. 30, no. 7. Pp. 1145-1159.

DOI: 10.1016/S0031 -3203(96)00142-2

8. Kappel D., Nessler B., Maass W. STDP Installs in Winner-Take-All Circuits an Online Approximation to Hidden Markov Model Learning. PLoS Comput. Biol., 2014, vol. 10, no. 3. DOI: 10.1371/journal.pcbi.1003511

9. Library of Dynamic Neural Networks. https://github.com : web-site. Available at: https://github.com/alexeyche/dnn (accessed 04.03.16).

10. Brochu E., Cora V.M., De Freitas N. A Tutorial on Bayesian Optimization of Expen-sive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforce-ment Learning. CoRR abs., 2010

i Надоели баннеры? Вы всегда можете отключить рекламу.