Огляди
УДК 621.3.011.74
ШТУЧНІ НЕЙРОННІ МЕРЕЖІ В ЗАДАЧАХ РЕАЛІЗАЦІЇ МАТЕРІАЛЬНИХ ОБ’ЄКТІВ ЧАСТИНА 2. ОСОБЛИВОСТІ ПРОЕКТУВАННЯ ТА ЗАСТОСУВАННЯ1
Адаменко В.О., аспірант; Мірських Г.О., к.т.н., доцент
Національний технічний університет України «Київський політехнічний інститут», м. Київ, Україна
Вступ
Застосування нейронних мереж в задачах синтезу матеріальних об’єктів не відноситься до класичних задач, які традиційно вирішуються за їх допомогою, і відповідно, це призводить до виникнення низки проблем, пов’язаних з вибором архітектури нейронної мережі, підготовкою вхідних та вихідних даних, визначення оптимальних алгоритмів навчання. Вирішення цих питань ускладнене відсутністю стандартів в даній області та значною кількістю несистематизованих знань з використання нейронних мереж в різних галузях науки та господарства2. Тому перед постановкою задачі реалізації матеріальних об’єктів доцільно ознайомитися з класичним застосуванням нейронних мереж та методами їх навчання, що дозволить в подальшому уникнути проблем, пов’язаних з особливостями їх навчання та функціонування.
Основні парадигми та правила навчання
Однією з особливостей нейронних мереж є їх здатність до навчання. В широкому розумінні процес навчання - це адаптація параметрів та архітектури мережі для рішення поставленої задачі шляхом оптимізації вибраного критерію якості [1]. Найчастіше до параметрів, які адаптуються відносяться вагові коефіцієнти нейронів, рідше - архітектура мережі та параметри функції активації. Всі алгоритми навчання можна розділити на два великі класи: детерміновані та стохастичні. Для алгоритмів першого класу характерним є наявність жорстких правил дій при адаптації параметрів, а для другого притаманні дії, які підкоряються деякому випадковому процесу [2].
На сьогодні відомо три парадигми навчання нейронних мереж, в основу яких покладено особливості машинного навчання: навчання з вчителем (supervised learning), навчання без вчителя (unsupervised) (або навчання на основі самоорганізації (self-organized)) та навчання з підкріпленням
1 Частина перша див. "Вісник НТУУ "КПІ". Серія - Радіотехніка. Радіоапаратобудування" вип.47.
2 Більш докладно можна прочитати в першій частині статті.
Вісник Національного технічного університету України "КПІ" 213 Серія — Радіотехніка. Радіоапаратобудування. - 2012. - №48
Інформація про сучасні розробки
(reinforcement leaming) [1], на рис. 1 зображене їх схематичне представлення.
Навчання з вчителем — передбачає, що для кожного вхідного вектора (x) існує вектор вихідних значень (d). Разом ці два вектора називають навчальною парою (xj , d), а множину навчальних пар — навчальною вибіркою (рис. 1а). Процес навчання зводиться до почергового подавання на вхід нейронної мережі навчальних пар, вираховування похибки між дійсним і бажаним значенням нейронної мережі 5=y-d та корегування параметрів мережі в бік зменшення цієї похибки.
Вчитель
*
ШНМ y V
( „e=d-y
Алгоритм
навчання
ШНМ
y
Алгоритм
само-
навчання
Зовнішнє
середовище
ШНМ
Вплив на зовнішнє середовище
Критик
а)
б)
в)
X
X
X
Рис. 1. Схематичне представлення парадигм навчання, де x - вектор
стану середовища;
у - фактичний вихід мережі; d - очікуваний вихід; e - сигнал помилки
Особливістю навчання без вчителя (самонавчання) є відсутність інформації про правильну реакцію мережі на вхідні сигнали (рис. 1б), а сама мережа знаходить взаємозв’язки між елементами навчальної вибірки. Навчання без вчителя застосовується в задачах класифікації, кластеризації, факторного аналізу, стиснення даних тощо.
Навчання з підкріпленням є проміжним варіантом двох попередніх парадигм [3]. Замість «вчителя» в схему навчання вводиться блок «критика» (рис. 1в), який відслідковує реакцію середовища на вхідний сигнал і опираючись на неї визначає евристичну похибку, яку покладено в процес навчання мережі.
Вказані парадигми базуються на відповідних правилах навчання, які визначають основні особливості їх застосування. Відомо п’ять правил: навчання на основі корекції помилок (error-correction learning), навчання на основі пам’яті (memory-based learning), навчання Гебба (Hebb’s learning), конкурентне навчання (competitive learning) та навчання Больцмана (Boltzmann learning) [4]. Парадигми та правила навчання тісно пов’язані один з одним (рис. 2), що зумовлюється їх відносною універсальністю. Окрім зв’язку з парадигмами, правила навчання взаємозв’язані між собою.
Навчання на основі корекції помилок — є типовим навчанням з вчителем. На основі цього правила розроблено багато різних алгоритмів навчання. Так для навчання одношарових мереж часто застосовують дельтаправило [5] (випливає з правил Г ебба [6]), згідно якого вагові коефіцієнти
214
Вісник Національного технічного університету України "КПІ" Серія — Радіотехніка. Радіоапаратобудування. - 2012. - №48
Огляди
кожного синапсу корегуються на величину добутку значення входу для конкретного синапсу та значення похибки його виходу, що в результаті призводить до її зменшення.
Дельта-правило не застосовується для багатошарових мереж, адже вихідні значення нейронів відомі лише для останнього шару, тому похибку в явному вигляді для решти шарів визначити неможливо. Відомо декілька методів вирішення цієї проблеми. Перший полягає в розрахунку вихідних сигналів для кожного шару, але при складних конфігураціях даний метод трудомісткий і не завжди може бути реалізований. Другий метод полягає в динамічному підборі вагових коефіцієнтів синапсів, з відслідковуванням зміни похибки. Реалізується за допомогою зміни слабких зв’язків в той чи інший бік, причому зберігаються тільки ті зміни, які призвели до зменшення похибки, цей метод потребує значних розрахункових потужностей. Оптимальним є третій метод — розповсюдження значення похибки від виходу мережі до її входу, який отримав назву алгоритму зворотного поширення помилки (error back-propagation algorithm) [7, 8]. Цей алгоритм застосовується для навчання більшості багатошарових нейронних мереж прямого поширення, іноді для рекурентних нейронних мереж. Створено багато різновидів даного алгоритму, які спрямовані на пришвидшення навчання мережі та уникнення локальних мінімумів.
Рис. 2. Взаємозв’язок парадигм та правил навчання
Правила на основі пам ’яті та навчання Гебба відносяться до навчання без вчителя. Вони базуються на нейрофізіологічному постулаті, який визначає взаємозв’язок між нейронами та синаптичними зв’язками, а саме: якщо нейрони з двох сторін синапсу знаходяться в збудженому стані, то сила зв’язку між ними зростає, і навпаки, якщо в різних станах або не збуджені, то ослаблюється [9].
В основу конкурентного навчання покладено правило «переможець отримує все», тобто збуджується вихід лише одного нейрону, вихідний сигнал якого найбільший [10]. Цей принцип використовується в мережах адаптивного резонансу (ART) та самоорганізаційних картах (SOM).
Навчання за Больцманом є стохастичним правилом, в основі якого лежать принципи теоретичної термодинаміки (відпал металу). Наявність ра-ндомізації вагових коефіцієнтів під час їх корегування запобігає потрап-
Вісник Національного технічного університету України "КПІ" 215
Серія — Радіотехніка. Радіоапаратобудування. - 2012. - №48
Інформація про сучасні розробки
лянню мережі в локальні мінімуми, але при цьому, звичайно, зростає час навчання.
На основі правил навчання розроблюються алгоритми їх практичної реалізації. Кількість алгоритмів навчання постійно зростає, та все частіше вони поєднують в собі не лише декілька правил, а й декілька парадигм, що викликано зростанням складності завдань, які вирішуються за допомогою нейронних мереж.
Вибір тієї чи іншої парадигми, правила та алгоритму навчання (або їх поєднання) залежить від архітектури мережі, її основних задач, бажання, досвіду та інтуїції розробника, і має вплив на швидкість навчання та здатність досягнення результату з заданою достовірністю.
Основні задачі застосування нейронних мереж
Широке застосування нейронних мереж в різних галузях науки та техніки зумовлене трьома характерними задачами, які вирішуються за їх допомогою: класифікація, асоціація та апроксимація.
Розпізнавання образів та класифікація
Історично першим застосуванням нейронної мережі було розпізнавання образів [11]. Мережа вчилася розпізнавати друковані літери англійської абетки, для цього на її вхід, який являє собою прямокутну матрицю синап-сів, подаються розбиті на елементарні пікселі зображення літер, а кожен вихід мережі відповідає за конкретну літеру, після кількох етапів навчання мережа починала «впізнавати» представлене на вході зображення. Подібним чином можна навчити найпростішу одношарову мережу, але вона починає помилятися в більшості випадків як тільки зображення тестової літери відрізняється від зображення навчальної, тобто така мережа здатна розпізнати виключно ті зображення, які подавалися на вхід під час навчання.
Подальшим розвитком стало застосування нейронних мереж в задачах класифікації образів, коли їй необхідно за рахунок накопичення класифікаційних ознака віднести до заданого класу зображення, яке не було подане на вхід під час навчання. В більшості випадків для вирішення цієї задачі нейронна мережа повинна складатися з двох частин. Перша — реалізує задачу селекції та виокремлення ознак і вчиться без вчителя, а друга — навчається за допомогою вчителя і несе інформацію про належність образу до певного класу [1].
Такі нейронні мережі застосовують для розпізнавання мови, друкованого та рукописного тексту, для обробки зображень, в медицині для обробки кардіограм та томограм, в інших галузях, де необхідно оброблювати значну кількість фотографій або різноманітних діаграм та графіків.
Асоціація та кластеризація
Асоціативна пам’ять в нейронних мережах реалізується в двох формах: автоасоціація та гетероасоціація. В першому випадку мережа навчається на
216
Вісник Національного технічного університету України "КПІ" Серія — Радіотехніка. Радіоапаратобудування. - 2012. - №48
Огляди
основі вхідних образів, які можуть бути зашумлені. Відбувається виокремлення та запам’ятовування основних ознак, на основі яких і відбувається в подальшому відновлення (згадування) образу. Г етероасоціація відрізняється від автоасоціації лише наявністю вчителя, тобто кожному поданому за-шумленому образу відповідає певний заданий вихідний образ [12]. Задача кластеризації тісно пов’язана з асоціацією. Алгоритм кластеризації оснований на розміщенні близьких образів в одному кластері. Застосовується для видобування знань та стиснення даних.
Апроксимація функції
Вирішення попередніх задач можливе за рахунок здатності нейронної мережі визначати функціональні залежності між величинами виключно на основі вхідних та відповідних вихідних значень, тому вона вважається універсальним апроксимуючим апаратом. Винесення апроксимації функції в окрему задачу зумовлено широким застосуванням нейронних мереж для апроксимації явно та не явно виражених функціональних залежностей в широкому колі прикладних задач, таких як: прогнозування, фільтрація, згладжування, оптимізація, управління об’єктами в умовах структурної та параметричної невизначеності, проектування матеріальних об’єктів тощо.
Практичне застосування нейронних мереж, особливо в задачах проектування (в т.ч. синтезу) матеріальних об’єктів, пов’язане з вирішенням проблем викликаних особливостями, характерними саме для цієї області, тому і підходи до їх розв’язання мають відрізнятися від класичних.
Особливості використання нейронних мереж
Для апроксимації функції традиційно застосовують багатошарову ней-ронну мережу з нелінійною функцією активації, яка навчається за допомогою алгоритму зворотного поширення. Доведено, що вже двохшарової нейронної мережі достатньо для апроксимації будь-якої неперервної функції [13], хоча оптимальним є використання трьох шарів [4]. Існує дві основні проблеми при застосуванні такої архітектури та методу навчання, які можуть завадити досягненню потрібного результату апроксимації: параліч мережі та потрапляння алгоритму навчання до локального мінімуму.
Параліч мережі викликає значне зростання вагових коефіцієнтів сина-птичних зв’язків в результаті чого зростають вихідні значення нейрону (які відповідають ділянкам з низькою крутизною функції активації). Це в свою чергу призводить до зменшення значення похідної функції активації і, відповідно, зменшується величина похибки при зворотному ході, навчання сповільнюється майже до повної зупинки.
Потрапляння мережі під час навчання до локального мінімуму зумовлене особливостями розрахункового процесу (що часто проявляється під час використання, наприклад, методу градієнтного спуску). В точці локального мінімуму рух у всіх напрямах буде призводити до зростання похибки навчання і мережа не здатна самостійно з нього вийти.
Вісник Національного технічного університету України "КПІ" 217 Серія — Радіотехніка. Радіоапаратобудування. - 2012. - №48
Інформація про сучасні розробки
Також значною проблемою використання нейронних мереж, як апрок-симуючих систем, є виникнення так званого «прокляття розмірності», тобто експоненціального зростання необхідної кількості вхідних даних через зростання розмірності простору (в нейронних мережах розмірність простору напряму залежить від кількості шарів та нейронів в них). Тобто для забезпечення необхідної гнучкості мережі, для апроксимації складної функції необхідно збільшувати кількість нейронів, а це в свою чергу вимагає збільшення кількості вхідних даних для вдалого навчання мережі.
Застосування нейронних мереж для апроксимації функції потребує розв’язання певних завдань ще на підготовчих етапах:
- вибір конфігурації мережі: від кількості шарів та нейронів в них залежить гнучкість системи, а відповідно здатність до апроксимації складних функцій з заданою точністю, проте значне збільшення кількості нейронів призводить до перенавчання мережі та виникнення «прокляття розмірності»;
- вибір алгоритму навчання: при невдалому виборі методу та алгоритму навчання час необхідний на апроксимацію з заданою точністю може значно зрости, крім того може виникнути параліч мережі або навчання зупиниться через потрапляння до локального мінімуму [5];
- формування навчальної вибірки: навчальна вибірка повинна містити достатню кількість даних про всі екстремуми функції, при цьому вхідні дані повинні бути нормалізовані та рівномірно розподілені в просторі. Недотримання цієї вимоги призводить до некоректного навчання мережі, коли значення похибки буде різне для різних ділянок характеристики [14].
На сьогодні не існує універсальних методів розв’язання поставлених проблем, особливо при застосуванні мережі в задачах проектування, які вимагають апроксимації функції багатьох змінних, тому в них часто виникають протиріччя, пов’язані з отриманням достатньо гнучкої системи в умовах обмеженої кількості розрахункових або експериментальних вхідних даних.
Так, для забезпечення необхідної гнучкості мережі можна збільшити кількість шарів та нейронів в них, прикладом вдалого застосування можуть бути роботи [15] та [16], проте в таких мережах значно зростає можливість виникнення паралічу мережі, тому це рішення не можна вважати універсальним. Також нейронну мережу можна використовувати в якості математичної моделі в алгоритмах синтезу матеріальних об’єктів [17]. В [18, 19] запропоновано використання каскадних нейронних мережі (в яких кількість нейронів прихованого шару при необхідності збільшується в процесі навчання) для апроксимації функції, що дозволяє побудувати оптимальну з точки зору кількості нейронів, архітектуру мережі та уникнути проблеми перенавчання.
218
Вісник Національного технічного університету України "КПІ" Серія — Радіотехніка. Радіоапаратобудування. - 2012. - №48
Огляди
Заслуговує особливої уваги використання ансамблю [1]. нейронних мереж — поєднання функціонально незалежних нейронних мереж в комплекси, що дозволяє створювати гнучкі системи спрямовані на вирішення конкретних завдань та уникнення проблем з навчанням чи експлуатацією. Ізоляція елементів ансамблю один від одного дозволяє створювати системи, які не чутливі до негативного впливу слабкозв’язаних параметрів один на одного, а в поєднанні з можливістю розподілення вхідних та вихідних значень сприяє створенню нейронних мереж з простішою архі-застосування ансамблю нейронних мереж, в якому обробка даних відбувається одночасно в декількох мережах, які можуть відрізнятися як за архітектурою, так і за методом навчання. Об’єднуючий шар виконує функцію вибору виходу в залежності від того, яка мережа для поточних вхідних даних забезпечує меншу похибку.
Застосування ансамблю в задачах проектування дозволяє вирішити проблеми пов’язані з широким динамічним діапазоном вхідних та вихідних значень та конструювати нескладні за архітектурою мережі, які швидше вчаться та краще піддаються додатковому навчанню на етапі експлуатації.
Висновки
Нейронні мережі, завдяки своїй гнучкості та універсальності, є ефективним інструментом розв’язання широкого кола прикладних задач. Проте їх використання зазвичай пов’язане з вирішенням питань, специфічних для конкретного практичного застосування.
Алгоритми та правила навчання нейронних мереж, як правило, носять ситуаційний характер — розробляються для розв’язання певних (або групи споріднених) задач, тому важливим є розуміння принципів та особливостей їх роботи, що дозволить професійно підходити до питання вибору готових або створення нових алгоритмів навчання.
Використання нейронних мереж в задачах проектування матеріальних об’єктів є окремим спрямуванням їх теоретичного дослідження та практичного застосування через значну відмінність від класичних завдань, які вирішувалися протягом розвитку цього інструментарію.
Для цілей проектування матеріальних об’єктів перспективними є ансамблі нейронних мереж, розвиток яких дозволить побудувати математичні
Рис.3. Ансамбль нейронних мереж тектурою. На рис. 3 зображено один з варіантів
Вісник Національного технічного університету України "КПІ" 219
Серія — Радіотехніка. Радіоапаратобудування. - 2012. - №48
Інформація про сучасні розробки
моделі об’єктів, що характеризуються широким діапазоном зміни величини параметрів та вихідних характеристик, при суттєвій залежності більшості цих характеристик від одного з параметрів (наприклад, залежність характеристик мікрохвильового пристрою від геометричних параметрів структури та частоти).
Література
1. Бодянский Е.В.Искусственные нейронные сети: архитектуры, обучение,
применения / Е.В. Бодянский, О.Г. Руденко — Харьков: ТЕЛЕТЕХ, 2004. — 369с.
2. Комашинский В.И. Нейронные сети и их применение в системах управления и связи / В.И. Комашинский, Д.А. Смирнов - М.: Горячая Линия - Телеком, 2003. - 98с. -ISBN 5-93517-094-9.
3. Golden R.M. Mathematical Methods for Neural Network Analysis and Design. -Cambridge, Massachusetts: The MIT Press, 1996. - 420 p.
4. Хайкин С. Нейронные сети. Полный курс / С. Хайкин — М.: Вильямс, 2006 — 1104 с. — ISBN5-8459-0890-6.
5. Уоссермен Ф. Нейрокомпьютерная техника: теория и практика / Уоссермен Ф.; пер. с англ. Ю.А. Зуев, В.А. Точенов. — М.:Мир, 1999. — 184 с. — ISBN 5060040941.
6. Hebb D.O. — The Organization of Behavior. John Wiley & Sons, New York, 1949.
7. Rumelhart D.E. Learning Internal Representations by Error Propagation In: Parallel Distributed Processing / D.E. Rumelhart, G.E. Hinton, R.J. Williams // Cambridge, MA, MIT Press, 1986. — vol. 1 — P. 318—362.
8. Барцев С. И. Адаптивные сети обработки информации / С. И. Барцев, В. А. Охонин. — Красноярск: Ин-т физики СО АН СССР, 1986. — 20 с. — (Препринт/ Красноярск: Ин-т физики СО АН СССР; N 59Б. ).
9. Brown Т.Н. НеЬіап synapses: Biophysical mechanisms and algorithms /Т.Н. Brown,
E.W. Kairiss, C.L. Кєєшп // Аппші Review of Neuroscience, 1990.— vоl.13 — P.475— 511.
10. Rumelhart О.Е. Feature discovery Ьу competitive learning / О.Е. Rumelhart, О. Zipser // Cognitive Science, 1985. — vоl. 9 — P. 75—112.
11. Rosenblatt F. The Perceptron: a probabilistic model for information storage and organization in the brain/ F. Rosenblatt // Cornell Aeronautical Laboratory, Psychological Review — 1958 — vol.65, No. 6 — P. 386—408.
12. Круглов В.В. Искусственные нейронные сети. Теория и практика /
В.В. Круглов, В.В. Борисов. — М.: Горячая линия — Телком, 2002. — 382с. — ISBN 593517-031-0.
13. Горбань А.Н. Обобщенная аппроксимационная теорема / А.Н. Горбань // Сибирский журнал вычислительной математики, 1998. — Т.1 — № 1. — С.12-24.
14. Крисилов В.А. Преобразование входных данных нейросети с целью улучшения их различимости / В.А. Крисилов , А.В. Кондратюк. - Одес. нац. политех. университет, 2004. - Режим доступу до публікації: http://neuroschool.narod.ru/pub/krikon.pdf — Назва з екрана.
15. Naser-Moghaddas M. A heuristic artificial neural network for analyzing and synthesizing rectangular mcrostrip antenna / M. Naser-Moghaddasi, P. D. Barjoe / International Journal of Computer Science and Network Security, 2007 — VOL.7 — № 12 — P. 278-281.
16. Pratap Reddy. ANN models for microstrip line synthesis and analysis / Dr.K.Sri Rama Krishna, J. Lakshmi Narayana, Dr.L. Pratap Reddy // World academy of science, engineering and technolog, 2008. — № 46 —P. 867—871.
220
Вісник Національного технічного університету України "КПІ" Серія — Радіотехніка. Радіоапаратобудування. - 2012. - №48
Огляди
17. Василенко ДО. Конструктивний синтез планарних антен природними алгоритмами оптимізації: автореф. дис. на здобуття наук. ступеня канд. техн. наук / Василенко Дмитро Олексійовчи. — Київ, 2010. — 23 с.
18. Ковалевский С.В. Аппроксимация функций с помощью каскадных нейроподобных сетей / С.В. Ковалевский, В.Б. Гитис // Штучний інтелект, 2008 — № 4 — С. 589 — 593.
19. Аведьян Э.Д. Каскадные нейронные сети / Э.Д. Аведьян, Г.В. Баркан, И.К. Левин // Автоматика и телемеханика, 1999. — №3 — С.38—54.
Адаменко В.О., Мірських Г.О. Штучні нейронні мережі в задачах реалізації матеріальних об’єктів. Частина 2. Особливості проектування та застосування. В
роботі розглянуто в оглядовому плані парадигми та правила навчання нейронних мереж та проаналізовано взаємозв ’язки між ними. Проведено аналіз основних задачі, які вирішують за допомогою нейронних мереж. Визначено основні проблеми застосування нейронних мереж в задачах реалізації матеріальних об ’єктів та вказано на необхідність подальшого їх теоретичного дослідження. Обґрунтовано доцільність використання ансамблів нейронних мереж з подальшою їх трансформацією під конкретні прикладні задачі проектування.
Ключові слова: штучні нейронні мережі, парадигми та правила навчання, апроксимація функції, ансамблі нейронних мереж.
Адаменко В.А., Мирских Г.А. Искусственные нейронные сети в задачах реализации материальных объектов. Часть 2. Особенности проектирования и применения. В работе рассмотрены в обзорном плане парадигмы и правила обучения нейронных сетей и проанализированы взаимосвязи между ними. Проведен анализ основных задач, которые решаются с помощью нейронных сетей. Определены основные проблемы применения нейронных сетей в задачах реализации материальных объектов и указана необходимость дальнейшего их теоретического исследования. Обоснована целесообразность использования ансамблей нейронных сетей с последующей их трансформацией под конкретные прикладные задачи проектирования.
Ключевые слова: нейронные сети, парадигмы и правила обучения, аппроксимация функции, ансамбли нейронных сетей.
Adamenko V., Mirskykh G. Artificial neural networks in problems of material objects implementation. Part 2. Design and application specifics. In this work paradigms and rules of neural networks learning are considered in a generalized form and the relationship between them are analyzed. The major tasks which can be solved by means of neural networks are analyzed. The main problem of using neural networks in problems of material objects implementation are defined in need of further theoretical research. The expediency of usage neural networks ensembles are substantiated with the followed by their transformation under specific applied design problems.
Keywords: artificial neural network, paradigms and rules of learning, approximation functions, neural networks ensembles.
Вісник Національного технічного університету України "КПІ" 221
Серія — Радіотехніка. Радіоапаратобудування. - 2012. - №48