Vinogradova, Ludmila Nickolaevna - Senior Lecturer, Department of Computer Software, Institute of Information Technologies, Cherepovets State University.
Теl.: 8 (8202) 51-72-49; e-mail: [email protected]
Shumilova, Elena Sergeevna - Assistant, Department of Computer Software, Institute of Information Technologies, Cherepovets State University.
Теl.: 8 (8202) 51-72-49; e-mail: [email protected]
УДК 621.391.3
А.С. Львов, А.В. Полянский
ПОВЫШЕНИЕ БЫСТРОДЕЙСТВИЯ В ОБУЧЕНИИ НЕЙРОННОЙ СЕТИ МНОГОПАРАМЕТРИЧЕСКОМУ КОНТРОЛЮ ПРОЦЕССОВ В МЕТАЛЛУРГИИ НА БАЗЕ ВЫЧИСЛИТЕЛЕЙ НИЗКОЙ КОНФИГУРАЦИИ
A.S. Lvov, A. V. Polyanskiy
HIGH-SPEED PERFORMANCE RISE IN NEURAL NETWORK TRAINING FOR THE MULTIPARAMETER CONTROL OF METALLURGICAL PROCESSES USING CALCULATORS OF CONFINED CONFIGURATION
Рассматривается возможность применения теории искусственных нейронных сетей в задачах связанного многопараметрического контроля в металлургии, когда сеть обучается на ЭВМ, а функционирует на высоконадежном микроконтроллере семейства PIC18xx. Предлагается схема, позволяющая сократить число измерений для формирования обучающей выборки за счет многомерной интерполяции, производится выбор оптимального метода интерполяции. Анализируются факторы, влияющие на эффективность нейросетевой аппроксимации. На примере типовых неаналитических функций трех параметров определяется алгоритм обучения, обеспечивающий наилучшую сходимость, рассчитывается оптимальная конфигурация сети.
Многопараметрический контроль, вычислитель низкой конфигурации, погрешность многомерной интерполяции, искусственная нейронная сеть, нейросетевая аппроксимация, обратное распространение ошибки, производительность сети, алгоритм Левенберга - Марквардта.
The paper considers a possibility of applying the ANN theory for the tasks of the linked multi-parameter control in metallurgy. The neural net is trained by a computer and functions in a highly reliable microcontroller of the PIC18xx family. The scheme is suggested reducing the number of measurements to generate a learning sample due to multivariate interpolation application; an optimum method of interpolation is chosen. The factors influencing the efficiency of neural net approximation are analyzed. The training algorithm providing the best convergence is determined and optimum neural net configuration is computed for the case of typical non-analytical functions of three parameters.
Multi-parameter control, confined configuration calculator, error of the multi-dimensional interpolation, ANN, neural net approximation, error back propagation, neural net performance, Levenberg-Marquardt algorithm.
Типовой технологический процесс (ТП) в металлургии [1] является многопараметрическим. Так, например, при контроле и управлении (КиУ) составом агломерационной шихты (рис. 1, а) определяемыми параметрами могут быть толщина слоя, плотность и гранулярность шихты, ее долевой состав и т.д. В настоящее время в практике
КиУ подбирают одномерные датчики, чувствительные к своему параметру и инвариантные к влиянию остальных, либо усложняют ТП на участке контроля так, чтобы стабилизировать смежные параметры (например, контроль радиационными датчиками толщины засыпки шихты выполняется при постоянстве ее плотности, влажности - при
Приёмник №3
Обучение
б)
Рис. 1. Функциональная схема (а) и структура тракта (б) связанного многопараметрического контроля с использованием ИНС: - неаналитическая функция сигнала, прошедшего сквозь слой шихты; Б2, Б3 - функции сигналов, отражённых от поверхности шихты при разных углах; Х, Р, Р - соответственно, векторы значений сигналов с многомерных датчиков, нормированных значений многомерных функций и известных значений параметров ТП на этапе обучения; W - матрица синаптических весов; В - массив смещений (порогов)
постоянствах толщины и плотности и т. д.).
В [2] авторами показана возможность связанного многопараметрического контроля без усложнения ТП при любом реальном числе параметров д, когда вычислительная нагрузка разделена во времени между ЭВМ в составе системы автоматического ведения эксперимента (САВЭ) и высоконадежным вычислителем низкой конфигурации типа микроконтроллер (МК) Р1С18хх (рис. 1, б). При такой схеме задача определения параметров ТП решалась с использованием искусственной
нейронной сети (ИНС) типа многослойный пер-септрон, обучение которой производилось на ЭВМ, а функционирование - на МК. Описание неаналитических функций (оцифрованных значений сигналов с датчиков) с точностью 1 % требует проведения более миллиона установок, что неосуществимо на практике. В такой ситуации предлагали увеличить значение дискреты по каждому параметру на порядок, сократив время эксперимента пропорционально 10д, а для обучения ИНС предлагали применять значения функций,
полученные интерполяцией результатов измерений средствами математических пакетов. Тогда выбор оптимального по соотношению «погрешность - время вычисления» метода интерполяции становится одним из ключевых вопросов.
Система (язык технических вычислений) MathWorks МЛТЬЛБ позволяет выполнять многомерную интерполяцию с помощью таких методов, как интерполяция по ближайшему соседнему элементу (ступенчатая) [3], линейная интерполяция, кубическая интерполяция полиномами Эрми-та и кубическая сплайн-интерполяция. Результаты сравнения перечисленных методов сведены в табл. 1. Оценка производилась при определении
исходных функций трех параметров интерполяцией с уменьшением величины дискреты в 2 раза. Экспериментально доказано, что полученные значения (9261) позволяют обучить ИНС с заявлен-
ной точностью при сравнительно небольшом числе эпох. Среднее время вычисления рассчитано для каждой функции в ходе 10 000 операций, что обеспечивает достаточную статистическую чистоту.
При использовании более точных методов интерполяции для обработки результатов появляется возможность дополнительно сократить число установок. Так, если в случае линейной интерполяции необходимо 303 измерений, то для кубических методов - около 400.
Графически погрешность интерполяции многомерной функции можно оценить, выполняя интерполяцию при фиксированных значениях параметров (рис. 2). Сопос-Таблща 1 тавив графические и табличные данные, можно судить об оптимальности метода кубической интерполяции полиномами Эрмита, обеспечивающего даже в худшем случае погрешность порядка 1 %.
ИНС, состоящая из входного, сигмоидного скрытого и линейного выходного слоев и имеющая при двух последних слоях пороговые элементы (рис. 3), способна аппроксимировать любую многопараметрическую
10
Сравнение методов интерполяции
Метод интерполяции Среднее время вычисления, с Относительная погрешность, %
минимальная средняя максимальная
Ступенчатая 0,002 0 6,9 31,66
Линейная 0,005 0 0,63 4,25
Кубическая полиномами Эрмита 0,029 0 0,08 1,38
Кубическая сплайнами 0,157 0 0,03 0,48
0,2 0,25 0,3 0,36 0,4 0,45 0,5 0,56
к
Рис. 2. Сравнение методов интерполяции на примере функции прошедшего сигнала Б1; к - толщина слоя шихты на конвейере
Скрытый слой
Выходной слой
N1
2171'
Л Г
O1
LW
3721
B2
:с+
21
O1 = tansig(IW^F + B1)
371
N2
ЗТГ'
Nx = O2
371
У
O2 = purelin(LW«O1 + B2)
Рис. 3. Двухслойная ИНС обратного распространения: Е -г-й вектор нормированных значений многомерных функций в обучающей выборке; ^ - матрица синаптических весов нейронов скрытого слоя; В1 - вектор пороговых элементов для нейронов скрытого слоя; N1 - взвешенная сумма произведений весовых коэффициентов ^ на значения входов Е и смещений В1; О1 - выход нейронов скрытого слоя, результат применения активационной функции к N1; LW - матрица синаптических весов нейронов выходного слоя; В2 - вектор пороговых элементов для нейронов выходного слоя; N2 - взвешенная сумма произведений весовых коэффициентов LW на значения выхода нейронов скрытого слоя О1 и смещений В2; О2 - выход сети; tansig - активационная функция гиперболический тангенс; ритвЫп - линейная активационная функция
функцию с конечным числом точек разрыва [3, 4]. На эффективность применения двухслойного пер-септрона в задачах аппроксимации (скорость обучения и точность результата) может влиять число нейронов в скрытом слое, выбор алгоритма обучения в стратегии back propagation, использование конкретной активационной (передаточной) функции.
Сеть с малым числом нейронов в скрытом слое может быть неспособной к обобщению, а с чрезмерно большим - будет реагировать на малейшие шумы в данных и переобучаться. О производительности сети можно судить по динамике значения средней квадратичной ошибки, которая рассчитывается по окончании конкретной эпохи обучения согласно формуле
1 N 2 mse=—у (e )2, Nft 1
где N - число ошибок сети по всем нейронам выходного слоя за эпоху. Так, при аппроксимации неаналитических функций, определенных при 21-м значении каждого из трех параметров, оптимальной будет сеть, имеющая 21 нейрон в скрытом слое (рис. 4).
Скорость изменения ошибки сети (величина градиента) также зависит от выбранной акти-вационной функции нейронов скрытого слоя (рис. 5). Так, на начальных этапах обучения (рис. 5, а) сигмоид-гиперболический тангенс (1ап-обеспечивает меньшую производительность сети, чем логистический сигмоид (1о§81§), тогда как в дальнейшем (см. рис. 5, б) применение гиперболического тангенса позволяет алгоритму обучения быстрее находить глобальный минимум.
В задачах аппроксимации функций, когда для нейронов скрытого слоя используется менее сотни
0,015
0,0145
0,014
0,0136
0,013
0,0125
0,012
0,0115 0,011 0,0105 0,01
-21 нейрон
.........11 нейронов
---31 нейрон
3
а)
б)
0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
- Тэп31д
- 1од31д
0,012
а 0,0118
ю я 0,0116
а о 0,0114
0,0112
V 1 & 0,011
0,0108
ш и 0,0106
(в ч 0,0104
& О 0,0102
0,01
7
- Тэп21д
- ЬодБ|д
100 200 300 400 500 600 700 8 00 900 1000
Эпоха
Эпоха
Рис. 5. Влияние активационной функции на скорость обучения ИНС: а - в начале обучения; б - при большом
числе эпох
синаптических весов, а приближение должно быть достаточно точным, алгоритм Левенберга - Мар-квардта (tттШ) оказывается наиболее быстрым и обеспечивает наилучшую сходимость [3]. В случаях больших сетей соизмеримая скорость обучения характерна для алгоритма на основе масштабированного сопряженного градиента (trainscg), обладающего, в отличие от trainlm, достаточно скромными требованиями к оперативной памяти вычислителя. Схожую с trainlm производительность показывает и квазиньютоновский алгоритм БЕОБ (trainbfg), который наравне с trainscg является менее ресурсоемким, но при этом приводит к увеличению вычислений в геометрической прогрессии с ростом размера сети.
Экспериментально сходимость алгоритма обучения можно оценить, проанализировав значение средней квадратичной ошибки после заданного числа эпох и время, потребовавшееся алгоритму для достижения такой производительности. Пока-
а)
0,5
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
-&гип1т -Ъадпзсд '"йгипЬ^
затели для перечисленных алгоритмов, рассчитанные после 1000 эпох применительно к решаемой задаче, представлены в табл. 2. Проследив динамику изменения величины MSE (рис. 6), можно сделать вывод о наивысшей скорости сходимости алгоритма trainlm на протяжении всего периода обучения. Следует отметить, что ошибка алгоритма trainscg, которому на 1000 эпох потребовалось в 3,5 раза меньше времени, чем trainlm, к окончании процесса обучения практически перестала уменьшаться. Таким образом, заданное качество обучения методами trainscg и trainbfg фактически будет достигнуто после гораздо большего числа эпох.
Оптимальной в задачах аппроксимации неаналитических функций трех параметров оказывается нейронная сеть, использующая для настройки весовых и пороговых коэффициентов алгоритм Ле-венберга - Марквардта с активационной функцией гиперболический тангенс. Настроенные подобным
б)
0
10
20
0,015
0,0145
я 0,014
Ю К
Ы 0,0135
0,013
н
& ^ 0,0125
м и
й 0,012
ч и
О 0,0115 0,011
ч Ч--
-й"ат1т
-----йгипвсд
---й-атЬГд
100 200 300 400 500 600 700
Эпоха
900 1000 Эпоха
Рис. 6. Влияние алгоритма обучения на скорость изменения ошибки сети: а - в начале обучения; б - при большом числе эпох
2
3
4
5
6
5
образом веса и значения смещений могут быть нормированы к двухбайтному представлению, после чего записаны во РЬЛБН-память МК и применены при функционировании ИНС для контроля параметров ТП. В случае 21-го нейрона в скрытом слое для записи коэффициентов в память потребуется всего 300 байт.
СПИСОК ЛИТЕРАТУРЫ
1. Липухин, Ю.В. Автоматизация металлургических агрегатов / Ю.В. Липухин, Ю.И. Булатов, К. Адельман, М. Кнорр. - М.: Металлургия, 1992. - 303 с.
2. Львов, А.С. Алгоритмы многопараметрического контроля металлургических процессов вычислителями низких конфигураций / А.С. Львов, А.В. Полянский // Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и СИИ: материалы 5-й науч.-техн. конф. - Вологда. - 2009 - С. 159-163.
3. MATLAB Online Documentation [Электронный ресурс]. - URL: http://www.mathworks.com/access/helpdesk/ help/ techdoc/ matlab.html.
4. Головко, В.А. Нейронные сети: обучение, организация и применение / В.А. Головко. - М.: ИПРЖ, 2001. -256 с.
Таблица 2
Сравнение алгоритмов обучения в стратегии back propagation
Алгоритм MSE1000 Время вычисления, с
Левенберг - Марквардт 0,01079 1500
Сопряженный градиент 0,0126 430
Квазиньютоновский BFGS 0,0131 420
Львов Антон Сергеевич - аспирант кафедры автоматизации и систем управления Института информационных технологий Череповецкого государственного университета.
Тел.: 8 (8202) 51-77-71; 8 (8202) 57-88-01; e-mail: [email protected], [email protected]
Полянский Анатолий Васильевич - кандидат технических наук, доцент кафедры автоматизации и систем управления Института информационных технологий Череповецкого государственного университета. Тел.: 8 (8202) 51-77-71; 8 (8172) 71-86-41; e-mail: [email protected], [email protected]
Lvov, Anton Sergeevich - Postgraduate student, Department of Automation and Control Systems, Institute of Information Technologies, Cherepovets State University.
Тек: 8 (8202) 51-77-71; 8 (8202) 57-88-01; e-mail: [email protected], [email protected]
Polyanskiy, Anatoly Vasilievich - Candidate of Science (Technology), Associate Professor, Department of Automation and Control Systems, Institute of Information Technologies, Cherepovets State University.
Те!.: 8 (8202) 51-77-71; 8 (8172) 71-86-41; e-mail: [email protected], [email protected]