ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА, ОБРАБОТКА И ЗАЩИТА ИНФОРМАЦИИ
УДК 517.9
АЛГОРИТМ АВТОМАТИЗИРОВАННОГО ФОРМИРОВАНИЯ АНСАМБЛЕЙ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РЕШЕНИЯ СЛОЖНЫХ
ЗАДАЧ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
Е.Д. Лосева, А.Н. Антамошкин
Рассматривается интеллектуальный анализ данных с применением разработанного алгоритма формирования ансамблей искусственных нейронных сетей. Алгоритм основан на применении самоорганизующегося многокритериального генетического программирования - "Self-adjusting" Genetic Programming и реализован в два этапа: на первом этапе формируются и отбираются наиболее эффективные нейронные сети по двум критериям, на втором этапе оцениваются сети в составе ансамбля -третий критерий. Тестирование разработанного алгоритма проводилось на двух практических задачах интеллектуального анализа данных: диагностика послеоперационной когнитивной дисфункции человека и обеспечения работоспособности электронной компонентной базы в космических аппаратах длительного функционирования. Обе задачи интеллектуального анализа данных решены с высокой точностью. Тестирование алгоритма показало точность классификации в среднем 77,8 % и ошибку прогнозирования 2,48 %.
Ключевые слова: ансамбли нейросетевых моделей, самоорганизующееся генетическое программирование, интеллектуальный анализ данных, кластеризация.
В настоящее время в области анализа данных появляются идеи из теории искусственного интеллекта (ИТ), которые способствуют развитию такого направления в обработке информации, как интеллектуальный анализ данных (Data Mining) [1]. Достижения в технологиях автоматизированного сбора, хранения информации и ее обработки привели к появлению массивов данных большой размерности. Некоторые данные хранятся в цифровом формате (текст, изображение и видео, данные телеметрии и т.п.), что удобно для применения автоматизированного анализа данных, их автоматической группировки. Увеличение объема и разнообразия данных
234
требует новых достижений в методологии их обработки и обобщения. Для интеллектуального анализа данных ранее было предложено множество статистических методов, но по-прежнему важной задачей остается разработка технологии (метода), подходящей для решения любого типа задач: прогнозирования, классификации, аппроксимации. Например, после проведенных многократных исследований применение искусственных нейронных сетей (ИНС) позволяет сделать вывод об их эффективности для решения широкого круга задач. Но тогда возникает вопрос о методе формирования эффективных ИНС. Как показывает практика, формирование эффективных ИНС сопряжено с трудностями, т.к. точно выбрать структуру и нужные весовые коэффициенты требует затрачивания временных и материальных ресурсов. Для упрощения формирования эффективных ИНС была применена процедура самоорганизующегося многокритериального генетического программирования (ГП).
Таким образом, процедура формирования ИНС автоматизирована [3], это позволяет формировать эффективные ансамбли ИНС, повышать свойства обобщения, не требуя переобучения отдельных сетей, решать задачи анализа данных любого типа [3 - 5]. В статье разработанный метод применяется для решения задачи диагностики послеоперационной когнитивной дисфункции человека, а также задачи обеспечения работоспособности электронной компонентной базы в космических аппаратах длительного функционирования.
Разработанный метод (алгоритм) основан на применении технологии ГП. В ГП каждый объект - НС, представляется в форме дерева. Дерево представляет собой направленный граф, состоящий из узлов и конечных вершин (листьев). В узлах - операторы, объединяющие нейроны в слой и слои - в целую сеть. Эти объекты выбираются из функционального множества F {+; <}. В конечных вершинах представлены элементы нейросете-вой модели - нейроны. Это объекты, выбранные из терминального множества T {входные блоки: In12,...,Innm; нейроны (функции активации: Fb F2, ..., Fn)}. Более подробно схема формирования деревьев - НС - описана в работе [6]. Ниже представлен двухэтапный алгоритм автоматизированного формирования ансамблей НС с применением самоорганизующегося ГП.
Шаг 1. Всем сочетаниям ЭО в ГП назначается равная вероятность выбора. Генерирование популяции индивидов. Каждый индивид - это дерево - НС.
Шаг 2. Обучение НС. Для оптимизации весов применены два алгоритма - однокритериальный генетический алгоритм (ГА) [7] и алгоритм обратного распространения ошибки (англ. Backpropagation) [8, 9].
Шаг 3. Случайным образом выбрать сочетание эволюционных операторов. Отбор индивидов по двум критериям проводился методом VEGA (англ. Vector Evaluated Genetic Algorithm) [10].
Шаг 4. Оценка индивидов. Первый критерий оценивает точность решения. Решением задачи классификации первым критерием является оценка точности классификации. Функция пригодности вычисляется по формуле
Fit1 = — ® max, (1)
N
где A - количество правильно классифицированных объектов; N - общее количество объектов.
Для задачи прогнозирования
D = i(y* -yi)2 ® min, (2)
где N - объем используемой выборки (тестовой или обучающей); yi * -эталонные значения; yi - выход сети или ансамбль нейронных сетей.
Вторым критерием качества является сложность НС. Сложность вычисляется по формуле
Fit2 = n • N1 + VnN-+1 + Nl • l ® min, (3)
i=1
где n - количество входных нейронов сети; Ni - количество нейронов на i-ом скрытом слое сети; L - общее количество скрытых слоев в нейросети; l - количество выходных нейронов сети. Шаг 5. Селекция индивидов.
Шаг 6. Рекомбинация выбранных индивидов - создание потомков. Шаг 7. Мутация потомков.
Шаг 8: Оценка потомков по двум функциям пригодности Fit1, Fit2.
Шаг 9. Выбор новых эволюционных операторов. Определение новых вариантов сочетаний ЭО проводится после расчета значения
Fit _ Oper :
1 Np kr ,
Fit _ Oper =--JE Fitid ® max, (4)
Np d=1i=1
где kr - количество критериев; Fitid - пригодность i-го потомка по d-му критерию; Np - количество потомков, созданныхp-м сочетанием ЭО.
Количество суммированных функций пригодности может быть различным в зависимости от алгоритма. Сочетание ЭО, которое получило большее значение Fit _ Oper , становится "приоритетным" вариантом и его вероятность быть выбранным повышается. После пересчета вероятностей всех сочетаний проводится замещение. Сочетание ЭО с наименьшей вероятностью замещается на "приоритетное". Перерасчет вероятностей проводится на каждой итерации алгоритма.
Шаг 10. Проверка условия останова: если алгоритм достиг заданной точности или исчерпаны вычислительные ресурсы, то переход к шагу 11, иначе к шагу 2.
Шаг 11. Выбор "лучшей" НС.
На втором этапе осуществляется отбор НС в финальный ансамбль. Для формирования эффективного финального ансамбля НС используются те же шаги, что и на первом этапе алгоритма, но с некоторыми поправками:
Шаг 1, Шаг 2, Шаг 3 - идентичны шагам, описанным на первом этапе алгоритма.
Шаг 4. К каждому созданному индивиду добавляется "лучшая" сеть, найденная на первом этапе алгоритма. Создаются ансамбли НС. Количество "лучших" сетей в ансамбле не фиксировано.
Шаг 5. Случайным образом выбрать сочетание эволюционных операторов. Используются те же виды ЭО, что и на первом этапе алгоритма.
Шаг 6. Оценка индивидов по третьему критерию эффективности. Третьим критерием является точность решения ансамбля НС.
Шаг 7. Селекция индивидов.
Шаг 8. Рекомбинация выбранных индивидов.
Шаг 9. Мутация потомков.
Шаг 10. Оценка потомков. Функция пригодности вычисляется по формуле (1) или (2) в зависимости от типа задачи. Процедура выбора подробно описана на шаге 10 первого этапа алгоритма.
Шаг 11. Алгоритм останавливается, если достигнута заданная точность или исчерпаны вычислительные ресурсы, иначе переход к шагу 3. По завершению работы алгоритма формируется финальный ансамбль из наиболее эффективных сетей, находившихся в популяции.
Точность решения ансамбля в процентах для задачи классификации вычисляется по формуле
Accuracy= OC _ measure■ 100 %, (5)
где OC _ measure - точность классификации, вычисленная по формуле (1).
Ошибка прогнозирования вычисляется по формуле
Error =-D-— ■ 100 %, (6)
(ymax _ yшш)
D _ погрешность аппроксимации, вычисленная по формуле (2); ( ymax - ymin ) - разница между максимальным и минимальным значением
выхода нейросети или ансамбля НС.
Общее решение ансамбля для задачи классификации и прогнозирования вычислялось по схемам Scheme ED1 и Scheme ED 2 [5].
Для решения практических задач разработанным алгоритмом необходимо установить начальные параметры. В табл. 1 приведены начальные установки для реализации алгоритма для обеих практических задач.
237
Таблица 1
Начальные установки для обеих задач
Параметр ГП Значение
Количество индивидов 4 - 60
Количество итераций 2 - 20
Селекция Турнирная, Ранговая
Рекомбинация Одноточечная и двухточная
Мутация Сильная и слабая
Глубина дерева 10
Обучение/тест 80 %/20 %
Одной из актуальных проблем в неврологии является проблема повреждения центральной нервной системы (ЦНС) после оперативных вмешательств вследствие отрицательного влияния анестезии [11]. Повреждения могут быть различными: психотические реакции, делирий, судорожный синдром, постоперационная когнитивная дисфункция, нарушение цикла «сон - бодрствование» и координаторных нарушений, инсульт и др. [12].
Прогнозирование состояния пациента позволит, с одной стороны, снизить отрицательное воздействие анестезии на ЦНС путем подбора эффективных параметров операции, с другой - провести необходимые профилактические действия.
Пациент и его состояние описываются следующими показателями: пол;
образование (неполное среднее, среднее, среднеспециальное, неполное высшее, высшее);
возраст (варьируется от 15 до 49 лет);
длительность анестезии (варьируется от 80 до 620 минут);
вид анестезии (региональная или местная);
лечение (применялся или нет препарат «танакан»);
тест «интеллектуальная лабильность»;
«таблица Крепелина» (коэффициент работоспособности);
тест «таблицы Шульте»;
компьютерная электроэнцефалография (КЭЭГ); коэффициент «альфа/тета»;
значение доминирующих частот в полосе альфа- и тета-ритмов (ЗДЧ «альфа/тета»);
значение средних частот в полосе альфа- и тета-ритмов (ЗСЧ «альфа/тета»).
Большая разница в показаниях тестов до и после операции говорит об ухудшении состояния больного и нарушениях ЦНС. Решением задачи является ошибка прогнозирования модели (ансамбля ИНС), т.е. разница в показаниях тестов: «интеллектуальная лабильность», компьютерная электроэнцефалография (КЭЭК), коэффициент «альфа/тета».
Описание используемой базы данные: количество элементов - 158, количество входных измерений - 14, количество выходных - 1.
В табл. 2 приведены усредненные показатели ошибки прогнозирования по 60 запускам и трем критериям.
Таблица 2
Решение задачи прогнозирования состояния человека
Количество Ошибка Ошибка Ошибка
"лучших" ИНС прогнозирования ансамбля ИНС, прогнозирования ансамбля ИНС, % прогнозирования ансамбля ИНС, %
в ансамбле (шаг 4) % (КЭЭК) ("альфа/тета") (" интеллектуальная лабильность")
1 4,40 2,45 1,70
2 4,33 2,36 1,62
3 4,15 2,22 1,54
4 3,81 2,19 1,53
5 3,92 2,31 1,45
Основным способом повышения эффективности функционирования космических аппаратов (КА) и снижения затрат на их восполнение является увеличение сроков активного существования (САС) КА. С увеличением САС КА возрастает готовность космических систем (КС), уменьшается число КА, необходимых для восполнения и поддержания пропускной способности КС, снижается потребность в ракетах-носителях для осуществления пусков, упрощается система управления функционирующими КА. Эксплуатационные характеристики КА во многом обусловлены техническим уровнем входящей в их состав электронной компонентной базы (ЭКБ) и способностью конструктора обеспечить условия для длительной работоспособности в жестких условиях космического пространства. Целью является повышение надежности КА на основе развития методов классификации деталей КА длительного функционирования. Ниже приведены результаты классификации (2-го класса) деталей для трех баз данных: "Измерения диодов 2Д522_3" (база 1), "Измерения диодов 2Д522_4" (база 2), "Измерения диодов 2Д522_8" (база 3) (табл. 2 - 4).
Описание используемых баз данных: количество элементов - 3711, количество классов - 2, количество входных измерений и выходных данных - 10 и 1 соответственно.
В табл. 3, 4, 5 приведены усредненные показатели точности классификации по 60 запускам на трех базах данных.
239
Таблица 3
Результаты применения разработанного алгоритма (база данных 1)
Количество "лучших" ИНС в ансамбле (шаг 4) Точность классификации ИНС_1, % Точность классификации ИНС_2, % Точность классификации ИНС_3, % Точность ансамбля ИНС, %
1 59,21 56,01 58,18 69,27 75,52
2 59,96 60,61 61,72 69,89
3 70,23 65,28 67,15 75,89
4 85,71 74,92 81,99 85,01
5 55,12 59,78 61,25 77,56
Таблица 4 Результаты применения разработанного алгоритма (база данных 2)
Количество " лучших" ИНС в ансамбле (шаг 4) Точность классификации ИНС_1, % Точность классификации ИНС_2, % Точность классификации ИНС_3, % Точность ансамбля ИНС, %
1 64,63 66,27 65,45 71,89 80,29
2 63,65 62,89 51,27 79,23
3 64,45 70,12 72,63 81,69
4 70,89 72,65 68,96 83,98
5 69,65 71,69 73,56 84,69
Таблица 5 Результаты применения разработанного алгоритма (база данных 3)
Количество " лучших" ИНС в ансамбле (шаг 4) Точность классификации ИНС_1, % Точность классификации ИНС_2, % Точность классификации ИНС_3, % Точность ансамбля ИНС, %
1 58,09 45,22 56,85 65,99 77,63
2 67,65 62,63 60,89 70,03
3 73,98 70,89 75,56 89,62
4 62,68 63,57 65,89 82,41
5 60,12 58,54 64,58 80,14
В результате тестирования на четырех базах данных разработанный алгоритм показал свою эффективность, а также универсальность. Алгоритм можно модифицировать и применять для решения различных задач интеллектуального анализа данных. По результатам тестирования предложенного алгоритма наблюдается повышение эффективности решения ансамбля после добавления третьей дополнительной сети на шаге 2 во второй части алгоритма. За счет применения трех описанных критериев можно получать компактные и эффективные модели ИНС. Это подтверждается результатами, приведенными в табл. 2 - 5. Также в табл. 2 - 5 показана разница между показателями эффективности решений единичных ИНС из ансамбля и решения ансамбля. С помощью разработанной схемы формирования общего решения ансамбля ИНС можно повысить точность решения на 17 %. Усредненные показатели эффективности создаваемых ансамблей с применением для задачи классификации из табл. 3 составляют 85,01 %, из табл. 4 - 84,69 %, из табл. 5 - 89,62 %, для задачи прогнозирования по коэффициенту "КЭЭК" 4,1 %, по "альфа/тета" - 2,3 %, по "интеллектуальной лабильности" - 1,56 %. Плюсами разработанного самоорганизующегося генетического программирования для формирования эффективных нейросетевых моделей и их ансамблей являются не только высокая эффективность при решении различного типа задач анализа данных, но и быстродействие, что было доказано многократным тестированием в сравнении с существующим методом самоконфигурации генетического программирования. Благодаря разработанной схеме автоматизации выбора наиболее эффективных эволюционных операторов применение возможно для широкого круга пользователей. Специализированные знания из области интеллектуальных информационных технологий и эволюционных алгоритмов не требуются.
Список литературы
1. Anderson D., McNeill G. Artificial neural networks technology: DACS report. 1992. P. 1 - 34.
2. Казаковцев Л. А. Метод жадных эвристик дя систем автоматической группировки данных: дис.... д-ра техн. наук. Красноярск, 2015. 442 с.
3. Loseva E.D., Lipinsky L.V. Ensembles of neural networks with application of multi-criteria self-configurable genetic programming // Vestnik Sib-GAU. 2016, Vol. 17. No. 1. P. 67 - 72.
4. Loseva Elena, Lipinsky Leonid, Kuklina Anna. Eensembles of neural networks with application of multi-objective self-configurable genetic programming in forecasting problems. Natural Computation (ICNC) // 11th International Conference. 2015. No. 15700731. P. 686 - 690.
5. Лосева Е.Д., Липинский Л. В. Об алгоритмах автоматизированной настройки многокритериального генетического программирования для задач классификации и восстановления регрессии // Известия Тульского государственного университета. 2016. Вып. 7. Ч. 2. С. 42 - 53.
241
6. Koza, J.R. Genetic Programming // On the Programming of Computers by Means of Natural Selection: MIT Press, 1992. P. 109 - 120.
7. Huang J.-J., Tzeng G.-H., Ong Ch.-Sh. Two-stage genetic programming (2SGP) for the credit scoring model // Applied Mathematics and Computation. 2006. No. 174 (2). P. 1039 - 1053.
8. Integer Magoulas G. D., Vrahatis M. N., Androulaki G. S. Improving the Convergence of the Backpropagation Algorithm Using Learning Rate Adaptation Methods // Neural Computation. 1999. GR-261.10 P. 1769 - 1796.
9. Holland J.H. Adaptation in Natural and Artificial System: University of Michigan Press. 1975. P. 18 - 25.
10. Ashish G. and Satchidanada D. Evolutionary Algorithm for Multi-Criterion Optimization: A Survey // International Journal of Computing & Information Science. 2004. Vol. 2. No. 1. P. 43 - 45.
11. Липинский Л.В. Алгоритмы генетического программирования для формирования интеллектуальных информационных технологий: дис. ... канд. техн. наук Красноярск, 2006. 161 с.
12. Оссовский С. Нейронные сети для обработки информации / пер. с польского И.Д. Рудинского. М.: Финансы и статистика, 2002. 344 с.
Лосева Елена Давидовна, асп., rabota_lena_19@,mail. ru, Россия, Красноярск, Сибирский государственный аэрокосмический университет им. академика М.Ф. Ре-шетнева,
Антамошкин Александр Николаевич, д-р техн. наук, проф., oleslavamail.ru, Россия, Красноярск, Сибирский государственный аэрокосмический университет им. академика М. Ф. Решетнева
ALGORITHM FOR A UTOMOTIVE FORMATION ENSEMBLES OF NEURAL NETWORKS FOR SOL VING COMPLEX TASKS OF DATA MINING
E.D. Loseva, A.N. Antamoshkin
In this paper the theme of data mining using developed algorithm of formation ensembles of artificial neural network models is discussed. The developed algorithm is based on applying "Self-adjusting" multi-criteria Genetic Programming. The algorithm in two steps is implemented: in the first there is formation and selection the most effectiveness neural networks by two criteria, in the second step there is estimation neural networks in ensemble by third criteria. The testing of diagnostic of post-surgery cognitive disfunction and providing productivity component data base of long - term operation space craft. The both tasks of data mining with high accuracy were solved. The accuracy after testing of proposed algorithm the classification accuracy in general is 77,8% and prediction error is 2,48 %.
Key word: ensembles of neural network models, "Self-adjusting" genetic programming, ensemble decision, data mining, clustering.
Loseva Elena Davidovna, postgraduate, rabotalenal 9amail. ru, Russia, Krasnoyarsk, Siberian Reshetnev State Aerospace University,
242
Aleksander Nikolaevich Antamoshkin, doctor of technical sciences, professor, [email protected], Russia, Krasnoyarsk, Siberian Reshetnev State Aerospace University
УДК 778.14.06
ВНЕДРЕНИЕ ТЕХНОЛОГИИ ОПТИМИЗАЦИИ ЗАПОЛНЯЕМОСТИ КОРОБОК РУЛОННЫМИ МИКРОФИЛЬМАМИ В СТРАХОВОМ ФОНДЕ
ДОКУМЕНТАЦИИ
Е.Е.Евсеев, П.Е. Завалишин, С.Ю. Борзенкова, Б.С. Яковлев
Приводится анализ возможности внедрения в системе ЕР СФД технологии полной заполняемости коробок рулонными микрофильмами и применения ее при построении схем рулонных микрофильмов и микрофильмирования. Оценивается экономический эффект от внедрения данной технологии в производство.
Ключевые слова: страховой фонд документации, технология полной заполняемости коробок рулонными микрофильмами, построение схем микрофильмирования.
Главным функциями системы Единого российского страхового фонда документации (далее - ЕР СФД), созданной в соответствии с постановлением Правительства Российской Федерации от 26.12.1995 г. №125368 [1], являются обеспечение государственных заказчиков документированной информацией для поддержания стабильной и устойчивой работы российских предприятий в любых экстремальных ситуациях и обеспечение надежной гарантии ее быстрого восстановления в любое необходимое время.
Основным информационным носителем в ЕР СФД в настоящее время является микрографический носитель (рулонный микрофильм), который за многие десятилетия своего существования доказал свою надежность и стабильность в части долговременного сохранения особой государственной информации.
Для долговременного хранения рулонных микрофильмов в ЕР СФД используют специальные шкафы и коробки (рис.1), конструкция которых регламентируется требованиями действующих нормативных документов [2].
Шкафы предназначены для размещения в них на долговременной основе коробок с рулонными микрофильмами и представляют собой прямоугольный металлический корпус, выполненный из стали с дверцей и тремя выдвижными полками, на которых фиксируются коробки. Коробки для рулонных микрофильмов имеют цилиндрическую форму, состоящую из двух частей, изготовленных из алюминия со специальным покрытием,
243