УДК 519.7:004.93
С.А. СУББОТИН, канд. техн. наук, ЗНТУ (г. Запорожье),
А.А. ОЛЕЙНИК, ЗНТУ (г. Запорожье)
ОПТИМИЗАЦИЯ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ НА ОСНОВЕ
МНОГОКРИТЕРИАЛЬНОГО МЕТОДА ЭВОЛЮЦИОННОГО
ПОИСКА
Рассмотрена задача упрощения структуры построенных нейромоделей, для решения которой разработан метод многокритериального эволюционного поиска с использованием обобщенной целевой функции. Создано программное обеспечение, реализующее предложенный метод упрощения нейросетевых моделей. Проведены эксперименты по синтезу модели для диагностики хронического бронхита.
Ключевые слова: многокритериальный эволюционный поиск, оптимизация нейросетевых моделей.
Постановка проблемы. На возможность применения нейросетевых моделей на практике существенное влияние оказывают сложность построенной нейросети и скорость вычисления значения целевого параметра по набору данных, не входящему в обучающую выборку [1, 2]. Поэтому актуальным является упрощение структуры синтезированной нейронной сети.
Пусть задана выборка исходных данных < X, У > и нейросетевая модель вида НС = НС(^, W, В, ТЕ), где X = {X} - набор значений признаков, характеризующих рассматриваемый объект или процесс; У = {Ур} - массив значений выходного параметра в заданной выборке; X = {х/р} - /-й признак в выборке, / = 1, 2, ..., Ь; х/р - значение /-го признака для р-го экземпляра выборки, р = 1, 2,..., т; ур - значения прогнозируемого параметра для р-го экземпляра; Ь - общее количество признаков в исходном наборе; т -количество экземпляров выборки; £ = 8(Ь) - матрица, определяющая наличие синаптических связей между элементами нейросети (входными признаками, нейронами); W = W(S) - матрица весовых коэффициентов, соответствующих связям, присутствующим в сети НС; В = В(£ - вектор смещений нейронов сети; ТЕ = ТЕ(£) - вектор функций активации нейронов сети.
Тогда задача оптимизации нейросетевой модели НС заключается в поиске таких новых значений с £, W, В', ТЕ, при которых достигаются оптимальные значения заданных критериев оптимальности %1 , % 2 , •••, % К , где К - количество целевых критериев.
Анализ литературы. Существующие подходы упрощения нейромоделей предусматривают последовательное удаление нейронов или синаптических соединений в сети [3], используя при этом "жадную" стратегию. Как правило, применение "жадной" стратегии приводит к исследованию незначительной части пространства всех возможных структур нейромоделей, поскольку
предполагает последовательное удаление элементов сети (нейронов или связей между ними), не оценивая при этом эффективности исключения наборов, состоящих из нескольких элементов.
Поэтому для упрощения нейросетей с целью получения моделей, наиболее точно описывающих исследуемую зависимость и в то же время являющихся достаточно простыми для реализации и практического применения, целесообразно использовать методы, которые позволяют более равномерно покрывать пространство поиска, не используют "жадную" стратегию и допускают оптимизацию по нескольким заданным критериям. К таким методам относятся методы эволюционного поиска - многомерные, стохастические, эвристические методы, которые на каждой итерации работают с некоторым множеством решений, что позволяет во многих случаях анализировать пространство поиска быстрее по сравнению с традиционными оптимизационными методами, не выдвигая при этом дополнительных ограничений к виду целевой функции [4 - 8]. Однако при многокритериальной постановке задачи использование эволюционных методов связано с необходимостью предварительного оценивания значимости целевых функций или необходимостью применения специальных процедур оценивания решений, требующих значительных вычислительных ресурсов.
Цель статьи - создание многокритериального эволюционного метода для оптимизации нейросетевых моделей с использованием обобщенной целевой функции, позволяющей оценивать хромосомы по нескольким оптимизируемым критериям.
Критерии оценивания нейромоделей. Известно [1 - 3], что
нейросетевые модели обладают различными характеристиками: качеством аппроксимации, точностью, интерпретабельностью, простотой аппаратной и программной реализации, вычислительной и пространственной сложностью и др. Поэтому при оптимизации нейромодели целесообразным является использование набора различных критериев, наиболее полным образом характеризующих исследуемую зависимость.
При оценивании структурной сложности нейромодели целесообразно использовать количество синаптических соединений (весов) в сети Ы№, количество нейронов N и количество слоев N в нейромодели. Предлагается использовать следующий критерий оценивания сложности структуры нейросети:
( ЛГ лг Л
К =
1+N.
N
(1 + Nc ). (1)
Такой критерий учитывает количество слоев в сети, а также среднее количество нейронов в слое и среднее количество связей, приходящихся на один нейрон.
На вычислительную сложность сети существенное влияние оказывают функции активации нейронов. Поэтому в качестве критерия оценивания вычислительной сложности предлагается использовать выражение, учитывающее количество линейных и нелинейных функций активации:
K в =
і + N„
V і + NПP У
(2)
где Мсл - количество вычислительно сложных функций активации нейронов (логистическая сигмоидная, тангенциальная сигмоидная, радиальнобазисная и др.); Жпр - количество вычислительно простых функций активации нейронов (пороговая, линейная).
Для оценивания аппроксимационных качеств сети и сложности ее применения целесообразно использовать среднеквадратическую ошибку модели Е и время ґ расчета значения выходного параметра по синтезированной нейромодели, соответственно.
Предложенный набор критериев охватывает большинство характеристик нейросетей, что позволяет использовать его для многокритериальной оптимизации с целью получения достаточно простых и интерпретабельных нейромоделей, обеспечивающих высокую точность аппроксимации.
Поскольку оптимизация по нескольким критериям является эффективной при небольшом количестве целевых функций [4, 5], предлагается для упрощения структуры нейромоделей использовать два критерия, интегрирующих основные характеристики нейросетей:
С N V і +
N
n yV (
(і+Nc);
f2 = t • K в = t
і + N
С
V і + Nпр У
(З)
(4)
Первый критерий f характеризует качество аппроксимации нейромодели и ее структурную сложность. Критерий f объединяет время вычисления выходного параметра по синтезированной сети и ее вычислительную сложность.
Метод многокритериального эволюционного поиска с использованием обобщенной целевой функции. Для решения задачи оптимизации построенных нейросетевых моделей разработан метод многокритериального эволюционного поиска с использованием обобщенной целевой функции, основанный на популяционном подходе как одном из наименее затратных методов с точки зрения ресурсов. Для устранения недостатков существующих методов, использующих популяционный подход, предлагается ввести обобщающую функцию, позволяющую оценивать хромосомы не по одной целевой функции, а по всем оптимизируемым
функциям. В результате этого поиск будет проводиться во всем пространстве целевых функций.
Предлагаемый метод многокритериального эволюционного поиска с использованием обобщенной целевой функции состоит из следующих шагов.
Шаг 1. Установить счетчик итераций: t = 0. Сформировать начальную популяцию Р0 из N хромосом. Размер популяции N выбирают таким образом, чтобы обеспечить возможность одновременного исследования достаточно больших областей пространства поиска, как правило, размер популяции устанавливается равным 50 - 100 особям.
Решения (хромосомы) при оптимизации нейромоделей кодируются с помощью представления, аналогичного тому, которое используется при структурно-параметрическом синтезе нейронных сетей с помощью эволюционного подхода. При этом хромосома состоит из нескольких частей: в первой части содержится информация о значениях весов нейронов входного слоя, во второй - значения весовых коэффициентов нейронов скрытых слоев, в третьей - значения смещений нейронов, в четвертой - функции активации для каждого нейрона сети. Поэтому гены первой, второй и третьей частей хромосомы являются вещественными, а гены четвертой части принимают целые значения, соответствующие определенным типам функций активации.
Шаг 2. Разбить популяцию Pt на K подпопуляций размером N/K каждая
> 2), где K - количество целевых функций решаемой задачи.
Шаг 2.1. Для каждой хромосомы Ну рассчитать евклидово расстояние от нее до всех остальных хромосом в популяции. Евклидово расстояние ё между хромосомами Ну и Н/ вычисляется по формуле:
где Ь - размер хромосом; Иу и Иц - значения /-х генов хромосом Ну и Н/, соответственно.
Шаг 2.2. Установить счетчик сформированных подпопуляций: с = 1. Сформировать множество не вошедших в подпопуляции хромосом А = Рt.
Шаг 2.3. Инициализировать с-ю подпопуляцию: УС = 0.
Шаг 2.4. Выбрать из множества А две хромосомы Ну и Н/ с максимальным расстоянием между ними.
Шаг 2.5. Включить выбранные хромосомы Ну и Н/ в с-ю подпопуляцию: Ус = Ус и {Ну, Н/}. Исключить хромосомы Ну и Н/ из А: А = А \ {Ну, Н/}.
Шаг 2.6. Если с-ая подпопуляция полностью сформирована ( |Ус| = N/K ), тогда перейти к шагу 2.9.
Шаг 2.7. Выбрать из множества А хромосому Н, сумма расстояний от которой до хромосом из Ус является максимальной.
Шаг 2.8. Включить хромосому Нк в с-ю подпопуляцию: Ус = Ус и {Нк}. Исключить хромосому Нк из А: А = А \ {Нк}. Выполнить переход к шагу 2.6.
(5)
Шаг 2.9. Если сформированы все подпопуляции (с = K), тогда перейти к выполнению шага 3.
Шаг 2.10. Увеличить счетчик сформированных подпопуляций: с = с + 1. Выполнить переход к шагу 2.3.
Шаг 3. Выполнить однокритериальный эволюционный поиск в каждой из K подпопуляций. При этом оценивание хромосом в с-й подпопуляции производить по с-й целевой функции.
Шаг 4. Выбрать в каждой подпопуляции N < N/K лучших особей.
Шаг 5. Сформировать объединенную популяцию из всех особей, выбранных на предыдущем шаге.
Шаг 6. Выполнить эволюционный поиск над хромосомами из объединенной популяции. При этом оценивание хромосомы Ну проводить с помощью вычисления обобщенного значения фитнесс-функции
\fk(Hj)-min(fk), еслиfk ^min, где Bk = <!
|max(fk)- fk(Hj), если fk ^max,
Дk = max(fk) - min(f); max(/k) и min(/k) - соответственно, максимальное и минимальное значение k-й целевой функции на текущей итерации. Таким образом, FHj )е [0; K].
Шаг 7. Выполнить проверку критериев окончания поиска. Если критерии удовлетворены, тогда выполнить переход к шагу 9.
Шаг 8. Увеличить счетчик итераций: t = t + 1. Выполнить переход к шагу 2.
Шаг 9. Останов.
Для оценивания хромосом Hj из объединенной популяции вместо использования обобщенной целевой функции можно использовать обобщенный ранг хромосом, получаемый в результате сложения рангов по каждой функции:
где Яу - ранг у-й хромосомы; Яук - ранг у-й хромосомы для целевой функции /к (количество хромосом с лучшим значением целевой функции /).
Такое ранжирование отличается от ранжирования по принципу недоминирования тем, что хромосомы ранжируются по каждой целевой функции отдельно, а затем находится суммарный ранг каждой хромосомы. Кроме того, предлагаемое ранжирование требует меньше вычислительных ресурсов, чем ранжирование по принципу недоминирования.
Таким образом, предлагаемый многокритериальный эволюционный поиск с использованием обобщенной целевой функции состоит из двух этапов.
F(H) = Ffi(H), f2(H), ..., fKH) ):
(6)
Rj = Rji + Rfi +. + Rj&
(7)
На первом этапе происходит поиск оптимума каждой целевой функции в отдельности, что позволяет найти более оптимальные решения по сравнению с существующими методами, использующими популяционный подход, при которых происходит обычный выбор нескольких лучших хромосом по разным целевым функциям.
На втором этапе происходит многокритериальный эволюционный поиск, который основан на использовании обобщенной функции, объединяющей в себе значения всех целевых функций. Данный подход позволяет отбирать и получать те хромосомы, которые не являются оптимальными ни для одной из заданных целевых функций, но в то же время являются наиболее приемлемыми для набора этих функций.
Эксперименты и результаты. С целью проверки эффективности применения разработанного метода многокритериального эволюционного поиска с использованием обобщенной целевой функции проводились эксперименты по решению задачи синтеза моделей для диагностики хронического бронхита [9]. Для этого предложенный метод многокритериальной эволюционной оптимизации был программно реализован на языке пакета МаИаЪ.
Для построения диагностических моделей использовалась экспериментально полученная выборка данных [9] исследований функционально-морфологических свойств лейкоцитов и тромбоцитов, сосудистого фактора, системы комплемента и циркулирующих иммунных комплексов (ЦИК) периферической крови 205 пациентов.
Анализировалось состояние пациентов по 28 диагностическим признакам. Для выделения наиболее важных признаков использовался метод эволюционного поиска с группировкой признаков [10], в результате чего наиболее значимой оказалась комбинация, состоящая из 12 признаков: х -содержание палочкоядерных лейкоцитов; х2 - содержание сегментоядерных лейкоцитов; х3 - содержание эозинофилов; х4 - содержание лимфоцитов; х5 -фагоцитарное число моноцитов; х6 - НСТ-тест, отражающий способность нейтрофилов генерировать активные формы кислорода; х7 - НСТ-
стимулированный тест - отражает резервные возможности нейтрофилов генерировать активные формы кислорода в условиях их дополнительного стимулирования; х8 - количество тромбоцитов; х9 - количество активных тромбоцитов; Х10 - уровень комплемент (СН50); хц - уровень ЦИК, осаждаемых 3% полиэтиленгликолем; Х12 - активность миелопероксидазы нейтрофилов.
Каждому экземпляру выборки было сопоставлено значение целевого параметра - диагноза соответствующего пациента (1 - болен, 0 - не болен).
На основе полученного набора информативных признаков с помощью эволюционного метода полимодального поиска [11] был выполнен структурный синтез нейромоделей, в результате которого выделены четыре нейросетевые модели, обеспечивающие высокое качество классификации по
обучающей выборке. После проверки построенных нейромоделей с помощью данных тестовой выборки оставлена одна нейромодель, обеспечивающая наилучшую точность классификации. Среднеквадратическая ошибка построенной модели составляла 0,029. Данная модель имела 64 синаптические связи и содержала пять нейронов на первом слое, три нейрона на втором слое и один нейрон - на третьем.
Синтез нейронных сетей осуществлялся с помощью критерия, учитывающего точность классификации, что привело к получению сетей с избыточным количеством связей и нейронов. Поэтому после структурного синтеза выполняли многокритериальную эволюционную оптимизацию построенной нейромодели, используя при этом предложенные критерииf иf2.
Сравнивались такие методы эволюционной оптимизации, как однокритериальный эволюционный поиск, использующий в качестве фитнесс-функции f1, однокритериальный эволюционный поиск, использующий в качестве фитнесс-функции f2, векторный генетический метод VEGA [4] и многокритериальный эволюционный поиск с использованием обобщенной целевой функции.
Значения параметров эволюционных методов устанавливались следующими: оператор отбора - отбор с использованием рулетки, оператор скрещивания - одноточечный, оператор мутации - гауссова мутация, количество особей в популяции N = 100 (для многокритериальных методов используются две подпопуляции по 50 особей каждая), вероятность скрещивания рскр = 0,8, вероятность мутации pm = 0,05, максимальное количество итераций T = 100, количество элитных особей кэ = 2. Результаты экспериментов по оптимизации нейромодели приведены в табл. 1, где 4о -время в секундах, затраченное на эволюционную оптимизацию. Поскольку в результате применения метода VEGA получено несколько нейромоделей, то в табл. 1 приведены результаты для двух найденных нейросетей, являющихся оптимальными по критериям f иf2, соответственно.
Таблица 1
Результаты экспериментов по оптимизации нейромоделей с помощью различных
методов эволюционного поиска
Метод tx fi f2 Параметры нейромодели
струк- тура Nw E t, сек Nm Nnp
Однокритериальный эволюционный поиск, использующий в качестве фитнесс-функции fi 823,44 2,516 1,19 5-1 31 0,034 0,17 6 0
Однокритериальный эволюционный поиск, использующий в качестве фитнесс-функции /2 172,72 12,68 0,16 4-2-1 48 0,121 0,13 4 3
VEGA (лучшая модель, полученная для критерия fi) 546,56 2,378 1,26 5-1 35 0,029 0,18 6 0
VEGA (лучшая модель, полученная для критерия f2) 546,56 18,396 0,12 3-2-1 57 0,146 0,12 3 3
Многокритериальный эволюционный поиск с использованием обобщенной целевой функции 558,32 2,713 0,13 4-1 33 0,034 0,1 3 2
Сравнение результатов, полученных с помощью применения однокритериального эволюционного поиска, VEGA и предложенного метода,
показывает, что нейромодель, полученная с помощью разработанного метода многокритериального эволюционного поиска с использованием обобщенной целевой функции является оптимальной по обоим критериям /\ и/2, поскольку значения этих критериев приближаются к соответствующим значениям, рассчитанным для моделей, полученных с помощью однокритериальной оптимизации, при которой поиск проводился лишь по одному критерию.
В табл. 2 приведена упрощенная нейросетевая диагностическая модель хронического бронхита, полученная с помощью предложенного метода.
Таблица 2
Нейромодель для диагностики хронического бронхита
Номер слоя Номер нейрона в слое Номер входа нейрона
0 1 2 3 4 5 6 7 8 9 10 11 12
1 1 0,707 4,691 3,602 3,260 -1,575 2,797 -6,749 -3,200 -0,371 -0,854
2 -11,06 -4,211 1,634 -2,135 -1,563 -2,633 3,173 7,271
3 -1,262 -3,935 -7,142 3,394 3,614 2,810
4 -2,652 6,925 -2,324 -2,172 -1,121 -0,787 5,801 -0,008 6,641
2 1 -15,45 -17,02 20,753 18,398 9,690
Полученные с помощью предложенного метода нейромодели обеспечивают высокую точность аппроксимации и в то же время являются достаточно простыми и интерпретабельными, поскольку получены в результате оптимизации по нескольким критериям, отражающим не только аппроксимационные способности модели, но и ее вычислительную и структурную сложность.
Выводы. В работе решена задача упрощения нейросетевых моделей на основе многокритериальной эволюционной оптимизации.
Научная новизна работы заключается в том, что разработан новый метод многокритериального эволюционного поиска с использованием обобщенной целевой функции, основанный на популяционном подходе как одном из наименее затратных методов с точки зрения ресурсов. Для устранения недостатков существующих методов, использующих популяционный подход, используется обобщающая функция, позволяющая оценивать хромосомы не по одной целевой функции, а по всем оптимизируемым критериям, в результате чего поиск проводится во всем пространстве целевых функций.
Практическая ценность результатов работы состоит в том, что:
- создано программное обеспечение, реализующее предложенный метод упрощения нейромоделей;
- решена задача синтеза моделей для диагностики хронического бронхита.
Работа выполнена в рамках госбюджетной НИР "Научно-методические основы и математическое обеспечение для автоматизации и моделирования процессов управления и поддержки принятия решений на основе процедур распознавания и эволюционной оптимизации в нейросетевом и нечеткологическом базисах" (№ гос. регистрации 010би00862\).
Список литературы: І. Круглов В.В., Борисов В.В. Искусственные нейронные сети: Теория и практика. - М.: Горячая липия-Телеком, 2001. - 382 с. 2. Интеллектуальные средства диагностики и прогнозирования надежности авиадвигателей: Монография / В.И. Дубровин, С.А. Субботин, А.В. Богуслаев, В.К. Яценко. - Запорожье: ОАО “Мотор-Сич”, 200З. - 279 с. 3. Руденко О.Г., Бодянский Е.В. Основы теории искусственных нейронных сетей.- Харьков: Телетех, 2002. - З17 с. 4. Coello C. A Short Tutorial on Evolutionary Multiobjective Optimization // Evolutionary Multi-Criterion Optimization: Proceeding of the International Conference EMO2001 (7-9 March 2001). - Zurich: Springer-Verlag, 2001. - P. 21^0. 5. Cvetkovic D., Coello C. Human Preferences and their Applications in Evolutionary Multiobjective Optimization // IEEE Transactions on Evolutionary Computation. - 2002. - № 6. - P. 42-57. б. Haupt R., Haupt S. Practical Genetic Algorithms. - New Jersey: John Wiley & Sons, 2004. - 261 p. 7. Gen M., Cheng R. Genetic algorithms and engineering design. - New Jersey: John Wiley & Sons, 1997. - З52 p. 8. YaoX. Evolving Artificial Neural Network // Proceedings of the IEEE. -1999. - № 9 (87). - P. 142З-1447. 9. Субботин С.А., Афонин Ю.А., Колесник Н.В. Нейросетевое моделирование в выяснении патогенеза перманентного прогрессирующего воспалительного процесса при хроническом обструктивном бронхите // Моделирование неравновесных систем: Материалы VII Всероссийского семинара (8-10 октября 2004 г.). - Красноярск: ИВМ СО РАН, 2004. - С. 158-159. 10. Субботин С.А., Олейник А.А. Выбор набора информативных признаков для синтеза моделей объектов управления на основе эволюционного поиска с группировкой признаков // Искусственный интеллект. - 2006. - № 4. - С. 488^94. 11. Субботін С.О., ОлійникА.О. Полімодальний еволюційний пошук з кластеризацією хромосом для відбору інформативних ознак // Автоматика-2006: Матеріали тринадцятої міжнародної науково-технічної конференції (25-28 вересня 2006 р.). - Вінниця: УНІВЕРСУМ-Вінниця, 2006. - С. 448-451.
УДК 519.7:004.93
Оптимізація нейромережевих моделей на основі багатокритеріального методу еволюційного пошуку / Субботін С.О., Олійник А.О. // Вісник НТУ "ХПІ". Тематичний випуск: Інформатика і моделювання. - Харків: НТУ "ХПІ", 2008 - № 24 . - С. 165 - 17З.
Розглянуто завдання спрощення структури побудованих нейромоделей, для вирішення якого розроблено метод багатокритеріального еволюційного пошуку з використанням узагальненої цільової функції. Створено програмне забезпечення, що реалізує запропонований метод спрощення нейромережевих моделей. Проведено експерименти по синтезу моделі для діагностики хропічпого бронхіту. Табл.: 2. Библиогр.: 11 назв.
Ключові слова: багатокритеріальний еволюційний пошук, оптимізація нейромережевих моделей.
UDC 519.7:004.9З
Neural network optimization based on multiobjective evolutionary search I Subbotin S.A., Oleynik A.A. // Herald of the National State University “KhPI”. Subject issue: Information science and modeling. - Kharkov: NSU "KhPI", 2008. - № 24. - P. 165 - 17З.
The problem of neural network simplification is considered. The method of multiobjective evolutionary search with usage of the generalized criterion function is developed. The software realizing the suggested method is created. Experiments on diagnostic model synthesis of a chronic bronchitis are lead. Tabl.:12. Refs: 11 titles.
Key words: multicriterion evolutionary search, optimization neuronets models.
Поступила в редакцию 18.04.2008