Математическое моделирование. Оптимальное управление Вестник Нижегородского университета им. Н.И. Лобачевского, 2013, № 6 (1), с. 216-222
УДК 519.853.4
РАЗВИТИЕ ПАРАЛЛЕЛЬНОГО МЕТОДА АДАПТИВНОЙ МНОГОШАГОВОЙ РЕДУКЦИИ
© 2013 г. А.В. Гергель, В.А. Гришагин, Р.Г. Стронгин
Нижегородский госуниверситет им. Н.И. Лобачевского
Поступила в редакцию 12.10.2013
Рассматриваются методы многоэкстремальной оптимизации на основе адаптивной многошаговой схемы редукции размерности. Предлагается обобщение методов на случай параллельных вычислений и обсуждаются вопросы эффективной реализации. С целью ускорения вычислений рассматривается новый подход к формированию локальных оценок константы Липшица на основе использования аддитивной свертки. Приведены результаты численных экспериментов, подтверждающие эффективность предложенных вычислительных схем.
Ключевые слова: многоэкстремальная оптимизация, адаптивные решающие правила, параллельные вычисления, оценка константы Липшица.
Введение
К числу наиболее общих и сложных постановок проблемы выбора относятся задачи глобальной или многоэкстремальной оптимизации, в которых оптимизируемые критерии качества проблемы выбора могут иметь несколько локальных различающихся между собой решений. Данное предположение существенно повышает сложность решения оптимизационной задачи, поскольку для подтверждения локального минимума достаточно исследования локальной окрестности, в то время как глобальный минимум является интегральной характеристикой решаемой оптимизационной задачи и требует исследования всей области глобального поиска. Задачи глобальной оптимизации являются проблемами значительной вычислительной трудоемкости, и их решение при каком-либо значительном количестве варьируемых параметров становится возможным только при самом активном использовании высокопроизводительных вычислительных систем.
Данная работа выполнена в рамках научной школы Нижегородского университета по глобальной оптимизации [1-18] при финансовой поддержке Министерства образования и науки РФ, государственное соглашение о предоставлении гранта № 14.B37.21.0878.
Задачи многомерной многоэкстремальной оптимизации и многошаговая схема редукции размерности
Задача многомерной многоэкстремальной оптимизации может быть определена как про-
блема поиска наименьшего значения действительной функции ф(у)
ф(У ) = тт{ф(у): yeD}, (1)
где D есть область поиска, представляющая собой некоторый гиперпараллелепипед ^-мерного евклидова пространства.
Многие методы решения многомерных многоэкстремальных оптимизационных задач используют многошаговую схему редукции размерности, согласно которой решение многомерной задачи оптимизации (1) может быть получено посредством решения последовательности «вложенных» одномерных задач (см., например, [1, 2]):
min ф(у) = min ... min ^{уг,...,уы). (2)
yeD У1е101,Ь>1 J yN el°N ,bN J
Согласно (2) решение многомерной многоэкстремальной задачи оптимизации сводится к решению одномерной задачи:
(3)
ф* = min ф(у) = min Ф1(У1),
yeD
hAJ
где
ф(у,) = ф,Су^.-у,-) = min ,Ф.+1(У1’...^У->у+1)’(4)
yz+1eloi+1A+1J
1 < i < N,
ФN(У1,...Л) = Ф(У1,...Л). (5)
Правила (3)-(5) определяют множество одномерных задач
F, = {ф,(у,),1 <i < /} , (6)
порождаемых в соответствии с многошаговой схемой редукции. Количество задач в множестве Fi в процессе поиска может изменяться: увеличиваться при переходе к следующей переменной и уменьшаться при завершении решения какой-либо из задач (можно отметить, что
при этом количество задач не превышает размерности решаемой задачи №). При этом активной - решаемой - в множестве ^ является только одна задача - это задача с максимальным номером варьируемой переменной.
Многошаговой схеме редукции размерности присущи определенные недостатки - так, например, часть вычислений является избыточной, поскольку решение исходной задачи оптимизации сводится к минимизации одномерных функций в раздельных подобластях области поиска.
В работе рассматривается активно развиваемая в последнее время обобщенная (адаптивная) многошаговая схема редукции размерности, в рамках которой предлагается осуществлять одновременное решение всех порождаемых задач множества ¥1. Такое решение может выполняться последовательно (при наличии единственного процессора), тогда для выполнения очередной итерации глобального поиска необходимо выбирать для решения одну из задач множества Еі в соответствии с тем или иным правилом выбора задач. Но решение задач может выполняться и параллельно, если используемый вычислитель является многопроцессорным или многоядерным.
Адаптивная многошаговая схема редукции размерности и параллельные вычисления
Предлагаемое обобщение многошаговой схемы редукции размерности состоит в устранении строгой последовательности решения порождаемых одномерных задач. В рамках нового подхода (см., например, [7-9]):
1) для вычисления значения функции уровня
і, 1 < і < N, порождается новая задача уровня /+1, для которой выполняется только одна итерация метода оптимизации, после чего новая порожденная задача включается в множество уже имеющихся задач ¥1, подлежащих решению;
2) итерация глобального поиска состоит в выборе одной задачи из множества Г1 имеющихся задач, для которой и выполняется очередная итерация метода оптимизации; выбор задачи для выполнения итерации осуществляется в соответствии с тем или иным правилом выбора задач;
3) необходимые оценки минимально-возможных значений оптимизируемых функций заменяются на текущие оценки этих значений на основе поисковой информации, полученной в ходе вычислений.
Представленная методика получила наименование адаптивной многошаговой схемы редукции
размерности - полное представление данной схемы может быть найдено, например, в [7-9].
Для оценки эффективности адаптивной многошаговой схемы был проведен вычислительный эксперимент по решению многоэкстремальной задачи вида [1, 2]:
фСуі, у 2) =
где а. (у, у2) = Бт(гау) яп(/2) , Ъ. (у, у2) =
= СОБ(гау )соб(л/у2) определены в области 0<у,у2 < 1, а параметры -1 <Лу,Б^-,Сі}-,0-< 1 являются независимыми случайными величинами, равномерно распределенными в указанном выше интервале. Минимизация подобных функций возникает, например, в задаче оценки максимального напряжения (определяющего прочность) в тонкой пластине при поперечной нагрузке.
При проведении вычислений в качестве метода оптимизации использовался алгоритм Строн-гина глобального поиска [1, 2] при параметре надежности г=2 и точности поиска е=0.01 по каждой переменной. Результаты вычислительного эксперимента представлены на рис. 1. Всего было выполнено 215 итераций поиска, в результате которых была получена оценка ф* = -13.741 с координатами у* = (0.595,0.506). Сокращение объема вычислений по количеству итераций по сравнению с обычной многошаговой схемой составило 51%.
Отметим важные особенности нового подхода:
- в адаптивной многошаговой схеме все порождаемые задачи решаются совместно - выбор задачи для очередной итерации глобального поиска осуществляется в соответствии с тем или иным правилом выбора задач. Такой подход, с одной стороны, требует запоминания всей поисковой информации, получаемой в ходе вычислений, а с другой стороны, позволяет при необходимости увеличивать необходимую точность решения задач. Данная возможность способствует применению методики оптимизации с последовательно увеличивающейся точностью вычислений - так, начальная стадия оптимизации может быть выполнена с достаточно грубой точностью, что позволит получить
Рис. 1. Пример решения задачи оптимизации с использованием адаптивной многошаговой схемы редукции
оценки решения за сравнительно небольшое время вычислений, далее после анализа результатов точность может быть повышена и процесс глобального поиска может быть продолжен;
- наличие правила выбора задачи для выполнения очередной итерации глобального поиска позволяет строить разнообразные и гибкие процедуры оптимизации (в частности, исходная многошаговая схема редукции размерности может быть получена как частный случай нового подхода).
Существование множества одновременно решаемых задач позволяет ставить вопрос об их параллельном решении и использовать, тем самым, для решения сложных оптимизационных задач весь потенциал современных высокопроизводительных многопроцессорных систем. Возможный принцип реализации параллельных вычислений может состоять в организации одновременного (параллельного) расчета значений функционалов оптимизационной задачи в нескольких разных точках области поиска (см., например, [2, 5]). Такой подход характеризуется эффективностью (распараллеливается именно та часть вычислительного процесса, в которой выполняется основной объем вычислений) и общностью, поскольку применим для всех вычислительно-трудоемких задач многоэкстремальной оптимизации.
Общая схема организации параллельных вычислений на основе рассмотренного выше под-
хода состоит в следующем. Один из имеющихся процессоров вычислительной системы выделяется в качестве управляющего узла. Назначение управляющего процессора - выполнение алгоритмических правил алгоритмов глобального поиска, вычисление и передача свободным процессорам точек очередных испытаний, получение и обработка результатов испытаний от всех других процессоров системы. Все другие имеющиеся процессоры (кроме управляющего) являются исполнительными. Эти процессоры получают от управляющего процессора точки очередных испытаний, проводят вычисление значений оптимизируемой функции и передают результаты выполненных испытаний управляющему процессору. Подобная схема параллельных вычислений соответствует одному из широко используемых способов организации параллельных вычислений «менеджер-исполнители», а происходящие в ходе вычислений процессы приема-передачи данных определяют одну из типовых топологий многопроцессорных систем в виде «звезды».
Отметим, что представленная схема характеристической представимости является асинхронной, т.е. каждый процессор-исполнитель взаимодействует с управляющим процессором совершенно независимо от других процессоров и получает точки для проведения новых испытаний незамедлительно после завершения своих
35 30 ш 25
I 20
і 15 > 10 5 0
6 22 42 82
Процессоры
—♦—Центр, схема -1-Центр, схема (модификация)
Рис. 2. Оценка эффективности централизованной схемы параллельного глобального поиска с несколькими управляющими процессорами
вычислений для ранее полученных точек. Данный момент является важным, если время проведения испытаний может различаться (что и имеет место при частичной вычислимости функционалов оптимизационной задачи с ограничениями, при использовании многошаговой схемы редукции размерности и др.).
Существенным недостатком представленной выше централизованной схемы является управляющий процессор, который может оказаться узким местом. Увеличение количества процессоров-исполнителей может привести к ситуации, когда управляющий процессор будет не успевать вычислять очередную точку итерации. Возможный выход из сложившейся ситуации - увеличение количества управляющих процессоров.
Для проведения вычислительных экспериментов использована тестовая задача многоэкстремальной оптимизации, широко используемая при оценке эффективности методов глобальной оптимизации. Минимизируемая функция имеет вид
N
ф(У) = Х(У2 - С0§(18Уі)),
1=1
область поиска есть ^-мерный гиперпараллелепипед
Б = {у є : - 0.5 < у < 1.5,1 < і < Щ ,
и N означает размерность решаемой задачи. Глобальный минимум функции располагается в
точке у = (0,0,...,0) с наименьшим значением
*
функции, равным ф( у )= —N.
При выполнении расчетов параметр надежности алгоритма поиска Стронгина принимался равным г=1.3 при точности є=0.01 по каждой переменной. Количество процессоров изменялось от 6 до 82. Показатели ускорения получаемых параллельных вычислений представлены на рис. 2.
Повышение эффективности глобального поиска на основе адаптивных оценок констант Липшица
Для повышения эффективности вычислений следует обратить внимание на тот факт, что значение константы Липшица может оказаться различным в разных подобластях области поиска. Так, в окрестности точек экстремумов оптимизируемой функции значения производных должны быть близки к нулю, определяя, тем самым, невысокое значение константы Липшица в таких подобластях. Данный момент является принципиальным, поскольку плотность распределения точек испытаний в области поиска в ходе глобального поиска существенно зависит от величины значения константы Липшица.
Один из способов учета разнородного поведения оптимизируемых функций в разных областях поиска состоит в построении отдельных оценок констант Липшица оптимизируемых функций для разных подобластей области поиска. Проведение исследований в данном направлении было инициировано в работе [3]. Далее дается краткое описание подхода, на основе которого предлагается новый способ построения отдельных оценок констант Липшица.
Суть предложенного в [3] подхода состоит в следующем: для построения решающих правил алгоритмов глобального поиска предлагается использовать не единую для всей области поиска оценку константы Липшица, а строить такие оценки для каждого поискового интервала в отдельности. Поскольку получение таких оценок может происходить с достаточно большими погрешностями, то при нахождении локальных (интервальных) оценок должна учитываться и общая (глобальная) оценка константы Липшица.
Базовая схема оценки локальных констант Липшица может быть представлена следующим образом. Рассмотрим оптимизацию одномерных функций (т.е. -N=1), и пусть алгоритм глобального поиска выполнил к>1 итераций поиска. Перенумеруем координаты испытаний (точек области поиска [a,b], в которых вычислялись значения целевой функции) нижним индексом в порядке возрастания координат:
a=х0<х 1 <... <xi<... <хк=b.
Оценка константы Липшица Mi интервала (xi_1,xi), 1 <i<к, вычисляется в соответствии со следующими выражениями:
mi = rMi,Mi = max{ ц'i,ц"i,цо}, (7)
ц' = maxjz^. _ Zj_^l(Xj _ х_): j = г _ 1,i,г +1} , (8)
Ц'= M(Xi _ Xi_l) /dmax , (9)
К,- - 2,_Л
М = тах-----------(10)
1<‘<к х - Х_1
^ = тах(х- -Х-1), (11)
1<1<К
а ^ = ф(х), 0 < ^ < к . Величина ц0 является параметром алгоритма.
Когда г=1 или г=к, для вычисления ц'г из (8) используются только 7=/, г+1 или ]=1-1, г соответственно.
Поясним приведенные соотношения. Величина М является оценкой глобальной константы Липшица Ь на всей области поиска [а,Ъ]. Величин^! Мг, 1<г<к, являются оценками локальных констант Липшица Ьг на интервалах (хг-1,хг), 1<г<к. Каждая такая оценка строится на основе трех величин: ц'г , которая отвечает за локальные свойства функции ф(х) на интервале (хг_1,хг); ц"г, которая следит за глобальными свойствами функции ф(х) на всем отрезке [а,Ъ]; и параметра ц . Когда интервал (хг-1,хг) велик, роль глобальной информации повышается, так как в этом случае локальная информация может быть ненадежной. Когда интервал (хг-1, хг) мал, роль глобальной информации понижается, так как в этом случае большее значение имеет локальная информация, а влияние глобальной информации ослабляется. Наличие параметра ц отражает предположение о том, что функция ф(х) не является константой на отрезке [а, Ъ]. Параметр ц также контролирует чувствительность алгоритма. В случае, когда Ь<ц алгоритм теряет чувствительность к изменениям локальной информации и функционирует как метод полного перебора.
Внимательно проанализировав схему локальной настройки, можно сделать два важных замечания.
Замечание 1. Исследуя характер зависимости (9) влияния оценки глобальной константы Липшица для интервала (хг-1, хг), 1 < г < к, можно сделать вывод, что при построении данного соотношения явно или неявно делалось предположение о квадратичном поведении оптимизируемой функции в окрестности глобального минимума. На самом деле, производная для квадратичной функции имеет вид линейной зависимости, и для определения значения производной на одном интервале при известном ее значении на другом интервале необходимо разделить известное значение производной на длину интервала, на котором задано значение, и умножить на длину искомого интервала.
Отсюда следуют два возможных вывода:
- схема локальной настройки наиболее эффективно будет действовать для многоэкстремальных оптимизационных задач, в которых поведение минимизируемых функций в окрестности глобального минимума является квадратичным;
- схема локальной настройки может быть построена и для многоэкстремальных оптимизационных задач, в которых поведение минимизируемых функций в окрестности глобального минимума не является квадратичным. Но в этом случае следует заменить соотношение (9) - так, для кубического поведения функции в окрестности глобального минимума выражение (9) должно иметь вид
Ц'= М (X _ Х-1) 2 ¿т».
Замечание 2. Локальная (8) и глобальная (9) составляющие интервальной оценки константы Липшица могут рассматриваться как два разных противоречивых критерия при оценке некоторого компромиссного значения константы. Предпочтение одного критерия (например, локальной составляющей) приводит к более быстрому завершению работы алгоритма глобального поиска, однако здесь возможна потеря решения из-за оценки константы Липшица с недостатком. Предпочтение другого критерия (глобальной составляющей) может привести к более продолжительной работе алгоритма глобального поиска из-за оценки константы Липшица с избытком. Как результат, для получения некоторого компромиссного (промежуточного) значения константы Липшица необходима та или иная свертка данных критериев. Так, в рассмотренной выше схеме локальной настройки данная свертка близка к широко известной минимаксной свертке критериев. Возможны и иные способы сверток.
В предлагаемой новой схеме локальной настройки оценка интервальных оценок константы Липшица осуществляется в соответствии с аддитивной сверткой:
тг = гМг,Мг =max{ ц'г+ц"г,ц0}, где величины ц' г, ц" г, ц 0 определяются соотношениями (7)—(11).
Для оценки эффективности предлагаемого подхода были проведены вычислительные эксперименты, в которых в качестве контрольного множества оптимизационных задач использован широко применяемый в научной литературе набор тестовых многоэкстремальных функций
[4, 12].
Результаты экспериментов сведены в таблицу 1. Для сравнения в таблице приведены данные из работ [4, 12] для алгоритма Галперина (АГ), алгоритма Пиявского (АП), алгоритма глобального поиска Стронгина (АГП), адаптив-
ного глобального метода с производными (АГМП) и алгоритма глобального поиска Стронгина с локальной настройкой (АГМ-ЛН). Результаты вычислительных экспериментов для алгоритма глобального поиска Стронгина с локальной настройкой в соответствии с новой предложенной аддитивной схемой свертки обозначены в таблице как АГП-ЛНА.
Точность поиска в расчетах принималась равной е=10-4(й-а). Для алгоритмов Галперина и Пи-явского использовалась точная оценка константы Липшица. Параметры остальных алгоритмов были равны 2 (для АГП, АГП-ЛН и АГП-ЛНА) и 1.1 для АГМП. При минимизации 5-й функции методом АГМП использовалось значение параметра г=2. Для методов АГП-ЛН и АГП-ЛНА параметр Цо устанавливался равным 10-6.
По каждому методу в таблице приведено количество испытаний, выполняемых алгоритмом до выполнения условия остановки. В последней строке таблицы содержится среднее число испытаний по всему набору тестовых задач для каждого метода в отдельности.
Анализируя представленные в таблице 1 результаты, можно отметить, что эффективность предложенной аддитивной свертки значительно превышает эффективность исходной схемы минимаксной свертки (по среднему количеству итераций - не менее чем на 50%). Более того, эффективность глобального поиска с использованием аддитивной свертки приближается к эффективности алгоритмов оптимизации с использованием производных, не требуя при этом дополнитель-
ных вычислении для получения значении производных в точках выполняемых итераций поиска.
Заключение
Статья посвящена исследованию возможностей ускорения процесса поиска глобального экстремума при решении многомерных многоэкстремальных задач оптимизации на основе подхода, базирующегося на применении адаптивной многошаговой схемы редукции размерности. В этом направлении предложено развитие многошаговой схемы за счет распараллеливания решающих правил вычислительного алгоритма. Обсуждены общие принципы организации параллельных вычислений и рассмотрена центральная схема распараллеливания. Отмечены недостатки схемы в случае единственного управляющего процессора и предложена ее модификация за счет введения нескольких процессоров управления. Вычислительный эксперимент для случая нескольких десятков процессоров продемонстрировал значительное ускорение процесса решения и эффективность модифицированной центральной схемы.
Другая возможность по ускорению поиска состоит в более полном учете информации о минимизируемой функции, связанной с локальным ее поведением. Предложена новая аддитивная свертка глобальной и локальной констант Липшица, эффективность которой продемонстрирована на известном тестовом классе многоэкстремальных функций.
Таблица 1
Результаты вычислительных экспериментов для одномерных методов глобальной оптимизации,
Задача Методы глобального поиска
АГ АП АГП АГМП АГП-ЛН АГП-ЛНА
1 377 149 127 16 35 29
2 308 155 135 13 36 27
3 581 195 224 50 136 42
4 923 413 379 15 41 37
5 326 151 126 14 45 31
6 263 129 95 22 54 36
7 383 153 115 13 39 27
8 530 185 188 47 132 42
9 314 119 125 12 42 33
10 416 203 157 12 40 29
11 779 373 405 29 72 56
12 746 327 271 23 69 51
13 1829 993 472 59 45 40
14 290 145 100 15 43 27
15 1613 629 471 41 63 40
16 992 497 557 49 53 45
17 1412 549 470 44 101 81
18 620 303 243 10 41 34
19 302 131 117 12 34 26
20 1412 493 86 24 42 29
В среднем 720.8 314.6 243.15 26.0 58.15 38.05
Список литературы
1. Стронгин Р.Г. Численные методы в многоэкстремальных задачах. М.: Наука, 1978.
2. Strongin R.G., Sergeyev Ya.D. Global Optimization with non-convex constraints: Sequential and parallel algorithms. Kluwer Academic Publishers, Dordrecht, 2000.
3. Сергеев Я.Д. Одномерный детерминированный алгоритм глобального поиска // Ж. вычисл. матем. и матем. физ. 1995. Т. 35. № 5. С. 705-717.
4. Сергеев Я.Д., Квасов Д.Е. Диагональные методы глобальной оптимизации. М.: Физматлит, 2008.
5. Сергеев Я.Д., Стронгин Р.Г. Алгоритм глобальной оптимизации с параллельными итерациями // Ж. вычисл. матем и матем. физ. 1989. Т. 29. №2 3. С. 332-345.
6. Городецкий С.Ю., Гришагин В.А. Нелинейное программирование и многоэкстремальная оптимизация. Н.Новгород: Изд-во ННГУ, 2007.
7. Гергель А.В. Адаптивные многошаговые методы и программные средства параллельной глобальной оптимизации. Дис. ... кандидата техн. наук. Нижний Новгород, 2010.
8. Гергель А.В. Адаптивные параллельные вычисления для многомерной многоэкстремальной оптимизации // Известия вузов. Приборостроение. 2009. Т. 52. № 10. С. 74-80.
9. Гергель В.П., Гришагин В.А., Гергель А.В. Многомерная многоэкстремальная оптимизация на основе адаптивной многошаговой редукции размерности // Вестник Нижегородского университета им. Н.И. Лобачевского. 2010. № 1. С. 163-170.
10. Strongin R.G., Gergel V.P., Markin D.L. Multicriterion multiextreme optimization with nonlinear
constraints // Lecture Notes in Economics and Mathematical Systems. 1988. V. 351. Р. 120.
11. Gergel V.P. A software system for multiextremal optimization // European Journal of Operational Research. 1993. V. 65. № 3. P. 305-313.
12. Г ергель В.П. Об одном способе учета значений производных при минимизации многоэкстремальных функций // Журнал вычислительной математики и математической физики. 1996. Т. 36. № 6. С. 51-67.
13. Gergel V.P. A global optimization algorithm for multivariate functions with Lipschitzian first derivatives // J. Global Optimization. 1997. V. 10. № 3. P. 257-281.
14. Gergel V.P., Sergeyev Ya.D. Sequential and parallel algorithms for global minimizing functions with Lipschitzian derivatives // Computers & Mathematics with Applications. 1999. V. 37. № 4-5. P. 163-179.
15. Gergel V.P., Strongin R.G. Parallel computing for globally optimal decision making // Lecture Notes in Computer Science. 2003. V. 2763. P. 76-88.
16. Gergel V.P., Strongin R.G. Parallel computing for global optimal decision making on cluster systems // Future Generation Computer Systems. 2005. V. 21. № 5. P. 673-678.
17. Стронгин Р.Г., Гергель В.П., Баркалов К.А. Параллельные методы решения задач глобальной оптимизации // Известия высших учебных заведений. Приборостроение. 2009. Т. 52. № 10. С. 25-33.
18. Гергель В.П., Горбачев В.А., Оленев Н.Н., Рябов В.В., Сидоров С.В. Параллельные методы глобальной оптимизации в идентификации динамической балансовой нормативной модели региональной экономики // Вестник Южно-Уральского государственного университета. Серия: Математическое моделирование и программирование. 2011. № 25(242). С. 4-15.
DEVELOPMENT OF A PARALLEL METHOD OF ADAPTIVE MULTISTAGE REDUCTION A. V. Gergel, V.A. Grishagin, R. G. Strongin
Multiextremal optimization methods based on an adaptive multistage dimensionality reduction scheme are considered. These methods are extended for the generalized case of parallel computing and some effective implementation problems are discussed. To speed up calculations, a new procedure is developed to estimate local Lipschitz constants using the additive convolution technique. The results of numerical experiments are given that prove the effectiveness of the proposed computational schemes.
Keywords: multiextremal optimization, adaptive decision rules, parallel computing, Lipschitz constant evaluation.