Научная статья на тему 'Симплексный метод как адаптивный алгоритм'

Симплексный метод как адаптивный алгоритм Текст научной статьи по специальности «Математика»

CC BY
183
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АППРОКСИМАЦИОННЫЙ ГРАДИЕНТ / СИМПЛЕКСНЫЙ МЕТОД / АДАПТИВНЫЙ АЛГОРИТМ

Аннотация научной статьи по математике, автор научной работы — Бигильдеев Сергей Иванович

В статье рассматривается связь симплексного метода [9] с методами аппроксимационного градиента

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Симплексный метод как адаптивный алгоритм»

СИМПЛЕКСНЫЙ МЕТОД КАК АДАПТИВНЫЙ АЛГОРИТМ

С. И. Бигильдеев

В статье рассматривается связь симплексного метода [9] с методами ап-проксимационного градиента [1].

Ключевые слова: аппроксимационный градиент, симплексный мет,од, адаптивный алгоритм.

1. Введение

Адаптивные алгоритмы предназначены для численного решения задач безусловной минимизации. Они основаны на методе аппроксимацион-ного градиента [1].

Следуя работе [5], приведем определения используемых здесь понятий. Будем рассматривать суммируемую по мере Лебега на всем пространстве І?" с компактным носителем функцию /, то есть / Є Ь1(ії”). Через | х | будем обозначать евклидовую норму вектора х, а через В$(х) — шар радиусом 8 с центром в точке х. Шар с центром в начале координат будем обозначать В$.

Определение 1. рг(з) = рг(| « |) — весовая функция, если

1° для Уг > 0 Рг($) > О У в Є і?"; 0 < <іг = ^ / | 5 12рг(з)ёз < оо и

я™

рг может иметь особенность только в нуле, т.е. рг Є Ь°°(А) для любого измеримого множества А, для которого 0 0 А;

2° для, любой суммируемой финитной функции (зирр ср - компакт) такой, что <р(з) = о(| 5 |) при | « | —> 0? выполняется условие

,1Г = — [ I 5 І І ір(з) І рг(з)йз ^ 0 при г ^ +0 (см,. [2]). аг )

ЛГ

К

Отметим, что простейшим примером весовой функции служит характеристическая функция шара Вг.

Нетрудно также заметить, что пункт 2° будет выполнен, если для Уг > 0 зирр рг С ВТ.

Определение 2. Аппроксимациоппым градиентом функции / в точке х будем называть следующий интегральный оператор свертки:

Определение 3. Субдифференциалом, по мере функции, / в точке х называется множество

и буквой, Р обозначено множество весовых функций, a, sup подразумевает

поиск супремума на этом множестве.

Множество дTf(x) характеризует локальные свойства функции / и является обобщением субдифференциала Ф. Кларка [8].

Метод аппроксимационного градиента можно интерпретировать как метод поиска точки х* € Кп, для которой суб дифференциал по мере содержит нулевой элемент, то есть 0 € дт$(х*). Такую точку х* будем называть существенно стационарной.

Численные алгоритмы поиска минимума функции по методу аппроксимационного градиента главным образом основаны на построении последовательности, сходящейся к существенно стационарной точке. В них аппрок-симационный градиент играет роль, подобную роли градиента в гладких методах. При этом интеграл тем или иным способом заменяется интегральной суммой или вычисляется аналитически.

В базовой схеме аппроксимационный градиент вычисляется по некоторой равномерной сетке в области интегрирования. При этом значения функции во всех узловых точках берутся с заранее заданными (чаще всего одинаковыми) весами. В данном случае не удается найти с достаточно высокой точностью решение разрывных задач, в которых точка минимума находится на поверхности разрыва и вдоль разрыва функция убывает. Это обусловлено тем, что в точке разрыва норма аппроксимационного градиента стремится к бесконечности, если диаметр области интегрирования стремится к нулю. Поэтому в таких точках аппроксимационный градиент "разворачивается" в направлении, перпендикулярном к линии разрыва, что препятствует движению вдоль него.

dTf(x) = G Rn : (£, и) < fr(x;u), Уи G Rn}

где

f'T(x\u) = sup limsup {ar(f)(y), и)

P (y,r)^(x,+0)

p

Основная идея адаптивных алгоритмов состоит в корректировке первоначального приближения аппроксимационного градиента за счет добавления новых узловых точек. Каждая новая (т+1)-я узловая точка выбирается с учетом направления полученного приближения аппроксимационного градиента на т узловых точках. Далее аппроксимационный градиент пересчитывается для (т+1)-й точки, что определяет выбор следующей узловой точки. Такие алгоритмы более эффективны, и используемая в них идея придает недостающую гибкость базовой схеме. Адаптивные алгоритмы в состоянии двигаться вдоль разрывов в направлении убывания функции и способны решать достаточно сложные задачи разрывной оптимизации.

2. Описание адаптивных алгоритмов

Как отмечено во введении, основная идея адаптивных алгоритмов [3; 4; 6] состоит в корректировке первоначального приближения аппроксимационного градиента за счет добавления новых узловых точек. Процедура накопления узловых точек и корректировки аппроксимационного градиента продолжается до выполнения одного из следующих трех условий:

1) новое приближение аппроксимационного градиента дает узловую точку, в которой значение функции не меньше, чем в предыдущей;

2) норма аппроксимационного градиента оказывается меньше наперед заданного числа;

3) число узловых точек достигает максимально допустимого.

Если для данного значения г накопление узловых точек не приводит к построению направления убывания функции, то г дробится до тех пор, пока не достигнет минимально допустимого значения или не будет найдено искомое направление. Поиск точки в направлении убывания функции определяется одним из способов выбора шага по направлению.

Пусть х — приближение для точки ж*, полученное на последней итерации алгоритма. При построении направления убывания функции / будем использовать аппроксимационные градиенты не только в точке х, но и в соседних точках. Это обеспечит лучшие адаптационные способности алгоритма и будет соответствовать определению элементов множества дтf(x) как пределов аппроксимационных градиентов аг($)(у), получаемых при предельном переходе как по параметру г, так и при у ^ х.

Представим аиироксимационный градиент следующим образом:

Ог(/)(у) = ^“ / ^/(у + и)Рг(\ V I)<й/ = ^- J (5 - 5"г)/(® + «)Рг(| в - «г |)<*«,

г Я™ Г Нп

где 5 = V + у — X, вг = у — X.

Если функция рг(з) = рг( | 5 — зг |) задана, то она определяет "вес"точки з, с которым эта точка входит в аппроксимационный градиент. В дальнейшем "вес"точки 5 будем задавать, исходя из значения /(ж + «). Таким образом, зг представляет собой среднее значение переменной 5 и определяется по формуле

-1

пп

Приведем расчетные формулы одного из способов реализации такого алгоритма. Будем строить весовую функцию, сосредоточенную в шаре Вг(х). Аппроксимационный градиент заменим интегральной суммой с (т + 1) узловыми точками, расположенными в этом шаре:

т

аг(Л(х + зг) « = й-1 - ёМ)ЬАг,

г=0

рде 8(г) _ узловые ТОЧКИ В шаре вг (0 < 7, < т)-, fi = f(x + 3^)] Xi = ^ т

(/ рг(з)с1з/ рг(з)д,з > 0 — весовые коэффициенты, Л* = 1;

ВТ П; г=0

т

Пг — некоторые подобласти Вг такие, что У = Вг и П £1^ = 0 для

г=0

ТТЬ тп

* Ф 3 (0 < * < т, 0 < j < т) з(т) = ^ с!гп = ^ || «М — з^ ||2 А*.

г=0 г=0

_ ш ш

Пусть /(™) = £А*/*; д(т) = Е\и$(г)- Тогда а<т) = ^1(5М -

г=0 г=0

^(т)д(т)у дта формула соответствует замене в интегральной сумме функции / на кусочно - постоянную функцию в областях П^.

Первоначальное приближение аппроксимационного градиента вычисляется по (п + 1) точке, где п — размерность пространства, например, следующим образом: 5® = (0;...;0)т, = (г; 0;0)т,= (0;0; г)т;

\. — 1 Лг — п+1 ■

Очередную т + 1 узловую точку можем выбирать на поверхности

‘ ‘ ‘ (то) '

(то) I

шара Вг так, что 5(то+1) = —г . При вычислении нового приближения

аппроксимационного градиента весовой коэффициент для дополнительной узловой точки положим равным одному и тому же числу /3 (0 < /3 < 1). Тогда = (1-/3)в(т)+/Зв(т+1); /<т+1) = (1^/3)/(т) +/3/(то+1); 9(т+1) = (1 - /%<™) + /3/(т+1 ёт+1 = (1 - Р)[ёт + /3 || - Е™ ||2].

В результате (1 — /3) играет роль некоторого коэффициента "памяти"о средних значениях /^, ёт и д^тК

Следует отметить, что, хотя адаптивные алгоритмы содержат элементы эвристики и пока нет доказательства их сходимости, используемая в них идея придает недостающую гибкость основной схеме методов аппроксимационного градиента. Прежде всего это связано с тем, что процедура накопления узловых точек дает возможность строить приближения для вг и рг(в) весовой функции, для которых норма аппроксимационного градиента минимальна.

В то же время в адаптивных алгоритмах первоначальное приближение аппроксимационного градиента может быть достаточно грубым и только содержать информацию о значениях функции в линейно независимых направлениях.

Одна из особенностей такого алгоритма состоит еще в том, что для корректировки направления аппроксимационного градиента достаточно хранить только усредненные характеристики множества узловых точек.

Приведенная здесь схема накопления узловых точек и, таким образом, выбора направления убывания функции представляет собой один из способов реализации таких алгоритмов. Модификаций адаптивных алгоритмов очень много. Каждая из них определяется видом области интегрирования, способами задания в ней весовой функции и аппроксимации целевой функции /, а также точкой области интегрирования, из которой необходимо осуществлять шаг по направлению. Кроме этого, имеется масса вариантов выбора шага по направлению.

В данном подразделе приведена схема метода, в которой в качестве области интегрирования выбран шар с центром в точке х. Все узлы интегральной суммы задавались на поверхности шара, кроме одного центрального. Целевая функция / аппроксимировалась кусочно - постоянной функцией. Напраление ее убывания определялось по приближению аппроксимационного градиента, вычисляемого в точке у = х + зг, а не в точке х, то есть в точке, являющейся приближением искомой точки минимума на очередной итерации алгоритма. Шаг же по направлению или выбор очередной узловой точки осуществлялся ИЗ ТОЧКИ X.

Многообразие вариантов адаптивных алгоритмов позволяет с единой точки зрения рассматривать различные численные методы. Ниже показано, как с этой точки зрения может быть представлен симплексный метод [9; 7].

3. Представление симплексного метода в виде адаптивного алгоритма

Опыт использования симплексного метода для решения негладких и разрывных задач хорошо известен [9; 7]. Он является эвристическим методом и не имеет никакого теоретического обоснования. Покажем, что его можно интерпретировать как простейшую схему адаптивного алгоритма.

Этот метод представляет собой следующий алгоритм [9].

Пусть заданы три параметра: коэффициент отражения а > О, коэффициент растяжения /3 > 1 и коэффициент сжатия 7 Є (0; 1), а также вершины симплекса ж0, ж1,ж”. Нумерация вершин такова, что /(ж0) < /(ж1) < ... < /(ж”).

Основная идея метода состоит в том, чтобы заменить вершину ж” с наихудшим (максимальным) значением целевой функции / на новую вершину, в которой значение целевой функции как можно меньше. Это осуществляется с помощью операций отражения, растяжения и сжатия.

Итерация начинается с выполнения операции отражения, результатом

і ”-1 -

которой является точка и = ж” + (1 + а)£, где ^ хг — ж”.

” г=0

После вычисления в этой точке значения функции / может представиться один из трех случаев:

1) Если /(ж0) < /(и) < /(ж”-1), то вершина ж” заменяется на и, чем и определяется набор вершин симплекса на следующей итерации.

2) Если /(и) < /(ж0), то направление отражения является перспективным и делается попытка растянуть симплекс в данном направлении. С этой целью значение функции / вычисляется в точке V = ж” + (1 + а/3) При f(v) < f(u) вершина ж” заменяется на V, в противном случае — на и, и итерация завершена.

3) Если /(и) > /(ж”-1), то результатом отражения является точка, которая не лучше наихудшей вершины ж”. В таком случае производится сжатие симплекса. Значение / вычисляется в точке

ад =

ж” + (1 - 7)£, если /(ж”) < /(и)

ж” + (1 + «7)£, если /(ж”) > /(и)

При /(го) < min{/(ж”), f(u)} вершину ж” заменяют на w. В противном случае симплекс уменьшают в два раза, оставляя лучшую точку ж0 на месте, то есть вершины нового симплекса задают точками хг = 0, 5(ж°+жг), г = 0, п.

Данный метод может быть представлен в виде адаптивного алгоритма, в котором на очередной итерации приближением искомой точки минимума является точка х = ж0. При этом направление убывания функции / представляет собой вектор £ с началом в точке у = хп, являющийся приближением аппроксимационного градиента в этой точке, вычисленного по минимально возможному числу узлов т = п + 1.

Действительно, пусть pr(s) — характеристическая функция шара Вг и все вершины симплекса ж0, ж1, ... , ж” содержатся в шаре Вг(ж”). Тогда

Г scds = 0 и Вг

аг(/)(ж") = J sf(xn + s)ds = J (z^xn)f(z)dz =

Г Вг Г Br(x^)

= -j- I (z^xn)[c^f(z)]dz,

T BT(xn)

где постоянная с > /(ж”).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заменим вектор ar(f)(ж”) интегральной суммой

1 ”

(hr- . п

' г=0

где Vi — объемы множеств fij (i = 0, п), представляющих собой разбиение шара Вг, такие, что х% G Oj и Vfl = Jr[c — /(ж*)] > 0.

Так как функция

А п

fh ■ п

г=0

непрерывна на промежутке (/(ж”);+оо) и д{с) +оо при с /(ж”) + 0, д(с) +0 при с +оо, то на этом промежутке найдется с* такое, что д(с*) = Vr, где Vr — объем шара Вг.

В результате, выбирая с = с* > /(ж”), получим

п 11 ^

ar(f)(xn) и = - У (хг ^хп)- =-----------Уж'+ж" К.

“ п п “

г=0 г=0

Таким образом, симплексный метод представляет собой простейшую схему адаптивного алгоритма, использующую минимально возможное число узлов.

Список литературы

1. Батухтин В.Д., Майборода Л .А. Оптимизация разрывных функций. М.: Наука, 1984.

2. Бесов О.В., Ильин В.П., Никольский С.М. Интегральные представления функций и теоремы вложения. М.: Наука, 1975.

3. Batukhtin V.D., Bigil'deev S.I., Bigil'deeva T.B. Approximate Gradient Methods and the Necessary Conditions for the Extremum of Discontinuous Functions // Nonsmooth and Discontinuous Problems of Control and Optimization (NDPCO’98). Proceeding volume from the IFAC Workshop, Chelyabinsk, June 1998. P. 25-34.

4. Батухтин В.Д., Бигильдеев С.И., Бигильдеева Т.Б. Численные методы решения разрывных экстремальных задач // Изв. РАН. Теория и системы управления. 1997. т. С. 113-120.

5. Батухтин В.Д., Бигильдеев С.И., Бигильдеева Т.Б. Оптимизация суммируемых функций // Кибернетика и системный анализ. 2002. .\'"3. С. 73-89.

6. Бигильдеев С.И. Адаптивный алгоритм оптимизации разрывных функций // Тез. докл. Межотрасл. науч.-практ. конф. "Снежинск и наука" / Под общ. ред. В.М.Сковпеня. Снежинск: СФТИ, 2000. С. 26-27.

7. Гилл Ф., Мюррей У., Райт М. Практическая оптимизация. М.: Мир, 1985. 509 с.

8. Кларк Ф. Оптимизация и негладкий анализ. М.: Наука, 1988. 279 с.

9. Сухарев А.Г., Тимохов А.В., Федоров В.В. Курс методов оптимизации. М.: Наука, 1986. 328 с.

Челябинский государственный университет [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.