Уравнение линейной регрессии в ПЛП-поиске

Статников И.Н.; Фирсов Г.И.

УДК 518.5

УРАВНЕНИЕ ЛИНЕЙНОЙ РЕГРЕССИИ В ПЛП-ПОИСКЕ

Статников И.Н., канд. техн. наук,

Институт машиноведения им. А.А. Благонравова РАН, г. Москва E-mail: [email protected]

Фирсов Г.И.,

Институт машиноведения им. А.А. Благонравова РАН, г. Москва E-mail: [email protected]

Аннотация. Рассматриваются вопросы оценки точности и помехозащищенности коэффициентов линейной регрессии, построенной по результатам применения метода ПЛП-поиска, уже зарекомендовавшего себя положительно по критерию рационального проведения вычислительных экспериментов.

Ключевые слова: ПЛП-поиск, эвристические методы оптимизации, метод Монте-Карло, планирование имитационных экспериментов, линейная регрессия.

Abstract. It is examined questions of the estimation of accuracy and noise protection of the coefficients of linear regression, built according to the results of applying the method of PLP- search, of the already recommended itself positively according to the criterion rational conducting of computational experiments.

Keywords: PLP- search, the heuristic methods of optimization, the Monte-Carlo method, planning imitation experiments, the linear regression.

Как известно [1,2], ПЛП-поиск - это метод рационального проектирования объектов искусственной природы, принадлежащий «семейству методов Монте-Карло» [3] и сконструированный на основе планирования .^.-последовательностей [4]. Метод используется для анализа математических моделей (ММ) функционирования проектируемых объектов. Использование ПЛП-поиска при анализе ММ наряду со многими его свойствами [2] предусматривает возможность «свертывания» получаемой численной информации путем построения аппроксимирующих регрессионных зависимостей разного вида. В этом случае постановка

задачи выглядит следующим образом. Пусть задана ММ исследуемой и проектируемой динамической системы в виде

Ь( У (а, г ),а) = 0, (1)

Ф (а) < 0, (2)

где Ь - оператор, воздействующий на систему уравнений (1) (линейный или нелинейный); у (а, г)- вектор фазовых координат системы; ф (а ) - вектор функциональных ограничений на параметры и поведение системы; а = (а1,...,а .) - вектор коэффициентов системы (1), (2), соответствующий определенным конструктивным параметрам проектируемого объекта; в(а)- область допустимых значений параметров в виде /-мерного параллелепипеда

а . <а<а .., / = 1,3,

' }/ (3)

где а.. и а ... - соответственно нижние и верхние граничные значения /'-го параметр а. И, наконец, задана система К критериев качества (в явном или неявном виде)

{ Фк = Фк (а );ае в (а), к = 1, К }. (4)

Необходимо, используя результаты проведенного математического моделирования, построить регрессионные зависимости

Фк = Фк (ё ,а „ ..., а и ) , (5)

того или иного вида, где: т < 3 - число варьируемых параметров (3), оказывающих с заданной вероятностью Р3 влияние на_^инимизацию или максимизацию значений критериев качества (4), а ё - вектор коэффициентов регрессионной зависимости (5).

Для дальнейшего изложения заявленной темы напомним, что в ПЛП-поиске основным конструкционным элементом для проведения вычислительных экспериментов (ВЭ) являются матрицы планируемых экспериментов (МПЭ), параметрами которых являются N - общее чис-

ло ВЭ, равное числу строк МПЭ, и J - число варьируемых параметров a j (j = 1, J), равное числу столбцов МПЭ. При этом важнейшими параметрами построения МПЭ и статистической обработки результатов ВЭ также являются: M- количество уровней (сечений), на которые разбивается каждый варьируемый параметр а. (разработаны два варианта построения МПЭ: M = const (планирование с фиксированным числом уровней) и M = var (разноуровневое планирование)); H - число значений критерия в /-ом сечении j-го варьируемого параметра (объем выборки), если M = const и H = H., если M. = var. В свою очередь, для каждого из указанных вариантов МПЭ предусмотрены и такие случаи [5]:

а(ау* +£jУ** £j (аУ* £j,а+£j

где а * и а j„- соответственно нижняя и верхняя границы интервала варьированияу-го параметра, а 0 < £ j << 1.

Рассмотрим уравнение линейной регрессии в ПЛП-поиске

<(© , а) = 90 + в, а, +...+ <9 а • (7)

0 11 т т

Здесь © - вектор коэффициентов уравнения (7), а угольнички над буквами означают, что в уравнении реально стоят оценки величин коэффициентов 9, а не их истинные значения. Вывод формул оценок (8) уравнения (7) подробно описан в [1]:

M 2(3J +1) -1 N о

Ф -

6M Nn J - V Фт У

-1) У Р=

0 mh(m2-1) m=i н(m2-1) у -у атр>

(8)

6M

H (M2 -1)

No N0

2 У Ф a .-у у m=1 т т, т= т

, j = 1, J.

Следует заметить, что для вывода аналитических зависимостей (8) методом наименьших квадратов (МНК) были использованы приближения при вычислении ряда выражений. Например, для подсчета сумм

Х^ОуГ 'т

¿=1П, а принято при М =const = М, что

INn Jm aj - NE (П J aj ) (9)

Здесь: в (9) E (•) - математическое ожидание величины (Пj aj) в одной серии, tj - показатель степени, в которую возводится параметр aij(ti= 1,2,...); в одной серии i = 1,M,а число серий равно H = N0/M. Как и обычно для метода Монте-Карло, среднеквадратичное отклонение ошибки a (S J) между левой правой частями равенства (9) обратно пропорционально л/Nr Анализ построенных зависимостей a(SJ) от M и H для конкретных t. и j в единичном гиперкубе показал, что величина a (S J), начиная с некоторых значений H, мало меняется; существенное ее уменьшение наблюдается лишь при переходе к большему числу экспериментов M в одной серии, что объясняется тем, что МПЭ в ПЛП-поиске соответствуют очень большим значениям критерия D - оптимальности [1,5]. Заметим, что указанные свойства МПЭ сохраняются и при разноуровневом планировании, но скорость сходимости a (S J )к минимальным значениям ниже, чем в случае M = const.

Реальные возможности уравнения (7) в смысле достигаемой точности проверялись на тестовых линейных функциях^ k(a) без «шума» и с ним, где в качестве «шума» использовалась «добавка» равномерно распределенных по вероятности псевдослучайных чисел в интервале (-ДД) c заранее вычисляемой дисперсией этих чисел D = (2 в)2/12 = Р2/3. Точность аппроксимации проверялась по сумме двух критериев: среднеквадратичному отклонению 51(a) между функциями f k(a) и (в, a) и среднему значению модуля отклонений между этими функциями s (a), т.е., сумма S равнялась:

S = c1s1(a) + c2 s2(a), (10)

где с1 и с2 - веса значимости выбранных критериев точности. В предположении, что с1 + с2 = 1, и что эти критерии равноценны (сугубо индивидуальное допущение), формула (10) принимает простой вид:

5 = 0.5( 51(а) + s2(a)).

В ходе экспериментальных исследований тестовых функций подтвердилась роль параметра га, введенного в [1] как критерия, мини-

мизирующего или сводящего к нулю количество одинаковых строк в МПЭ, если выполняются следующие неравенства:

2/MJ-1 < ш < 10-J при Mj = const (11)

и

2/(M*)J-1 < ш < 10-J при M = var, (12)

где M* = J ^ __Ц Mj - среднее гармоническое количество уровней варьируемых параметров.

По поводу тестовых функций скажем лишь то, что в них подбирались различные сочетания коэффициентов (положительные и отрицательные, рациональные и иррациональные, разнопорядковые), а в двух экспериментах выбранные коэффициенты обеспечили отрицательные значения средней величины выборки, что предоставило возможность уточнить свойства алгоритма построения вектора 0 в уравнении (7). Анализ результатов подтверждает роль параметра ш и при решении задачи аппроксимации экспериментальных данных уравнением линейной регрессии: чем ближе значения этого параметра к левой границе неравенств (11) и (12) при соблюдении самого левого граничного условия, тем выше точность аппроксимации. Кроме того, анализ показал, что для большинства исследовавшихся функций критерии Sk достигают лучших значений при разноуровневом планировании, чем при M = const при приблизительно одинаковых величинах ш. Этот факт объясняется неодинаковым (вероятностным) влиянием варьируемых параметров на величины Sk. Поэтому, при исследовании ММ с дальнейшим прицелом на построение регрессионных зависимостей, возможна существенная экономия ВЭ при следующей тактике: сначала с помощью ПЛП-поиска проводится небольшой вычислительный эксперимент (несколько сотен ВЭ), затем устанавливается и ранжируется степень вероятностного влияния на те или иные критерии, а после назначается вектор количеств уровней варьируемых параметров M _ (M1,...,Mj), что позволит при общем (суммарном [1]) числе ВЭ, более меньшем, чем если бы проводить вычислительный эксперимент «вслепую», достигнуть желаемой точности аппроксимации.

Очень важна, сама по себе, и точность значений составляющих вектора 0, особенно, при наличии на входах аппроксимируемой функции шумов. Для ответа на этот вопрос проводились следующие ВЭ.

При построении МПЭ для каждой функции к значениям варьируемых параметров а. добавлялись шумы в, равномерно распределенные по вероятности в интервале (-в, в) при условии, что | в | <<1, т.е., элементы строки ав МПЭ равнялись а= а. + в. Далее, считали отношение среднеквадратичных отклонений матриц {а.} и {в.}: оп = о (в)/о (а) Для ряда значений о№ и при различных га по матрицам {а.} и {

1

восстанавливались оценки коэффициентов 9. и 9. для уравнения (7). По этим оценкам производились вычисления относительных погрешностей д.между значениями 9%.из уравнения (7) и 0 , и относительных погрешностей между 9 и 9^ по формулам:

д. = | 9... - 9. / 0_. |и д.|9- 0. / 0 . |. (13)

} 1 Т. Ч Т. I ^ I 3 3 I V ^

Если в тестовой функции 9Г0 то указанные погрешности считались по формулам:

д = |9 . | и д . | 9 -0 . |. (14)

. 1 ч 1 1 . ч I у 7

Результаты расчетов по формулам (13) и (14) усреднялись для вычислительного эксперимента

5= —У 5. и 5* = —У 5. (15)

3 +1 .=0 . 3 +1 .=0 ^

и эти величины 5 и 5* рассматривались как функции двух параметров о№ и га. Анализ изменения величин (15) для при различных значениях га показал, что точности 5 и 5* подчиняются той же зависимости от параметра га, что и общие критерии точности аппроксимации: чем лучше выполняются неравенства (11) и (12), тем выше эти точности. Также видно, что при М = уаг для одних и тех же значений га, что и при М =сош1;, исследуемые точности могут оказаться выше: этот эффект уже объяснен выше. Кроме того, получено, что при одних и тех же значениях га точности 5* всегда выше точностей 5 . Этот эффект обязан способу построения формул (8) - методу МНК, который всегда является дополнительным фильтром от помех. Резюмируя изложенный материал, полагаем что формулы (8) линейной аппроксимации результатов

ВЭ, полученных на ММ, при соблюдении описанных рекомендаций обеспечивают наперед заданную точность, если установлен сам факт линейной зависимости конструктивных параметров от предъявляемых критериев. Это позволяет во многих случаях перейти от сложных дифференциальных зависимостей к простым (например, алгебраическим) и использовать последние как предварительные при проектировании объекта, а иногда и как окончательные.

ЛИТЕРАТУРА

1. Статников И.Н., Андреенков Е.В. ПЛП-поиск - эвристический метод решения задач математического программирования. - М., 2006.

2. Статников И.Н., Фирсов Г.И. Решение задач проектирования динамических систем интеллектуальным методом ПЛП-поиска // Вестник Московского финансово-юридического университета. 2012. № 1. С. 28-33.

3. Бусленко Н.П., Голенко Д.И., Соболь И.М. и др. Метод статистических испытаний (метод Монте-Карло) / Под ред. Ю.А. Шрейде-ра. - М., 1962.

4. Соболь И.М. Многомерные квадратурные формулы и функции Хаара. - М., 1969.

5. Ермаков С.М., Бродский В.З., Жиглявский А.А. и др. Математическая теория планирования эксперимента // Под ред. С.М.Ермакова. -М., 1983.

Уравнение линейной регрессии в ПЛП-поиске Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Статников И. Н., Фирсов Г. И.

Похожие темы научных работ по математике , автор научной работы — Статников И. Н., Фирсов Г. И.

Equation of linear regression in the plpsearch

Текст научной работы на тему «Уравнение линейной регрессии в ПЛП-поиске»