Научная статья на тему 'Формирование области определения линейной регрессионной зависимости'

Формирование области определения линейной регрессионной зависимости Текст научной статьи по специальности «Математика»

CC BY
125
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕГРЕССИОННАЯ МОДЕЛЬ / ПРОГНОЗИРОВАНИЕ / ОБЛАСТЬ ОПРЕДЕЛЕНИЯ / REGRESSION MODEL / FORECASTING / SCOPE

Аннотация научной статьи по математике, автор научной работы — Носков Сергей Иванович, Врублевский Иван Петрович

Рассматривается метод построения области определения регрессионной модели, позволяющий корректно применять ее при прогнозировании за счет оценки степени допустимости будущих значений независимых переменных. Метод основан на построении для каждой объясняющей переменной своей линейной регрессионной зависимости, в которой эта переменная выступает в качестве зависимой. Ошибки аппроксимации этой зависимости трактуются как характеристики ширины области допустимых значений для соответствующей переменной. Декартово произведение этих характеристик и предлагается трактовать как область определения исходной модели. Далее в статье рассматриваются так называемые «мягкая» и «жесткая» интерпретации области определения регрессионной модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Носков Сергей Иванович, Врублевский Иван Петрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FORMING DEFINITION INTERVAL A LINEAR REGRESSION

A method for constructing the field of determination of the regression model, which allows to apply it correctly in the prediction due to the assessment of the permissibility of future values of independent variables is considered. The method is based on constructing, for each explanatory variable, a linear regression in which this variable acts as a dependent. The error of approximation of this dependence is interpreted as the characteristic width of the region of permissible values for the corresponding variable. The Cartesian product of these characteristics is proposed to interpret the scope of the original model. Further, the article examines the so-called "soft" and "hard" interpretation of the scope of the regression model.

Текст научной работы на тему «Формирование области определения линейной регрессионной зависимости»

Информатика, вычислительная техника и управление

Для проверки правильности найденных экстремумов использованы другие начальные симплексы, также полученные способом максимально возможного влияния отдельного параметра, которые привели к схожим результатам.

Из всего вышесказанного следует, что методика решения задачи определения параметров нейронной сети с применением метода Нелдера -Мида может успешно применяться при настройке нейронных сетей, реализующих ПИД-закон регулирования.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Сабанин В.Р., Смирнов Н.И., Репин А.И. Автоматический системы регулирования на основе

нейросетевых технологий // Сборник трудов конференции Control 2003. М. : Изд-во МЭИ, 2003.С. 10-18.

2. Терехов В.А., Ефимов Д.В., Тюкин И.Ю. Нейросетевые системы управления. М. : ИПРЖР, 2002. 480 с.

3. Математический синтез оптических наноструктур / К.П. Ловецкий, Л.А. Севастьянов, О.Н. Бикеев, М.В. Паушто. М. : Изд-во РУДН, 2008. 143 с.

4. Химмелъблау Д. Прикладное нелинейное программирование. М. : МИР, 1975. 536 с.

5. Бураков М. В., Кирпичиков А. П. Синтез дискретного нейро-Пид регулятора // Вестник казан. технол. ун-та. 2014. № 1(17). С. 286-288.

УДК 614.841.3 Носков Сергей Иванович,

д. т. н., профессор, профессор кафедры «Информационные системы и защита информации», Иркутский государственный университет путей сообщения,

e-mail: [email protected] Врублевский Иван Петрович, аспирант, Иркутский государственный университет путей сообщения,

e-mail: [email protected]

ФОРМИРОВАНИЕ ОБЛАСТИ ОПРЕДЕЛЕНИЯ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ ЗАВИСИМОСТИ

S. I. Noskov, I. P. Vrublevskiy

FORMING DEFINITION INTERVAL A LINEAR REGRESSION

Аннотация. Рассматривается метод построения области определения регрессионной модели, позволяющий корректно применять ее при прогнозировании за счет оценки степени допустимости будущих значений независимых переменных. Метод основан на построении для каждой объясняющей переменной своей линейной регрессионной зависимости, в которой эта переменная выступает в качестве зависимой. Ошибки аппроксимации этой зависимости трактуются как характеристики ширины области допустимых значений для соответствующей переменной. Декартово произведение этих характеристик и предлагается трактовать как область определения исходной модели. Далее в статье рассматриваются так называемые «мягкая» и «жесткая» интерпретации области определения регрессионной модели.

Ключевые слова: регрессионная модель, прогнозирование, область определения.

Abstract. A method for constructing the field of determination of the regression model, which allows to apply it correctly in the prediction due to the assessment of the permissibility of future values of independent variables is considered. The method is based on constructing, for each explanatory variable, a linear regression in which this variable acts as a dependent. The error of approximation of this dependence is interpreted as the characteristic width of the region ofpermissible values for the corresponding variable. The Cartesian product of these characteristics is proposed to interpret the scope of the original model. Further, the article examines the so-called "soft" and "hard" interpretation of the scope of the regression model.

Keywords: regression model, forecasting, scope.

Рассмотрим линейную регрессионную зависимость (регрессию) вида

т

У к =Е агХШ+£ к , к = \п , О)

г=1

где п - число наблюдений (длина выработки); ук и Хй , к = 1, п , г = 1, т - значения зависимой и независимых переменных соответственно; а{, г = 1, т - подлежащие оцениванию параметры;

вк , к = 1, п - ошибки аппроксимации. Присутствие в уравнениях вида (1) этих составляющих означает, что данная связь описывает процесс не точно, а с некоторой погрешностью. Это может быть вызвано:

■ неточностями в регистрации значений зависимой и независимых переменных;

■ влиянием помех;

■ неучетом ряда значимых факторов;

■ неточным (неудачным) выбором формы связи между переменными или метода оценивания параметров.

Для удобства последующего изложения представим уравнение (1) в матричной форме:

у = Ха + в , (2)

где У = (К,..., Уп )Т ' а = ат )Т , в= (в15..., в я У ,

X- (пхш) - матрица компонент хы .

Важным этапом разработки систем статистических моделей различных объектов является построение так называемой области определения (или нормальной области) для каждой отдельной зависимости. Высокая значимость этого этапа является следствием необходимости ограничения сферы применения регрессии (1) посредством недопущения ее использования при прогнозировании для анализа ситуаций, плохо согласующихся со статистической информацией, на основе которой осуществлялась идентификация регрессионных параметров. Так, достоверность прогноза зависимой переменной, полученного для недопустимого («ненормального») вектора ~ значений независимых факторов, резко снижается, поскольку в выборке в этом случае могут отсутствовать наблюдения, сколько-нибудь «похожие» на ~ . При построении области определения регрессии (ООР) принято исходить из следующих требований.

Во-первых, она должна содержать только такие га-мерные вектора (в случае га-факторной регрессии), каждая компонента которых ограничена снизу и сверху величинами, вытекающими из содержательного смысла показателей, и пропорции между компонентами соответствует пропорциям, характерным для всей выборки в целом.

Во-вторых, ООР должна быть выпуклой, поскольку очевидным является требование допустимости любого вектора, лежащего на соединяющем две допустимые точки отрезке.

В-третьих, ООР не должна включать вектора, на которых зависимость не имеет смысла (например, логарифм от отрицательного числа, ноль в знаменателе и т. д.).

В литературе по прикладной статистике вопросам формирования ООР уделялось значительно меньшее внимание, чем другим регрессионного моделирования. К работам, в которых эти вопросы рассматривались, следует отнести монографии [1, 2]. Однако в [1] предложены по существу способы построения областей определения лишь производственных функций, базирующиеся на их специфике. Эти способы достаточно трудоемки и учитывают только парные пропорции между значениями регрессоров в выборке. Метод, разработанный в [2], имеет итерационный характер и основан на

использовании так называемых полюсов и осей совокупности признаков. Его недостатком следует считать отсутствие формализованного описания нормальной области.

Вместе с тем представляется, что подход к построению ООР должен быть не только хорошо содержательно обоснованным, но и базироваться на несложных приемах, допускающих возможность его органичного «встраивания» в соответствующую технологию моделирования. Впервые идея такого подхода описана в монографии [3].

Прежде всего сформируем множество, задаваемое границами допустимости значений независимых переменных:

Е = [х е Яп

{х е Дт|хг е [х", хг+ ], i = 1, m}.

При задании таких границ могут быть использованы формальные и содержательные соображения, справочные материалы, нормативы и т. д.

Для выявления множественных межфакторных пропорций между независимыми переменными зависимости (1) построим для каждой 1-й переменной на основе минимизации выбранной функции потерь линейную регрессию вида

хи =

X ßjXj + 5'kk = 1,ni = 1,m. (3)

j=1, j *i

Отметим, что, в отличие от уравнения (1), ошибки аппроксимации в котором тем лучше, чем они меньше, ошибки аппроксимации регрессий (3) должны быть как можно больше, увеличивая тем самым прогностическую способность модели (1) за счет возможности варьирования значений независимых переменных в рамках более широкого диапазона.

Определим минимальное и максимальное значения ошибок 5' следующим образом:

5'~ = min 5', ,Si+ = max 5,. k k k k

С учетом этих обозначений ООР может быть сформирована в виде

D=<хеE

б[ J j +S'-, £ j + Г],i = 1,ml-(4)

J=UJ*' J=1,J*i J

Помимо функции описания ООР, множество D вида (4) имеет важную содержательную интерпретацию. Определим его относительный размер L, задаваемый формулой

L-— V 5' ~5' m '=i X*

•X 100% :

(5)

где X = тах хк1\.

к=1, п

Тогда Ь может рассматриваться как еще один критерий адекватности уравнения регрессии (1) наряду с критериями множественной детерми-

m

Информатика, вычислительная техника и управление

нации, Фишера, Стьюдента, точности аппроксимации, смещения, согласованности поведения и другими (см., например, [3-9]). Критерий L может быть назван критерием информативности выборки. Действительно, даже при исключительно высоких значениях традиционных критериев прогностические возможности модели могут быть крайне ограниченны вследствие узости ООР (4), являющейся следствием низкой информативности обрабатываемой выборки.

При использовании регрессии (1) в режиме прогнозирования необходимо «помнить» не только ее параметры а, но и параметры в регрессий (3) для того, чтобы иметь возможность убеждаться в допустимости каждого нового вектора значений независимых переменных.

В работе [1] предлагается налагать на ООР требование ее открытости. Аргументация такого требования состоит в следующем: если вектор z принадлежит ООР, то есть допустим, значит таковыми должны быть и все вектора из окрестности z. Думается, что открытость ООР вовсе не обязательна (легко видеть, что множество D замкнуто). Действительно, пусть z е D, но z + D, где т] - вектор, составленный из малых величин. Тогда расстояние от z + ] до множества D также будет мало, значит, можно говорить о «почти» допустимости z + т]. В общем случае при решении прогнозных задач для любого вектора z можно либо сделать вывод о его допустимости (если z е D), либо определить, насколько он недопустим, рассчитав расстояние от него до множества D. При этом расстояние будет определяться по формуле

р(z,D ) = min |£|z,-.

у

Для недопустимого вектора г достоверность прогнозного значения переменной у будет тем выше, чем меньше расстояние между г и В. Этот тезис соответствует «мягкой» трактовке допустимости. При «жесткой» же ее трактовке в случае, когда г £ О, нельзя использовать для прогнозирования регрессию (1), а следует перестроить мо-

дель, подобрав другую аппроксимирующую функцию. Может оказаться, что для разных значений г на периоде упреждения прогноза потребуется использовать разные модели.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Клейнер Г.Б. Производственные функции. М. : Финансы и статистика, 1986. 239 с.

2. Плюта В. Сравнительный многомерный анализ в эконометрическом моделировании. М. : Финансы и статистика, 1989. 175 с.

3. Носков С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных. Иркутск : Облин-формпечать, 1996. 320 с.

4. Носков С.И., Зырянов С.И. Применение критерия смещения при построении регрессионных уравнений // Современные технологии. Системный анализ. Моделирование. 2004. № 2. С.93-97.

5. Базилевский М.П., Носков С.И. Алгоритм формирования множества регрессионных моделей с помощью преобразования зависимой переменной // Междунар. журн. приклад. и фундамент. исслед. 2010. № 3. С. 159-160.

6. Базилевский М.П., Носков С.И. Алгоритм построения линейно-мультипликативной регрессии // Современные технологии. Системный анализ. Моделирование. 2011. № 1. С. 88-92.

7. Базилевский М.П., Носков С.И. Идентификация неизвестных параметров линейно-мультипликативной регрессии // Современные наукоемкие технологии. 2012. № 3. С. 14-18.

8. Лакеев А.В., Носков С.И. Метод наименьших модулей для линейной регрессии // Современные технологии. Системный анализ. Моделирование. 2012. № 2. С. 48-50.

9. Носков С.И. Критерий «согласованность поведения» в регрессионном анализе // Современные технологии. Системный анализ. Моделирование. 2013. № 1. С. 107-111.

i Надоели баннеры? Вы всегда можете отключить рекламу.