Оригинальная статья / Original article УДК 519.862.6
DOI: 10.21285/1814-3520-2017-9-37-44
ПРОГРАММНЫЙ КОМПЛЕКС ПОСТРОЕНИЯ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ С УЧЕТОМ КРИТЕРИЯ СОГЛАСОВАННОСТИ ПОВЕДЕНИЯ ФАКТИЧЕСКОЙ И РАСЧЕТНОЙ ТРАЕКТОРИЙ ИЗМЕНЕНИЯ ЗНАЧЕНИЙ ОБЪЯСНЯЕМОЙ ПЕРЕМЕННОЙ
л _ о
© М.П. Базилевский1, С.И. Носков2
Иркутский государственный университет путей сообщения, Российская Федерация, 664074, г. Иркутск, ул. Чернышевского, 15.
РЕЗЮМЕ. ЦЕЛЬ. При построении регрессионных моделей одной из главных проблем является выбор их структурной спецификации. Для решения этой проблемы была поставлена цель: сформулировать задачу определения заданного числа наиболее «информативных» регрессоров с одновременной корректировкой оценок регрессии по критерию «согласованности поведения» и разработать специализированный программный комплекс. МЕТОДЫ. Для достижения цели использованы математические и статистические методы. РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ. Для решения проблемы выбора структурной спецификации регрессии при использовании метода наименьших модулей сформулирована задача определения заданного числа наиболее «информативных» регрессоров, сводящаяся к задаче частично-булевого линейного программирования. С целью построения регрессионных моделей с наилучшим значением критерия «согласованности поведения» эта задача дополнена соответствующими линейными ограничениями. Для автоматизации процессов формализации и решения поставленных задач частично-булевого линейного программирования разработан специализированный программный комплекс. ВЫВОДЫ. Разработанный программный комплекс предназначен как для решения задач выбора наиболее «информативных» регрессоров в модели регрессии, так и для решения задач прогнозирования, когда во главу угла ставится не получение конкретного прогнозного значения, а предсказание знака его изменения. Ключевые слова: регрессионная модель, структурная спецификация, метод наименьших модулей, критерий «согласованности поведения», частично-булево линейное программирование, программный комплекс.
Формат цитирования: Базилевский М.П., Носков С.И. Программный комплекс построения линейной регрессионной модели с учетом критерия согласованности поведения фактической и расчетной траекторий изменения значений объясняемой переменной // Вестник Иркутского государственного технического университета. 2017. Т. 21. № 9. С. 37-44. DOI: 10.21285/1814-3520-2017-9-37-44
PROGRAM COMPLEX FOR LINEAR REGRESSION MODEL CONSTRUCTION CONSIDERING BEHAVIOR CONSISTENCY CRITERION OF ACTUAL AND CALCULATED TRAJECTORIES OF EXPLAINED VARIABLE VALUE CHANGE M.P. Bazilevsky, S.I. Noskov
Irkutsk State Transport University,
15 Chernyshevsky St., Irkutsk 664074, Russian Federation.
ABSTRACT. PURPOSE. One of the main problems in the construction of regression models is selection of their structural specification. To solve this problem, the purpose has been set: to formulate the problem of determining a given number of the most "informative" regressors with simultaneous correction of regression estimates by the "consistency of behavior" criterion and develop a special-purpose program complex. METHODS. The set purpose is achieved through the use of the following mathematical and statistical methods. RESULTS AND THEIR DISCUSSION. To solve the selection problem of a structural specification of regression when using least absolute deviation method the problem of determining the given number of the most "informative" regressors has been formulated. It is reduced to the problem of partial Boolean linear programming. In order to construct regression models with the best value of the "consistency of behavior" criterion this problem has been supplemented by corresponding linear constraints. A specialized program complex has been developed to automate the formalization and solution of the set problems of partial Boolean linear programming.
1
Базилевский Михаил Павлович, кандидат технических наук, доцент кафедры математики, e-mail: [email protected]
Mikhail P. Bazilevsky, Candidate of technical sciences, Associate Professor of the Department of Mathematics, e-mail: [email protected]
2Носков Сергей Иванович, доктор технических наук, профессор кафедры информационных систем и защиты информации, e-mail: [email protected]
Sergey I. Noskov, Doctor of technical sciences, Professor of the Department of Information Systems and Data Protection, e-mail: [email protected]
CONCLUSIONS. The developed program complex is designed both for solving the selection problems of the most "informative" regressors in the regression model and for the prediction problems emphasizing rather the prediction of change of the specific predicted value measurement sign than obtaining its specific value.
Keywords: regression model, structural specification, least absolute deviation method, "consistency of behavior" criterion, partial Boolean linear programming, program complex
For citations: Bazilevsky M.P., Noskov S.I. Program complex for linear regression model construction considering behavior consistency criterion of actual and calculated trajectories of explained variable value change. Proceedings of Irkutsk State Technical University. 2017, vol. 21, no. 9, pp. 37-44. (In Russian) DOI: 10.21285/1814-3520-2017-9-37-44
Введение
Начальным и важнейшим этапом эконометрического исследования является этап структурной спецификации регрессионной модели, предполагающий выбор состава и математической формы связи между переменными в уравнении регрессии [1-4]. От того, насколько удачно будет решена эта проблема, решающим образом зависит успех всего эконометрического исследования. Задача выбора состава переменных в регрессии также известна в литературе как «subset selection in regression» [5]. Для решения этой проблемы к настоящему времени разработано немало методов и алгоритмов: алгоритм полного перебора [6], метод «ветвей и границ» [5, 6], методы включения и исключения [6-10], алго-
ритм последовательной замены [5], метод наименьших углов [11] и другие. Особенно хочется выделить технологию организации «конкурса» регрессионных моделей [12-14], заключающуюся в многокритериальном выборе наиболее приемлемого уравнения регрессии.
Принципиально иной подход к выбору состава переменных в регрессионной модели представлен в данной статье. Перед тем, как приступить непосредственно к описанию самой методики выбора переменных и разработанного для этого программного комплекса, рассмотрим один из критериев адекватности регрессии - критерий «согласованности поведения».
Критерий «согласованности поведения»
Отметим, что впервые этот критерий введен и описан в работе [15] и более подробно - в [16].
Рассмотрим линейную модель множественной регрессии:
y = a0 + axn +a2 X 2 + ... + amXm + S ,
i = l, n
(1)
где т - число объясняющих переменных; п - число наблюдений; у, г = 1,п - фактические значения объясняемой переменной у; х ., у = 1,т - объясняющие переменные; а{ - г -й подлежащий оцениванию параметр; е - вектор ошибок аппроксимации.
Оценки параметров уравнения (1) находятся посредством минимизации функции потерь вида:
Ir{a) = ÏLIsГ ^min.
(2)
Если в выражении (2) v = 1, то имеем оценки по методу наименьших модулей (МНМ), а если v = 2, то оценки по методу наименьших квадратов (МНК).
Пусть оцененная модель регрессии (1) имеет следующий вид:
У = ап + ах + «х^ +... + ох ,
Уг 0 1 г 1 2 г 2 т гт? /п\
—
г = 1, п
где а - оценка параметра аг; у,
г = 1,п - расчетные значения объясняемой переменной у.
При построении статистических моделей могут возникать ситуации, когда даже для «почти функциональных» регрессий с малыми значениями функций потерь «по-
i=l
ведение» расчетных и фактических траекторий, характеризирующих изменение значений объясняемых переменных, не согласовано. Это может быть выражено, в частности, в несовпадении для некоторых пар номеров наблюдений к и к +1 знаков приращений ук+х -ук и ук+1 -Ук, что, безусловно, снижает качество такого уравнения, в частности, его прогностические возможности, поскольку оно в этом случае не в достаточной степени «объясняет» исследуемый процесс. Причиной низкой «согласованности поведения» является либо отсутствие в числе объясняющих переменных регрессии существенных для этого факторов, либо неверный выбор вида аппроксимирующей функции или функции потерь.
Критерий «согласованности поведения» (СП-критерий), позволяющий выявлять подобные ситуации, может быть пред-
ставлен в виде принимающей целые значения функции:
п—1
Ф {а) = Е ^(Ум - У ) ■ Й&Ом - У ) .(4)
1=1
Таким образом, если для некоторых пар наблюдений к и к +1 знаки приращений уы - у и ук+1 - ук совпадают, то компонента суммы (4) равна либо «1» (если Ук+1-Ук * 0 и ук+1-ук * 0), либо «0» (если Ук+1- Ук = 0 или з>к+1- ук = 0). В противном случае компонента равна «-1». Значение Ф(а) = п-1 указывает на полную «согласованность» векторов у и у. Если среди компонент суммы (4) присутствуют только значения 0 и 1, то такие векторы считаются почти «согласованными».
Корректировка найденных оценок
СП-критерий, безусловно, не может рассматриваться в качестве альтернативного по отношению к функции потерь, поскольку наиболее важной интегрирующей характеристикой адекватности модели исследуемому объекту или процессу является все-таки точность аппроксимации. Вместе с тем имеет смысл использовать СП-критерий в качестве вспомогательного для корректировки уже найденной посредством минимизации выбранной функции потерь I (а) [12, 16]. Такая корректировка может быть произведена следующим образом.
Пусть I* - найденное минимальное значение функции потерь для регрессии (1), а а* - соответствующая ему оценка параметров. Предположим, что исследователь (разработчик модели) может назначить некоторую величину М*, на которую допустимо увеличение значения I * без существенного ухудшения качества аппроксимации. Тогда задача повышения «согласованности поведения» представима в форме:
рессии с помощью СП-критерия
Ф(а)^ max, A = {а\ I(а)< I* + AI*} .(5)
Пусть а** - решение задачи (5). Для того чтобы несколько «подтянуть» эту оценку к а*, не уменьшая значение функционала в (5), необходимо решить задачу:
I(а)^ min , B = |а\ Ф(а) = Ф(а**)} .(6)
В случае, когда функция потерь для линейной регрессии (1) имеет вид I (а),
то есть соответствует МНМ, задачи (5) и (6) могут быть сведены к одной задаче частично-целочисленного линейного программирования (ЧЦЛП). Воспользуемся для этого приемом, описанным, например, в [12], который позволяет свести задачу с альтернативными условиями к задаче математического программирования с частью булевых переменных. Применим также способ сведения задачи определения оценок параметров линейной регрессии с помощью МНМ к задаче линейного программирования (ЛП), впервые описанный в [17].
В связи с наличием в (5) операции sign введем в рассмотрение булевые переменные ai следующим образом:
а = f1, sign[(Ум -y)(3>i+i -y)] = 1,
[0, в противном случае.
Введем также неотрицательные вещественные переменные щ и v, i = 1,n, характеризующие соответственно положительные и отрицательные ошибки аппроксимации si, i = 1, n в регрессии (1):
m m
yt -aO -ZajXij, приy<-aO -ZajXij > 0 (8)
ji ji
O, в противном случае,
ao + Zajxj-у., при ao + Zajxj- yi > 0 (9)
j 1 JJ
O, в противном случае.
Тогда заменяющая (5) и (6) задача ЧЦЛП примет следующий вид:
__n
D(a) = Yu°j - rX(U + vmax ; (10)
jeS i=1
aO +Zajxij + U1 - V1 = Уг , 1 = l, n ; (11)
J=l
m
( y+i- y )Zaj ( xi+1, j - Xj )+Ma > M+s ;(12)
J=i
O <а1 < l, at e Z, i e S ; (13)
n
Z(U + Vi )< I* + AI* ; (14)
i=l
u > o, v. > o, i = l, n,
(15)
где М - заранее выбранное большое отрицательное число; £ = {1,2,..., п -1} \ К;
К = {г | |у+1 -у\ < 5}; 5 - малая положительная константа.
Смысл введения малой величины 5> 0 состоит в задании меры «безразличия» между близкими значениями зависимой переменной.
В качестве константы г в функционале (10) может быть выбрано, например,
l
л
любое число из интервала 0, „
I 4+I J
либо другая положительная константа. Наличие второго слагаемого в (10) позволяет достичь совместного решения задач (5) и (6) и, кроме того, обеспечивает выполнение условия иу = 0 для всех г = 1, п, необходимость реализации которого вытекает из определения переменных щ и у.
Неизвестными в задаче ЧЦЛП (10)-(15) являются векторы: а, и, у, а с общей размерностью т + 2п +.
Теперь становится ясно, что свои максимальные значения функции Ф(а) и
Б (а) принимают на векторе а.
U. = <
V = <
Задача определения заданного числа наиболее «информативных» регрессоров с одновременной корректировкой оценок по СП-критерию
В монографии [12] рассмотрена задача определения заданного числа наиболее «информативных» регрессоров. Приведем строгую постановку задачи. Пусть задана выборка из п -наблюдений для объясняемой переменной у, г = 1,п и для возможных значений объясняющих пере-
менных х, г = 1,п, у = 1,1. Необходимо,
учитывая требование ограниченности числа степеней свободы уравнения (1), выделить из I возможных регрессоров т переменных таким образом, чтобы минимизировать выбранную функцию потерь (2) для регрессии (1). Если для регрессии (1) в качестве функции потерь (2) выбрана сумма
модулей, т.е. у = 1, то такая задача может быть сведена к задаче ЧЦЛП. Для этого наложим на параметры а уравнения (1) условия:
-АМ <аг <АМ, г = й; (16) 0 <Аг < 1, Аг е Z , г = у , (17)
где М - заранее выбранное большое положительное число.
Становится ясно, что при А= 0 а= 0 и, значит, г -я переменная не включается в состав регрессоров; при А = 1 а может принимать любое значение, следовательно, переменная х включается в
уравнение.
Поскольку регрессоров в уравнении должно быть т, естественным образом является ограничение:
I
ЁА = т. (18)
г=1
Интегрируя ограничения (16)-(18) в задачу (10)-(15), получим задачу определения заданного числа наиболее «информативных» регрессоров с одновременной
корректировкой оценок по СП-критерию. Неизвестными в задаче ЧЦЛП (10)-(18) являются векторы: a, u, v, а, 1 с общей размерностью m + 2n +|S| +1.
Исходная постановка задачи может быть несколько изменена. Пусть для регрессии (1) минимизируется не сумма модулей ошибок, а значение средней относительной ошибки аппроксимации [4]. При таком варианте целевую функцию (10) необходимо заменить на функционал [16]:
n 1
D{a) = YjaJ -rX]-f(u + vt) ^ max .(19)
jeS i=1 |y,|
Задача (19) без первого слагаемого есть задача оценивания модели (1) по «взвешенному» МНМ. Очевидно, что выполняется условие uivi = 0, следующее из
определения переменных щ и v, i = 1,n.
Таким образом, при решении задачи ЧЦЛП (19) с ограничениями (11)—(18) осуществляется выбор наилучшей модели (1) сразу по двум критериям адекватности: средней относительной ошибки аппроксимации и «согласованности поведения».
Программный комплекс
Предложенная методика построения регрессионных моделей с корректировкой согласованности поведения фактических и расчетных изменений значений объясняемой переменной предполагает решение достаточно громоздких задач частично-булевого линейного программирования с большим количеством переменных и ограничений. Для решения таких задач в настоящее время существует большое количество специализированного программного обеспечения: Gurobi, APMonitor, LINDO, Op-timJ и т.д. При этом задача частично-булевого программирования по предложенной методике не просто требует решения, здесь необходима еще и автоматизация процесса формализации самой задачи, т.е. автоматизация формирования целевой
функции и системы ограничений. Отсюда возникает необходимость в разработке независимого программного комплекса, который бы полностью автоматизировал этап формализации задачи частично-булевого линейного программирования, быстро и эффективно находил бы ее решение. Было принято решение интерфейс программного комплекса разработать в среде программирования Delphi, а для решения задач ча-стично-булевого линейного программирования использовать бесплатный пакет LPSolve.
В результате был разработан ПК ВИРСП (программный комплекс выбора «информативных» регрессоров с согласованностью поведения). Основные возможности ПК ВИРСП:
1. Создание исходных статистических данных вручную или путем их импорта из текстового файла. При этом в первом случае количество наблюдений и переменных задается вручную, а во втором - определяется автоматически.
2. Построение регрессионных моделей в двух режимах: «Простой отбор» и «Отбор с согласованностью». В первом случае осуществляется выбор наиболее «информативных» регрессоров без учета согласованности поведения, а во втором -с учетом СП-критерия. Для работы в этих режимах предварительно необходимо задать «Количество переменных в модели» и «Большое число». Если в режиме «Простой отбор» параметр «Количество переменных в модели» равен общему числу переменных, то имеем оценки по методу наименьших модулей.
3. Формирование полной информации о результатах моделирования. Если система линейных ограничений окажется несовместной, то система выводит соответствующее сообщение. Если система совместна, то организуется вывод на экран следующей информации: оценки парамет-
ров модели, ошибки аппроксимации, сумма модулей ошибок.
Главное окно ПК ВИРСП представлено на рисунке.
Взаимодействие между Delphi и LPSolve осуществляется по следующей схеме:
1. При нажатии на кнопку «Поиск» среда программирования Delphi подключается к пакету LPSolve и автоматически осуществляет формализацию задачи ча-стично-булевого линейного программирования, т.е. формируется целевая функция и система линейных ограничений.
2. Затем LPSolve решает поставленную задачу, после чего сигнализирует среде Delphi о завершении процесса поиска решения.
3. Среда Delphi «расшифровывает» результаты решения и выводит их на экран. При этом формализованная в виде целевой функции и системы линейных ограничений задача линейного программирования после очередного решения сохраняется в соответствующем файле пакета LPSolve и пользователь в любой момент может к ней обратиться.
Главное окно программного комплекса Main window of the program complex
Заключение
Таким образом, разработанный программный комплекс ВИРСП предназначен для решения задачи выбора наиболее «информативных» регрессоров либо без учета, либо с учетом согласованности поведения фактических и расчетных значений объясняемой переменой. В первом случае программный комплекс можно ис-
1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 1000 с.
2. Демиденко Е.З. Линейная и нелинейная регрессия. М.: Финансы и статистика, 1981. 304 с.
3. Доугерти К. Введение в эконометрику. М.: ИН-ФРА-М, 2009. 465 с.
4. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Вильямс, 2007. 912 с.
5. Miller A.J. Subset selection in regression. Tay-lor&Francis, 2002. 256 p.
6. Себер Дж. Линейный регрессионный анализ. М.: Изд-во Мир, 1980. 456 с.
7. Вучков И., Бояджиева Л., Солаков Е. Прикладной линейный регрессионный анализ. М.: Финансы и статистика, 1987. 239 с.
8. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. М.: Дело, 2004. 576 с.
9. Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия. М.: Финансы и статистика, 1982. 239 с.
10. Efroymson M.A. Multiple regression analysis. New York: John Wiley and Sons, 1991.
11. Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М.: Вычислительный центр РАН, 2010. 60 с.
пользовать как обычный инструмент выбора наилучшей спецификации регрессионной зависимости. Во втором случае комплекс можно использовать, например, для решения задач прогнозирования курса валют, когда во главу угла ставится ни получение конкретного прогнозного значения, а предсказание знака его изменения.
кий список
12. Носков С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных. Иркутск: Облинформпечать, 1996. 320 с.
13. Базилевский М.П., Носков С.И. Технология организации конкурса регрессионных моделей // Информационные технологии и проблемы математического моделирования сложных систем. 2009. № 7. С. 77-84.
14. Базилевский М.П., Носков С.И. Методические и инструментальные средства построения некоторых типов регрессионных моделей // Системы. Методы. Технологии. 2012. № 1(13). С. 80-87.
15. Носков С.И. Построение эконометрических зависимостей с учетом критерия «согласованности поведения» // Кибернетика и системный анализ. 1994. № 1. С. 177-180.
16. Носков С.И. Критерий «согласованность поведения» в регрессионном анализе // Современные технологии. Системный анализ. Моделирование. 2013. № 1(37). С. 107-110.
17. Мудров В.И., Кушко В.А. Методы обработки измерений. Квазиправдоподобные оценки. М.: Радио и связь, 1983. 248 с.
References
1. Ajvazjan S.A., Mhitarjan V.S. Prikladnaja statistika i osnovy jekonometriki [Applied statistics and the foundations of econometrics]. Moscow: JuNI-TI Publ., 1998, 1000 p. (In Russian)
2. Demidenko E.Z. Linejnaja i nelinejnaja regressija [Linear and nonlinear regressions]. Moscow: Finansy i statistika Publ., 1981, 304 p. (In Russian)
3. Dougerti K. Vvedenie v jekonometriku [Introduction to Econometrics.]. Moscow: INFRA-M, 2009, 465 p. (In Russian)
4. Drejper N., Smit G. Prikladnoj regressionnyj analiz [Applied regression analysis]. Moscow: Vil'jams Publ., 2007, 912 p. (In Russian)
5. Miller A.J. Subset selection in regression. Tay-lor&Francis, 2002, 256 p.
6. Seber Dzh. Linejnyj regressionnyj analiz [Linear regression analysi]. Moscow: Mir Publ., 1980, 456 p. (In
Russian)
7. Vuchkov I., Bojadzhieva L., Solakov E. Prikladnoj linejnyj regressionnyj analiz [Applied linear regression analysis]. Moscow: Finansy i statistika Publ., 1987, 239 p. (In Russian)
8. Magnus Ja.R., Katyshev P.K., Pereseckij A.A. Jekonometrika [Econometrics]. Moscow: Delo Publ., 2004, 576 p. (In Russian)
9. Mosteller F., T'juki Dzh. Analiz dannyh i regressija [Data analysis and regression]. Moscow: Finansy i statistika Publ., 1982, 239 p. (In Russian)
10. Efroymson M.A. Multiple regression analysis. New York: John Wiley and Sons, 1991.
11. Strizhov V.V., Krymova E.A. Metody vybora regres-sionnyh modelej [Selection methods of regression models]. Moscow: Vychislitel'nyj centr RAN Publ., 2010, 60 p. (In Russian)
12. Noskov S.I. Tehnologija modelirovanija ob'ektov s nestabil'nym funkcionirovaniem i neopredelennost'ju v dannyh [Modeling technology for objects with unstable operation and data uncertainty]. Irkutsk: Oblinform-pechat' Publ., 1996, 320 р. (In Russian)
13. Bazilevskij M.P., Noskov S.I. Organization technology of regression model competition. Informacionnye tehnologii i problemy matematicheskogo modelirovanija slozhnyh system [Information technologies and problems of complex system mathematical modeling]. 2009, no. 7, рр. 77-84. (In Russian)
14. Bazilevskij M.P., Noskov S.I. Methodology and instrumental tools for construction some types of regression models. Sistemy. Metody. Tehnologii [Sistems. Methods. Technologies]. 2012, no. 1(13),
Критерии авторства
Базилевский М.П., Носков С.И. имеют на статью равные авторские права и несут равную ответственность за плагиат.
Конфликт интересов
Авторы заявляют об отсутствии конфликта интересов.
Статья поступила 08.08.2017 г.
pp. 80-87. (In Russian)
15. Noskov S.I. [Construction of econometric dependencies taking into account "behavior consistency" criterion]. Kibernetika i sistemnyj analiz [Cybernetics and system analysis.]. 1994, no. 1, pp. 177-180. (In Russian)
16. Noskov S.I. ["Behavior consistency" criterion in regression analysis]. Sovremennye tehnologii. Sistemnyj analiz. Modelirovanie [Modern technology. System analysis. Modeling]. 2013, no. 1(37), pp. 107-110. (In Russian)
17. Mudrov V.I., Kushko V.A. Metody obrabotki izme-renij. Kvazipravdopodobnye ocenki [Methods of measurement processing. Quasi-estimates]. Moscow: Radio i svjaz' Publ., 1983, 248 p.
Authorship criteria
Bazilevsky M.P., Noskov S.I. have equal author's rights and bear equal responsibility for plagiarism.
Conflict of interests
The authors declare that there is no conflict of interests regarding the publication of this article.
The article was received 08 August 2017