[Щ] Информатика, вычислительная техника и управление
оо оо Modern technologies. System analysis. Modeling, 2017, Vol 55, no.3 Sir
15. Collins M. Linear Classifiers. 2012. URL: http://wwwxs.columbia.edu/~mconms/courses/6998-2012/lectures/lec13.pdf (Accessed 16.08.2016).
16. Friedman I, Hastie T., Tibshirani R. Additive logistic regression: a statistical view of boosting (With discussion and a rejoinder by the authors). The Annals of Statistics, 2000, Vol. 28, No. 2, pp. 337-407.
17. Garcia E., Lozano F. Boosting Support Vector Machines. Proceedings - ICMLA 2005: Fourth International Conference on Machine Learning and Applications, 2005, pp. 374-379.
18. Ting K.M., Zheng Z. A Study of AdaBoost with Naive Bayesian Classifiers: Weakness and Improvement. Computational Intelligence, 2003, Vol.19, No. 2, pp. 186-200.
19. Mease D., Wyner A., Buja A. Boosted Classification Trees and Class Probability. Journal of Machine Learning Research, 2007, No. 8, pp. 409^39.
20. Grim I., Pudil P. Somol. P. Boosting in probabilistic neural networks. Object recognition supported by user interaction for service robots, 2002, vol.2, pp. 126-139.
21. Wolpert D.H. Stacked generalization. Neural Networks, 1992, vol.5, No.2, pp. 241-259.
22. Ting K.M., Witten, I.H. Stacked generalization: when does it work? Proceedings of the Fifteenth international joint conference on Artifical intelligence, 1997, Vol.2, pp. 866-871.
23. Breiman L. Bagging Predictors. Technical Report No. 421, 1994. URL: https://www.stat.berkeley.edu/~breiman/bagging.pdf (Accessed: 14.02.2017).
24. Ho T.K. The Random Subspace Method for Constructing Decision Forests. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, Vol. 20 (8), pp. 832-844.
25. Bryll R. Attribute bagging: improving accuracy of classifier ensembles by using random feature subsets. Pattern Recognition, 2003, Vol. 36 (6), pp. 1291-1302.
26. Skurichina M., Duin R. Bagging, Boosting and the Random Subspace Method for Linear Classifiers. Pattern Analysis & Applications, 2002, Vol.5, Issue 2, pp.121—135.
УДК 519.237.5
Базилевский Михаил Павлович,
к. т. н., доцент кафедры «Математика», Иркутский государственный университет путей сообщения,
e-mail: mik2178@yandex. ru
Носков Сергей Иванович,
д. т. н., профессор кафедры «Информационные системы
и защита информации», Иркутский государственный университет путей сообщения,
e-mail: [email protected]
Информация о статье
Дата поступления: 10 мая 2017 г.
DOI: 10.26731/1813-9108.2017.3(55).101-105 M. P. Bazilevsky,
Ph.D. in Engineering Science, Assoc. Prof., the Subdepartment of
Mathematics, Irkutsk State Transport University, e-mail: [email protected] S. I. Noskov
Doctor of Engineering Science, Prof., the Subdepartment of Information Systems and Information Protection, Irkutsk State Transport University, e-mail: [email protected]
Article info
Received: May 10, 2017
ФОРМАЛИЗАЦИЯ ЗАДАЧИ ПОСТРОЕНИЯ ЛИНЕЙНО-МУЛЬТИПЛИКАТИВНОЙ РЕГРЕССИИ В ВИДЕ ЗАДАЧИ ЧАСТИЧНО-БУЛЕВОГО ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
FORMALIZATION OF THE PROBLEM OF CONSTRUCTION OF LINEAR MULTIPLICATIVE REGRESSIONS IN THE FORM OF A PARTIAL-BOOLEAN LINEAR PROGRAMMING PROBLEM
Аннотация. При построении регрессионных моделей одной из главных проблем является выбор их структурной спецификации. В настоящее время таких спецификаций уже существует очень большое количество, и это число постоянно растет. Статья посвящена построению линейно-мультипликативных регрессий, относящихся к классу линейных по параметрам моделей, в которых в качестве регрессоров используются различные комбинации произведений независимых переменных. В настоящее время для построения таких моделей применяется технология организации «конкурса» моделей, которая состоит в формировании множества их альтернативных вариантов с заданными заранее свойствами и последующем выборе наиболее приемлемого варианта на основе совокупности формальных и содержательных критериев. В такой постановке задача является весьма трудоёмкой. Поэтому с целью снижения времени её решения задача построения линейно-мультипликативной регрессии формализована в виде задачи частично-булевого линейного программирования. При этом с помощью линейных ограничений можно контролировать характер вхождения независимых переменных в правую часть линейно-мультипликативных регрессий.
Ключевые слова: регрессионная модель, структурная спецификация, «конкурс» моделей, линейно-мультипликативная регрессия, частично-булево линейное программирование.
Abstract. When constructing regression models, one of the main problems is the .selection of their .structural specification. At present, there are already very large numbers of such specifications, and these numbers are constantly growing. The article focuses on
© М. П. Базилевский, С. И. Носков, 2017
101
ИРКУТСКИМ государственный университет путей сообщения
Современные технологии. Системный анализ. Моделирование, № 3 (55), 2017
the construction of linear multiplicative regressions belonging to the class of models that are linear in parameters, and in which various combinations of products of independent variables are used as regressors. Nowadays, the technology of organizing a "competition" of models is used to construct such models, which is to form a number of their alternative variants with predetermined properties and the subsequent choice of the most acceptable variant on the basis of a .set offormal and substantive criteria. In this formulation, the problem is very time-consuming. Therefore, in order to reduce the time of its solution, the problem of constructing a linear multiplicative regression is formalized as a problem ofpartial-Boolean linear programming. With the help of linear constraints, one can control the nature of the occurrence of independent variables in the right-hand side of linear multiplicative regressions.
Keywords: regression model, structural specification, "competition" models, linear multiplicative regression, partial-Boolean linear programming.
Введение
В настоящее время регрессионный анализ [1-5] является признанным инструментом построения математических моделей статистического типа. Методы регрессионного анализа находят применение в различных областях: в технике, в образовании, в бизнесе, в медицине, в экономике и др. При построении регрессионной модели одной из основных проблем является проблема её спецификации, т. е. выбор общего вида модели, в том числе состава и формы входящих в неё связей [1]. Осложняет решение проблемы спецификации тот факт, что существует весьма разнообразный арсенал традиционных видов регрессионных моделей, многие из которых можно найти в работе [6]. Кроме того, этот арсенал постоянно расширяется. Так, авторами в работах [7, 8] предложен класс линейно-мультипликативных регрессий. Понятно, что для выбора из этого многообразия наилучшей спецификации регрессионной модели необходимо решить задачу переборного характера. Для этого целесообразно организовывать «конкурс» моделей [9-11], который состоит в формировании множества их альтернативных вариантов с заданными заранее свойствами и последующем выборе наиболее приемлемого варианта на основе совокупности формальных и содержательных критериев. В такой постановке выбор спецификации регрессии представляет собой весьма трудоемкую вычислительную задачу. Поэтому возникает необходимость в разработке алгоритмов, решающих исходную задачу за меньшее время.
Линейно-мультипликативная регрессия
Рассмотрим модель множественной линейной регрессии:
Ук = ao
ek, к = 1,n;
(1)
Уравнение (1) отражает влияние каждого из т независимых факторов в отдельности на выходной показатель у. Но связь между социально-экономическими явлениями зачастую имеет нелинейный характер, поэтому для них уже не представляется возможным использовать регрессию (1).
Оставаясь в классе линейных по параметрам моделей, в качестве регрессоров будем использовать различные комбинации произведений независимых переменных. Смысл введения таких комбинаций состоит в расширении исходного набора объясняющих переменных с целью последующего выбора в новом, расширенном наборе, совокупности наиболее «информативных» регрессоров. Тем самым осуществляется переход от линейной зависимости (1) со свободным членом к линейно-мультипликативной регрессии (ЛМР):
Ук =ao + П i=1 j=1
к
к = 1, n .
(2)
о = i v
где п - число наблюдений (объем выборки); т -количество независимых переменных; ук и хь,
к = 1, п, 1 = 1, т - известные значения зависимой и независимых переменных соответственно; а{, 1 = 1, т - подлежащие оцениванию параметры; ек, к = 1, п - ошибки аппроксимации.
где р - заданное число слагаемых, а^ - булева переменная, заданная по правилу:
1, если ] - переменная
входит в \- е слагаемое, 0 в пр отивном слу чае.
Модели (2) являются нелинейными по факторам, но линейными по параметрам и обладают определенным содержательным смыслом. Комбинации произведений независимых переменных в правой части уравнения (2) для каждого регрес-сора говорят об их совместном влиянии на зависимую переменную у , а также о кумулятивном характере этого влияния.
Понятно, что из уравнения (2) путём варьирования набора булевых переменных а^ можно
получить целое множество различных ЛМР. Задача состоит в том, чтобы из этого множества вариантов выбрать оптимальный для заданных критериев адекватности. Или, другими словами, нужно найти такие значения переменных а^, для которых структура уравнения (2) будет оптимальной.
Решение поставленной задачи реализовано авторами в программном комплексе автоматиза-
Информатика, вычислительная техника и управление
Modern technologies. System analysis. Modeling, 2017, Vol 55, no.3
ции процесса построения регрессионных моделей (ПК АППРМ) [12]. В основу этого комплекса положена технология организации «конкурса» моделей, т. е. для построения оптимальной модели (2) осуществляется полный перебор всех возможных комбинаций булевых переменных а у и для каждой регрессии находятся её неизвестные параметры а и критерии адекватности. Оценивание неизвестных параметров ai модели (2) в ПКАППРМ осуществляется методом наименьших квадратов или методом модулей. Оптимальная модель выбирается методом «идеальной точки». Такой алгоритм гарантирует точное решение поставленной задачи.
В работе [7] для сокращения множества альтернативных вариантов ЛМР и, как следствие, быстрого получения результатов авторами предложены три стратегии задания характера вхождения независимых переменных в модель (2):
1. Не требуется обязательного вхождения каждой независимой переменной в ЛМР.
2. Каждая независимая переменная входит в ЛМР только 1 раз.
3. Каждая независимая переменная входит в ЛМР хотя бы 1 раз.
Сведение задачи построения ЛМР к задаче линейного программирования
Покажем, что для трех перечисленных стратегий построения ЛМР полный перебор можно свести к задаче частично-булевого линейного программирования (ЧБЛП).
Рассмотрим стратегию, в которой нет ограничений на число объясняющих переменных, входящих в ЛМР. Если в распоряжении исследователя имеется т объясняющих переменных, то из
них можно составить 2т — 1 различных произведений: Х2, ..., хт , Х1 х2, Х1Х3, ..., хт—1 Хт , ---,
х1 х2 • к • хт . Из этого следует, что для построения ЛМР без ограничений на количество переменных необходимо соблюдать условие
1 < р < 2т — 1. (3)
Иными словами, число переменных р не должно превышать числа всевозможных регрессо-ров 2т — 1. Если условие (3) не выполняется, то построить ЛМР невозможно.
Введем матрицу Л, в которой т столбцов, соответствующих объясняющим переменным, и 2т — 1 строк, соответствующих регрессорам:
Л =
0 0 0 0 0 0 0 0 0
1 1 1 1 1 1 111
0 0 1 0 1 0 0 1 1
1 0 1 1 1 0 111
1, =
В этой матрице элементы Ц заданы по правилу:
1, если _] - я переменная
входит в [ - е слагаемое,
0 в противном случае.
Тогда уравнение (2) для всех возможных вариантов регрессоров можно представить в виде
2т —1 т
Ук =Ро + П х1 к, к = 1, п, (4) ¿=1 j=l
где 1 у - элемент матрицы Л .
Заменим в уравнении (4) известный множит
тель П Хц на сы . Тогда получим стандартную
модель множественной линейной регрессии:
2т —1
Ук = Р0 + к, к =1 п . (5)
¿=1
Регрессии (4) и (5) представимы в матричной форме:
У = Ср + 8,
У1 1 c1,1 ■ C1,2m -1
где Y = , C =
_ Уп _ 1 Cn,1 • Cn,2m -1 _
" ß0 "
II
_ß2m -1 _ Sn _
ß =
В модели (5) требуется осуществить отбор р наиболее «информативных» признаков. Пусть
Ь = 0 для всех регрессоров, не включенных в это уравнение.
Введем в рассмотрение булеву переменную
1, если в регрессию (5)
8 i = < входит [ - й регрессор,
0 в противном случае.
Эта переменная эквивалентна следующим соотношениям:
ИРКУТСКИМ государственный университет путей сообщения
Современные технологии. Системный анализ. Моделирование, № 3 (55), 2017
5, = 0 = 0, (6)
5 = 1 Ф0. (7)
Оценивать неизвестные параметры Рi будем по методу наименьших модулей, который предполагает минимизацию функции потерь:
2т -1
ЕЫ=Е
к=1
к=1
Ук
bo -Eßc
i=1
■min.
(8)
Введем в рассмотрение неотрицательные переменные ик и ик, к = 1,п, следующим образом:
ик =
uk =
[s k, если е к > ° |0 в противном случае,
-е к, если е к < 0,
[0 в противном случае. Тогда справедливы тождества
2m-1
Ук =
ß + Еь
С1а + ик -ик ,
к = 1, n . (9)
Целевой функцией задачи является линейная форма:
Е(ик +°к min.
(10)
к=1
Таким образом, исходная задача (8) сводится к задаче (10) с ограничениями (9) и условиями неотрицательности переменных:
и > 0, и > 0 .
Понятно, что равенство икик = 0 для любого к, следующее из определения переменных ик и ик, реализуется на оптимальном решении этой задачи.
Для того чтобы реализовать условия (6) и (7), необходимо задать ограничения на параметры уравнения (9):
- 5гМ < | < 5гМ, , = 1,2т -1, (11)
2т-1
= р , (12)
,=1
где М - заранее выбранное большое положительное число.
Таким образом, если выполняется условие (3), то решение задачи (10) с 2т -1 переменными Р^ и булевыми переменными 51, с п неотрицательными переменными и к и ик и с ограничениями (9), (11), (12) обеспечит построение ЛМР, не требующей обязательного вхождения в неё каждой независимой переменной.
Задачи построения ЛМР с ограничениями на число регрессоров также сводятся к задачам
ЧБЛП. Так, для второго случая, когда каждая объясняющая переменная входит в модель ровно один раз, условие существования решения задачи можно задать неравенством
1 < p < m , (13)
причем если p = m , то имеем обыкновенную линейную регрессию (1).
Если каждая независимая переменная входит в ЛМР ровно один раз, то такое условие можно задать в виде ограничений
2m-1 _
EsAj =!, j = 1,m . (14)
i=1
Тогда, по аналогии с предыдущим случаем, если выполняется условие (13), то решение задачи (10) с 2m -1 переменными ßi и булевыми переменными di , с n неотрицательными переменными ик и ик, с ограничениями (9), (11), (12) и с дополнительным ограничением (14) обеспечит построение ЛМР, содержащей каждую независимую переменную ровно один раз.
Аналогично для третьей стратегии. В этом случае условие существования решения задачи имеет вид (3), а ограничения на количество переменных принимают вид:
2m-1 _
EdA > 1, j = 1,m . (15)
i=1
Если выполняется условие (3), то решение задачи (10) с ограничениями (9), (11), (12), (15) обеспечит построение ЛМР, в которую каждая независимая переменная входит хотя бы один раз.
Заключение
Для точного решения рассмотренных задач ЧБЛП можно воспользоваться, например, хорошо известным методом ветвей и границ [13,14], который незначительно подвержен влиянию ошибок округления в процессе вычисления.
В настоящее время существует множество мощных программных продуктов для решения задач математического программирования, таких, например, как Gurobi Optimization, LPSolve, AP-Monitor и др. Они предназначены для решения задач линейного, квадратичного и частично-целочисленного (линейного и квадратичного) программирования. Эти системы бесплатны для академического пользования и позволяют решать задачи с большим числом переменных и ограничений. Таким образом, для построения ЛМР за меньшее, чем при организации «конкурса» моделей, время можно воспользоваться одним из таких пакетов.
[Щ] Информатика, вычислительная техника и управление
oo oo Modern technologies. System analysis. Modeling, 2017, Vol 55, no.3 Sir
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. - М.: Юнити, 1998. - 1022 с.
2. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Книга 1. В 2-х кн. - М.: Финансы и статистика, 1986. - 366 с.
3. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Книга 2. В 2-х кн. - М.: Финансы и статистика, 1986. - 351 с.
4. Себер Дж. Линейный регрессионный анализ. - М.: Издательство «Мир», 1980. - 456 с.
5. Доугерти К. Введение в эконометрику. - М.: ИНФРА-М, 2009. - 465 с.
6. Клейнер Г.Б. Производственные функции. - М.: Финансы и статистика, 1986. - 239 с.
7. Базилевский М.П., Носков С.И. Алгоритм построения линейно-мультипликативной регрессии // Современные технологии. Системный анализ. Моделирование. - Иркутск, 2011. - №1(29). - С.88-92.
8. Базилевский М.П. Автоматизация процесса построения линейно-мультипликативных регрессионных моделей // Материалы второй межвузовской научно-практической конференции «Транспортная инфраструктура Сибирского региона». - Иркутск, 2011. - С.325-328.
9. Носков С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных. -Иркутск: Облинформпечать, 1996. - 320 с.
10. Базилевский М.П., Носков С.И. Технология организации конкурса регрессионных моделей // Информационные технологии и проблемы математического моделирования сложных систем. - Иркутск, 2009. - Вып. 7. - С. 77-84.
11. Базилевский М.П., Носков С.И. Методические и инструментальные средства построения некоторых типов регрессионных моделей // Системы. Методы. Технологии. - Братск, 2012. - №1(13). - С.80-87.
12. Носков С.И., Базилевский М.П. Программный комплекс автоматизации процесса построения регрессионных моделей // Международный журнал прикладных и фундаментальных исследований. - Москва, 2010. - №1. - С.93-94.
13. Кузнецов А.В., Сакович В.А., Холод Н.И. Высшая математика: Математическое программирование. - Минск: Вышэйшая школа, 1994. - 286 с.
14. Корбут А.А., Финкельштейн Ю.Ю. Дискретное программирование. - М.: Наука, 1969. - 370 с.
REFERENCES
1. Aivazyan S.A., Mkhitaryan V.S. Prikladnaya statistika i osnovy ekonometriki [Applied statistics and the foundations of econometrics]. Moscow: Yuniti Publ., 1998, 1022 p.
2. Draper N., Smith H. Applied regression analysis. New York: Wiley-Interscience, 1966, 407 p. (Russ. ed.: Dreiper N., Smit G. Prikladnoi regressionnyi analiz. Book 1. In 2 books. Moscow: Finansy i statistika, 1986, 366 p.).
3. Draper N., Smith H. Applied regression analysis. New York: Wiley-Interscience, 1966, 407 p. (Russ. ed.: Dreiper N., Smit G. Prikladnoi regressionnyi analiz. Book 2. In 2 books. Moscow: Finansy i statistika, 1986, 351 p.).
4. Seber G. Linear regression analysis. New York: John Wiley and Sons, 1977. (Russ. ed.: Seber Dzh. Lineinyi regressionnyi analiz. Moscow: Mir Publ., 1980, 456 p.).
5. Dougherty Ch. Introduction to Econometrics. New York Oxford. Oxford University Press, 1992 (Russ. ed.: Dougerti K. Vvedenie v ekonometriku. Moscow: INFRA-M Publ., 2009, 465 p.).
6. Kleiner G.B. Proizvodstvennye funktsii [Production functions]. Moscow: Finansy i statistika Publ., 1986, 239 p.
7. Bazilevskii M.P., Noskov S.I. Algoritm postroeniya lineino-mul'tiplikativnoi regressii [Algorithm for constructing linear multiplicative regression]. Sovremennye tekhnologii. Sistemnyi analiz. Modelirovanie [Modern technologies. System analysis. Modeling], Irkutsk, 2011, No.1(29), pp. 88-92.
8. Bazilevskii M.P. Avtomatizatsiya protsessa postroeniya lineino-mul'tiplikativnykh regressionnykh modelei [Automation of the process of constructing linear multiplicative regression models]. Materialy vtoroi mezhvuzovskoi nauchno-prakticheskoi konferentsii «Transportnaya infrastruktura Sibirskogo regiona» [Proceedings of the second interuniversity scientific and practical conference "Transport infrastructure of the Siberian region"]. Irkutsk, 2011, pp. 325-328.
9. Noskov S.I. Tekhnologiya modelirovaniya ob"ektov s nestabil'nym funktsionirovaniem i neopredelennost'yu v dannykh [The technology of modeling objects with unstable functioning and uncertainty in the data]. Irkutsk: Oblinformpechat' Publ., 1996, 320 p.
10. Bazilevskii M.P., Noskov S.I. Tekhnologiya organizatsii konkursa regressionnykh modelei [Technology of the competition of regression models]. Informatsionnye tekhnologii iproblemy matematicheskogo modelirovaniya slozhnykh system [Information technologies and problems of mathematical modeling of complex systems]. Irkutsk, 2009, Issue 7, pp. 77-84.
11. Bazilevskii M.P., Noskov S.I. Metodicheskie i instrumental'nye sredstva postroeniya nekotorykh tipov regressionnykh modelei [Methodical and instrumental means for constructing some types of regression models]. Sistemy. Metody. Tekhnologii [Systems. Methods. Technologies]. Bratsk, 2012, No.1(13), pp. 80-87.
12. Noskov S.I., Bazilevskii M.P. Programmnyi kompleks avtomatizatsii protsessa postroeniya regressionnykh modelei [Software complex for automation of the process of constructing regression models]. Mezhdunarodnyi zhurnalprikladnykh i fundamental'nykh issledovanii [International Journal of Applied and Fundamental Research]. Moscow, 2010, No.1, pp. 93-94.
13. Kuznetsov A.V., Sakovich V.A., Kholod N.I. Vysshaya matematika: Matematicheskoe programmirovanie [Higher mathematics: Mathematical programming]. Minsk: Vysheishaya shkola Publ., 1994, 286 p.
14. Korbut A.A., Finkel'shtein Yu.Yu. Diskretnoe programmirovanie [Discrete programming]. Moscow: Nauka Publ., 1969, 370 p.