УДК 004.94:330.4 DOI https://doi.org/10.38161/1996-3440-2024-4-67-74
С. И. Носков, С. В. Беляев
ВЫЧИСЛЕНИЕ ОЦЕНОК ПАРАМЕТРОВ ПРОСТОЙ ВЛОЖЕННОЙ КУСОЧНО-ЛИНЕЙНОЙ РЕГРЕССИИ ВТОРОГО ТИПА
Носков С. И. - д-р техн. наук, профессор кафедры «Информационные системы и защита информации», ИрГУПС, г. Иркутск, e-mail: [email protected]; Беляев С. В. - магистрант кафедры «Информационные системы и защита информации», ИрГУПС, г. Иркутск, e-mail: [email protected]
В статье дан краткий обзор результатов по применению и исследованию вложенных математических моделей сложных объектов. В частности, рассмотрены: интегрированная вложенная аппроксимация Лапласа; класс моделей стохастических полей, построенных с использованием вложенных стохастических уравнений в частных производных; модель вложенной искусственной нейронной сети, прогнозирующей шероховатость поверхности; методология для тестирования возможности масштабирования вложенных региональных климатических моделей. Сформулирована задача идентификации неизвестных параметров простой вложенной кусочно-линейной регрессионной модели второго типа, правая часть которой содержит внешний максимум, а также внутренние минимум и максимум. Эта задача при использовании функции потерь, соответствующей методу наименьших абсолютных отклонений, сведена к задаче линейно-булева программирования. Рассмотрен численный пример.
Ключевые слова: простая вложенная кусочно-линейная регрессия второго типа, оценивание параметров, метод наименьших модулей, задача линейно-булева программирования, индексное множество.
Введение
При разработке комплексных математических моделей сложных технических, социально-экономических, биологических и других систем исследователи часто наряду с относительно простыми, линейными модельными формами применяют и весьма сложные конструкции, содержащие, в том числе, различные операции вложенности. Так, в работе [1] при использовании модели
© Носков С. И., Беляев С. В., 2024
ВЕСТНИК ТОГУ. 2024. № 4 (75)
ВЕСТНИК ТОГУ. 2024. № 4 (75)
полиномиального дискретного выбора с социальными взаимодействиями допускается ненаблюдаемая гетерогенность предпочтений между альтернативами выбора путем изучения вложенной логит-модели. При этом ослабляется предположение о глобальных взаимодействиях и вместо этого рассматриваются локальные взаимодействия в пределах нескольких предполагаемых социальных и пространственных сетевых структур. В [2] представлена механистическая структура для моделирования коэволюции хозяина и паразита с использованием подхода вложенного моделирования. Вложение модели внутри хозяина в общую эпидемиологическую модель позволяет оценить функции приспособленности для каждого интерактора, что, в свою очередь, позволяет определить коэволюционную динамику системы в целом. В статье [3] указывается, что интегрированная вложенная аппроксимация Лапласа обеспечивает быстрый и эффективный метод предельного вывода в байесовских иерархических моделях. Исследование [4] посвящено описанию нового класса моделей стохастических полей, построенных с использованием вложенных стохастических уравнений в частных производных. Этот класс моделей является вычислительно эффективным, применимым к данным на общих гладких многообразиях и включает как гауссовы поля Матерна, так и широкое семейство полей с осциллирующими ковариационными функциями.
В работе [5] представлен новый асимптотически нормальный тест для оценки вне выборки во вложенных моделях. Этот подход представляет собой простую модификацию традиционного охватывающего теста, известного как тест Кларка и Уэста. Ключевым моментом стратегии является введение независимой случайной величины, которая не позволяет этому тесту стать вырожденным при нулевой гипотезе равной предсказательной способности. В публикации [6] представлен недавно разработанный инструмент под названием «вложенные виртуальные лаборатории промышленной экологии», которые вкладывает субнациональные многорегиональные модели «затраты-выпуск» в глобальные подобные модели в масштабе страны. Он оказался особенно важным для анализа исследовательских вопросов, требующих субнациональной пространственной детализации. В статье [7] демонстрируется модель вложенной искусственной нейронной сети, прогнозирующей шероховатость поверхности. Эта модель использует параметры резания в качестве входных данных для прогнозирования значений сил резания и вибраций инструмента соответственно, а затем пересылает все выходные данные в модель выходной сети.
В работе [8] разработана методология для тестирования возможности масштабирования вложенных региональных климатических моделей. Предлагаемая методология, получившая название эксперимента Big-Brother, основана на подходе «идеального прогноза» и, следовательно, не страдает от ошибок модели или ограничений в наблюдаемых климатологиях. В [9] отмечается, что коэффициент Сэвиджа-Дики обеспечивает правильный фактор Байеса только в том случае, если априорное распределение мешающих параметров в рамках вложенной модели идентично условному априорному распределению в рамках полной модели с учетом известного ограничения-равенства. Для снятия этого
условия предлагается вычислять т.н. правильный фактор Байеса с использованием обобщенной версии коэффициента плотности Сэвиджа-Дики. В [10] предложена новая модель множественных вложенных инспекций производственного предприятия с разными интервалами. Разработан алгоритм ветвей и границ для нахождения оптимальных интервалов для всех инспекций, который минимизирует долгосрочные ожидаемые общие затраты на единицу времени.
Следует также отметить следующие интересные работы по данной проблематике: [11] (алгоритм автоматической трансляции моделей многоуровневых мультиагентных систем в виде вложенных сетей Петри в системы распределенных компонентов), [12] (метрическая модель вложенных пространств, оснащенная релятивистским вариантом финслеровой геометрии), [13] (модель утолщенных траекторий для описания движения электронов в веществе, основанная на предварительном расчете распределений характеристик электронных потоков и методе вложенных траекторий), [14] (трехуровневый комплекс вложенных моделей для анализа надежности энергоснабжения отдаленных населенных пунктов), [15] (анализ поведения процесса на основе свойства эргодичности вложенной марковской цепи), [16] (моделирование функции совместного распределения доходностей нескольких индексов с использованием вложенных архимедовых копул различных конфигураций).
Цель настоящей работы состоит в разработке алгоритмического способа идентификации неизвестных оценок параметров простой вложенной кусочно-линейной регрессионной модели второго типа.
Идентификация неизвестных оценок параметров простой вложенной кусочно-линейной регрессионной модели второго типа
В работах [17, 18] рассмотрены простые формы вложенных кусочно-линейных регрессионных моделей:
- простая вложенная кусочно-линейная регрессия первого типа:
ук = тт{ттиЕ1{а1Х]й},тахиЕ]{Р1Х]й}} + ек,к = 1,п (1)
- простая вложенная кусочно-линейная регрессия второго типа:
ук = тах{ттш{а1хы},тах1е]{р1хк1}} + £к,к = 1,п (2)
Здесь к - номер наблюдения, п - длина выборки данных, у - зависимая, а XI, I = 1,т - независимые переменные. Индексные множества ¡и] являются подмножествами множества номеров независимых переменных {1,2,...,т}. Допускаются непустые попарные пересечения этих подмножеств. Все переменные в моделях (1) и (2) детерминированы.
Для случая, когда в качестве функции потерь выбрана соответствующая методу наименьших модулей (МНМ) сумма абсолютных ошибок аппроксимации
в работе [19] задача идентификации неизвестных параметров а^, I 6 I, /3¿, I 6 ] регрессии (1) сведена к задаче линейно-булева программирования (ЛБП).
ВЕСТНИК ТОГУ. 2024. № 4 (75)
В работе [20] показано, что к задаче ЛБП может быть сведена и проблема вычисления оценок параметров простой вложенной кусочно-линейной регрессии первого типа с линейной составляющей:
Ук = ЪЕоГ1Хы+т™[ттш[а1хы},тах1е]{р1хы}} + £к + £к,к = 1,п, где О С {1,2,...,т}.
Подобным же образом в работе [21] решена задача определения оценок параметров однородной вложенной кусочно-линейной регрессии первого типа:
ук = тт{т1пшг{а}хк1},...,тт1е1с[а1 хк1}} + £к,к = 1,п,
где 11 С {1,2,.,т}, I =17с.
Применим используемые в работах [19-21] вычислительные приемы для идентификации неизвестных оценок параметров простой вложенной кусочно-линейной регрессионной модели второго типа (2).
Введем следующие вспомогательные обозначения: кк = ттш{а1хы},к = дк = тах1е]{р1хы},к = 1,п, Ьк = тах(кк,дк),к = 1,п.
Тогда задача оценивания параметров а^ I е 1,^,1 6 / сводится к следующей задаче ЛБП:
кк < а^х^, к = 1,п, 16 I, (3)
а{хы -кк<(1- ЗкдМ1, к = 1. ,п, 1 6 I, (4)
1 1е1 1 = 1, к = 1,п, (5)
дк > ^[хы, к = 1,п, 16 ], (6)
-дк > (Ры — ^^ к = 1, п, 16 ], (7)
11е] Ры = 1, к = 1,п, (8)
Ьк > кк, к = 1, п, (9)
Ьк >дк, к = 1, п, (10)
£к- кк + М3гк < М3, к = Т~п, (11)
^к- дк- МзГк <0, к = 1,п, (12)
Ьк + ик — рк = ук, к = 1,п, (13)
ик >0,ук> 0, кк >0,дк> 0, >0,к = 1,п, (14)
як 1 6 {0,1}, к = Т~п, 1 6 I, (15)
ры 6 {0,1},к = 1~п, 16 ], (16)
гк 6 {0,1}, к = 1, п, (17)
1'к=1(ик + Vк) + а1 — / ц ^ тт. (18)
Здесь M1t М2, М3 - наперед заданные большие положительные числа, ^ -малая положительная константа. Присутствие в целевой функции (18) второго и третьего слагаемых гарантирует единственность решения задачи ЛБП (3) - (18) [22]. Она содержит 6n+(n+1) (|Л+|/|) переменных, из которых п(|Л+Ш+1) - булевы, и 2п(|/|+|/|) +5п+2 ограничений. Здесь |/| - мощность множества I.
Задача идентификации параметров простой вложенной кусочно-линейной регрессионной модели второго типа с линейной составляющей.
Ук=/ Yixki + max{miniel{aixki},maxie][pixki}} + £к,
¿-4ED
к = 1,п
также сводится к задаче ЛБП путем замены ограничений (13) на следующие:
1 iED Yixki + ^к + ик — vk = Ук ,к = 1, п. Рассмотрим иллюстративный пример. Пусть исходная выборка данных имеет вид:
/4 7 9\ ' 3 5 2 Х
Х =
У
Л 2
9
4
\7/
9 3 1 8 16
\2 3 7 ! (6 4 8)
Сформируем индексные множества I и J в виде:
1={1,2}, ]={2,3}.
В качестве заданных констант примем:
М1 = м2 = М3 =10000, 0=0.00001. Будем строить простую вложенную кусочно-линейную регрессионную модель второго типа
ук = max{min{a1xkl, a2Xk2},max{ß2Xk2, ßsXk3}} + £к, к = 1,6. В результате решения задачи ЛБП (3) - (18) получим модель: ук = тах{ min{ 1.167 хк1, 3хк2}, тах{ 1.0хк2, 0.428хк3}} + £к, к =16. (19)
Приведем также оптимальные значения остальных переменных этой задачи:
S =
и 0 0 11 0 0 0 0
0 1 , р = 1 0 , R = 1
0 1 0 1 1
0 0' 11 0 0' \v
Л=(4.67, 3.5, 9, 3, 2.33, 7),
ВЕСТНИК ТОГУ. 2024. № 4 (75)
д=(7, 5, 3, 2.57, 3, 4), t=(7, 5, 9, 3, 3, 7), u=(1, 0, 0, 1, 0, 0), v=(0, 3, 0, 0, 0, 0). Таким образом, L(a, jff)=5.
Здесь S=||sfe i||, к = 1,п, iE I, P=llpkiH, к = 1,п, iE J, ß=||rfc||, к = 1,п.
Анализ этих значений показывает, что внутренний минимум в модели (19) сработал на первом, втором, пятом и шестом наблюдениях на первой независимой переменной, а внутренний максимум, кроме четвертого наблюдения -на второй переменной. Внешний максимум сработал на внутреннем минимуме в третьем, четвертом и шестом наблюдениях.
Заметим, что время решения задачи ЛБП при использовании размещенной в сети Интернет в свободном доступе программы LPsolve составило 0.159 сек.
Заключение
В работе рассмотрена задача оценивания неизвестных параметров простой вложенной кусочно-линейной регрессионной модели второго типа, в правую часть которой входит внешний максимум, а также внутренние минимум и максимум. Эта задача при использовании функции потерь, соответствующей методу наименьших модулей, сведена к задаче линейно-булева программирования. Рассмотрен иллюстративный пример.
Библиографические ссылки
1.Dugundji E. R., Gulyas L. Structure and emergence in a nested logit model with social and spatial interactions // Computational and Mathematical Organization Theory. 2013. № 19. P. 151-203.
2.Gilchrist M. A., Sasaki A. Modeling Host-Parasite Coevolution: A Nested Approach Based on Mechanistic Models // Journal of Theoretical Biology. 2002. № 218. P. 289-308.
3.Gomez-Rubio V., Bivand R. S., Rue H. Estimating Spatial Econometrics Models with Integrated Nested Laplace Approximation // Mathematics. 2021. № 9.
4.Bolin D., Lindgren F. Spatial models generated by nested stochastic partial differential equations, with an application to global ozone mapping // The Annals of Applied Statistics. 2011. № 5. P. 523-550.
5.Pincheira P., Hardy N., Munoz F. "Go Wild for a While!": A New Test for Forecast Evaluation in Nested Models // Mathematics. 2021. № 9.
6.Creating multi-scale nested MRIO tables for linking localized impacts to global consumption drivers / Jacob Fry, Arne Geschke, Sarah Langdon, Manfred Lenzen, Mengyu Li, Arunima Malik, Ya-Yen Sun, Thomas Wiedmann // Journal of Industrial Ecology. 2021. № 26. P. 281-293.
7.A nested-ANN prediction model for surface roughness considering the effects of cutting forces and tool vibrations / Yanni Chen, Ronglei Sun, Yuan Gao, Jürgen Leopold
// Measurement. 2017. № 98. P. 25-34.
8.Downscaling ability of one-way nested regional climate models: the Big-Brother Experiment / B. Denis, R. Laprise, D. Caya, J. Côté // Climate Dynamics. 2002. № 18. P. 627-646.
9.Heck D. W. A caveat on the Savage-Dickey density ratio: The case of computing Bayes factors for regression parameters // British Journal of Mathematical and Statistical Psychology. 2019. № 72. P. 316-333.
10. Wang W. A model of multiple nested inspections at different intervals // Computers & Operations Research. 2000. № 27. P. 539-558.
11. Дворянский Л. В., Ломазова И. А. Автоматическое построение систем распределенных компонентов по моделям вложенных сетей петри // Программирование. 2016. № 5. С. 49-67.
12. Носков В. И. О полевых уравнениях модели вложенных пространств // Вестник Пермского университета. Математика. Механика. Информатика. 2008. № 4. С. 125-131.
13. Скачков М. В. Модель утолщенных траекторий для описания движения электронов в веществе // Ядерная физика и инжиниринг. 2012. № 3. С. 340-340.
14. Губий Е. В., Зоркальцев В. И. Модели и методы анализа надежности энергоснабжения отдаленных населенных пунктов // Управление большими системами. 2019. № 78. С. 221-234.
15. Екимов А. В., Жабко А. П., Смирнов Н. В. Матричный анализ эргодических полумарковских процессов // Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления. 2004. № 1-2. С. 16-29.
16. Петров И. А., Ратникова Т. А. Анализ совместного распределения биржевых и арт-индексов: попытка копулярного подхода // Прикладная эконометрика. 2018. № 4. С. 46-61.
17. Носков С. И. Подход к формализации вложенной кусочно-линейной регрессии // Международный журнал гуманитарных и естественных наук. 2023. № 50. С. 218-220.
18. Носков С.И. Некоторые формы вложенной кусочно-линейной регрессии // Известия Тульского государственного университета. Технические науки. 2023. № 3. С. 467-469.
19. Носков С. И. Идентификация параметров простой формы вложенной кусочно-линейной регрессии // Ученые записки Комсомольского-на-Амуре государственного технического университета. 2023. № 3. С. 57-61.
20.Носков С. И. Оценивание параметров простой вложенной кусочно-линейной регрессии с линейной составляющей // Вестник Югорского государственного университета. 2024. № 20. С. 19-21.
21. Носков С. И., Белинская С. И. Вычисление оценок параметров однородной вложенной кусочно-линейной регрессии // Вестник Дагестанского государственного технического университета. Технические науки. 2023. № 50. С. 115-120.
22.Уточнение способов идентификации параметров некоторых кусочно-линейных регрессий / Носков С. И., Жукова М. С., Кириллова Т. К., Купитман Ю. О., Хоняков А. А. // Научные труды КубГТУ. 2023. № 2. С. 75-81.
ВЕСТНИК ТОГУ. 2024. № 4 (75)
Title: Calculation of Parameter Estimates for Simple Nested Piecewise Linear Regression of the Second Type
Authors' affiliation:
Noskov S. I. - Irkutsk State Transport University, Irkutsk, Russian Federation Belyaev S. V. - Irkutsk State Transport University, Irkutsk, Russian Federation
Abstract: The article provides a brief overview of the results on the application and study of nested mathematical models of complex objects. In particular, the authors consider integrated nested Laplace approximation; a class of stochastic field models constructed using nested stochastic partial differential equations; a model of a nested artificial neural network predicting surface roughness; a methodology for testing the scalability of nested regional climate models. The problem of identifying unknown parameters of a simple nested piecewise linear regression model of the second type, the right-hand side of which contains an external maximum, as well as an internal minimum and maximum, is formulated. This problem is reduced to a linear Boolean programming problem using a loss function corresponding to the least absolute deviation method. A numerical example is considered.
Keywords: simple nested piecewise linear regression of the second type, parameter estimation, least absolute value method, linear-Boolean programming problem, index set.