УДК 519.246.8
ПРИМЕНЕНИЕ АДАПТИВНОГО РЕГРЕССИОННОГО МОДЕЛИРОВАНИЯ ДЛЯ ОПИСАНИЯ ФУНКЦИОНИРОВАНИЯ ТЕХНИЧЕСКОГО ОБЪЕКТА
© 2014 Т.Е. Родионова
Ульяновский государственный технический университет
Поступила в редакцию 29.06.2014
В работе рассмотрены математические модели описания состояния технического объекта, полученные методами регрессионного моделирования. Рассмотрены особенности показателей качества функционирования рассматриваемого объекта. Произведено сравнение моделей, полученных по выборкам разного объема. Используя внутренние меры качества, предложена регрессионная модель для оценки параметров технического объекта.
Ключевые слова: регрессионное моделирование, технический объект, выборка, качество, модель, корреляция
Требование безаварийного функционирования любого технического объекта является актуальной задачей. Для этого проводится регулярный контроль определенных показателей качества, причем значения входных и выходных параметров опре-деляются по результатам измерений в режиме реального времени. Традиционно для оценки качества работы объекта используется набор показателей, имеющих определенный физический смысл (технические, физические, химические и т.д.). В работе рассматривается объект, который характеризуется набором р параметров хгхр, среди которых можно выделить k управляемых факторов хр-к+\-хр. Измерялись также m показателей качества функционирования объекта y\-ym. Требовалось исследовать влияние регрессоров х1-хр на отклики yj-
ym.
Для построения математической модели описанного объекта при р = 8, k = 2, m = 7 был применен подход адаптивного регрессионного моделирования, подразумевающий исследование и выбор оптимальных методов. По совокупности имеющихся данных за год для каждого отклика yj-y7 были построены и исследованы модели. Для расчетов использовался пакет Statistica [5]. Модели, полученные методом наименьших квад-ратов, характеризовались наличием незначимых параметров и эффектом мультиколлинеарности [1, 2]. Поэтому были исследованы возможности применения ряда методов адаптации к выявленным нарушениям основных предпосылок применения регрессионного анализа.
Для моделирования показателей качества объекта были получены регрессии с использованием выборок размером 30, 60, 100 дней и по ним произведены прогнозы на 2-4 следующих дня. Предлагаемые размеры выборки можно объяснить
Родионова Татьяна Евгеньевна, кандидат
технических наук, доцент кафедры прикладной
математики и информатики. E-mail: t. rodionova@ulstu. ru
тем, что при разделении исходного файла на выборки пришлось учитывать неизменность физико-химических показателей объекта в течение достаточно продолжительного времени. В частности, один из управляемых параметров изменяется в диапазоне от 0,12 до 0,22, и периоды неизменных значений могут быть от нескольких дней до сотни суток (за исследуемый период максимальное значение 113 дней). Известно, что наличие в обрабатываемом файле столбца из одинаковых значений при компьютерной обработке данных приводит к возникновению ошибки и остановке расчета. Ниже в качестве примера приведены модели множественной регрессии для откликов у1, у6 полученные для выборок разного размера, а также значения коэффициента детерминации Я . Для годовой выборки:
У1 = 22,93 + 0,02X1 + 0,45X2 - 0,02хэ - 0,97x4 + +1,11x5 - 0,003x6 - 3,73x7 - 6,2х8; Я2 = 0,16. у6 = 6,8 - 0,0003х! + 0,13х2 - 0,008х3 - 0,18х4 - 0,06х5 + 0,18х6 - 1,24х7 - 1,78x8; Я2 = 0,35.
Для выборки из 100 наблюдений:
У1 = 13,91 - 0,34х: + 0,77х2 - 0,13х3 +0,21х4 + 1,19х5 + 0,26х6 - 6,66х7 + 31,95х8; Я2 = 0,29 У6 = -3,23 + 0,14х1 - 0,07х2 - 0,04х3 -0,41х4 + 0,70х5 + 0,11х6 + 1,34х7 + 2,48х8; Я2 = 0,5.
Для выборки из 60 наблюдений:
У! = - 8,68 + 1,17х! - 0,09х2 - 0,19х3 - 1,48х4 + 4,35х5 -
0,01х6 + 2,71х7 + 29,43х8; Я2 = 0,44.
у6 = -6,87 - 0,01х - 0,3х2 - 0,01х3 - 1,25х4 + 1,00х5 +
0,15х6 - 3,87х7 + 1,72х8; Я2=0,7.
Для выборки из 30 наблюдений:
У1 = -282,8 + 2,32х: - 7,97х2 - 0 09х3 - 1,81х4 + 0,77хъ - 0,085х6 + 83,25х7 - 39,34х8; Я2 = 0,31. У6 = 9,5 - 0,024х! - 0,27х2 - 0,003х3 + 0,05х4 + 0,27х5 + 0,003х6 - 2,83х7 + 2,46х8; Я2 = 0,67.
Были получены модели множественной регрессии для всех откликов у\-у7, которые являются показателями качества функционирования рассматриваемого объекта. Анализируя полученные модели для каждого отклика с учетом разного размера выборки можно говорить о неустойчивости полученных моделей в пространстве параметров. Об этом свидетельствует достаточно большой разброс оценок параметров по разным выборкам, в том числе и смена знака. Для оценки
Анализируя полученные модели для всех откликов у1-у7 по внутренним мерам качества, можно сделать вывод, что размер выборки в 60 наблюдений является наиболее предпочтительным для построения прогноза.
Исследование корреляционной матрицы показало, что между регрессорами х1 и х3, х1 и х8, х2 и х7 существует сильная линейная взаимосвязь. Это явление называется мультиколлинеарностью и имеет весьма отрицательные последствия для оценивания коэффициентов регрессии [1]. Следует также отметить, что отклик у4 связан
качества полученных по выборкам моделей были использованы такие статистики (меры качества) как стандартная ошибка сд, коэффициент детерминации Я2, об-щий ^-критерий. Так как значения этих статистик получаются путем обработки данных, на основе которых строится модель, то они являются внутренними критериями. Данные меры для каждой из исследуемых моделей приведены в табл. 1.
корреляционной связью средней силы с х7, а отклик у6 с регрессором х6. В табл. 2 приведены коэффициенты парной корреляции между параметрами х1-х8 и откликами у1-у7 (набором показателей качества технического объекта).
Анализ остатков, полученных для моделей по 60 наблюдениям, показали, что для каждого из откликов существуют выбросы (значения, выходящие за стандартное отклонение остатков). В табл. 3 приведен список выбросов, обнаруженных при построении моделей для каждого из откликов.
Л У2 Уз У4 У5 Уб У7
1 2 3 4 5 6 7 8
Х1 0,09 -0,13 -0,45 -0,15 -0,67 0,18 -0,48
Х2 0,25 0,40 0,09 0,14 0,45 0,13 0,31
Хз -0,05 0,04 -0,16 0,11 -0,14 -0,03 -0,18
Х4 -0,04 0,11 0,06 -0,17 -0,16 0,12 -0,19
Таблица 1. Внутренние меры качества моделей
Отклик Объем выборки Я2 Р- критерий Стандартная ошибка Кол-во значимых регрессоров
у1 30 0,31 1,16 0,73 1
60 0,44 4,88 0,8 0
100 0,29 4,54 0,89 0
годовая 0,16 8,2 0,91 2
у2 30 0,11 0,34 0,03 0
60 0,47 5,57 0,02 2
100 0,44 9,1 0,03 2
годовая 0,28 16,22 0,04 3
у3 30 0,25 0,8 0,05 0
60 0,14 1,05 0,06 0
100 0,18 2,5 0,06 1
годовая 0,33 20,64 0,08 3
у4 30 0,59 3,76 18,82 2
60 0,49 5,74 15,99 3
100 0,52 12,55 12,7 3
годовая 0,12 6,19 20,99 5
у5 30 0,15 0,47 0,06 0
60 0,19 1,51 0,06 1
100 0,15 2,03 0,06 1
годовая 0,47 37,59 0,06 1
у6 30 0,67 5,24 0,16 2
60 0,7 15,25 0,2 2
100 0,5 11,71 0,22 1
годовая 0,35 23,09 0,3 1
у7 30 0,35 1,41 0,02 1
60 0,39 3,98 0,02 3
100 0,31 5,07 0,02 3
годовая 0,42 30,82 0,02 6
Таблица 2. Коэффициенты парной корреляции
Таблица 3. Выявленные выбросы (аномальные наблюдения) для откликов
1 2 3 4 5 6 7 8
X5 0,08 0,12 0,17 0,05 0,26 0,01 0,52
x6 0,10 0,30 0,04 -0,18 -0,17 0,57 0,01
X7 0,24 0,39 0,09 0,14 0,46 0,12 0,32
X8 -0,09 0,15 0,40 0,14 0,66 -0,18 0,44
Отклик Наблюдения с Количество
зафиксированными выбросами выбросов
У1 42 1
У2 14, 21, 26, 51 4
Уъ - -
У 4 4, 27 2
У 5 9, 12, 36 3
У6 19, 54 2
У7 9, 28, 42 3
13 12 11 10
9 8
о 6
г
5
4
3 2 1 0
-0,07 -0,05 -0,03 -0,01 0,01 0,03 0,05 0,07 0,09
-0,06 -0,04 -0,02 0,00 0,02 0,04 0,06 0,08 0,10
Рис. 1. Гистограмма остатков для отклика У2
14 13 12 11 10
9
£ 8
5 7
* 6
5
4 3 2 1 0
-0,14 -0,12 -0,10 -0,08 -0,06 -0,04 -0,02 0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14
Рис. 2. Гистограмма остатков для отклика У3
На рис. 1 и 2 приведены гистограммы остатков для откликов У2 и У3, которые позволяют сделать вывод о нарушении предположения регрессионного анализа о нормальности распределения остатков. Приведенные гистограммы остатков для исследуемых моделей получены с использованием пакета Statistica [5].
Для контроля рассматриваемого объекта с целью регулирования его параметров необходима модель, содержащая управляемые параметры х7 и х8. Рассматривая в совокупности полученные меры качества моделей, и учитывая выявленные нарушения условий МНК, далее предложены некоторые методы адаптации [4, 6, 7]. Для преодоления
выявленных нарушений был использован метод пошаговой регрессии. Пошаговая множественная регрессия является статистическим методом анна-лиза связи между зависимой переменной (у) и множеством независимых переменных (хьх2,...,хр) и осуществляет отбор независимых переменных в порядке их значимости. Критерий значимости основывается на уменьшении сумм квадратов. Независимая переменная, наиболее влияющая на это уменьшение на данном шаге, вводится в регрессию. Одним из существенных элементов данной реализации является добавление в алгоритм операции исключения регрессора, включенного в модель на данном шаге и ухудшающего значение критерия, по которому производится поиск оптимальной модели.
Далее для анализа был применен метод случайного поиска с адаптацией и случайного поиска с возвратом. Задачу поиска оптимального набора регрессоров можно рассматривать как задачу оптимизации функционалов с булевыми переменными
О' = 1= р), равными 0 или 1. Методы пошаговой
регрессии и случайного поиска с адаптацией позволили получить модели со значимыми параметрами и хорошими прогностическими свойствами, но не все из них содержат необходимые управляемые параметры х7 и х8. Значение коэффициента детерминации (0,67) в соответствии с принятой шкалой соответствует «заметной» силе связи. В состав моделей входит от 2 до 6 параметров объекта, при этом не во все модели вошли оба управляемых параметра х7 и х8. Если не использовать принудительное введение этих параметров, то подходящей модели по методу пошаговой регрессии, как и по МНК, не получено. Гребневое оценивание позволило получить модели с малыми значениями коэффициента детерминации и Б-кри-терия, что не соответствует требованиям оптимальной модели. Результаты расчетов методом пошаговой регрессии и гребневого оценивания приведены в табл. 4. В ней приводятся номера параметров, вошедшие в модель, полученную пошаговым методом и внутренние меры качества для каждого из примененных методов.
Distnbution of Raw residuals Expected Normal
Distribution of Raw residuals Expected Normal
Таблица 4. Меры качества модели при пошаговом и гребневом оценивании
От кл ик Пошаговая регрессия Гребневая регрессия
№ параметра R2 F-кри-терий стандарт ная ошибка R2 F-кри-терий стандарт ная ошибка
У1 1, 2, 3, 5 0,42 10,08 0,82 0,4 4,28 0,86
У2 2, 5, 6, 7, 8 0,47 9,22 0,03 0,36 3,53 0,03
Уз 3, 5, 7 0,13 2,9 0,06 0,13 0,9 0,05
У4 2, 3, 5, 6, 7, 8 0,47 9,56 15,6 0,27 2,33 18,9
У5 1, 2, 7, 8 0,18 2,9 0,05 0,15 1,1 0,06
Уб 2, 3, 4, 5, 6, 7 0,7 20,95 0,2 0,7 12,69 0,21
У7 2, 5, 7 0,28 7,0 0,2 0,3 2,6 0,02
При использовании метода случайного поиска с адаптацией, были получены модели, характеризующиеся небольшой стандартной ошибкой,
1.
сравнимой по значениям с результатами множественной и пошаговой регрессии. По коэффициенту детерминации и ^-критерию получено небольшое улучшение качества модели. Основным достоинством данных моделей можно считать тот 2. факт, что каждая из них содержит управляемые параметры х7 и х8, которые необходимы для регулирования состояния технического объекта. 3.
При исследовании влияния объема выборки на характеристики полученных моделей, используя только внутренние меры качества, был выбран наиболее предпочтительный объем, равный 60 измерениям. Анализ корреляционных связей между пара- 4. метрами модели и показателями качества рассматриваемого технического объекта позволил выявить существенные взаимосвязи, которые требуют дальнейшего исследования. При исследовании остатков . полученных моделей были зафиксированы аномальные наблюдения, которые требуется исклюю-чить из исходных данных при дальнейшей обработке. Методы пошаговой регрессии и случайного поиска с адаптацией дали модели с хорошими прогностическими способностями, но не полностью соответствующие заявленным требованиям.
Дальнейшие исследования предполагают получение моделей с максимально возможным набором параметров по выборкам объемом 60 наб- 7. людений. Выбор наилучшей для прогноза модели предполагает использование различных мер качества моделей, как внутренних, так и внешних. Для адаптации к выявленным нарушениям планируется использовать также методы гребневого и робаст-ного оценивания.
СПИСОК ЛИТЕРАТУРЫ:
Валеев, С.Г. Анализ методов оценки параметров при мультиколлинеарности переменных / С.Г. Валеев, Т.Е. Родионова // Известия Вузов. Серия: Геодезия и аэрофотосъемка. 1999. №5. С. 20-28. Валеев, С.Г. Методика статистической обработки РСДБ-наблюдений / С.Г. Валеев, Т.Е. Родионова, В.Е. Жаров // Известия Вузов. Серия: Геодезия и аэрофотосъемка. 2008. №1. С. 13-18. Клячкин, В.Н. Информационно-математическая система раннего предупреждения об аварийной ситуации / В.Н. Клячкин, Ю.Е. Кувайскова, АА. Алешина, ЮА. Кравцов // Известия Самарского научного центра РАН. 2013. №4(4). С. 919-923. Рыбкина, М.В. Анализ зависимости качества жизни от развития социальных структур / М.В. Рыбкина, Т.Е. Родионова // Сборники конференций НИЦ Социосфера. 2013. №51. С. 051-053. Халафян, А.А. SТАТISТIСА 6. Статистический анализ данных. 3-е изд. - М.: ООО «Бином-Пресс», 2007. 512 с.
Родионова, Т.Е. Исследование взаимозависимостей между социально-экономическими показателями методами регрессионного анализа данных / Т.Е. Родионова, М.В. Рыбкина // Региональная экономика: актуальные вопросы и новые тенденции: сборник науч. трудов Междун. заочной науч.-практ. конф. (23-25 апреля 2014 года, г. Ульяновск). В 2 т. - Ульяновск: УлГТУ, 2014. Т. 2. С. 196-202. Родионова, Т.Е. Сравнение регрессионных моделей показателей качества питьевой воды // Матер. 3-й науч.-практ. ш1егпе1-конференции 20-21 февраля 2014, Тольятти «Междисциплинарные исследования в области математического моделирования и информатики» - Тольятти, 2014. С. 159-162.
APPLICATION OF ADAPTIVE REGRESSION MODELING FOR DESCRIPTION THE TECHNICAL OBJECT FUNCTIONING
© 2014 T.E . Rodionova Ulyanovsk State Technical University
In work mathematical models of the description the state of technical object which are come into by methods of regression modeling are considered. Features of indicators the quality of functioning of the considered object are considered. Comparison of the models received on selections the different volume is made. Using internal measures of quality, the regression model for estimation the parameters of technical object is offered.
Key words: regression modeling, technical object, selection, quality, model, correlation
Tatiana Rodionova, Candidate of Technical Sciences, Associate Professor at the Department of Applied Mathematics and Computing Science. E-mail: [email protected]