Научная статья на тему 'Побудова багатоланкових полігональних рівнянь регресії'

Побудова багатоланкових полігональних рівнянь регресії Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
74
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОЛИГОНАЛЬНАЯ РЕГРЕССИЯ / ПОЛИНОМИАЛЬНАЯ РЕГРЕССИЯ / ИНФОРМАТИВНОСТЬ / СПЛАЙН-РЕГРЕССИЯ / ВЫЧИСЛИТЕЛЬНАЯ СТОЙКОСТЬ / ЧИСЛО ОБУСЛОВЛЕННОСТИ / POLYGONAL REGRESSION / POLYNOMIAL REGRESSION / INFORMATIVE / SPLINE REGRESSION / COMPUTATIONAL STABILITY / CONDITION NUMBER

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Лапач С. М., Кузьмін В. М.

Разработана формализованная процедура определения абсцисс точек переключения полигональной регрессии. Основывается на предварительном построении наиболее информативной модели полиномиальной регрессии. Из нее аналитически определяются приблизительные координаты искомых точек. Уточнение производится в процессе поиска наилучшего по описательным свойствам регрессионного полигонального уравнения. Определенные таким образом точки дают возможность смыслового анализа процесса и обоснованного прогноза.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A formalized procedure of definition of polygonal absciss of switch points of multi-unit regression was developed. It is based on the preliminary building of the most informative polynomial regression. From the resulting model analytically determined the approximate location of the desired points. Refinements coordinates is in the search for the best descriptive characteristics of polygonal regression equation. Determined points enable semantic analysis process and a reasonable forecast.

Текст научной работы на тему «Побудова багатоланкових полігональних рівнянь регресії»

УДК 519.237.5

С.М. ЛАПАЧ*, В.М. КУЗЬМШ**

ПОБУДОВА БАГАТОЛАНКОВИХ ПОЛ1ГОНАЛЬНИХ Р1ВНЯНЬ РЕГРЕС11

Нацiональний технiчний унiверситет Украши «КП1 iMeHi 1горя Окорського», Ктв, Украша Нацiональний авiацiйний унiверситет, Кшв, Украша

Анотаця. Розроблена формал1зована процедура визначення абсцис точок перемикання багатола-нково! регресп. Базуеться на попереднт побудов1 найбшьш тформативно! полиномиально!регресИ З не! аналтичним шляхом визначаються приблизш координати шуканих точок. Уточнення eid6y-ваеться при пошуку найкращого за описовими характеристиками регрестного полiгонального рiв-няння. Визначеш точки дають можливiсть смислового аналiзу процесу i обгрунтованого прогнозу. Ключов1 слова: полiгональна регреая, полiномiальна регреая, тформативтсть, сплайн-регреая, обчислювальна сттшсть, число обумовленостi.

Аннотация. Разработана формализованная процедура определения абсцисс точек переключения полигональной регрессии. Основывается на предварительном построении наиболее информативной модели полиномиальной регрессии. Из нее аналитически определяются приблизительные координаты искомых точек. Уточнение производится в процессе поиска наилучшего по описательным свойствам регрессионного полигонального уравнения. Определенные таким образом точки дают возможность смыслового анализа процесса и обоснованного прогноза.

Ключевые слова: полигональная регрессия, полиномиальная регрессия, информативность, сплайн-регрессия, вычислительная стойкость, число обусловленности.

Abstract. A formalized procedure of definition ofpolygonal absciss of switch points of multi-unit regression was developed. It is based on the preliminary building of the most informative polynomial regression. From the resulting model analytically determined the approximate location of the desired points. Refinements coordinates is in the search for the best descriptive characteristics of polygonal regression equation. Determined points enable semantic analysis process and a reasonable forecast. Keywords: Polygonal regression, polynomial regression, informative, spline regression, computational stability, condition number.

1. Вступ

При побудов1 под1гонадьно'1 регреси нерозвязаною залишасться проблема формал1зовано'1 i обгрунтовано'1 процедури вибору кшькосп ланок i абсцис точок передому при опис про-цеав, яю вимагають смислового аналiзу або прогнозу.

Досдщження неперюдичних процеав часто зус^чаеться з такими випадками, в яких декшька раз вщбуваеться змша характеру процесу. Опис таких процеав за допомо-гою полiномiв вимагае високо'' степеш подшома, що робить його (а) непридатним для прогнозу; (б) замють тенденцш вщстежуються випадковi фдуктуацп; (в) при використанш звичайних полiномiв матриця стае погано обумовленою. Найкраще таю процеси описувати за допомогою псшгонально'1 perpecii (сплайн-perpecii) [1, 2]. Р1вняння псшгонально'1 регре-

... „ „ ~ , , -sr* (x-flO + lx-or,-! си мае такии загальнии вигляд: у = о0 + 2_lbi---L, де ai - координати точки пе-

¿=1 2

релому, причому ах — 0. Як правило, точки перелому сплайн-perpecii в таких процесах е точками змши ходу процесу, i i'x розмiщення мае значення з точки зору смислового аналiзу процесу [3]. Крiм того, це мае велике значення в задачах прогнозування процеав для вибору фрагмента, за яким буде виконуватись прогноз [4]. Визначенню точок перемикання присвячена велика кшьюсть лгтератури, зокрема [5-7], в якш використовуються рiзноманi-тнi математичнi методи: генетичш алгоритми, дiнiйне програмування, кдастеризацiя тощо. При цьому вiдбуваеться кдасична тдмша мети: замiсть мети по визначенню точок змши

© Лапач С.М., Кузьмш В.М., 2017

ISSN 1028-9763. Математичш машини i системи, 2017, № 2

тенденцп шукають найкращi з точки зору деякого формального критер^, якi не мають вь дношення до вихщно'1 постановки задачi в конкретнiй галузi дослiдження.

Метою роботи е створення формалiзованоi i обгрунтовано'1 процедури вибору абс-цис точок переключення сплайн-регресп (пол^онально'1 регресп) при описi процеав, якi вимагають смислового аналiзу.

2. 1дея 1 алгоритм побудови

Алгоритм побудови формалiзованоi обгрунтовано'1 процедури базуеться на двох положен-нях:

1) нулi першо'1 та друго'1 похщних полiнома вiдповiдають точкам змiни тенденцп процесу: змiною тенденцп процесу може бути як екстремум, так i перелом функцп;

2) найкращим полшомом для опису процесу е рiвняння регресп з максимальною ш-форматившстю (в ньому мiнiмальна частка регресорiв, якi описують випадковi вiдхилення, а не тенденцп).

Побудову пол^онально'1 багатоланково'1 лшп регресп пропонуеться виконувати за таким алгоритмом.

1. На першому етапi виконуеться визначення гiпотетичних точок змiни тенденцп.

1.1. Виконуеться побудова найбшьш шформативного полiнома степенi к для опису набору даних.

1.2. Визначення нулiв першо'1 i друго'1 похiдних побудованого найбiльш ^формативного полiнома степенi к.

1.3. Вiдбiр точок змiни тенденцп з результат 1.2 i аналiзу спостережень.

2. На другому етат вiдбуваеться уточнення розмiщення точок змши тенденцп.

2.1. Побудова найкращого рiвняння пол^онально'1 регресп, уточнюючи гiпотетичнi точки змши тенденцп.

2.2. Побудова варiантiв рiвняння пол^онально'1 регресп, виключаючи точки, де змь на тенденцп сумшвна (якщо це необхiдно).

3. Аналiз отриманих моделей i вибiр моделi для використання.

П.п. 1.1 i 1.2 першого етапу можуть виконуватись повнiстю автоматично, без участi людини. В п. 1.1 для забезпечення стшкосп розв'язку необхiдно використовувати ортого-нальнi полiноми Чебишева, оскiльки матриця, сформована iз звичайних полiномiв, при збшьшент степенi швидко стае сильно закорельованою або навт виродженою. Максимальна шформативтсть визначаеться як максимальне значення розрахункового критер^ Фiшера для значимосп множинного коефiцiента кореляцп. Необхщшсть п. 1.3 викликана потребою зменшити кiлькiсть варiантiв у п. 2.1 i 3. Але цей пункт може бути i пропуще-ний.

На другому етат п. 2.1 теж може бути виконаний автоматично. Виконання ж п. 2.2 потребуе учасп спещалюта.

Необхщшсть п. 3 викликана можливютю отримання кшькох моделей, як рiвнозна-чнi з точки зору статистичних показниюв, що 1'х описують, але рiзнi з точки зору смислового аналiзу.

3. Приклад розв'язання задач1

Вих1дн1 дам

Детальне пояснення алгоритму виконаемо на реальних даних, взятих з [8], яю приведет в табл. 1.

Таблиця 1. Вихщт дат ^мпорт нафти в США)

№ пп Рк 1мпорт нафти (тис. барелiв за добу) № пп Рк 1мпорт нафти (тис. барелiв за добу)

1 1973 6556,145 17 1989 8060,545

2 1974 6112,184 18 1990 8017,521

3 1975 6955,712 19 1991 7626,748

4 1976 7312,598 20 1992 7887,697

5 1977 8807,249 21 1993 8620,422

6 1978 8363,411 22 1994 8996,222

7 1979 8356,129 23 1995 8834,94

8 1980 6909,025 24 1996 9478,492

9 1981 5995,673 25 1997 10161,56

10 1982 5113,311 26 1998 10708,07

11 1983 5051,353 27 1999 10852,26

12 1984 5436,982 28 2000 11459,25

13 1985 5067,144 29 2001 11871,34

14 1986 6223,512 30 2002 11530,24

15 1987 6677,696 31 2003 12264,39

16 1988 7402,021 32 2004 13145,09

Побудова полгному степеш к для опису набору даних

Визначити ланки i приблизш точки перелому можна було б i вiзуально, як зазвичай i ро-биться. Але при цьому або залишаеться сумнiв (у складних ситуащях), або необхiдно пе-ребирати декшька варiантiв ланок. Крiм того, такий вибiр не е обгрунтованим, а спираеть-ся тiльки на думку людини. Зауважимо, що у складних ситуащях рiзнi експерти пропону-ють рiзнi варiанти розбиття, виходячи з одних i тих же даних.

У зв'язку з цим пропонуеться початкову кшькють ланок i попередню оцiнку розмь щення точок перелому отримувати за допомогою апроксимацп вибiрки полiномом високо'1 степеш. Проблемою тут е визначення оптимально! степеш полшому, так як його стешнь можливо шдвищувати до N — 1, де N - розм1р виб1рки. При цьому частина статистичних характеристик вщповщного рiвняння регресп буде асимтотично монотонно зростати. Це приводить до того, що з деякого моменту рiвняння починае вщслщковувати не тенденцп, а випадковi флуктуацп.

Розв'язання проблеми можливе за допомогою розрахункового значення критер^ Фшера для множинного коефщента кореляцп: оптимальна степiнь вiдповiдае його максимальному значенню. На вщмшу вiд бiльшостi статистичних характеристик розрахункове значення критер^ Фiшера для множинного коефщента кореляцп (Бя) не зростае монотонно, воно мае максимум при максимальнш шформативносп моделi i пiсля цього монотонно спадае при збшьшенш степенi полiнома.

У табл. 2 приведено тенденцп змши показниюв для прикладу, який розглядаеться. Ми бачимо, що зi зростанням степеш полшома регресiйного рiвняння множинний коефщь ент кореляцп асимтотично зростае, а середньоквадратична помилка зменшуеться. Тобто, формально яюсть апроксимацп з ростом степеш покращуеться. Але розрахункове значення критер^ Фiшера для R (Бя) зменшуеться. Це пов'язано з тим, що найкраща апроксимацiя набору рiвнянь i найкраще рiвняння регресп - це зовам не одно i теж. Найкраща апрокси-мацiя буде вщслщковувати, ^м закономiрностей, i випадковi вiдхилення. Якщо ж врахо-вувати чутливють методу найменших квадратiв до «викидiв», а саме «перетягування» рiв-няння до аномальних спостережень, то найкраща апроксимащя може бути незадовшьною з точки зору опису поведшки дослiджуваного процесу.

Таблиця 2. Деяю статистичт характеристики полiномiальних моделей

Статистичш показники регресп Степiнь полiнома

3 4 5 6

Множинний коефiцiент кореляцп (R) 0,918773 0,935402 0,958123 0,960134

Розрахункове значення критер^ Фiшера для R (Fr) 50,55107 47,23966 58,21476 49,15506

Середньоквадратична помилка (<г) 940,2844 857,6131 707,7772 704,6103

Як видно з таблищ, найбiльшу iнформативнiсть мае рiвняння полшому п'ято! сте-пенi, яке мае такий вигляд:

у = 3923,831 + 2334,999х - 457,514х2 + 33,95877х3 -1,05523*4 + 0,011827х5.

На рис. 1 приведено графш, побудований за вказаною вище моделлю, з вщображен-ням вщповщних даних спостережень. Моделi отриманi за допомогою стандартних засобiв надбудови «Аналiз даних» Excel. Побудова моделей стандартними поширеними програм-ними засобами мае два недолши:

1) необхiднiсть самому будувати кожну матрицю гаданого полшому як вихщш данi вщповщно! модели

2) сильна закорельованiсть матриць i, вiдповiдно, вiдсутнiсть обчислювально! стш-кост коефiцiентiв регресп при високiй степеш полiнома (вище третьо!).

Використовуючи програмний зааб (ПЗ) ПР1АМ (планування, регреая i аналiз мо-делi) [9], немае необхщносп в побудовi кшькох полiномiальних моделей з наступним ви-бором найкращо! цей програмний зааб забезпечуе такi дп автоматично, включаючи побу-дову матриць полiномiв Чебишева до вихiдних факторiв.

Результати роботи (графш побудовано! моделi i результати спостережень) приведе-нi на рис. 2.

Хоча отримаш статистичнi характеристики моделi (табл. 3) незначно вiдрiзняються вiд приведених вище в табл. 2, перевагою ПР1АМ е не тшьки автоматизацiя побудови най-кращо'1' моделi, але й забезпечення ii структурно! i обчислювально! стiйкостi. Число обумо-вленостi моделi, побудовано'1 ПР1АМ, дорiвнюе 1 (теоретично iдеальне значення), а в мо-

дел1 п'ято! степеш, побудованою Excel, - Cond=2,7xl015 , тобто матриця погано обумовле-на. Стiйкiсть забезпечена побудовою моделi в полiномах Чебишева. Модель, побудована ПЗ ПР1АМ, мае такий вигляд:

г(4)

де

у - 8295,47 + 2957,67у ' + 2113,56у ' +956,914/р' -857,751/

/(1) = 0,0645161(Х -16,5);/(2) = 1,55((/ш)2 - 0,354839), /(4) = 5,3504((/ш)4 - 0,909469(/(1))2 + 0,0963714, /(5) -11,0575((/(1)У-1,17586(/(1))3 + 0,266295.

Бiльш висока iнформативнiсть ще'1 моделi, порiвняно з моделлю, побудованою Excel, пояснюеться меншою кiлькiстю члешв.

Таким чином, застосування ПЗ ПР1АМ дозволяе автоматично виконувати п. 1.1 описаного вище алгоритму.

13465 .8633

12529 .3209

11592 .7785

10656 .2362

9719 .6938

8783 .1514

7846 .6090

6910 .0667

5973 .5243

5036 .9819

1

ж /

ж 3Чу/

/ »

Ж Ж * * /ь

О" Ж

Ж V шУ /

XI

В. 75

16.5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

24.25

32

Рис. 2. Графш р1вняння регреси, побудованого ПР1АМ Таблиця 3. Статистичнi показники рiвняння регресп

Назва Значення

Множинний коефiцiент кореляцп (R) 0,95727

Розрахункове значення критерш Фiшера для R (FR) 73,9578

Середньоквадратична помилка рiвняння регресп (о) 701,438

Число обумовленостi (cond) 1

Визначення гтотетичних точок змгни тенденцИ

Точки змши тенденцп вiдповiдають або точкам екстремуму, або точкам перелому функцп. Для визначення цих точок необхiдно визначити нулi першо'1' i друго'' похiдних. На рис. 3 i 4 приведет графши рiвнянь першо'1 i друго'1 похiдних вiдповiдно, а в табл. 4 кореш цих рiв-нянь, визначеш чисельними методами.

Побудова рiвнянь похiдних для полшомiальноi' функцп легко може бути автомати-

зована, як i знаходження корешв вщповщних рiвнянь чисельними методами.

Таблиця 4. Кореш рiвнянь першо'' та друго'' похiдних

Номер точки Перша похщна Друга похщна

Вщгук Фактор Вщгук Фактор

1 -0,00036 4,179958 -1ДБ-05 7,488339

2 -0,00038 12,36942 -7,3E-06 19,35513

3 -4,6E-06 26,6902

Вгдбгр точок змгни тенденцг! з аналгзу спостережень

Виходячи з аналiзу графша вихiдних даних до розгляду, як ппотетичш точки змши тенде-нцп приймаються обидва кореш нулiв першо'' похщно'' i останнш корiнь друго''. Рiшення опираеться на думку експертсв, якi вважають, що першi два кореня друго!' похщно'' вщо-бражають випадковi викиди, а не тенденцп процесу. Зауважимо ще раз, що цей пункт мо-же бути пропущено i для розгляду прийнят всi точки з наступним вщхиленням точок ви-падкових вiдхилень на етапi 2.2.

Уточнения розмщень точок змты тенденцп. Побудова найкращого пол1гонального pie-няння регресп

Уточнення необхщне у зв'язку з тим, що регресшна модель у представленш постановщ задачi не апроксимуе похiднi, а тiльки саму функщю i не може використовуватись як формула для оберненого визначення незалежно! змшно! [10]. У зв'язку з цим при побудовi ба-гатоланкового полiнома вiдбуваeться пiдбiр найкращих з точки зору мшмально! залишко-во! дисперсп координат точок змши тенденцп, базуючись на визначених на попередньому крощ приблизних координатах. Пiдбiр виконуеться перебором варiантiв за допомогою спецiально розробленого макросу для електронно! таблицi Excel. Отримана модель

Y=5160,6531 + 708,93113X -1327,971 (X - 5)+ +984,30302 (X-11)++ 28,449927 (X-26)+, (Х-ХП) + \Х-ХП\

де {Х-Хп)+=-

2

Статистичш характеристики моделi приведенi в табл. 5. Таблиця 5. Характеристики пол^онально! моделi

Множинний коефщент кореляцп, R 0,9824639

Частка, пояснювана моделлю, R 0,9652352

Розрахункове F-вiдношення для R 187,41216

Критичне значення для FR 2,7277653 V1=4 V2=27

Залишкова дисперая 204516,75

Число обумовленостi 7760,189

Точки перелому

Номер 1 2 3

Координата 5 11 26

Коефщенти регресп

Номер Значення

0 5160,6531

1 708,93113

2 -1327,971

3 984,30302

4 28,449927

Уточнення розмщень точок змгни тенденцИ. Побудова вар1ант1в р1вняння полггонально! регреси, виключаючи точки, де змта тенденцп сумтвна

Вiзуальний аналiз графша викликае гiпотезу, що остання точка перелому е випадковою, а не вщображае змiну тенденцп. Для п перевiрки побудуемо полiгональну регресiю без останнього члена. Статистичш характеристики тако'' моделi приведенi в табл. 6. Видно, що хоча коефщент множинно'' кореляцп практично не змiнився (вщмшшсть у четвертому знаку), розрахункове F-вiдношення для R збiльшилось майже в швтора рази. Це дозволяе нам вважати останнш «перелом» реакцiею на випадковi змiни, а не змшою тенденцп. Гра-фiк цього рiвняння приведено на рис. 5.

Таблиця 6. Статистичш характеристики вибрано! моделi

Множинний коефщент кореляцп, R 0,9823765

Частка, пояснювана моделлю, R 0,9650637

Розрахункове F-вщношення для R 257,81918

Продовж. табл. 6

Критичне значення для FR 2,9466853 V1=3 V2=28

Залишкова дисперая 198185,99

Число обумовлeностi 7864,4879

Точки перелому

Номер 1 2

Координата 5 11

Номер Значення

0 5154,7104

1 711,90252

2 -1337,31

3 996,20232

Таким чином, отримана модель

Y=5154,7104 + 711,90252X -1337,31 (X - 5)+ +996,20232 (X-11)+,

де (Х-Хп)+ = -^-

—♦— Експ ■ Модель

Рис. 5. Графш прийнятого pîbhhhm perpeciï i данi спостереження

Метод дозволяе знаходити абсциси координат точок змши тенденцп з бшьш висо-кою точнiстю, наприклад, до мюяця, тижня чи дня.

3. Висновки

Пропонуеться розроблена процедура побудови сплайн-регресп з формалiзованим визна-ченням точок перелому за рахунок попередньо'1 побудови найбшьш iнформативного поль номiального piB^Hra регресп високо'1 стeпeнi. Визначення особливих точок цього piB^H-ня дозволяе отримати перше наближення точок змши тенденцп дослщжуваного процесу. На другому етат координати точок уточнюються для побудови багатоланкового полкона-льного pÎBraHra регресп з найкращими описовими властивостями. Хоча така багатокроко-ва процедура вимагае значних обчислювальних затрат, вона дозволяе обгрунтовано визна-чити точки перелому, яю у смисловому значенш е точками змiни тенденцп. Використову-ючи спeцiальнi програмнi засоби (ПР1АМ i розроблений макрос для побудови багатолан-

кових рiвнянь регресп), дослiдник мае змогу автоматизувати формальш обчислення i йому залишаеться тшьки виконувати смисловий аналiз на кожному етапi роботи.

Перевагами запропоновано! процедури е високий рiвень автоматизацп за рахунок наявностi спещальних програмних засобiв i обгрунтованiсть прийняття рiшень.

У майбутньому можливе об'еднання програмних засобiв в один з подальшим вико-ристанням як засобу пщтримки прийняття рiшень при аналiзi тенденцiй чи прогнозування подiбного виду процеав.

СПИСОК Л1ТЕРАТУРИ

1. Бородич С.А. Эконометрика / Бородин С.А. - Мн.: Новое знание, 2001. - 408 с.

2. Грш В.Г. Економетричний анатз / Грш В.Г.; пер. з англ. - К.: Основи, 2005. - 1197 с.

3. Кузьмш В.М. Використання пол1гонально! регресп в економ1чних дослщженнях / В.М. Кузьмш, С.М. Лапач // Економша i управлшня. - 2004. - № 3. - С. 79 - 84.

4. Лапач С.Н. Прогнозирование с использованием полигональной регрессии / С.Н. Лапач, А.В. Чу-бенко, П.Н. Бабич // Провизор. - 2003. - № 16. - С. 11 - 13.

5. Казаченок В.В. Построение сплайновой регрессии по экспериментальным данным / В.В. Казаче-нок // Вестник Белорусского государственного университета. - (Серия 1 «Физика, математика, информатика»). - 1997. - № 1. - С. 70 - 71.

6. Остропицкий В.М. Методы поиска узлов склеивания сплайн-регрессий / В.М. Остропицкий, А.Ф. Приставка // Вопросы прикладной математики и математического моделирования: сб. науч. тр. - Д.: ДГУ, 1997. - С. 121 - 125.

7. Алгоритмы и программы восстановления зависимостей / В.Н. Вапник, Т.Г. Глазкова, В.А. Кощеев [и др.]; под ред. В.П. Вапника. - М.: Наука, ГРФМЛ, 1984. - 816 с.

8. Douglas M.C. Applied Statistics and Probability for Engineers [Fours Edition] / M.C. Douglas Montgomery, G.C. Runger. - NJ.: John Wiley & Sons, Inc., 2007. - 768 p.

9. Лапач С.Н. Планирование, регрессия и анализ моделей PRIAM (ПРИАМ) / С.Н. Лапач, С.Г. Рад-ченко, П.Н. Бабич // Каталог программные продукты Украины. - К., 1993. - С. 24 - 27.

10. Дрейпер Н. Прикладной регрессионный анализ / Н. Дрейпер, Г. Смит. - [3-е изд.]. - М.: Издательский дом «Вильямс», 2007. - 912 с.

Стаття надтшла до редакцп 07.11.2016

i Надоели баннеры? Вы всегда можете отключить рекламу.