Научная статья на тему 'Методичні аспекти навчання множинного лінійного регресійного аналізу з використанням статистичного середовища R'

Методичні аспекти навчання множинного лінійного регресійного аналізу з використанням статистичного середовища R Текст научной статьи по специальности «Экономика и бизнес»

CC BY
336
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
множинний лінійний регресійний аналіз / статистичний пакет R. / multiple linear regression analysis / R package

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Т П. Кобильник

Однією з важливих умов підготовки вчителів інформатики є вміння та навички використовувати різноманітні статистичні методи аналізу експериментальних даних. Упровадження статистичних методів аналізу у навчальний процес дає можливість підвищити рівень підготовки майбутнього педагога. Методи регресійного аналізу використовуються в різних галузях науки для визначення вигляду залежностей між досліджуваними ознаками. Регресійний аналіз є основним статистичним методом побудови математичних моделей об’єктів або явищ на основі експериментальних даних. Основні результати в даний час отримані стосовно до лінійних регресійних моделей, які можуть служити як початковий етап дослідження. Опрацювання даних неможливе без використання комп'ютера з відповідним програмним забезпеченням. Перед користувачем виникає проблема вибору програмного забезпечення для дослідження. Пропонується використовувати статистичне середовище R для наукових досліджень та супроводу навчального процесу у вищих навчальних закладах. Для проведення регресійного аналізу у статті використано вільно поширюваний пакет R – однією з кращих програм для проведення статистичного аналізу. Нелінійні зв’язки за певними перетвореннями (заміною змінних чи логарифмуванням) можна звести до лінійного вигляду, тобто апроксимувати відповідні залежності лінійними функціями. Модель лінійної регресії є найпростішим і найчастіше використовуваним видом залежності між змінними. Тому під час вивчення елементів регресійного аналізу значну увагу слід приділити лінійній моделі. У статті на конкретному прикладі показано побудову та дослідження множинної лінійної регресійної моделі з використанням статистичного середовища R. Перевірку на відповідність нормальному розподілу проведено за допомогою побудови q-q діаграми. Перспективи подальших досліджень будуть спрямовані на вивчення можливостей використання пакету R для статистичного аналізу даних та методиці навчання основ імітаційного моделювання студентів інформатичних спеціальностей в педагогічних університетах.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODOLOGICAL ASPECTS OF LEARNING MULTIPLE LINEAR REGRESSION ANALYSIS WITH R PACKAGE

One of the important conditions of preparation of Informatics teachers is the ability and skill to use various statistical methods of analysis of experimental data. Introduction of statistical analysis methods in educational process gives the opportunity to increase the level of training of a future teacher. Regression analysis methods are used in various fields of science to determine the types of dependencies between the examined features. Regression analysis is the main statistical method for constructing mathematical models of objects or phenomena on the basis of experimental data. The main results currently obtained with reference to linear regression models that can serve as the initial phase of the study. Data processing is impossible without the use of a computer with appropriate software. To the user there is a problem of choice of software for the study. It is proposed to use the statistical environment R for research and support of educational process in higher educational institutions. For regression analysis we use the freely available R package one of the best programs for statistical analysis. Nonlinear with respect to certain transformations (change of variables or logarithms) can be reduced to linear form, that is, to approximate these dependencies by linear functions. A linear regression model is the simplest and most commonly used kind of dependence between the variables. Therefore, the study of the elements of the regression analysis, considerable attention should be paid to linear models. In the article on the specific example shows the construction and study of multiple linear regression models using the statistical environment R. the Test of conformity to the normal distribution carried out by constructing a q-q chart. Prospects of further researches will be aimed at exploring the use of R package for statistical data analysis and methods of teaching the fundamentals of simulation modeling of students of technical specialties at pedagogical universities.

Текст научной работы на тему «Методичні аспекти навчання множинного лінійного регресійного аналізу з використанням статистичного середовища R»

Scientific journal PHYSICAL AND MATHEMATICAL EDUCATION

Has been issued since 2013.

Науковий журнал Ф1ЗИКО-МАТЕМАТИЧНА ОСВ1ТА

Видасться з 2013.

http://fmo-journal.fizmatsspu.sumy.ua/

Кобильник Т.П. Memodu4Hi аспекти навчання множинного лiнiйного регрес/йного анал/зу з використанням статистичного середовища R. Ф/зико-математична осв/та. 2018. Випуск 1(15). С. 57-62.

Kobylnyk T. Methodological Aspects Of Learning Multiple Linear Regression Analysis With R Package. Physical and Mathematical Education. 2018. Issue 1(15). Р. 57-62.

УДК 378:004.6

Т.П. Кобильник

Дрогобицький державний педагогiчний ун/верситет iменi 1вана Франка, Укра!на

[email protected] DOI 10.31110/2413-1571-2018-015-1-008

МЕТОДИЧН1 АСПЕКТИ НАВЧАННЯ МНОЖИННОГО Л1Н1ЙНОГО РЕГРЕС1ЙНОГО АНАЛ1ЗУ З ВИКОРИСТАННЯМ СТАТИСТИЧНОГО СЕРЕДОВИЩА R

Анотац'я. Одшею з важливих умов п/дготовки вчител/в iнформатики е вм/ння та навички використовувати рiзноманiтнi статистичн/ методи анал/зу експериментальних даних. Упровадження статистичних метод/в анал/зу у навчальний процес дае можлив/сть п/'двищити р/вень п/дготовки майбутнього педагога.

Методи регрес/йного анал/зу використовуються в р/зних галузях науки для визначення вигляду залежностей м/ж досл/'джуваними ознаками. Регресйний анал/з е основним статистичним методом побудови математичних моделей об'ект'в або явищ на основ/ експериментальних даних. Основн/' результати в даний час отриман/' стосовно до л/нйних регрес/йних моделей, як можуть служити як початковий етап досл/дження.

Опрацювання данихнеможливе без використання комп'ютера з в/дпов/дним програмним забезпеченням. Перед користувачем виникае проблема вибору програмного забезпечення для досл/дження. Пропонуеться використовувати статистичне середовище R для наукових досл/джень та супроводу навчального процесу у вищих навчальних закладах. Для проведення регрес/йного анал/зу у статт/' використано вльно поширюваний пакет R - одн/ею з кращих програм для проведення статистичного анал/зу. Нелшшн зв'язки за певними перетвореннями (зам/ною зм/нних чи логарифмуванням) можна звести до л/н/йного вигляду, тобто апроксимувати в/дпов/дн/ залежност/' л/нйними функц/ями. Модель л/н/йно! регресП е найпрост/шим /' найчаст/ше використовуваним видом залежност/' м/ж зм/нними. Тому п/д час вивчення елемент/в регрес/йного анал/зу значну увагу сл/д прид/лити л/н/йн/й модел/. У статт/ на конкретному приклад/' показано побудову та досл/дження множинно! л/н/йно! регрес/йно! модел/' з використанням статистичного середовища R. Перев/рку на в/дпов/дн/сть нормальному розпод/лу проведено за допомогою побудови q-q д/аграми.

Перспективи подальших досл/джень будуть спрямован/' на вивчення можливостей використання пакету R для статистичного анал/зу даних та методиц/ навчання основ /м/тац/йного моделювання студент/в /нформатичних спец/альностей в педагог/чних ун/верситетах.

Ключов! слова: множинний л/нйний регрес/йний анал/з, статистичний пакет R.

Постановка проблеми. За допомогою методiв дисперайного та кореляцшного аналiзiв виявляють наявысть зв'язку мiж випадковими величинами та оцЫюють силу цього зв'язку. Наступним кроком е встановлення певно!' залежност мiж випадковими величинами. Це здмснюеться методами регресшного аналiзу. Розрiзняють парний та множинний регреайы аналiзи. Студенти починаються знайомитися з парним регресшним аналiзом, як правило, лЫшним. Це пояснюеться тим, що значну кшьмсть процеав можна описати лЫшно!' функщею або звести функщю до лшмного вигляду (наприклад, логарифмування чи замЫою змшних). Проте у дослщженнях багатьох процеав виявляеться, що деяка результативна ознака змЫюеться пщ впливом не одного, а ктькох факторiв. Таким чином, встановлення залежносп мiж випадковими величинами здшснюеться за допомогою множинного регрессного аналiзу.

Опрацювання експериментальних даних неможливе без використання комп'ютерiв з вщповщним програмним забезпеченням. 1снуе широкий вибiр програмного забезпечення як загального, так спе^ального призначення для опрацювання експериментальних даних. Стандарты статистичн методи опрацювання експериментальних даних реалiзованi в електронних таблицях та табличних процесорах (Lotus, QuatroPro, MS Excel, OpenOffice.org Calc та Ы.), системах комп'ютерно! математики (Granl, Maple, MathCAD, Mathematica, Matlab, Maxima та ш.), спецiалiзованих статистичних пакетах (R, IBM SPSS, Statistica, SAS та Ы.).

Аналiз актуальних дослщжень. У монографп [17] сформульовано проблеми i завдання створення методологи регресшного аналiзу стосовно отримання багатофакторних статистичних моделей прикладних складних систем.

ISSN 2413-158X (online) ISSN 2413-1571 (print)

Охарактеризовано лшмний регресшний аналiз та наведено рекомендацп щодо його використання у випадках, якщо передумови аналiзу певною мГрою не виконуються. Книга [8] - повне класичне введення в фундаментальн основи множинного регресiйного аналiзу. У нiй описуються методи вибору i дослiдження лшмних i нелiнiйних регресiйних моделей, а також розглядаються практичнi аспекти '¡х застосування, в тому числi з використанням спецiалiзованого програмного забезпечення, зокрема Minitab. У статтi [6] сформульована та обГрунтована конструктивна схема побудови та дослщження економетрично'' моделi множинно'' регресГ' та продемонстровано основнi етапи и побудови та дослiдження.

Поабник [4] мае чiтке практичне спрямування: розглядаеться як практикум iз застосування табличного процесора MS Excel для дослщження задач економетричного моделювання та математичного програмування. Уа приклади, що розглядаються у ньому, реалiзовано у середовищГ табличного процесора MS Excel 2007. Також у поабнику наведено основы вщмшносп версiй MS Excel 2010 та MS Excel 2013 вщ MS Excel 2007 i особливост використання наведеного у поабнику ГнструментарГю для MS Excel 2010/2013 у порiвняннi з MS Excel 2007. Автори вважають MS Excel «...оптимальним програмним засобом для широкого кола користувачiв» [4, с.7]. Навчальний поабник [9] мктить лабораторний практикум з первинного опрацювання даних, побудови множинних лЫшних i нелiнiйних моделей, оцЫювання ступеня мультиколiнеарноiстi та методiв ¡¡' усунення, побудови економетричних моделей динамти, моделей з лаговими змшними, систем одночасних рiвнянь за допомогою системи Statistica. Навчальний посiбник [5] мктить теоретичнi вiдомостi про основы математично-статистичн методи, що використовуються в прикладних дослiдженнях, та шляхи '¡х реалiзацií засобами Microsoft Excel та SPSS. У навчальному поабнику [2] наведен прийоми роботи з уыверсальними статистичними пакетами Statgraphics, SPSS, Statistica. У навчальному поабнику [3] окремий роздГл вщведено для опису використання системи SAS для розв'язування задач статистичного опрацювання, дослщженню розподЫв, змшних аналiзу та використанню ANOVA аналiзу.

У монографГ' [7, с.303-313] наведено приклади використання програми Gran1 [11] для визначення та дослщження математичних моделей результат певних експерименпв, застосовуючи метод найменших квадратiв для вщшукання аналiтичного виразу функцГ'', значення яко'' якомога менше вiдхиляеться вiд одержаних експериментально значень у заданих точках.

У книзi [1] аналiзуються можливост використання електронних таблиць OpenOffice.org Calc на прикладах задач з курав економiчного циклу. У посiбнику [13] показано у порiвняннi пакетiв SPSS, Statistica та табличного процесора MS Excel для обчислення параметрiв розподЫв ймовiрностей випадково'' величини, виконання параметричного та непараметричого порiвняння двох та бтьше зв'язних та незв'язних вибiрок, у тому числi одно- та двофакторного дисперайного aнaлiзу, критерГ' порiвняння емпiричних розподiлiв та перевiрки нормальност емпiричних розподiлiв випадково'' величини, виконання дискримшантного та кластерного aнaлiзiв; Гнструментарш для грaфiчного подання результaтiв та засоби формування звтв. У навчальному поабнику [10] показано можливост практичного застосування комп'ютерних програм, зокрема, табличного процесора MS Excel i прикладних програм Statistica i EViews для моделювання дГяльност пщприемств.

У навчальному поабнику [14] описано статистичний аналГз даних за допомогою програмного середовища R. Мктить загальн рекомендацп з користування пакетом. Особливу увагу придГлено застосуванню R до прикладних задач математично'' статистики, а також розбору приклaдiв застосування до реальних даних.

Мета статп: методичн аспекти використання статистичного середовища R у процеа навчання лГнГйного множинного регресiйного аналГзу.

Виклад основного матерiалу. Як видно з аналГзу програмного забезпечення, яке використовуеться для опрацювання експериментальних даних, часто обирають електронн таблиц (зокрема, MS Excel). Використання табличних процесорГв доцтьне у випадках, коли необхщно виконувати простГ стaтистичнi оперaцií, зокрема побудову вaрiaцiйного ряду, обчислення описових статистик, побудови деяких титв графЫв, проведення деяких видГв aнaлiзу. Тобто повноцiнне статистичне опрацювання експериментальних даних засобами табличних процесорГв неможливе: це офГсн програми, а не спецiaлiзовaнi, нaуковi. Для реaлiзaцií складних статистичних процедур в електронних таблицях користувачу необхiднi гли6окГ знання всГх обчислювальних алгоритмГв, значне збiльшення часу i виконання трудомГстких обчислень. Тому використання MS Excel навпъ при вивченн статистичних методiв aнaлiзу, зокрема факторного, дискримшантного, кластерного, видаеться, на наш погляд, мало ефективним.

Тому для навчання студенпв методiв статистичного aнaлiзу рекомендуеться використовувати статистичне середовище R - втьне програмне середовище з вщкритим кодом, що поширюеться в рамках проекту GNU [16]. Навчання статистичного aнaлiзу з використанням R i всесвiтня пiдтримкa науковим ствтовариством обумовили те, що наведення скрипев R поступово стае загальновизнаним «стандартом» як в журнальних публтащях, так i в неформальному спiлкувaннi науковцГв усього свГту [15]. Додатково' популярност R дало створення центрально' системи зберiгaння i розповсюдження пaкетiв - CRAN (Comprehensive R Archive Network — http://cran.r-project.org). У статп [12] як приклад, наведено використання у процеа навчання вищо'' математики статистичного середовища R, проaнaлiзовaно його переваги та недолти.

Множинна лЫшна регреайна модель мае вигляд Y = Хв + £, де Y - вектор значень залежно'' змГнно'', X - матриця значень фaкторiв, в - параметри рГвняння (вектор коефiцiентiв рГвняння), е - випадкова змЫна (похибка). Вважаеться, що зв'язок мГж змГнними X та Y, лшГйний, тобто Гснуе деяка зaлежнiсть Y = ХЬ. Задача регресiйного aнaлiзу полягае у знаходженн оцГнок b0, b^ ..., bn вектора коефiцiентiв в регреайно' моделi. Величина £ показуе вщхилення значень емпiричних даних вГд прямо' регресГ' i може бути пов'язаною з похибками вимiрювaнь, неправильно вибраною формою залежност мГж змГнними тощо.

ЛГнГйний регресГйний аналГз у R реалГзуеться за допомогою функцГ'' lm, синтаксис яко'' е таким:

lmformula, data,.),

де formula - оцГнкова модель залежностГ; data - данГ, ... - ГншГ додатковГ параметри.

Приклад 1. Для деякого пщприемства отримано такГ результати вибГркових статистичних спостережень за останнГ 24 мкяц (2 роки), що мГстять данГ про продуктивнГсть працГ та фактори, що на не'' впливають (див. таблиця 1) [4, с.56-57].

Таблиця 1.

Даш про продуктившсть прац та фактори, що на неТ впливають

Y продуктивнГсть працГ, гр.од/люд.-год X1 Фондомктккть, гр.од/гр.од X2 КоефщГент плинностГ робочо'' сили, % X3 РГвень втрат робочого часу, %

1 60 30 13 15

2 61 35 12,5 14,3

3 58 33 12 12

4 59 34 11 12,8

5 62 36 10 13

6 63 38 9 12,5

7 65 40 8,5 11

8 60 41 8,2 11,5

9 68 45 8 10

10 69 45 5,5 9

11 70 46 5 8

12 72 48 4,7 7,5

13 73 47 4,6 6,5

14 78 50 4 6

15 75 49 4,1 6,2

16 80 51 4,2 5,8

17 81 50 4,5 5,5

18 83 53 4 5

19 81 55 4 4,5

20 85 56 3 4,7

21 87 58 4 5

22 88 58 5 5,1

23 90 59 5 4,8

24 92 60 6 5,2

У припущеннi щодо лЫшно' залежностi мiж наведеними показниками побудувати та дослщити лiнiйну регресiйну модель залежносп мiж продуктивнiстю працi та шшими факторами.

Розв'язування. Задамо дан таблицi 1 через вектори У, XI, Х2, Х3, використовуючи функщю с (рис. 1). Для функцГ' 1т як параметр вибрана лшмна модель з вiльним членом (У~Х1+Х2+Х3).

Рис.1

Результати регресГйного аналГзу наведено на рис. 2. Пояснимо 'х. Застосовуючи функцГю summary до об'ектГв функцГ' lm, отримуемо формулу моделГ, залишки (Residuals), коефГцГенти оцГнкового рГвняння, середне квадратичне вщхилення оцГнки регресГ'', коефщент детермГнацГ'' R2 та скоригований коефщент детермшацп, F-статистику.

РГвняння регресГ'' мае вигляд Y = 27.7103 + 1.0456Х! + 1.5142Х2 — 1.5845Х3. ОцГнка стандартного вГдхилення залишкГв (Residual standard error) дорГвнюе 2.332. Вважаеться, що залишки нормально розподтеы Гз середнГм значенням 0 i стандартним вГдхиленням ff. Власне у цьому рядку i виводиться оцшка значення ff. За значенням коефщента детермГнацГ' (Multiple R-squared) та скоригованого коефщГента детермГнацГ' (Adjusted R-squared), близькими до одиницГ (0.9606 та 0.9547)можна зробити висновок про те, що приблизно 96% варГацГ' залежно'' змЫно'' пояснюеться варГацГями незалежних змГнних, тобто змГни в продуктивностГ працГ на 96% пояснюються змшами у фондомГсткост продукцГ'', коефГцГентом плинностГ робочо'' сили та рГвнем втрат робочого часу. Стандарты похибки (Std.Error) параметрГв Ь0 = 27.7103, Ь1 = 1.0456, Ь2 = 1.5142, Ь3 = —1,5845 дорГвнюють 12.3718, 0.1833, 0.4756 та 0.6716 вщповщно. ЦГ

значення разом з ^розподтом Стьюдента використовують для перевiрки ктотносп оцiнок коефiцieнтiв регрес^Т та для визначення Тхых надiйних iнтервалiв. Зi стовпця (Pr(>|t|)) видно, що коефщенти регресп Ь0 = 27.7103, Ь1 = 1.0456, Ь2 = 1.5142, Ь3 = -1,5845 за ^крт^ем Стьюдента статистично вiдрiзняються вiд нуля (ймовiрнiсть вiдхилення гiпотез про рiвнiсть отриманих оцiнок iстинному значенню: Р(50 Ф ^о) = 0.03662 < 0.05, Ф Ь1) = 1.34 • 10-5 < 0.05, Р(52 ф Ь2) = 0.00466 < 0.05, Р(53 Ф Ь3) = 0.02859 < 0.05). Дцекватнiсть побудованоТ моделi оцiнюeться за допомогою Р-критер^ Фiшера. Гiпотезу про вiдсутнiсть лшмноТ залежностi можна прийняти з ймовiрнiстю р = 3.302 • 10-14, тобто з надiйнiстю можна стверджувати, що модель е адекватною що статистичних даних, тобто рiвняння регресп е статистично значимим.

call :

Imfformula = Y

XI + Х2 + ХЗ)

Resi dual s :

Mi n IQ

-4.8985 -0.7640

Medi an 0.1765

3Q 1.4982

Max 4.9140

coeffici ents:

Estimate std. Error t

(Intercept) 27.7103 12.3718

XI 1.0486 0.1833

X2 1.5142 0.4756

X3 -1.5845 0.6716 -

value Pr 0111) 2.240 0.03662 5.721 1.34e-05 3.184 0.00466 2.359 0.02859

signif. codes:

0. 001

0. 01

0. 05

0.1

' 1

Residual standard error: 2.332 on 20 degrees of freedom Multiple R-squared: 0.9606, Adjusted R-squared: 0.9547 F-statistic: 162.4 on 3 and 20 DF, p-value: 3.302e-14

Puc.2

Застосовуючи функцию confint до об'ек^в функцп lm, отримуемо межi надшних iнтервалiв для napaMeTpiB ft, ft, ft, ft (рис. 3).

(Intercept) 1.9033107 53.5173621

Рис.3

Межi надiйних iнтервалiв е такими:

1.9033107 < ft < 53.5173621, 0.6663091 < ft < 1.4309326, 0.5221913 < ft < 2.5061635, -2.9854687 < ft < -0.1835257.

Аналiз меж надшних iнтервалiв для параметрiв ft, ft ft, ft дозволяе зробити висновок, що з ймовiрнiстю р = 1 — а = 0.95, знаходячись у вказаних межах, вони не набувають нульового значення, тобто вони е статистично значимим та суттево вiдрiзняються вщ нуля (це тдтверджуеться i перевiркою за ^крт^ем Стьюдента).

Пiсля побудови моделi та дослiдження ïi на адекватнкть, доцiльно провести аналiз залиш^в для порiвняння з нормальним розподтом ймовiрностей, тобто перевiрити гiпотезу про нормальний розподт ймовiрностей на множин значень похибок моделi. Для цього побудуемо q-q дiаграму (рис. 4).

Normal Q-Q Plot

-2 -I 0 I 2

ThtoiHtiLal Quantiles

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 4

Як видно з рис. 4, значення залишшв не значно вщхиляються вiд нормального розподту.

Студентам можна запропонувати побудувати та дослщити лiнiйну модель без втьного члена (Y~X1+X2+X3+0).

Висновки. У статп проаналiзовано можливост використання статистичного пакету R для вивчення множинного

регресшного аналiзу, зокрема для побудови та дослщження множинно'| лiнiйноï регресiйноï моделi. При тому, слщ

звернути увагу студентiв на два важливi аспекти:

1) математичних методах побудови моделi та на ÏÏ застосуваннi для дослiдження деякого явища;

2) використаннi статистичного пакету R, що сприяе бiльш Грунтовному вивченню методiв статистичного аналiзу.

Подальшл дослiдження будуть зосередженi на методичних аспектах навчання майбутых вчителiв шформатики

методiв статистичного моделювання з використанням пакету R.

Список використаних джерел

1. OpenOffice.org: Теория и практика / И. Хахаев и др. М. : ALT Linux ; БИНОМ. Лаборатория знаний, 2008. 319 с.

2. Берестнева О.Г., Марухина О.В., Шевелёв Г.Е. Прикладная математическая статистика : учебное пособие. Томск : Изд-во Томского политехнического университета, 2012. 188 с.

3. Бщюк П. I., Терентьев О. М., Просянкша-Жарова Т. I. Прикладна статистика. Вшниця : ПП "ТД"Едельвейс i К", 2013. 304с.

4. Бредюк B.I., Джошл О. I. Економто-математичне моделювання в середовиш^ табличного процесора МБ Excel: Навч. поабник. Рiвне: НУВГП, 2015. 240 с.

5. Василенко О. А., Сенча I.A. Математично-статистичн методи аналiзу у прикладних дослщженнях : навч. поаб. Одеса : ОНАЗ iм. О. С. Попова, 2011. 166 с.

6. Глушак О.М., Семеняка С.О. Економто-математчине моделювання - перспективний напрямок прикладно'| математики. Фiзико-математична освiта: науковий журнал. 2017. Випуск 1(11). С.28-31.

7. Горошко Ю.В. Iнформацiйне моделювання у тдготовц учителiв математики та шформатики : монографiя. Чернiгiв : Лозовий В. М., 2012. 367 c.

8. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. 3-е изд. М. : Диалектика, 2007. 912 с.

9. Економетрика : навчальний поабник для студентв напряму пщготовки "Економiчна юбернетика" всiх форм навчання / Гур'янова Л.С. та ш.. Хар^в : ХНЕУ iм. С. Кузнеця, 2015. 384 с.

10. блейко B.I., Боднар Р.Д., Демчишин М.Я. Економетричний аналiз дiяльностi пщприемств: Навчальний посiбник. Тернопiль : Навчальна книга-Богдан, 2011. 362 с.

11. Жалдак М.!., Горошко Ю.В., Вшниченко £.Ф. Математика з комп'ютером : поаб. для вчт^в. 2-ге вид. К. : НПУ iм. Драгоманова, 2009. 282 с.

12. Кыгнщька Т.В. «Вщ практики до теорп» або як зацiкавити студентiв математикою. Ф'!зико-математична осв'та : науковий журнал. 2017. Вип. 4(14). С. 199-204.

13. Лупан КВ., Авраменко О.В. Комп'ютерн статистичн пакети : навчально-методичний поабник. Юровоград : КОД, 2010. 218 с.

14. Майборода Р.£., Сугакова О.В. Aналiз даних за допомогою пакета R : Навчальний поабник. 2015. 65 с.

15. Мастицкий С.Э., Шитиков В.К. Статистический анализ и визуализация данных с помощью R: Электронная книга. URL: http://docplayer.ru/49774338-Mastickiy-s-e-shitikov-v-k-statisticheskiy-analiz-i-vizualizaciya-dannyh-s-pomoshchyu-r.html (дата звернення 07.03.2018).

16. Наглядная статистика. Используем R! / А.Б. Шипунов и др. М. : ДМК Пресс, 2012. 298 с.

17. Радченко С.Г. Методология регрессионного анализа : монография. К. : Корыйчук, 2011. 376 с.

18. Слепко Ю.Н., Ледовская Т.В. Обработка и интерпретация результатов психологического исследования: учебное пособие. Ярославль : Изд-во ЯГПУ, 2013. 136 с.

References

1. OpenOffice.org: Theory and Practice / I. Hahaev i dr. M. : ALT Linux ; BINOM. Laboratorija znanij, 2008. 319 s. (in Russian)

2. Berestneva O.G., Maruhina O.V., Sheveljov G.E. Applied Mathematical Statistics : a tutorial. Tomsk : Izd-vo. Tomskogo politehnicheskogo universiteta, 2012. 188 s. (in Russian)

3. Bidiuk P.I., Terentiev O. M., Prosiankina-Zharova T. I. Applied Statistics. Vinnytsia : PP "TD"Edelveis" i K". 304 s. (in Ukrainian)

4. Brediuk V.I., Dzhoshi O.I. Economic and Mathematical Modeling by the Environment of the MS Excel Spreadsheet : teaching aid. Rivne : NUVHP, 2015. 240 s. (in Ukrainian)

5. Vasylenko O.A., Sencha I.A. Mathematical and statistical methods of analysis in applied research. Odesa : ONAZ im. O. S. Popova, 2011. 166 s. (in Ukrainian)

6. Hlushak O.M., Semeniaka O.M. Economic and Mathematical Modeling Is A Promising Area Of Applied Mathematics. Physical and Mathematical Education : Scientific Journal. 2017. Issue 1(15). S.28-31. (in Ukrainian)

7. Horoshko Yu.V. Information modeling in the teacher training of mathematics and computer science: monograph. Chernihiv : Lozovyi V. M., 2012. 367 s. (in Ukrainian)

8. Draper N., Smith H. Applied Regression Analysis. 3rd ed. M.: Dialektika, 2007. 912 s. (in Russian)

9. Econometrics: a manual for students in the field of training "Economic Cybernetics" of all forms of training / Hurianova L.S., Klebanova T.S., Serhiienko O.A., Prokopovych S.V. Kharkiv. : KhNEU im. S. Kuznetsia, 2015. 384 s. (in Ukrainian)

10. Yeleiko V.I., Bodnar R.D., Demchyshyn M.Ya. Econometric Analysis of Enterprises : teaching aid. Ternopil : Navchalna knyha-Bohdan, 2011. 362 c. (in Ukrainian)

11. Zhaldak M.I., Horoshko Yu.V., Vinnychenko Ye.F. Mathematics with a Computer : Teacher's Manual. 2-nd ed. K. : NPU im. Drahomanova, 2009. 282 s. (in Ukrainian)

12. Knihnitska T.V. «From The Practice To Theory» Or How To Interest The Students By Mathematics. Physical and Mathematical Education : Scientific Journal. 2017. Issue 4(14). S. 199-204. (in Ukrainian)

13. Lupan I.V., Avramenko O.V. Computer Statistical Packages : teaching aid. Kirovohrad: KOD, 2010. 218 s. (in Ukrainian)

14. Maiboroda R.Ye., Suhakova O.V. Data Analysis by the R Package Tools : teaching aid. 2015. 65 s. (in Ukrainian)

15. Mastickij S.Je., Shitikov V.K. Statistical analysis and visualization of data by R tools : EBook. URL: http://docplayer.ru/49774338-Mastickiy-s-e-shitikov-v-k-statisticheskiy-analiz-i-vizualizaciya-dannyh-s-pomoshchyu-r.html (application date 07.03.2018).

16. Visual Statistics. Use R! / A.B. Shipunov A.B. and other. M. : DMK Press, 2012. 298 s.

17. Radchenko S.G. Regression Analysis Methodology : monograph. K. : Kornijchuk, 2011. 376 s.

18. Slepko Ju.N. Ledovskaja T.V. Processing and Interpretation of the Results of Psychological Research: teaching aid. Jaroslavl' : Izd-vo JaGPU, 2013. 136 s.

METHODOLOGICAL ASPECTS OF LEARNING MULTIPLE LINEAR REGRESSION ANALYSIS WITH R PACKAGE

Taras Kobylnyk

Drohobych Ivan Franko State Pedagogical University, Ukraine Abstract. One of the important conditions of preparation of Informatics teachers is the ability and skill to use various statistical methods of analysis of experimental data. Introduction of statistical analysis methods in educational process gives the opportunity to increase the level of training of a future teacher.

Regression analysis methods are used in various fields of science to determine the types of dependencies between the examined features. Regression analysis is the main statistical method for constructing mathematical models of objects or phenomena on the basis of experimental data. The main results currently obtained with reference to linear regression models that can serve as the initial phase of the study.

Data processing is impossible without the use of a computer with appropriate software. To the user there is a problem of choice of software for the study. It is proposed to use the statistical environment R for research and support of educational process in higher educational institutions. For regression analysis we use the freely available R package - one of the best programs for statistical analysis. Nonlinear with respect to certain transformations (change of variables or logarithms) can be reduced to linear form, that is, to approximate these dependencies by linear functions. A linear regression model is the simplest and most commonly used kind of dependence between the variables. Therefore, the study of the elements of the regression analysis, considerable attention should be paid to linear models. In the article on the specific example shows the construction and study of multiple linear regression models using the statistical environment R. the Test of conformity to the normal distribution carried out by constructing a q-q chart.

Prospects of further researches will be aimed at exploring the use of R package for statistical data analysis and methods of teaching the fundamentals of simulation modeling of students of technical specialties at pedagogical universities. Key words: multiple linear regression analysis, R package.

i Надоели баннеры? Вы всегда можете отключить рекламу.