Интервальное прогнозирование динамических показателей на основе логистических регрессионных моделей

Краковский Ю. М.; Лузгин А. Н.

иркутским государственный университет путей сообщения

Современные технологии. Системный анализ. Моделирование № 4 (56) 2017

12. Bronnikov A. M., Kruglov S. P. Uproshchennye usloviya adaptiruemosti sistemy upravleniya s identifikatorom i etalonnoi model'yu [Simplified conditions for the adaptability of a control system with an identifier and a reference model]. Avtomatika i Telemekhanika ["Automation and Remote Control"], 1998, No. 7, pp. 107-117.

13. Kruglov S.P. Usloviya adaptiruemosti sistem upravleniya s identifikatorom i etalonom: monografiya [Conditions for the adaptability of control systems with an identifier and a standard: a monograph]. LAP LAMBERT Academic Publishing GmbH & Co. KG, Saar-bucken, Deutschland, 2012, 125 p.

14. MPU-6000/MPU-6050 Product Specification. InvenSense Publ., 2013, 54 p. URL: www.invensense.com. (access date: 22.08.2017).

15. Pervozvanskii A.A. Kurs teorii avtomaticheskogo upravleniya [Course of the theory of automatic control]. St. Peterburg: Lan' Publ., 2015, 624 p.

16. Ljung L. System indetification: Theory for the User. Englewood Cliffs, Prentice Hall, 1987, 679 p. (Russ ed.: L'yung L. Identif-ikatsiya sistem. Teoriya dlya pol'zovatelya : per. s angl. Moscow: Nauka Publ., 1991, 432 p.).

Информация об авторах

Круглое Сергей Петрович - д. т. н., профессор, профессор кафедры «Автоматизация производственных процессов», Иркутский государственный университет путей сообщения, г. Иркутск, e-mail: [email protected]

Коеыршин Сергей Владимирович - к. т. н., доцент, профессор кафедры «Автоматизация производственных процессов», Иркутский государственный университет путей сообщения, г. Иркутск, e-mail: [email protected]

Ведерников Иван Евгеньевич - аспирант факультета «Транспортные системы», Иркутский государственный университет путей сообщения, г. Иркутск, e-mail: [email protected]

Для цитирования

Круглов С. П. Адаптивное управление перемещением груза мостовым краном с идентификационным алгоритмом / С. П. Круглов, С. В. Ковыршин, И. Е. Ведерников // Современные технологии. Системный анализ. Моделирование. - 2017. - Т. 56, № 4. - С. 114-122. - DOI: 10.26731/1813-9108.2017.4(56).114-122.

Authors

Sergey Petrovich Kruglov - Doctor of Engineering Science, Prof., the Subdepartment of Automation of Production Processes, Irkutsk State Transport University, Irkutsk, e-mail: [email protected]

Sergey Vladimirovich Kovyrshin - Ph.D. in Engineering Science, Assoc. Prof., Prof., the Subdepartment of Automation of Production Processes, Irkutsk State Transport University, Irkutsk, email: [email protected]

Ivan Evgenievich Vedernikov - Ph.D.student, the Department of Transport Systems, Irkutsk State Transport University, Irkutsk, email: [email protected]

For citation

Kruglov S. P., Kovyrshin S. V., Vedernikov I. E. Adaptivnoe up-ravlenie peremeshcheniem gruza mostovym kranom s identif-ikatsionnym algoritmom [The adaptive control of movement of cargo by the overhead crane with an identification algorithm]. Sov-remennye tekhnologii. Sistemnyi analiz. Modelirovanie [Modern Technologies. System Analysis. Modeling], 2017. Vol. 56, No. 4, pp. 114-122. DOI: 10.26731/1813-9108.2017.4(56).114-122.

УДК 519.688 БОГ. 10.26731/1813-9108.2017.4(56).122-131

Ю. М. Краковский 1, А. Н. Лузгин 2

1 Иркутский государственный университет путей сообщения, г. Иркутск, Российская Федерация 2Иркутский государственный университет, г. Иркутск, Российская Федерация Дата поступления: 16 сентября 2017 г.

ИНТЕРВАЛЬНОЕ ПРОГНОЗИРОВАНИЕ ДИНАМИЧЕСКИХ ПОКАЗАТЕЛЕЙ НА ОСНОВЕ ЛОГИСТИЧЕСКИХ РЕГРЕССИОННЫХ МОДЕЛЕЙ

Аннотация. В работе проведена формализация, программная реализация и проверка точности интервального прогнозирования реальных динамических показателей с различными статистическими характеристиками на основе методов логистической регрессии без регуляризации и с регуляризацией значений параметров. Интервальное прогнозирование динамических показателей заключается в определении принадлежности их будущих значений заранее введённым интервалам на основе оценок вероятностей. Так как при таком прогнозировании мы определяем не само будущее значение показателя, а интервал, в котором оно будет находиться, мы назвали такой метод прогнозирования «интервальным прогнозированием». Для проверки точности интервального прогнозирования мы использовали реальные динамические показатели с различными статистическими характеристиками, зависящими от стационарности по параметру положения и масштаба. Для проверки неизменности значения параметра положения с течением времени мы использовали модифицированный критерий сдвига Краскела - Уоллиса, а для проверки неизменности значения параметра масштаба мы использовали модифицированный критерий Флигнера-Киллина. В результате проведенного исследования в большинстве случаев для динамических показателей с различными статистическими характеристиками модель логистической регрессии без регуляризации продемонстрировала лучшую точность

) Ю. М. Краковский, А. Н. Лузгин, 2017

[Щ] Информатика, вычислительная техника и управление (S L

ее «в Modern technologies. System analysis. Modeling, 2017, Vol 56, no.4 r

интервального прогнозирования. Эта модель рекомендуется для проведения интервального прогнозирования реальных динамических показателей на практике, в том числе для построения прогнозирующих ансамблей.

Ключевые слова: интервальное прогнозирование, динамические показатели, вероятностное прогнозирование, бинарное прогнозирование, логистическая регрессия.

Yu. M. Krakovsky A. N. Luzgin 2

1 Irkutsk State Transport University, Irkutsk, the Russian Federation

2 Irkutsk State University, Irkutsk, the Russian Federation Received: September 16, 2017

THE INTERVAL FORECASTING OF DYNAMIC INDICATORS BASED ON LOGISTIC REGRESSION MODELS

Abstract. Formalization, software implementation and accuracy testing of interval forecasting of real dynamic indicators with different statistical properties using logistic regression methods with and without regularization have been carried out in the paper. The interval forecasting of dynamic indicators involves determining that their future values belong to the preset intervals based on the probability estimates. Since we do not estimate a future value of the indicator, but rather the interval in which it is going to be located, we have called this forecasting method «interval forecasting». For accuracy testing of interval forecasting, we have used real dynamic indicators with different statistical properties which depend on the stationarity of location and scale parameters. For testing of stationarity of location parameter value with the passage of time, we have used a modified Kruskal- Wallis test, andfor testing of stationarity of scale parameter value with the passage of time, we have used a modified Fligner-Killeen test. The results showed that in most cases for dynamic indicators with different statistical properties, the logistic regression model without regularization has demonstrated the best interval forecasting accuracy. Thus, in practice, we recommend the model of the logistic regression without regularization for the interval forecasting of real dynamic indicators, in particular, to construct forecasting ensembles.

Keywords: interval forecasting, dynamic indicators, probabilistic forecasting, binary forecasting, logistic regression.

Введение

Большинство руководителей современных организаций принимают управленческие решения в условиях неопределённости. Для обоснования управленческих решений такие руководители используют результаты прогнозирования различных динамических показателей (ДП), которые в любой момент времени являются случайными величинами. Так как точность прогнозирования таких показателей должна быть приемлемой, методы прогнозирования постоянно развиваются и совершенствуются [1-3], создаются прогнозирующие ансамбли [4, 5]. Все методы прогнозирования можно разделить на две большие группы: точечные, когда определяется будущее значение, и вероятностные, когда это значение не определяется. В последнее время мы наблюдаем возрастающий интерес исследователей к вероятностным методам прогнозирования в различных областях [6, 7]. Это можно объяснить двумя причинами. Во-первых, вероятностные прогнозы позволяют получить количественную оценку неопределённости прогноза (этой оценкой является оценка вероятности будущего события), которая часто игнорируется при составлении точечных прогнозов [8]. Во-вторых, на практике точечную оценку будущего значения динамического показателя требуется знать не всегда. Часто достаточно знать: будущее значение показателя превысит заранее заданное значение или нет и с какой вероятностью произойдет это

событие? Заранее заданное значение делит область возможных будущих значений показателя на два интервала. Так как в этом случае определяется интервал, в котором с некоторой вероятностью будет находиться будущее значение показателя, мы назвали такой метод «интервальным прогнозированием» [9, 15]. Интервальное прогнозирование (ИП) является разновидностью бинарного прогнозирования [6, 8].

Мы рассмотрели несколько различных работ [4, 9-14], которые посвящены методам вероятностного прогнозирования. Среди этих методов для проведения интервального прогнозирования можно выделить методы, основанные на логистической регрессии, пробит-регрессии, вероятностные кластерные методы и методы на основе вероятностных нейронных сетей.

Целями настоящей работы являются формализация, программная реализация и проверка точности интервального прогнозирования реальных ДП на основе методов логистической регрессии (ЛР) трех типов: 1) ЛР без регуляризации; 2) ЛР с регуляризацией значений коэффициентов по норме V; 3) ЛР с регуляризацией значений коэффициентов по норме Ь2 .

Значения ДП можно классифицировать как стационарные и нестационарные. В работе [16] предложено классифицировать их относительно

Современные технологии. Системный анализ. Моделирование № 4 (56) 2017

параметра положения и параметра масштаба по четырём классам:

1) нестационарные по параметру положения и параметру масштабу (то есть данные параметры изменяются с течением времени);

2) нестационарные по параметру положения, но стационарные по параметру масштаба;

3) нестационарные по параметру масштаба, но стационарные по параметру положения;

4) стационарные по параметру положения и масштаба (то есть данные параметры не изменяются с течением времени).

Для проверки неизменности значения параметра положения с течением времени использовался модифицированный критерий сдвига Крас-кела - Уоллиса [17]. Для проверки неизменности значения параметра масштаба использовался модифицированный критерий Флигнера - Киллина [18, 19]. В данной работе используются ДП всех четырех классов.

Формализация интервального

прогнозирования

Любой динамический показатель формализуется как временной ряд:

О = &: , е т}. (1)

Здесь - значения динамического показателя, доступные в дискретные моменты времени ,; , е Т; Т = {0,...,п -1} ; п - количество доступных значений.

Затем мы определяем интервал возможных значений показателя (¿тт; qmax), внутреннюю точку ¿( (qmin < ¿( < qmax) и создаём два интервала [9, 15]:

Г = ^тт; ¿],1+ = (Я';qmax). (2)

Для интервалов (2) значение внутренней точки ¿1 мы предлагаем определять так:

¿1 = ¿1 + Д, , = п -1, (3)

где величина Д равна:

Д = 5-(теап ( - ¿Е-1| ))/(п -1). (4)

Здесь а е [-1,1] - коэффициент, который задается заранее; теап() - среднее по множеству значений.

В момент времени , = п -1 мы должны определить, в каком интервале (2) будет находиться будущее (неизвестное) значение ¿,+р , на осно-

ве оценок вероятностей р,+ и р = 1,...,г - время упреждения; р++

, + р '

где

вероят-

¿+р е I ; р ++ + р = 1. ИП проводится по пра-

вилу: будущее значение

, + р

е 1+

если

Р++ р >Р-+ р; будущее значение ¿,+р е I , если

у,+р К,+ р

Р-+ р :Р++ р .

Формализация методов логистической регрессии с регуляризацией и без регуляризации

Введем следующий признак:

I1, ¿е+ р > ¿г, У,+ р = Ь < • (5)

I0, ¿,+ р < ¿1,,

и линейную регрессионную функцию:

V

= а0 +6 а • ¿Е

(6)

@=1

ность, что

Е+р

е 1+

, + р

вероятность, что

где а0,...,а^ - коэффициенты; V - число регрессоров. Во всех методах ЛР (как с регуляризацией, так и без регуляризации) мы предполагаем, что оценка вероятности наступления события у,+ = 1

равна [20-22]:

Р++ р (у,+р = 11 е Ь^е ), (7)

где а(е ) =- - сигмоидальная функция; е

1 + е - е Е

определяется согласно выражению (6).

Так как у,+ принимает только 2 возможных

значения, то оценка вероятности наступления второго события у,+р = 0 равна:

Р,- р (у,+р = 0| е, )= 1 -;(е, ). (8) Оценку вероятности того, что величина у,+ примет значение 1 или 0, мы можем записать через распределение Бернулли с параметром о(г,) [21]:

Р,+Р (у,+р|е, )=;(е, )у,+р -(1 -;(е, ))1-у,+р. (9) Для оценки значений коэффициентов а0,...,аV (6) рекомендуют использовать метод

максимального правдоподобия [21], где осуществляют максимизацию функции вида:

I (ао,..., аг )= пр,+р (у,+р1 ). (10)

,еТ

Здесь Т - множество значений ,, которые используются для оценки коэффициентов а0,...,аV; Выбранные значения , должны удовлетворять условию: V < , < п -1 - р. В данной работе для нахождения коэффициентов а0,...,а^ ис-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Информатика, вычислительная техника и управление

Modern technologies. System analysis. Modeling, 2017, Vol 56, no.4

пользуются все возможные значения г, удовлетворяющие этому условию.

Максимизация функции правдоподобия (10) эквивалентна максимизации её логарифма:

1п(/(яо,...,а/ ))= 21п(рг+р (Уг+р I ег )) =

геТ (11)

= 26Уг+р • 1п(;(^Е))+(1 -Уг+X)- 1п(1 -о(е4)).

геТ

Учитывая результаты работ [20-22], вместо выражения (11) мы используем эквивалентное, но более простое и удобное для вычислений выражение:

1п(/(а,,...,а,))=-2>(1 + е-У+р е) (12)

геТ

где У г + р = 2 -(Уг+р - 0,().

Для максимизации функции (12) применяются различные методы оптимизации, зависящие от числа значений временного ряда (1). Например, метод градиентного спуска, метод стохастического градиентного спуска, метод Ньютона и другие [21,22].

Модель ЛР, для которой оценка коэффициентов а0,...,ау проводится на основе максимизации функции (12), называется моделью ЛР без регуляризации. Существуют две наиболее известные разновидности модели ЛР: с регуляризацией значений параметров а0,...,ау по норме Д и с регуляризацией значений параметров а0,...,ау по норме Д2.

При регуляризации по норме Д осуществляется максимизация функции вида:

1п(/(а0,...,а/))=-2>(1 + е"У+р)+ =2|аг| , (13)

геТ 1 =0

У

где = - степень регуляризации; 2 |а@| - норма Д.

г=0

При регуляризации по норме V осуществляется максимизация функции вида:

1п(/ (а 0,..а )) = -2>(1 + е - У+) + = 22аг2,(14)

геТ 2 1=0

У

где = - степень регуляризации; 2 а@ - норма Ь2 .

1=0

В случае (13) предполагается, что коэффициенты а0,...,ау распределены по закону Лапласа,

а в случае (14) - по нормальному закону.

Степень регуляризации = выбирается эмпирически. Часто «по умолчанию» этот параметр равен 1. В данной работе выбрано это значение.

Программная реализация интервального прогнозирования на основе методов логистической регрессии

Для программной реализации ИП на основе методов ЛР с регуляризацией и без регуляризации мы использовали свободно распространяемый интерпретируемый язык для статистической обработки данных «R» [23]. На основе этого языка ранее был создан программный комплекс «Интервальное прогнозирование нестационарных динамических показателей», в котором применяются кластерные и нейронные методы интервального прогнозирования [24].

Исходный интерфейс языка

программирования «R» не вполне удобен для разработки сложных алгоритмов. Для этой цели существуют различные оболочки (среды разработки) к нему. В качестве удобной и широко распространённой была выбрана свободно распространяемая среда под названием «RStudio» [25]. Любые реализованные на языке «R» алгоритмы являются кроссплатформенными и способны работать в 32/64-битных операционных системах типа Microsoft Windows / Linux.

Для языка программирования «R» доступно множество различных пакетов расширения, позволяющих реализовать различные требования к программному обеспечению.

Для проведения ИП на основе методов ЛР мы реализовали графический объектно-ориентированный интерфейс пользователя с использованием пакетов расширения

«gWidgets2» и «RGtk2» [26, 27].

Ориентируясь на умеренные объёмы выборки каждого ДП, для максимизации функции (12) нами был реализован и применялся метод Ньютона [30], а для максимизации функций (13), (14) -метод стохастического градиентного спуска [21,22], реализованный в пакете расширения «LiblineaR» [28].

Главное окно созданной программы приведено на рис. 1.

Рис. 1. Главное окно программы

Современные технологии. Системный анализ. Моделирование № 4 (56) 2017

Посредством данного окна пользователь имеет возможность доступа ко всем функциям и настройкам программы.

Кнопка «Load data of DI» позволяет загружать в оперативную память компьютера данные ДП из файлов в формате «CSV» и «DAT» (возможен выбор формата файла) и в последующем работать с этими данными. График ДП можно просмотреть путем нажатия на кнопку «Graph of DI». Кнопка «Select method of LR» позволяет выбрать метод ИП ДП (пример показан на рисунке 2).

Methodi...

г

0

Select IF method: □ iLR. method without regularization (J LR m eth od with LI - reg u la rizati on О LR method with L2-regularization

Ok

Рис. 2. Окно выбора алгоритма

После выбора метода ИП возможно задать его параметры работы путём нажатия на кнопку «Parameters of method» (пример показан на рис. 3).

Параметр «Lambda» (степень регуляризации) доступен только для методов ЛР с регуляризацией.

Нажатие кнопки «Make a forecast» приводит к выводу результатов интервального ИП на основе выбранного метода ЛР.

Для оценки результатов ИП выбраны следующие показатели:

Ф Parameters... | i=i | S

Parameters of method:

l-ook-ahead period (p): 1 T

Number of regressors. [f): 3 i

Parameter [Alpha): 0,0 Л.

Parameter (Lambda): 1,00 T

Ok

Рис. 3. Окно задания параметров выбранного алгоритма

PL =

L

BS =

1

L + М 6 ^

— v

t+ р t+X

)2.(15)

проводился прогноз, vt+ - исход события (равен

1

>

если qt+ е I , и 0 в случае, если qt+ е I?);

0 < PL < 1; 0 < BS < 1.

PL - это мера точности ИП. Чем больше этот показатель, тем лучше. Мы будем считать, что точность ИП приемлема, если PL > 0,6.

BS - это мера «качества» ИП. Чем ниже это значение, тем «качественнее» ИП. Мы будем считать, что качество ИП приемлемо, если

BS < 0,3.

Точность ИП проверялась для w последних значений каждого ДП, при w = 150. При этом предыдущие значения ДП в объеме, равном п — j, j = w,...,1, использовались для вычисления оценок вероятностей (7), (8) .

Для установки параметра тестирования w необходимо нажать кнопку «Testing parameters», а для проведения тестирования, кнопку «Test». После завершения тестирования откроется окно с результатами тестирования

Краткую информацию о программе можно получить при нажатии кнопки «About...» (рис. 1). Проверка точности логистических регрессионных моделей с регуляризацией и без регуляризации

В данной работе используются ДП всех четырех классов, которые мы предварительно проверили с помощью модифицированного критерия сдвига Краскела - Уоллиса [17, 18] (на стационарность значения параметра положения) и модифицированного критерия Флигнера - Киллина [19, 20] (на стационарность значения параметра масштаба). Кратко опишем выбранные нами показатели.

В качестве ДП первого класса (ДП нестационарный по параметру положения и параметру масштаба) выбраны данные по средней температуре окружающей среды (в градусах Цельсия) озера Люцерн (Швейцария). Измерения проводились в 2004 году каждые 30 минут (MT) [30].

В качестве ДП второго класса (ДП нестационарный по параметру положения, но стационарный по параметру масштаба) выбраны данные по ежедневному количеству новорожденных детей в городе Квебеке (Канада), полученные из проекта «DataMarket». Ресурс [31] предоставляет временные ряды с 1.01.1977 по 31.12.1990 (CN).

В качестве ДП третьего класса (ДП нестационарный по параметру масштаба, но стационарный по параметру положения) выбраны данные по среднему ежедневному значению «возвратного» индекса акций американской корпорации IBM, полученные из проекта [32]. Ресурс предоставляет временные ряды с 3.01.1969 по 31.12.1998 (IR).

тЬ

Ь + М

Здесь РЬ — доля оправдавшихся прогнозов; Ь — число оправдавшихся прогнозов; М - число ошибочных прогнозов; ВБ - оценка Брайера [29]; С - множество значений ,, при которых

Информатика, вычислительная техника и управление

Modern technologies. System analysis. Modeling, 2017, Vol 56, no.4

В качестве ДП четвертого класса (ДП стационарный по параметру положения и по параметру масштаба) выбраны данные по ежемесячному среднему значению давления над уровнем моря в городе Мадрасе (Индия), полученные из проекта «Comp-Engine Time Series» [33]. Ресурс предоставляет временные ряды с 1.01.1796 по 01.01.2003 (SP).

Исходные выборки каждого ДП были сокращены до 1500 значений (к = 1500).

При проверке мы фиксировали максимальные значения (PVmax) и минимальные значения

(РЬшт) показателя РЬ и соответствующие им значения показателя ВЬ (В8си) при изменении значения параметра У в диапазоне от 2 до 5. При этом значения р и а оставались неизменными. Отметим, что максимальные и минимальные значения показателя РЬ могут быть получены для различных у.

В табл. 1 и 2 приведены значения параметров методов ЛР, при которых были получены зна-

г» т шах г) т шип т> о сиг

чения РЬ , РЬ и ВЬ .

Таблица 1

Значения pvmax и BScur при соответствующих параметрах алгоритмов

ДП ЛР без регуляризации ЛР с регуляризацией по норме Li ЛР с регуляризацией по норме L2 Условия интервального прогнозирования

PVJTIFY BS°ur V PVJTIFY BScur V PL^FY BScur V Р а

мт 0,75 0,19 4, 5 0,75 0,19 4, 5 0,75 0,19 4 , 5 1 0,0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

CN 0,74 0,20 5 0,73 0,20 3, 5 0,71 0,20 2

IR 0,71 0,19 3,4 0,73 0,19 2-5 0,62 0,24 2 , 4 ,5

SP 0,87 0,11 3, 5 0,75 0,23 5 0,81 0,15 5

мт 0,79 0,15 4 0,79 0,15 4, 5 0,79 0,16 3-5 0,5

CN 0,72 0,20 3,5 0,72 0,20 3, 5 0,72 0 , 21 4

IR 0,76 0,16 2, 4,5 0,75 0,16 2-5 0,65 0 , 21 2-5

SP 0,80 0,14 3 0,60 0,24 2-5 0,60 0,24 2-5

мт 0,71 0,21 2-5 0,71 0,21 2-5 0,71 0 , 21 2-5 -0, 5

CN 0,73 0,18 3,4 0,74 0,18 5 0,69 0,22 2 , 4 ,5

IR 0,77 0,16 4 0,76 0,16 2-5 0,67 0 , 21 2-5

SP 0,85 0,10 3,4 0,65 0,23 2-5 0,65 0,23 2-5

Таблица 2

Значения PVmin и BScur при соответствующих параметрах алгоритмов

ДП ЛР без регуляризации ЛР с регуляризацией по норме Li ЛР с регуляризацией по норме L2 Условия интервального прогнозирования

рртт BScur V pLU@m BScur V pLU@m BScur V Р а

мт 0,69 0 , 21 2 0,69 0,21 2 0,69 0 , 21 2

CN 0 , 71 0,19 2 ,4 0 , 71 0,19 2 ,4 0, 59 0,23 3 0,0

IR 0,69 0,19 5 0,73 0,19 2-5 0,61 0,24 2

SP 0, 85 0,13 2 ,4 0,52 0,25 2 0,72 0,20 3

мт 0,74 0,17 2 0,74 0,17 2 0,74 0,17 2

CN 0,70 0,20 2 0,67 0,22 2 0,62 0,23 2 1 0,5

IR 0,75 0,16 2 0,75 0,16 2-5 0,65 0 , 21 2-5

SP 0,77 0,16 2 0,60 0,24 2-5 0,60 0,24 2-5

мт 0 , 71 0 , 21 2-5 0 , 71 0,22 2-5 0 , 71 0 , 21 2-5

CN 0 , 71 0,18 2 0,69 0,18 3 0,67 0,22 3 -0, 5

IR 0, 85 0,16 2 , 3 0,76 0,16 2-5 0,67 0 , 21 2-5

SP 0, 83 0,12 2 0,65 0,23 2-5 0,65 0,23 2-5

Современные технологии. Системный анализ. Моделирование № 4 (56) 2017

По значениям табл. 1 и 2 можно сделать следующие выводы: 1) число регрессоров V несущественно влияет на значения показателей; 2) для всех рассмотренных случаев точность ИП и значение оценки Брайера приемлемы; 3) для выбранных значений параметров р и а в большинстве случаев наилучшая точность ИП получена для метода ЛР без регуляризации (для методов ЛР

с регуляризацией по норме Ь1 и Ь2 точность ИП хуже).

Для подтверждения этих выводов проверим точность ИП при р = 3 .

В табл. 3 и 4 приведены значения параметров методов ЛР, при которых были получены зна-

г» т-тах г) гтт т-> сниг

чения РЬ , РЬ и ВБ .

Таблица 3

Значения рьтах и ВБсиг при соответствующих параметрах алгоритмов

ДП ЛР без регуляризации ЛР с регуляризацией по норме Ь! ЛР с регуляризацией по норме Ь2 Условия интервального прогнозирования

рьтах ВБсиг V р^та* ВБсиг V р^та* ВБсиг ^ р а

МТ 0,77 0,19 4 0,78 0,19 4 0,77 0,19 4-5

СИ 0,92 0,06 5 0,91 0,07 5 0,88 0,07 5 0,0

ж 0,74 0,17 2-5 0,74 0,16 2-5 0,70 0,23 4

8Р 0,93 0,06 4, 5 0,78 0,18 5 0,80 0,13 5

МТ 0,79 0,17 4 0,78 0,17 4, 5 0,78 0,17 4-5

СИ 0,89 0,09 4, 5 0,89 0,09 4, 5 0,89 0,07 5 3 0,5

ж 0,73 0,17 2-5 0,76 0,17 2-5 0,61 0,23 2-5

8Р 0,92 0,06 3,4 0,93 0,20 3 0,81 0,15 4-5

МТ 0,49 0,25 2 0,49 0,25 2 0,49 0,25 2

СИ 0,93 0,05 5 0,93 0,05 5 0,93 0,06 5 -0,5

ж 0,83 0,13 2, 3 0,82 0,14 2, 4,5 0,61 0,23 4

8Р 0,95 0,04 3 0,61 0,22 5 0,69 0,18 5

Таблица 4

п тип г) сниг

Значения РЬ и ВБ при соответствующих параметрах алгоритмов

ДП ЛР без регуляризации ЛР с регуляризацией по норме Ь1 ЛР с регуляризацией по норме Ь2 Условия интервального прогнозирования

РЬт@п ВБсиг V РЬтт ВБсиг V РЬи@п ВБсиг V р а

МТ 0,75 0,2 2-3 0,74 0,20 3 0,75 0,20 2-3

СИ 0,79 0,14 2-3 0,79 0,14 2-3 0,63 0,23 2 0,0

ж 0,74 0,17 2-5 0,74 0,16 2-5 0,69 0,23 2 , 3, 5

8Р 0,92 0,06 2-3 0, 53 0,25 2-3 0,53 0,25 2-3

МТ 0,75 0,18 2 0,73 0,19 2 0,73 0,19 2

СИ 0,83 0,12 2-3 0, 83 0,13 2-3 0,73 0,20 2 3 0,5

ж 0,73 0,17 2-5 0,76 0,17 2-5 0 , 61 0,23 2-5

8Р 0,91 0,06 2 , 5 0,77 0,17 5 0,69 0,22 2-3

МТ 0,46 0,25 4 0,48 0,25 3 0,47 0,25 4

СИ 0,80 0,14 3 0, 81 0,14 2-3 0,49 0,23 2--3 -0, 5

ж 0,81 0,13 4 0, 81 0,14 3 0 , 61 0,23 2-5

8Р 0,93 0,05 4-5 0, 59 0,24 2-4 0,59 0,24 2--4

По значениям табл. 3 и 4 можно сделать следующие выводы: 1) число регрессоров V несущественно влияет на значения показателей; 2) для выбранных значений параметров р и а в большинстве случаев наилучшие результаты получены для метода ЛР без регуляризации; 3) при значении параметра а = -0,5 для показателя МТ

получены неудовлетворительные результаты по точности для всех методов ЛР, Результаты при значении параметра а = -0,5 для показателя МТ

резко отличаются от остальных. Мы можем объяснить это тем, что показатель МТ является самым сложным для прогнозирования (нестационарный и по параметру положения, и по параметру масштаба).

Информатика, вычислительная техника и управление

Modern technologies. System analysis. Modeling, 2Ol7, Vol 56, no.4

Заключение

1. Проведена формализация, программная реализация и проверка точности интервального прогнозирования реальных динамических показателей с различными статистическими характеристиками на основе методов логистической регрессии (ЛР) без регуляризации и с регуляризацией по норме Ь1 и по норме Ь2 .

2. В большинстве случаев в широком диапазоне значений параметров модель логистической регрессии без регуляризации продемонстрировала лучшую точность интервального прогнозирования.

3. Модель логистической регрессии без регуляризации рекомендуется для проведения интервального прогнозирования на практике, в том числе для построения прогнозирующих ансамблей.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Mitrea C.A. A Comparison between neural networks and traditional forecasting methods: a case study // International journal of engineering business management. 2009. № 1(2). Pp. 19-24.

2. Gooijer J,G„ Hyndman R,J, 25 years of time series forecasting // International journal of forecasting. 2006. N° 22 (3). Pp. 443-473.

3. Shumway R.H. Time series analysis and its applications with R examples // Springer. 2011. 609 p.

4. Wang H., Li G., Wang H, Deep learning based ensemble approach for probabilistic wind power forecasting // Applied energy. 2017. № 188. Pp. 56-70,

5. Vernay M,, Lafaysse M,, Merindol L, Ensemble forecasting of snowpack conditions and avalanche hazard // Cold regions science and technology. 2015. № 120. Pp 251-262.

6. Elliot G. Predicting binary outcomes [Electronic resource]. URL: http://econweb,ucsd,edu/~grelliott/BinPred,pdf (access date: 22.08.2017).

7. Yoder M., Cering A.S., Navidi W.C. Short-term forecasting of categorical changes in wind power with Markov chain models // Wind energy. 2014. № 17. Pp 1425-1439.

8. Lahiri K., Yang L. Forecasting binary outcomes // Handbook of economic forecasting [Electronic resource]. URL: http://www.albany.edu/economics/research/workingp/2012/lahiriyang,pdf (access date:12.05.2017).

9. Краковский Ю.М., Лузгин A.H. AnropHTM HHTepBanbHoro nporao3HpoBaHM динамических показателей на основе po6acTHoñ вepoятнocтнoй клacтepнoй мoдeли : элeктpoн. :®ypH. // Наука и oбpaзoвaниe. 2016. №. 11. С. 113-126. URL: http://technomag.neicon.ru/doc/849839.html (дата oбpaщeния: 01.07.2017).

10. Murata A., Fujii Y., Naitoh K. Multinomial logistic regression model for predicting driver's drowsiness using behavioral measures // Procedia manufacturing. 2015. № 3. P. 2426-2433.

11. Arbues F. Determinants of behavior toward selective collection of batteries in Spain, A bivariate probit model // Resources conservation and recycling. 2016. № 106. Pp. 1-8.

12. Cui M., Ke D., Sun Y. Wind power ramp event forecasting using a stochastic scenario generation method // IEEE Transactions on sustainable energy. 2015. № 6. Pp. 422-433.

13. Dreiseitl S., Ohno-Machado L. Logistic regression and artificial neural network classification models: a methodology review// Journal of biomedical informatics. 2002. № 35. Pp. 352-359.

14. Kliestik T., Kocisova K., Misankova M. Logit and probit Model used for prediction of financial health of company // Procedia economics and finance. 2015. № 23. Pp. 850-855.

15. Кpaкoвcкий Ю.М., Лузгин A.H. Интepвaльнoe пpoгнoзиpoвaниe HeCTau^oHapHbix динaмичecких пoкaзaтeлeй на ocHoBe mo-дeли вepoятнocтнoй нeйpoннoй cera //Научная мьюль. 2016. № 1. C. 116-122.

16. ^агав^ий Ю.М., Лузгин A.H. Пpoвepкa HeCTau^oHapHocra динaмичecкиx пoкaзaтeлeй no кpитepию сдвига Кpacкeлa-Уoллиca // Байкальотий Becтник ДААД. 2016. № 1. С. 17-23.

17. Кoбзapь А.И. ^и^адная мaтeмaтичecкaя статистика. М. : Физматлит, 2006. 816 c.

18. Hettmansperger T.P., McKean J.W. Robust nonparametric statistical methods. New York : Chapman-Hall. 2011. 553 p.

19. Kloke J., McKean J.W. Nonparametric statistical methods using R. New York : Chapman-Hall. 2014. 283 p.

20. CS229 Lecture notes [Electronic resource] // Stanford University. URL: https://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf (access date: 10.09.2017).

21. Minka T.P. Algorithm for maximum-likelihood logistic regression [Electronic resource]. URL: https://tminka.github.io/papers/logreg/minka-logreg.pdf (access date: 08.07.2017).

22. Genkin A., Lewis D.D., Madigan D.D. Sparse logistic regression for text categorization [Electronic resource]. URL: http://www.ics.uci.edu/textasciitilde smyth/courses/cs277/papers/genkinlogisticregressionsparse.pdf (access date: 02.02.2017).

23. The R-Project of statistical computing [Electronic resource]. URL: http://www.r-project.org (access date:: 10.11.2017).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

24. Кpaкoвcкий Ю.М. npo^aMMHoe oбecпeчeниe интepвaльнoгo пpoгнoзиpoвaния нecтauиoнapныx динaмичecкиx пoкaзaтeлeй // BeCT™ JpLTy. 2015. T. 1. №4. С. 12-16.

25. RStudio [Элeктpoнный pecypc]. URL: https://www.rstudio.com (дата oбpaщeния: 11.11.2016).

26. Package 'gWidgets2' [Electronic resource]. URL: https://cran.r-project.org/web/packages/gWidgets2 (access date: 01.01.2017).

27. RGtk2. [Electronic resource]. URL: https://cran.r-project.org/web/packages/RGtk2 (access date: 02.15.2017).

28. A Library for Large Linear Classification [Electronic resource]. URL: https://www.csie.ntu.edu.tw/\textasciitilde cjlin/liblinear (access date: 15.05.2017).

29. Rufibach K. Use of Brier score to assess binary predictions // Journal of clinical epidemiology. 2010. № 63(8). Pp 938-939.

30. Air Quality Data of Switzerland [Electronic resource]. URL: https://cran.r-project.org/web/packages/SwissAir/index.html (access date: 11.03.2016).

31. DataMarket [Electronic resource]. URL: https://datamarket.com/data (дата oбpaщeния: 10.04.2017).

32. SRCP [Electronic resource]. URL: http://www.crsp.com/products/documentation/crsp-calculations (access date: 11.03.2017).

иркутским государственный университет путей сообщения

Современные технологии. Системный анализ. Моделирование № 4 (56) 2017

33. Madras Monthly Sea Level, CRU [Electronic resource], URL: http://www.comp-engine.org/timeseries/time-series_data/data-11114 (access date: 18.05.2017).

REFERENCES

1. Mitrea C.A. A Comparison between neural networks and traditional forecasting methods: a case study. International journal of engineering business management, 2009, No. 1(2), pp. 19-24.

2. Gooijer J.G., Hyndman R.J. 25 years of time series forecasting. International journal offorecasting, 2006, No. 22 (3), pp. 443-473.

3. Shumway R.H. Time series analysis and its applications with R examples. Springer, 2011, 609 p.

4. Wang H., Li G., Wang H, Deep learning based ensemble approach for probabilistic wind power forecasting. Applied energy. 2017, No. 188, pp. 56-70.

5. Vernay M., Lafaysse M., Merindol L., Ensemble forecasting of snowpack conditions and avalanche hazard. Cold regions science and technology, 2015, No. 120, pp. 251-262.

6. Elliot G. Predicting binary outcomes [Electronic resource]. URL: http://econweb,ucsd,edu/~grelliott/BinPred,pdf (access date: 22.08.2017).

7. Yoder M., Cering A.S., Navidi W.C. Short-term forecasting of categorical changes in wind power with Markov chain models. Wind energy, 2014, No. 17, pp. 1425-1439.

8. Lahiri K., Yang L. Forecasting binary outcomes. Handbook of economic forecasting [Electronic resource]. URL: http://www.albany.edu/economics/research/workingp/2012/lahiriyang,pdf (access date:12.05.2017).

9. Krakovskii Yu.M., Luzgin A.N. Algoritm interval'nogo prognozirovaniya dinamicheskikh pokazatelei na osnove robastnoi veroyatnostnoi klasternoi modeli : elektron. zhurn. [Algorithm for interval forecasting of dynamic indicators based on a robust probabilistic cluster model: electron. journal.]. Nauka i obrazovanie, 2016, No. 11, pp. 113-126. URL: http://technomag.neicon.ru/doc/849839.html (access date: 01.07.2017).

10. Murata A., Fujii Y., Naitoh K. Multinomial logistic regression model for predicting driver's drowsiness using behavioral measures. Procedia manufacturing, 2015, No. 3, pp. 2426-2433.

11. Arbues F. Determinants of behavior toward selective collection of batteries in Spain, A bivariate probit model. Resources conservation and recycling, 2016, No. 106, pp. 1-8.

12. Cui M., Ke D., Sun Y. Wind power ramp event forecasting using a stochastic scenario generation method. IEEE Transactions on sustainable energy, 2015, No. 6, pp. 422-433.

13. Dreiseitl S., Ohno-Machado L. Logistic regression and artificial neural network classification models: a methodology review. Journal of biomedical informatics, 2002, No. 35, pp. 352-359.

14. Kliestik T., Kocisova K., Misankova M. Logit and probit Model used for prediction of financial health of company. Procedia economics andfinance, 2015, No. 23, pp. 850-855.

15. Krakovskii Yu.M., Luzgin A.N. Interval'noe prognozirovanie nestatsionarnykh dinamicheskikh pokazatelei na osnove modeli veroyatnostnoi neironnoi seti [Interval prediction of non-stationary dynamic indicators based on the probabilistic neural network model]. Nauchnaya mysl' [Scientific thought], 2016, No. 1, pp. 116-122.

16. Krakovskii Yu.M., Luzgin A.N. Proverka nestatsionarnosti dinamicheskikh pokazatelei po kriteriyu sdviga Kraskela-Uollisa [Checking the nonstationarity of dynamic indicators by Kruskal-Wallis shift criterion]. Baikal'skii Vestnik DAAD [Baikal Letter DAAD], 2016, No. 1,pp. 17-23.

17. Kobzar' A.I. Prikladnaya matematicheskaya statistika [Applied mathematical statistics]. Moscow: Fizmatlit Publ., 2006, 816 p.

18. Hettmansperger T.P., McKean J.W. Robust nonparametric statistical methods. New York : Chapman-Hall. 2011, 553 p.

19. Kloke J., McKean J.W. Nonparametric statistical methods using R. New York : Chapman-Hall, 2014, 283 p.

20. CS229 Lecture notes [Electronic resource]. Stanford University. URL: https://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf (access date: 10.09.2017).

21. Minka T.P. Algorithm for maximum-likelihood logistic regression [Electronic resource]. URL: https://tminka.github.io/papers/logreg/minka-logreg.pdf (access date: 08.07.2017).

22. Genkin A., Lewis D.D., Madigan D.D. Sparse logistic regression for text categorization [Electronic resource]. URL: http://www.ics.uci.edu/textasciitilde smyth/courses/cs277/papers/genkinlogisticregressionsparse.pdf (access date: 02.02.2017).

23. The R-Project of statistical computing [Electronic resource]. URL: http://www.r-project.org (access date: 10.11.2017).

24. Krakovskii Yu.M. Programmnoe obespechenie interval'nogo prognozirovaniya nestatsionarnykh dinamicheskikh pokazatelei [Software for interval forecasting of non-stationary dynamic indicators]. Vestnik IrGTU [Proceedings of Irkutsk State Technical University], 2015, Vol. 1, No. 4, pp. 12-16.

25. RStudio [Elektronnyi resurs]. URL: https://www.rstudio.com (data obrashcheniya: 11.11.2016).

26. Package 'gWidgets2' [Electronic resource]. URL: https://cran.r-project.org/web/packages/gWidgets2 (access date: 01.01.2017).

27. RGtk2. [Electronic resource]. URL: https://cran.r-project.org/web/packages/RGtk2 (access date: 02.15.2017).

28. A Library for Large Linear Classification [Electronic resource]. URL: https://www.csie.ntu.edu.tw/\textasciitilde cjlin/liblinear (access date: 15.05.2017).

29. Rufibach K. Use of Brier score to assess binary predictions. Journal of clinical epidemiology, 2010, No. 63(8), pp. 938-939.

30. Air Quality Data of Switzerland [Electronic resource]. URL: https://cran.r-project.org/web/packages/SwissAir/index.html (access date: 11.03.2016).

31. DataMarket [Electronic resource]. URL: https://datamarket.com/data (data obrashcheniya: 10.04.2017).

32. SRCP [Electronic resource]. URL: http://www.crsp.com/products/documentation/crsp-calculations (access date: 11.03.2017).

33. Madras Monthly Sea Level, CRU [Electronic resource]. URL: http://www.comp-engine.org/timeseries/time-series data/data-11114 (access date: 18.05.2017).

[Щ] Информатика, вычислительная техника и управление (S L

ее «в Modern technologies. System analysis. Modeling, 2017, Vol 56, no.4 r

Информация об авторах Authors

Краковский Юрий Мечеславович - д. т. н., профессор кафедры «Информационные системы и защита информации», Иркутский государственный университет путей сообщения, г. Иркутск, e-mail: [email protected]

Лузгин Александр Николаевич - к. т. н., преподаватель кафедры «Информационные технологии», Иркутский государственный университет, г. Иркутск, e-mail: [email protected]

Yuri Mecheslavovich Krakovsky - Doctor of Engineering Science, Prof., the Subdepartment of Information Systems and Information Protection, Irkutsk State Transport University, Irkutsk, e-mail: [email protected]

Alexander Nikolaevich Luzgin - Ph.D. in Engineering Science, Member of the Subdepartment of Information Technologies, Irkutsk State University, Irkutsk, e-mail: [email protected]

Для цитирования

Краковский Ю. М. Интервальное прогнозирование динамических показателей на основе логистических регрессионных моделей / Ю. М. Краковский, А. Н. Лузгин // Современные технологии. Системный анализ. Моделирование. - 2017. - Т. 56, № 4. - С. 122-131. - Б01: 10.26731/1813-9108.2017.4(56). 122-131.

УДК 519.237.5 М. П. Базилевский

For citation

Krakovsky Y. M., Luzgin A. N. Interval'noe prognozirovanie dinamicheskikh pokazatelei na osnove logisticheskikh regres-sionnykh modelei [The interval forecasting of dynamic indicators based on logistic regression models]. Sovremennye tekhnologii. Sistemnyi analiz. Modelirovanie [Modern Technologies. System Analysis. Modeling], 2017. Vol. 56, No. 4, pp. 122-131. DOI: 10.26731/1813-9108.2017.4(56). 122-131.

DOI: 10.26731/1813-9108.2017.4(56).131-138

Иркутский государственный университет путей сообщения, г. Иркутск, Российская Федерация Дата поступления: 29 сентября 2017 г.

РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМОВ ОЦЕНИВАНИЯ ПАРАМЕТРОВ АДДИТИВНОЙ СТЕПЕННОЙ РЕГРЕССИИ

Аннотация. Регрессионный анализ является признанным инструментом построения математических моделей статистического типа. Методы регрессионного анализа находят применение в различных областях: в экономике, технике, образовании, медицине и др. Основными этапами построения регрессионной модели являются: идентификация переменных, сбор статистических данных, спецификация модели, т. е. выбор математической формы связи между переменными, идентификация параметров модели, верификация модели, т. е. определение степени соответствия построенной модели реальному объекту исследования, и интерпретация результатов, заключающаяся в прогнозировании, принятии управленческих решений и т. д.

Статья посвящена проблеме выбора структурной спецификации регрессионной модели. Предложены нелинейные по параметрам аддитивные степенные регрессии, представляющие более гибкий инструмент моделирования, чем аналогичные степенные модели с мультипликативными независимыми переменными. Для оценивания неизвестных параметров предложенных аддитивных степенных регрессий были разработаны 3 специальных алгоритма, основу которых составляет нелинейный метод наименьших квадратов. С использованием эконометрического пакета Огей было проведено исследование разработанных алгоритмов. При этом для оценки неизвестных параметров нелинейных моделей в Огей был использован алгоритм Левен-берга - Марквардта. Наилучшие результаты показал алгоритм с предварительным выбором начального приближения. Показано, что несколько первых шагов этого алгоритма представляют собой однокритериальный «конкурс» степенных регрессионных моделей. Проведен численный эксперимент, доказывающий рациональность использования алгоритма оценивания аддитивных степенных регрессий с предварительным выбором начального приближения при организации «конкурса» регрессионных моделей.

Ключевые слова: регрессионная модель, аддитивная степенная регрессия, нелинейный метод наименьших квадратов, алгоритм Левенберга - Марквардта, «конкурс» моделей.

M. P. Bazilevsky

Irkutsk State Transport University, Irkutsk, the Russian Federation Received: September 29, 2017

THE DEVELOPMENT AND RESEARCH OF ALGORITHMS OF ESTIMATION OF PARAMETERS OF THE ADDITIVE POWER REGRESSION

Abstract. Regression analysis is a recognized tool for constructing mathematical models of statistical type. Methods of the regression analysis are used in various fields: in economics, technology, education, medical field, etc. The main stages in constructing the regression model are: identifying variables, collecting statistical data, specifying the model, i.e. choosing the mathematical form of the relationship between the variables, identification of model parameters, model verification. In other words, determining the degree of

131

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Краковский Ю. М., Лузгин А. Н.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Краковский Ю. М., Лузгин А. Н.

Текст научной работы на тему «Интервальное прогнозирование динамических показателей на основе логистических регрессионных моделей»