УДК 332.1 JEL C53
Гагарин Юрий Евгеньевич
канд. техн. наук, Калужский филиал ФГБОУ ВО «Московский государственный технический университет имени Н. Э. Баумана», г. Калуга
e-mail: [email protected]
Гагарина Светлана Николаевна
канд. экон. наук, ФГБОУ ВО «Калужский государственный университет имени К. Э. Циолковского» e-mail: [email protected]
DOI10.26425/1816-42 77-2018-12-64- 70
ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ ОБЪЕМОВ ПОТРЕБЛЕНИЯ РЕСУРСОВ ПРИ СТОХАСТИЧЕСКИХ ИСХОДНЫХ ДАННЫХ
Аннотация. Рассмотрен метод интервального оценивания объемов потребления ресурсов при случайном характере множества случайных факторов. Показана необходимость учета ошибок в значениях функций и аргументов при оценивании параметров математических моделей. Для учета случайного характера исходной информации при оценивании параметров моделей предложено использовать методы конфлюэнтного анализа. Разработан метод, позволяющий получать точечные и интервальные оценки параметров моделей, а также интервальные оценки функциональных зависимостей при стохастических исходных данных. Предложенный метод предназначен для прогнозирования объемов потребления энергоресурсов на предприятии жилищно-коммунального комплекса. Ключевые слова: интервальное оценивание, объемы потребления ресурсов, неопределенность исходных данных, прогнозирование, конфлюэнтный анализ.
Gagarin Yuri
Candidate of Engineering Sciences, Bauman Moscow State Technical University, Kaluga Branch, Kaluga e-mail: [email protected]
Gagarina Svetlana
Candidate of Economic Sciences, Kaluga State University named under K.E. Tsiolkovskiy, Kaluga e-mail: [email protected]
INTERVAL ESTIMATION OF THE VOLUMES OF RESOURCE CONSUMPTION AT THE STOCHASTIC BASIC DATA
Abstract. The method of interval estimation of resource consumption volumes is considered with the random nature of a multitude of random factors. The necessity of taking into account errors in the values of functions and arguments when estimating the parameters of mathematical models is shown. To take into account the random nature of the initial information when estimating the parameters of the models, it is proposed to use methods of confluent analysis. A method has been developed that allows one to obtain point and interval estimates of model parameters, as well as interval estimates offunctional dependencies with stochastic initial data. The developed method is used in predicting the volume of energy consumption at a housing and utilities complex enterprise.
Keywords: interval estimation, resource consumption, source data uncertainty, forecasting, confluent analysis.
Методы математической и прикладной статистики, в том числе регрессионный анализ, находит широкое применение в прогнозировании развития экономических, производственных систем и рынков сбыта. Разработка планов на долгосрочную перспективу предопределяет необходимость учета факторов неопределенности как внешней, так и внутренней среды функционирования субъекта хозяйствования.
При прогнозировании используют математические модели, описывающие поведение исследуемых систем. При этом следует отметить, что ввиду высокой степени неопределенности будущего состояния как самого объекта прогнозирования, так и внешней среды, обусловливающей необходимость учета множества случайных факторов, не представляется возможным использование детерминированных математических моделей. С большей вероятностью можно предложить модель, позволяющую вычислить вероятность того, что некоторое будущее значение будет лежать в определенном интервале - стохастическая вероятностная модель. Параметры математических моделей при детерминированных значениях аргументов функциональных зависимостей оценивают методом наименьших квадратов (далее - МНК). Если условие детерминированности факторов не выполняется, то в математической статистике разработан ряд методов, которые
© Махалина О.М., Махалин В.Н., 2018. Статья доступна по лицензии Creative Commons «Attribution» («Атрибуция») 4.0. всемирная (http://creativecommons.org/licenses/by/4.0/).
The Author(s), 2018. This is an open access article under the CC BY 4.0 license (http://creativecommons.Org/licenses/by/4.0/).
Исследования проведены при финансовой поддержке Российского фонда фундаментальных исследований и Правительства Калужской области (научный проект № 17-12-40010-0ГН).
учитывают погрешности как в значениях функции, так и в значениях ее аргумента при оценивании параметров математических моделей.
В качестве единого подхода к задаче определения оценок параметров экономических моделей при стохастических исходных данных в статье предлагается использовать методы конфлюэнтного анализа (далее — МКА). В то время как в регрессионных методах аргумент должен быть детерминирован, поскольку невязка берется по одной величине, а случайный характер других величин не учитывается, в МКА учитывается случайный характер всех исходных величин.
Для построения прогноза необходимо создать математическую модель изучаемого экономического показателя. Как правило, эту модель разрабатывают на основе проводящихся наблюдений над показателем, причем наблюдения не свободны от влияния всевозможных погрешностей.
Рассмотрим две случайные величины и г|, которые имеют совместное распределение непрерывного типа с плотностью вероятности/(х, у). В процессе наблюдений случайная величина с, приняла значения х.= (/=1,п), а случайная величина г|-значения у. (¡=\,п ).
Для условного распределения вероятностей переменной г| можно найти его числовые характеристики: среднее значение, моду, медиану и т. д., которые будут зависеть от х. Обозначим выбранную числовую характеристику как ух . Если х меняется, то точка (х, ух) опишет некоторую кривую. По виду этой кривой можно судить о расположении условного ^-распределения для различных значений Кривая называется кривой регрессии, и говорят, что она изображает регрессию г| на с,. За ух можно взять условное среднее величины г|, задаваемое соотношением:
ух=М(г||^=х).
Любая числовая характеристика х условного распределения величины с, приводит к кривой регрессии на т|. Кривая регрессии для условного среднего значения с, описывается уравнением:
ху=М(^\г,=у).
Две кривые регрессии ух и хг в общем случае не будут совпадать. Кривые регрессии выбирают таким образом, чтобы они отвечали свойству минимальности: среди множества всех функций £(£,) пытаются найти такую, которая дает возможно лучшее представление о случайной величине т|.
Наиболее простая и распространенная - линейная регрессия. Рассмотрим способы определения возможно лучшего представления зависимой переменной. Для этих целей достаточно широко используют МНК.
Пусть уравнение регрессии г| на имеет вид: ух = а + Ьх. МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений наблюдаемых значений величины от теоретических значений была бы минимальна, т. е.:
/■'=УУу', -а-Ьх:)2 -^тт.
1=1
Уравнение регрессии г| на можно записать в следующем виде:
>
-=Р
Ух-У(1)
Функционал Р определяет сумму квадратов расстояний по вертикали (вдоль оси ОТ} между точками (х у ) и прямой ух = а+Ьх.
Рассмотрим другую регрессию, а именно регрессию на т|. Пусть в этом случае уравнение прямой имеет вид: ху =а+|3у. Необходимо найти оценки параметров а и |3, при которых функционал Ф принимает минимальное значение: „
7=1
Уравнение регрессии на г| имеет вид:
Функционал (5) определяет сумму квадратов расстояний по горизонтали (вдоль оси ОХ) между точками (V, х.) и прямой ху =а+|3у.
По одним и тем же исходным данным согласно уравнениям (1), (2) можно построить различные прямые, что соответствует регрессионному парадоксу [3]. Прямые регрессии совпадают только при р=±1. Когда р=0 получим уравнения ух=у и х =х, т. е. прямые будут взаимно перпендикулярны.
Рассмотрим объем потребления энергоресурсов на предприятии жилищно-коммунального комплекса в определенные периоды времени. За единицу временного интервала будем рассматривать квартал. Построим две регрессионные прямые. Первая регрессионная прямая учитывает случайный характер переменной у, и исходная модель в этом случае имеет вид:
где е - случайная величина, характеризующая отклонение реального значения у. от теоретического.
Другая регрессионная прямая учитывает случайный характер переменной х, поэтому модель примет вид:
где 8 - случайная величина, характеризующая отклонение реального значения х от теоретического.
Две прямые не совпадают, т. е. налицо регрессионный парадокс. Для устранения этого парадокса необходимо при определении уравнения регрессии учесть случайный характер как переменной х, так и переменной у.
Рассмотрим построение доверительного интервала для линейной функции регрессии. Пусть получены оценки параметров а и Ь модели у=а+Ьх. Оценкой для линии регрессии будет у=а+Ьх. Подставим в это уравнение выражение параметра а: а=у-Ьх . Уравнение регрессии примет вид:
у=а+Ъх+ е.,
1 Г
х,=а+Р;;,+8.,
у=у-Ьх+Ьх=у+Ь(х-х).
Дисперсия величины у будет определяться по формуле:
£> (у) = £> (У) + И [Ь (х - х)] = И (у) + (х - х )2 И (й).
(3)
Дисперсия выборочной средней с учетом того, что £)[>',■] = ст", /=1 ,п, определяется выражением:
'2 2 / 2 2 / п =па /п =о/1
п.
(4)
Параметр Ъ (коэффициент регрессии) представим в виде:
Тогда дисперсия параметра :
п{ъ) = о] ;(х,-х): (5)
Значение о2 можно оценить по формуле:
П
где -(а+Щ
I 1
; р - число параметров.
Дисперсия (3) с учетом (4) и (5) будет иметь вид:
О{у) = о21п + {х-х)~ а2 -х)~ =а2 1/п+ (х-х)~ / ^(х,-х)
( / " Л
~ -] (6)
1=1
V / 1=1
В общем случае статистика |у - у) подчиняется распределению Стьюдента с п-р степенями сво-
боды и интервальная оценка при заданной доверительной вероятности у имеет вид:
где 1 - квантиль распределения Стьюдента.
Из формул (6), (7) видно, что ширина доверительного интервала зависит от значения переменной х: при х = х ширина минимальна, а по мере удаления х от х ширина доверительного интервала увеличивается.
Полученные доверительные интервалы определяют местоположение линии регрессии, но не отдельных возможных значений зависимой переменной. Определенное значение зависимой переменной уа имеет рассеяние в окрестности линии регрессии, которое необходимо учитывать при нахождении доверительного интервала. Новое наблюдение имеет дисперсию о2, и в результате оценка дисперсии индивидуальных значений уа при х=х0 равна:
( , / " Л
D (л)=1+V"+(*о - *) / Е (х< - * )"
V / ¡=1
Доверительные интервалы прогноза индивидуальных значений у будут определяться по (7). Рассмотрим возможность учета случайного характера исходных данных. Будем учитывать погрешности, как значений у, так и аргументов х. В [5] рассматриваются различные способы учета ошибок измерений, но в качестве единого подхода к задаче нахождения оценок параметров любых моделей будем использовать МКА [3].
При оценивании параметров с помощью МКА исходная модель имеет вид:
и=а+Ь^+ в,;
[х^.+б,, 7=1/7, (8)
где е и 8 - случайные величины, характеризующие ошибки значений у. и х соответственно; - неизвестные (истинные) значения х
В данной модели предполагается наличие погрешностей не только в значениях функции, но и в значениях аргументов [1].
Наиболее часто в природе и технике случайные величины подчиняются нормальному распределению. Будем считать, что случайные величины е и 8. соответствуют нормальному распределению с средними значениями равными нулю, дисперсиями о2(у.) и , и а2(х.коэффициентом корреляции р=0. Составим функционал для оценивания параметров а и Ь
р=1-у (9)
2^с2(у,)+62с2(х,)' (9)
а неизвестные значения по формуле:
2(у,)х,+6ст2(х,)(у,-а) (10)
а2'
а(г)./га(х)
На первом шаге итерационного процесса нахождения оценок параметров модели (8) принималось £,.=х., /=1,п. Окончанием итерационного процесса служило выполнение следующего условия: на соседних итерациях значения функционала (9) отличаются несущественно, т. е.:
к.
(П)
где у1 - заданное число.
Дисперсии оценок параметров найдем с помощью матрицы вторых производных от функционала Р по параметрам а и Ь. Рассмотрим случай, когда дисперсии ошибок измерений е равны, т. е. о2(у)=о2(у ). Тогда функционал Р примет вид:
Получим вторые производные от функционала Р по параметрам а и Ь:
д2р/да2=л/а2 (у);
б2Р б2Р
дадЪ дЬда
сРр/8Ь2=^ А2(V)-1=1 /
Составим матрицу вторых производных:
М =
С учетом (12) матрица М будет иметь вид:
М =
д2Р д2Р
да2 дадЬ
д2Р д2Р
дЬда дЬ2
{у) п -2Х г=1 / /°2(у) 1 ( " } п 1=1
V 1=1 / п 1=1 / г (у) п п Тх> 2>Г V г=\ 1=1 /
(12)
Дисперсии оценок параметров определяются из матрицы, обратной матрице М.
( п п Л
в
(еН200/
п ( п ^^
1=1 V 1=1 У
-ъ
1=1 1=1
п
"Ех, И
V 1=1 У
Для параметров а и Ь дисперсии оценок определяют по следующим формулам:
'2/Н1
1=1 у
; в
(Ь) = а-(у),
1=1 У
Точечные оценки параметров 0 , полученные в каждом конкретном случае, могут отличаться от значений параметров и, следовательно при этом остается еще известная доля неопределенности [4]. Можно сказать, что параметр 0 лежит в интервале 0 + очень возможно, что лежит в интервале 6 +
и т. д. Таким образом, для параметра 0 можно установить интервал вместо отдельной точки, хотя одна точка этого интервала, а именно 0, является «наилучшей» для 0.
Определим доверительные интервалы для параметров а и Ь. При достаточно большом наборе исходных данных и учитывая, что оценки параметров функциональных зависимостей соответствуют нормальному закону распределения относительно их математических ожиданий, для определения доверительных интервалов можно использовать безразмерную /-статистику Стьюдента. Такая статистика подчиняется /-распределению с п-2 степенями свободы, и для уровня значимости а доверительный интервал параметра а имеет вид:
О - Ч-а/2у1В(д) - а - " + *1-а/2л1В(а)-
Аналогично находится доверительный интервал для параметра Ь:
*> ~ Ь-а/2 <Ъ<Ъ+ .
Определим интервалы прогнозных значений для линейной модели вида [2]: у=а+Ьх. При определении прогнозируемых значений будем использовать два способа. Эти способы отличаются тем, что в первом значения параметров линейной модели находятся традиционным методом - МНК, во втором значения параметров будем находить с помощью МКА, т. е. будем учитывать погрешности аргумента линейной функции х и самой функции у.
Рассчитанные по МНК параметры а и Ь линейной функции регрессии приведены в таблице 3. Уравнение регрессии имеет вид:
¿=10963+3101,2х.
При нахождении интервалов прогноза с учетом погрешностей аргументов х, модель для оценивания параметров соответствует (8). Оценки параметров а и Ь находятся из условия минимума функционала (9), а значения оценивают по формуле (10). В модели (8) и в формулах (9), (10) средние квадратические отклонения а (у .) и о(х.) предполагались известными и равными: о(у()=0.2у(. о(х.)=0,3.
Решение системы уравнений (9), (10) соответствует итерационному процессу. Сначала определялись значения параметров аи Ь , при £,=х., / = \,п. Затем находились оценки с,,. / = \,п . На каждом шаге итерационного процесса проверялось условие: |хг -^г|<Зо(хг). Итерационный процесс нахождения оценок параметров а, Ь и значений с>; заканчивался при выполнении условия (11). у1 - заданное число, которое принималось равным 0,003.
Для выполнения условия (11) потребовалось 133 итерации.
Оценки параметров а , Ь , полученные с учетом погрешностей значений функции и аргумента приведены в таблице 1.
Таблица 1
Значения параметров при решении задачи двумя методами
Параметр Решение МНК Решение с учетом погрешностей аргумента
а 10 963 10 017
Ъ 3 101,2 3 139,6
о (а) 2 885,8 1 844
Ф) 298,44 298,12
Источник: [2]
Уравнение прямой имеет вид:
¿=10017+3139,6х.
По (6) определим дисперсию D( у), ас помощью (7) - интервальные оценки с доверительной вероятностью у=0,95. При этом квантиль распределения Стьюдента для доверительной вероятности у=0,95 и п-р = 16-6=14 степеней свободы принимался равным f =2,14.
Отличие в значениях параметров и средних квадратических отклонений параметров, приведенных в таблице 1, рассчитанных двумя методами, показывает, что учет неопределенности исходных данных приводит к смещению этих показателей. Значения о( у), полученные с учетом погрешностей аргумента, несколько меньше, чем о( у), полученные МНК. В результате доверительные интервалы функциональных зависимостей для двух методов будут различны. Разница в ширине доверительных интервалов для функций объясняется тем, что учет погрешности исходных данных приводит к уточнению значений аргументов функциональных зависимостей, к уменьшению погрешностей параметров (табл. 1) и, соответственно, к уменьшению значений о( у).
В настоящее время в математических моделях прогнозирования применяются приближенные методы, в которых неопределенность множества факторов сводится к неопределенности одного фактора. Имеются лишь отдельные результаты, не объединенные общностью подхода, когда учитывают погрешности, как аргументов, так и функции. Это не позволяет полностью определить параметры реальных экономических систем, что в свою очередь приводит к дополнительным затратам и снижает эффективность прогнозирования.
Предложенный математический метод, базирующийся на МКА, представляет собой единый подход к задаче нахождения оценок параметров моделей с учетом погрешностей в значениях функций и аргументов. Данный подход, в отличие от традиционных методов, позволяет получать несмещенные оценки параметров математических моделей. Кроме точечных оценок параметров, предлагается определять интервальные оценки параметров, а также интервальные оценки функциональных зависимостей с учетом погрешностей всех исходных данных.
Интервальные оценки функциональных зависимостей дают возможность получать доверительные интервалы прогнозов индивидуальных значений функций, а учет неопределенности исходных данных повышает достоверность прогноза.
Библиографический список
1. Гагарина, С. Н. Интервальное прогнозирование объемов спроса на услуги субъектов естественных монополий с учетом неопределенности информации / С. Н. Гагарина, Ю. Е. Гагарин // Вестник университета (Государственный университет управления). - 2013. - № 22. - С. 101-110.
2. Гагарина, С. Н. и др. Многофакторное моделирование объемов потребления ресурсов с учетом неопределенности как фактор повышения энергетической эффективности в жилищно-коммунальной сфере / С. Н. Гагарина, Ю. Е. Гагарин, Е. К. Гостюхина, Д. В. Зотов, Н. А. Яцкевич // Труды регионального конкурса научных проектов. Вып. 1. - Калуга: Калужский государственный институт развития образования, 2018. - С. 108-113.
3. Грешилов, А. А. Математические методы принятия решений: Учеб. пособие для вузов. - М.: Изд-во МГТУ им. Н. Э. Баумана, 2006. - 584 с.
4. Кендалл, М. Статистические выводы и связи / М. Кендалл, А. Стьюарт. - М.: Наука, 1973. - 900 с.
5. Fuller, W. A. Measurement error models / W. A. Fuller. - New york ect.: Wiley, 1987. - 440 p.
References
1. Gagarina S. N.. Gagarin Yu. E. Interval'noe prognozirovanie ob"emov sprosa na uslugi sub"ektov estestvennykh monopolii s uchetom neopredelennosti informatsii \_Interval forecasting of demandfor services of natural monopolies subject to the uncertainty of information], Vestnik universiteta (Gosudarstvennyi universitet upravleniya), 2013,1. 22, pp. 101-110.
2. Gagarina S. N.. Gagarin Yu. E., Gostyukhina E. K„ Zotov D. V., Yatskevich N. A. Mnogofaktornoe modelirovanie ob"emov potrebleniya resursov s uchetom neopredelennosti kak faktor povysheniya energeticheskoi effektivnosti v zhilishchno-kommu-nal'noi sfere [Multifactor modeling of resource consumption with account of uncertainty as a factor in increasing energy efficiency in the housing and utilities sector], Trudy regional'nogo konkursa nauchnykh proektov, I. 1, Kaluga: Kaluzhskii gosudarstvennyi institut razvitiya obrazovaniya, 2018, pp. 108-113.
3. Greshilov A. A. Matematicheskie metody prinyatiya reshenii: Ucheb. posobie dlya vuzov [Mathematical decision making methods1, M.: Izd-vo MGTU im. N. E. Baumana, 2006, p. 584.
4. Kendall M„ St'yuart A. Statisticheskie vyvody i svyazi [Statisticalfindings and links], M.: Nauka, 1973, p. 900.
5. Fuller W. A. Measurement error models. New York ect.: Wiley, 1987, p. 440.