Научная статья на тему 'О методе наименьших квадратов при регрессии с нечеткими данными'

О методе наименьших квадратов при регрессии с нечеткими данными Текст научной статьи по специальности «Математика»

CC BY-NC-ND
570
137
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЧЕТКАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ / ОЦЕНИВАНИЕ ПАРАМЕТРОВ / FUZZY LINEAR REGRESSION / LEAST-SQUARES ESTIMATES

Аннотация научной статьи по математике, автор научной работы — Вельдяксов Василий Николаевич, Шведов Алексей Сергееевич

Данные, используемые при регрессионном анализе, могут быть неточными или неоднозначными. Неопределенность данных может вытекать из случайности или из нечеткости. Регрессия, основанная на вероятностных моделях, широко распространена. Но трудности могут возникать, например, когда множество наблюдений слишком мало или предположения о виде вероятностных распределений недостоверны. При обычном эконометрическом оценивании предполагается, что и зависимые, и независимые переменные даны в форме действительных чисел. Но во многих прикладных задачах доступны лишь нечеткие данные. Существующие статистические методы могут быть обобщены и на случай такой неопределенности. Методы нечеткой регрессии основаны на теории нечетких множеств. Такая регрессия достаточно широко применяется в финансах, деловом администрировании и других областях. Регрессионная модель с нечеткими данными может рассматриваться с различных точек зрения, переменные могут считаться нечеткими, или отношение между переменными может считаться нечетким. По моделям нечеткой регрессии опубликовано много работ. При этом рассматриваются различные варианты моделей: с нечеткими регрессорами и с четкими коэффициентами регрессии, с четкими регрессорами и с нечеткими коэффициентами регрессии, с нечеткими регрессорами и с нечеткими коэффициентами регрессии. В настоящей работе рассматривается задача повышения точности регрессионной модели, когда некоторые или все наблюдения нечеткие, при этом коэффициенты модели остаются действительными числами. Предлагается новый способ оценивания свободного члена в регрессионной модели, при этом свободный член представляет собой нечеткое число. Этот способ основан на решении задачи вариационного исчисления. На примерах показано, что включение в модель нечеткого свободного члена позволяет повысить предсказательную силу регрессионной модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Вельдяксов Василий Николаевич, Шведов Алексей Сергееевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On Fuzzy Least-squares Regression Analysis

The data used in regression analysis may be inexact or uncertain. Uncertainty of data comes from randomness and from fuzziness. Statistical regression has many applications. But problems can occur, for instance, if the data set is too small, or there is difficulty verifying distribution assumptions. The standard econometric estimation is used when both the independent and dependent variables are given as real numbers. However, in many real-life situations only fuzzy data is available. The statistical techniques can be extended to include ambiguity of events. Fuzzy linear regression is a modelling techniques based on fuzzy set theory. It is applied to different areas such as finance, business administration and so on. The regression model with fuzzy data has been treated from diffferent points of view. Models where the variables are fuzzy or models where the relation of the variables is fuzzy may be considered. Significant amount of research has been conducted on fuzzy regression models. One can consider models with fuzzy observations and crisp parameters, crisp observations and fuzzy parameters, fuzzy observations and fuzzy parameters, In this paper, we apply calculus of variations methods in fuzzy regression analysis. The fuzzy regression model is considered to be fuzzy outputs, fuzzy inputs and crisp parameters. In order to include fuzzy constant term into regression model, we solve the calculus of variations problem. The results show that the regression model with fuzzy constant term has better performance than the regression model with crisp constant term.

Текст научной работы на тему «О методе наименьших квадратов при регрессии с нечеткими данными»

О методе наименьших квадратов при регрессии с нечеткими данными

Вельдяксов В.Н., Шведов А.С.

Данные, используемые при регрессионном анализе, могут быть неточными или неоднозначными. Неопределенность данных может вытекать из случайности или из нечеткости. Регрессия, основанная на вероятностных моделях, широко распространена. Но трудности могут возникать, например, когда множество наблюдений слишком мало или предположения о виде вероятностных распределений недостоверны. При обычном эконометрическом оценивании предполагается, что и зависимые, и независимые переменные даны в форме действительных чисел. Но во многих прикладных задачах доступны лишь нечеткие данные. Существующие статистические методы могут быть обобщены и на случай такой неопределенности.

Методы нечеткой регрессии основаны на теории нечетких множеств. Такая регрессия достаточно широко применяется в финансах, деловом администрировании и других областях. Регрессионная модель с нечеткими данными может рассматриваться с различных точек зрения, переменные могут считаться нечеткими, или отношение между переменными может считаться нечетким.

По моделям нечеткой регрессии опубликовано много работ. При этом рассматриваются различные варианты моделей: с нечеткими регрессорами и с четкими коэффициентами регрессии, с четкими регрессорами и с нечеткими коэффициентами регрессии, с нечеткими регрессорами и с нечеткими коэффициентами регрессии.

В настоящей работе рассматривается задача повышения точности регрессионной модели, когда некоторые или все наблюдения - нечеткие, при этом коэффициенты модели остаются действительными числами. Предлагается новый способ оценивания свободного члена в регрессионной модели, при этом свободный член представляет собой нечеткое число. Этот способ основан на решении задачи вариационного исчисления. На примерах показано, что включение в модель нечеткого свободного члена позволяет повысить предсказательную силу регрессионной модели.

Ключевые слова: нечеткая линейная регрессия; оценивание параметров.

Вельдяксов Василий Николаевич - аспирант кафедры математической экономики и эконометрики НИУ ВШЭ. E-mail: [email protected]

Шведов Алексей Сергееевич - профессор кафедры математической экономики и эконометрики НИУ ВШЭ. E-mail: [email protected]

Статья поступила в Редакцию в апреле 2014 г.

1. Введение

Нечеткие числа, являющиеся обобщением действительных чисел, предложены в работе [Zadeh, 1965] и с тех пор нашли применение во многих областях. Включение в математическую модель нечетких чисел дает возможность другой передачи неопределенности, чем при вероятностном подходе, в котором используются случайные величины. Если цель использования случайных величин - включить в модель некоторое множество различных значений неизвестных показателей и вероятности этих значений, то цель использования нечетких чисел - передать расплывчатость, неопределенность самих значений. Эти два подхода к моделированию, вероятностный и нечеткий, успешно применяются, как независимо друг от друга, так и объединенно, в том числе и при построении регрессий.

Нечеткая регрессия - это направление, относительно недавно возникшее и интенсивно развивающееся. Хотя число публикаций по нечеткой регрессии и уступает числу публикаций по вероятностной регрессии, но все же очень велико, и исчерпывающий обзор работ по нечеткой регрессии не является задачей настоящей статьи. Так, в работе [Abdalla, Buckley, 2007] указывается, что по запросу «fuzzy linear regression» авторами получено 579000 ссылок. Мы укажем лишь на несколько публикаций по нечетким и нечетко-случайным регрессионным моделям.

Одной из первых работ, где изучается задача нечеткой регрессии, является работа [Tanaka, Uegima, Asai, 1982]. В этой работе рассматриваются нечеткие объясняемые переменные, четкие регрессоры и нечеткие коэффициенты регрессии. Для нахождения коэффициентов регрессии решается задача математического программирования. Дальнейшее развитие этого подхода представлено, например, в работе [Tanaka, Hayashi, Watada, 1989].

Метод наименьших квадратов при построении нечеткой регрессии используется в работе [Celmins, 1987]. Также этот метод, когда и объясняющие переменные, и объясняемые переменные нечеткие, а коэффициенты - четкие числа, изучается в работе [Diamond, 1988], причем в этой работе рассматриваются модели и с четким, и с нечетким свободными членами, но при некоторых упрощающих предположениях относительно вида нечетких чисел. Данный подход развивается в работе [Diamond, Körner, 1997]. Также метод наименьших квадратов при регрессии с нечеткими данными изучается в работе [Bargiela, Pedrycz, Nakashima, 2007]; отказ от использования функций принадлежности как основного способа определения нечетких чисел, принятый в этой работе, дает ощутимые преимущества (такой же подход применяется в работе [Шведов, 2013], где приводится новое определение нечетко-случайных величин). Однако в работе [Bargiela, Pedrycz, Nakashima, 2007] рассматриваются лишь модели с четким свободным членом. В работе [Kao, Chyu, 2002] авторы предлагают двухшаговую процедуру построения нечеткой регрессионной модели; на первом шаге все нечеткие наблюдения подвергаются процедуре дефазифи-кации, и регрессия оценивается обычным методом наименьших квадратов; на втором шаге происходит отдельная оценка параметра нечеткости исходя из требования минимизации расстояния между значениями наблюдаемой переменной и предсказанными значениями. В работе [Yang, Lin, 2002] исследуется модель с нечеткими наблюдаемыми переменными, нечеткими регрессорами и нечеткими параметрами модели и используется метод наименьших квадратов.

Нечетко-случайная регрессия рассматривается, например, в работах [González-Rodriguez, Blanco, Colubi, Lubiano, 2009; Nather, 2006].

Для изучения экономических задач нечеткая регрессия применяется, например, в работах [de Sánchez, Gómez, 2003; Lin, Zhuang, Huang, 2012].

Целью настоящей работы является совершенствование способов построения регрессионной модели, включающей нечеткие данные, для увеличения предсказательной силы модели. В разделе 2 содержатся некоторые предварительные сведения, относящиеся к нечетким числам и операциям над ними. В разделе 3 метод наименьших квадратов для регрессии с нечеткими данными из работы [Bargiela, Pedrycz, Nakashima, 2007] обобщается таким образом, чтобы допускать и нечеткие свободные члены. Это обобщение не является прямолинейным, оказывается необходимым использовать методы вариационного исчисления. Приводится и некоторый анализ, относящийся к случаю четких свободных членов. В разделе 4 для тестовых данных сравниваются подходы с нечетким свободным членом и с четким свободным членом. Точность регрессионной модели при использовании нечеткого свободного члена оказывается выше. В разделе 5 приводятся выводы.

2. Нечеткие числа и операции над ними

Существуют различные подходы к определению нечетких чисел и к операциям над такими числами. В настоящей статье используется определение нечеткого числа то же,

что и в работе [Шведов, 2013]. Компактное подмножество K ç R2 (координаты в пространстве R2 будем обозначать п)) называется нечетким числом, если выполнены следующие условия: при t g [0,1] пересечение множества K с прямой п = t пусто; при t е [0,1] пересечение множества K с прямой п = t имеет вид

КП): ki (t)<^<к2 (t),п = t},

где к1 - монотонно неубывающая непрерывная слева функция аргумента t; к2 - монотонно невозрастающая непрерывная слева функция аргумента t. Функции к1 и к2 будем называть левым и правым индексом нечеткого числа соответственно (см. рис. 1). Если к1 (t) = к2 (t) при любом tе [0,1], то нечеткое число вырождается в обычное действительное число.

Нечеткое число называется трапецеидальным, если функции к1 и к2 линейные, и к1 (1)< к2 (i). Нечеткое число называется треугольным, если функции к1 и к2 линейные, и к1 (1) = к2 (1). Обычно треугольное нечеткое число задают в виде упорядоченной тройки ( (0),к (1),к2 (0)).

п

0,2

0,8

0,6

0,4

£

4

Рис. 1. Нечеткое число К, левый индекс к1 и правый индекс к,

'2

Пусть А и В - нечеткие числа, Х - действительное число; а1 и а2 соответственно левый и правый индексы нечеткого числа А; Ь1 и Ь2 соответственно левый и правый индексы нечеткого числа В. Суммой нечетких чисел А и В называется нечеткое число А + В, обладающее тем свойством, что для любого t е [0,1] пересечение множества А + В с прямой n = t имеет вид

Произведением действительного числа Х> 0 и нечеткого числа А называется не-

Произведением действительного числа Х< 0 и нечеткого числа А называется не-

{(£, п): а () + Ъ (а2 ^) + ¿2 ^), П =

четкое число ХА, обладающее тем свойством, что для любого жества ХА с прямой п= t имеет вид

пересечение мно-

{&п): Ха1 (t)<^<Ха2(t),п = ^.

четкое число ХА, обладающее тем свойством, что для любого жества ХА с прямой п= t имеет вид

пересечение мно-

{(£,п): Ха2 (t)<^<Ха1 (t),п = ^.

между нечеткими числами А и В примем

й (А, В )= Д ( ()-ъ ^ ))2 й + | (а2 (t)-Ъ2 ^ ))2 й.

\ 0 0

Такое же определение расстояния используется в работе [Bargiela, Pedrycz, Nakashi-ma, 2007]. Другие подходы к определению расстояния между нечеткими числами приведены, например, в исследованиях [Шведов, 2013; Tran, Duckstein, 2002].

3. Построение регрессий для нечетких данных

Допустим, что наблюдения Yi, X,, i = 1...n - это наборы нечетких чисел, заданных индексами yi1 (t),yi2 (t) и xi1 (t),x{2 (t) соответственно, 0 < t < 1. Будем исследовать регрессионную модель следующего вида:

Y = aXl + B.

Требуется найти действительное число a и нечеткое число B, которые доставляют минимум функционалу H:

H (a, B ) = £d2 (, aXl + B).

i =1

В силу определения расстояния й между нечеткими числами, при а > 0 функционал Н можно записать в следующем виде:

" 2 hp ^B) = Zj( (t)-axii (t)-bi (t)) dt +

(1) i "0 П 1 2 + Zi(y2 (t)- ax,2 (t)- b2 (t)) dt.

i=1 0

При a < 0 функционал H выглядит следующим образом:

n 1

Hn ^B) = (t) -axt2 (t) -b1 (t))2 dt +

(2) i

n 1 2 + Zf(y2(t)-aXi1 (t)-b2(t)) dt.

i =1 0

Далее необходимо решить отдельно две задачи для а > 0 и для а < 0, получить два набора параметров (ар,Вр) и (ап,Вп), сравнить Нр (ар,Вр) и Нп (ап,Вп) и затем выбрать такой итоговый набор параметров, при которых значение функционала наименьшее. Будем считать, что а > 0. Первый этап: выбор функции Ь1 () при фиксированном а

для минимизации первой суммы и выбор функции Ь2 () при фиксированном а для мини-

мизации второй суммы. Это задача вариационного исчисления (см., например: [Эльсгольц, 2006]). При заданных г0 и г1 в классе гладких на [0,1] функций г, удовлетворяющих условиям г(0) = z0,г(1) = г1, требуется найти функцию г(), доставляющую минимум функционалу:

1

\Ь ( г ^), г' ^))).

0

Если функция г() является локальным минимумом, то при условии гладкости функции Ь должно выполняться условие Эйлера

Ь - -Ь,= 0.

Если функция Ь не зависит от г', то уравнение Эйлера принимает вид

Ьг = 0.

Однако, как отмечается в работе [Эльсгольц, 2006], в этом случае г0 и г1 уже не могут быть произвольными. Введем следующие обозначения:

= ¿1 (0, £ (0 = >>1 ахп (0, I = 1,...,п.

Функции () на первом этапе считаются известными, у11 () и хг1 () - известные данные, параметр а фиксирован. Тогда требуется найти функцию г(), доставляющую минимум функционалу:

п

X( ^)-г(t)))

I=1 0

п 2

Таким образом, Ь(t,г(t),г'()) = X(((t) — г(t)) . Очевидно, что Ьг = 0. Уравне-

I=1

ние Ьг = 0 принимает вид

1 п

(3) г()= I Ы ().

п Т^

При выборе

1 п 1 п

г =1 Х£ (0), г = -1 Х£ (1)

функция г() удовлетворяет необходимому условию локального минимума. Получаем,

что

(4)

1 n i n

b (t) = -Z(( (t) -axA (t)) b2 (t) = -Z((2 ) -aXj2 (t))•

n i =1 n i =1

Второй этап: выбор числа а для минимизации (1) при условиях (4). Введем обозначения:

1 п 1 п

ип (') = *п ()- -Xх]1 () (') = Ун ()- -Е)

n

i=1 1 n

n

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

i=1 1n

2

(t) = X2 (t) "ZX;2 (t) V2 (t) = y2 (t) ---ZУ;2 (t)•

n i =1

i=1

С учетом введенных обозначений и формул (4) функционал (1) принимает вид

n 1 2 n 1 2

F (a ) = ZjH (t)-a^ (t)) dt + ZjK (t)-a^ (t)) dt.

i=1 0

После введения обозначений

n1

=1 0

I = Zb (tК (t)dt, 12 = ZjV2 (t)u2 (t)dt,

i=1 0 i=1 0 n 1 n 1

K1 = Z Ь21 (t)dt' k2 = Z f"i22 (t)dt'

i =1 0 i =1 0

n1

L = Zí( (t) + v2 (t ))dt

1 =1 0

получаем, что функционал Е (а) может быть записан в следующем виде:

Е (а ) = а2 (К1 + К2)-2а (I +12) + Ь. И из необходимого условия минимума йЕ (а)/йа = 0 следует, что

11 +12

a = -

K + K2

Окончательно получаем

(5) a = max

0 Л +12 ^

K,+K

2 У

Анализ для случая а < 0 можно провести аналогично, но в этом нет необходимости. Достаточно заметить, что во всех формулах должны только поменяться местами хг1 () и xI2 () и соответственно и11 () и щ2 (t). Таким образом, вместо формул (4) получаем формулы

1 п 1 п

(6) ЪД0 = - X (() - ах} 2(t)), ¿2(0 = - X (() - ах^))

п}=1

п}=1

вместо формулы (5) получаем формулу (7) а = тт

г0,Л+Л Л

V К1 + К2 ]

где

п 1 п 1

31 = X Ь'1 (t)и12 ()dt, ^2 = X Ь2 (tК ^

1=1 0 1=1 0

Таким образом, по формулам (4), (5) определяются ар и Вр, и по формуле (1) расчитывается Нр (ар, Вр). По формулам (6) и (7) определяются ап и Вп, и по формуле (2) расчитывается Нп (ап, Вп). Окончательно получаем, что если Нр (ар, Вр) < Нп (ап, Вп), то (а, В ) = (ар, Вр), а если Нр (, Вр )> Нп (, Вп), то (а, В ) = (ап, Вп).

Заметим, что после проведения расчетов Ъ1 () и Ъ2 (t) не всегда задают нечеткое

число (т.е. не всегда удовлетворяют определению индексов нечеткого числа). Рассмотрим пример, где в выборке имеется два наблюдаемых значения и два регрессора, все они являются нечеткими числами треугольного типа. Вид индексов этих нечетких чисел представлен на рис. 2. После проведения расчетов в модели У1 = аХ1 + В получим а = 2. График полученных по формулам (4) функций Ъ1 () = 2 -1 и Ъ2 () = t представлен на рис 3. Монотонность функций Ъ1 и Ъ2 противоположна требуемой.

Следовательно, необходима корректировка функций Ъ1 и Ъ2 . Возможный алгоритм корректировки включает два шага.

Ъ1 (1) + Ъ2 (1) , , Шаг 1. Если Ъ1 (1) > Ъ2 (1), положить--- и как новое значение для Ъ1 (1), и

как новое значение для Ъ2 (1).

Шаг 2. При отсутствии требуемой монотонности функции Ъ1 () или функции Ъ2 ()

заменить эту функцию на константу.

Данный подход в дальнейшем будем называть МНК с нечетким свободным членом (МНК - метод наименьших квадратов).

Для удобства численного сравнения приведем также описание известного подхода, который будем называть МНК с четким свободным членом. Однако наше обоснование данного метода является, по-видимому, более полным, чем имеющиеся обоснования. Несколько «кустарный» подход к определению точки минимума функционала, применяемый в настоящей работе, является полностью строгим. Когда же точка минимума определяется из необходимого условия, состоящего в равенстве нулю двух первых частных производных, это оставляет вопросы, поскольку случаи а > 0 и а < 0 рассматриваются отдельно, и примерно в половине расчетов точка минимума попадает на границу а = 0.

1,2 1,2 п п

Рис. 2. Пример нечетких регрессоров Х1,Х2 и нечетких наблюдаемых переменных У1,У2 при п = 2

1,2

I

1

0,8 0,6 0,4 0,2

Рис. 3. Пример, когда построенные функции Ь1 (г) и Ь2 (г) не являются индексами нечеткого числа

Когда и вместо функции Ъ1 (), и вместо функции Ъ2 () в функционалах (1) и (2) стоит одно и то же число Ъ,

Нр (а, Ъ ) = а2 (К + К2) + 2аЪ (Д + Ь2) + 2пЪ2 - 2а ( +12)-2Ъ (М1 + М 2) + N при а > 0,

Нп (а, Ъ) = а2 (К + К2) + 2аЪ (Ц+ Ь2) + 2пЪ2 - 2а (• + J2)-2Ъ (М1 + М 2) + N при а < 0. Здесь

п 1 п 1

А = X ( )Хц (t 12 = X Ь 2 ( ) X 2 (t )й,

1=1 0 1=1 0

п 1 п 1

• = X I>1 ()Х12 (tj2 = X 2 ()Х.-1 (t)Л,

1=1 0 .=1 0

п 1 п 1

К1 = X /х.21 (t )й, К2 = X |х.22 ^ ,

=1 0 =1 0

п 1 п 1

Ь1 = X (t )dt, ь2 = X Iх. 2 ( )dt,

=1 0 =1 0

п 1 п 1

М1 = X \Уг1 (Н М2 = X \>г2 (Н

=1 0 =1 0 п1

N = X 2 (t) + >.22 (t)). =1 0

Заметим, что Нр (а,Ъ) при фиксированном а как функция аргумента Ъ явля-

многочленом второй степ мум Н (а,Ъ) достигается при

ется многочленом второй степени с положительным коэффициентом при Ъ2. Мини-

(8) Ъ = 2- (М1 + М2)-~а (Ь1 + Ь2).

Нр как функция аргумента а (после подстановки полученного по формуле (8) выражения для Ъ ) является многочленом второй степени с коэффициентом при а2

(К1 + К 2 (( + Ь2 )2.

2п

Применяя дважды неравенство Коши - Буняковского, сначала для интегралов, а затем для суммы, получаем

Iь + Ь21<Е£ IХц(г)\йг + X1Х2(г)|йг<

1=1 1=1 п / 1 \ 1/2 п / 1 \ 1/2

< Е (((г )йг) + Е (((г й) <л/К"+К2-л/^,

¡0

1=1 * ' 1=1

причем последнее неравенство является строгим, если не все интегралы, входящие в К1 и К2, равны между собой, что мы и будем предполагать. Тогда коэффициент при

2

а положителен, и минимум многочлена второй степени достигается при

а = 2п (11 + 12 )-(А+ ¿2 )(М + М2 ) а 2п ((1 + К2 )- (¿1+ ¿2 )2 .

Окончательно для случая а > 0 получаем

2п (/1 +12 )-(А+ ¿2 )(М + М 2)

г

(9) а = тах

0,

2п (( + К 2)-(Ь+ Ь2)2 Аналогично для случая а < 0 имеем

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2п(( + 32 )-(А+ ¿2 )(М + М2)

(10) а = тт

V

0" 2п((1 + К2)-(А+ ¿2)2

Таким образом, по формулам (8) и (9) определяются ар и Ьр, затем расчитывается Нр (ар,Ьр). По формулам (8) и (10) определяются ап и Ьп, затем расчитывается Нп (ап,Ьп). Окончательно получаем, что если Нр (ар,Ьр )< Нп (ап,Ьп), то

(а Ь ) = (ар, Ьр ) а если Нр (ар, Ьр )> Нп (ап, Ьп) то (а, Ь) = (ап, Ьп). Если все нечеткие

числа вырождаются в четкие, построенная модель совпадает с обычной моделью, построенной методом наименьших квадратов (см., например: [Магнус, Катышев, Пересецкий, 2004]).

Вместо регрессионной модели Уг = аХг + В по описанной схеме можно исследовать и регрессионную модель

^ = а Х1 +... + акХгк + B,

где а1,...,ак - действительные числа. Однако при больших к, как отмечается в работе [Ва^е1а, Pedrycz, Nаkаshimа, 2007], возникают проблемы вычислительного характера из-за

необходимости рассматривать 2k возможных комбинаций положительных и отрицательных значений для коэффициентов a1,..., ak.

4. Численные результаты

В примерах 1 и 2 будем оценивать регрессионные модели Y, = aX i + b и Y = aX i + B, где a e R, b e R, B является нечетким числом. В случае, когда регрессор -нечеткое число, прогнозное значение тоже будет нечетким числом. Пусть Yi - прогнозное значение наблюдаемой переменной Yi, расчитаное после оценивания регрессионной модели. Обозначим индексы нечеткого числа Y через yi1 и y, 2. При a > 0

Уп (t )= axi1 (t ) + b1 (t ) У, 2 (t )= axi 2 (t ) + Ь2 (t ).

При a < 0

У,1 (t ) = aXi 2 (t ) + b1 (t ), у, 2 (t ) = aXi1 (t ) + b2 (t ).

Если рассматривается модель с четким свободным членом, то в последних формулах вместо функций b1 (t ) и b2 (t ) стоит действительное число b.

Определим ошибку прогноза для конкретного наблюдения Err(( ,Yi ) как расстояние между нечеткими числами Yi и Y :

Err (( ,Y ) = ((t ) - yn(t ))2 dt + ( 2{t ) - y 2(t ))2 dt ,i = 1,..., n.

Пусть п - общее число наблюдений. В качестве оценки качества подгонки регрессионной модели примем следующий показатель:

Error =

1 n

1 ZErr2 (Y Jt ).

Пример 1. Имеется набор данных [Тапака, Uegima, Asai, 1982] с четкими регрессора-ми и нечеткой наблюдаемой переменной. Наблюдаемые переменные являются нечеткими числами треугольного типа.

Y

X,.

(6,2; 8,0; 9,8) (4,2; 6,4; 8,6) (6,9; 9,5; 12,1) (10,9; 13,5; 16,1) (10,6; 13,0; 15,4)

(1,0; 1,0; 1,0) (2,0; 2,0; 2,0) (3,0; 3,0; 3,0) (4,0; 4,0; 4,0) (5,0; 5,0; 5,0)

Ниже в таблице даны рассчитанные коэффициенты регрессии для моделей с использованием МНК с четким свободным членом и МНК с нечетким свободным членом. Также в таблице приведены значения функции Error для каждой из моделей.

Модель Параметр a Свободный член (Ь - для первой строки, В - для второй строки) Error

МНК с четким свобод-

ным членом 1,710 4,950 2,706

МНК с нечетким сво-

бодным членом 1,710 (2,630; 4,950; 7,270) 1,932

Пример 2. Имеется набор данных [Као, &уи, 2003], где и регрессор, и наблюдаемая переменная являются нечеткими числами треугольного типа.

Yi

X,.

(3,5; 4,0; 4,5) (5,0; 5,5; 6,0) (6,5; 7,5; 8,5) (6,0; 6,5; 7,0) (8,0; 8,5; 9,0) (7,0; 8,0; 9,0) (10,0; 10,5; 11,0) (9,0; 9,5; 10,0)

(1,5; 2,0; 2,5) (3,0; 3,5; 4,0) (4,5; 5,5; 6,5) (6,5; 7,0; 7,5) (8,0; 8,5; 9,0) (9,5; 10,5; 11,5) (10,5; 11,0; 11,5) (12,0; 12,5; 13,0)

Ниже в таблице даны рассчитанные коэффициенты регрессии для моделей с использованием МНК с четким свободным членом и МНК с нечетким свободным членом. Также в таблице приведены значения функции Error для каждой из моделей.

Модель Параметр a Свободный член ( Ь - для первой строки, В - для второй строки) Error

МНК с четким свобод-

ным членом 0,525 3,530 1,163

МНК с нечетким сво-

бодным членом 0,520 (3,268; 3,568; 3,868) 1,137

В обоих примерах точность модели с нечетким свободным членом оказывается

выше.

5. Выводы

В работе рассмотрен подход, основанный на методах вариационного исчисления, когда и наблюдаемая переменная, и регрессор, и свободный член могут представлять собой нечеткие числа. Коэффициенты регрессии при этом остаются четкими числами. Показано, что на рассмотренных примерах предложенный метод наименьших квадратов с нечетким свободным членом дает выигрыш с точки зрения качества подгонки модели

по сравнению с методом наименьших квадратов с четким свободным членом.

* *

*

СПИСОК ЛИТЕРА ТУРЫ

МагнусЯ.Р., Катышев П.К., Пересецкий A.A. Эконометрика. Начальный курс. М.: ДЕЛО, 2004. Шведов A.C. О нечетко-случайных величинах: препринт WP2/2013/02. М.: НИУ ВШЭ, 2013. Эльсгольц Л.Э. Вариационное исчисление. М.: URSS, 2006.

Abdalla A., Buckley J.J. Monte Carlo Methods in Fuzzy Linear Regression // Soft Computing. 2007. 11. Р. 991-996.

Bargiela A., Pedrycz W., Nakashima T. Multiple Regression with Fuzzy Data // Fuzzy Sets and Systems. 2007. 158. Р. 2169-2188.

Celmins A. Least Squares Model Fitting to Fuzzy Vector Data // Fuzzy Sets and Systems. 1987. 22. Р. 245-269.

De Sánchez A.J., Gómez A.T. Applications of Fuzzy Regression in Actuarial Analysis // Journal of Risk and Insurance. 2003. 70. Р. 665-699.

Diamond P. Fuzzy Least Squares // Information Sciences. 1988. 46. Р. 141-157. Diamond P., Körner R. Extended Fuzzy Linear Models and Least Squares Estimates // Computers Math. Applic. 1997. 33(9). Р. 15-32.

González-Rodríguez G., Blanco A., Colubi A., Lubiano M.A. Estimation of a Simple Linear Regression Model for Fuzzy Random Variables // Fuzzy Sets and Systems. 2009. 160. Р. 357-370.

Kao C., Chyu C. A Fuzzy Linear Regression Model with Better Explanatory Power // Fuzzy Sets and Systems. 2002. 126. Р. 401-409.

Kao C., Chyu C. Least-squares Estimates in Fuzzy Regression Analysis // European Journal of Operational Research. 2003. 148. Р. 426-435.

Lin J.-G., Zhuang Q.-Y., Huang C. Fuzzy Statistical Analysis of Multiple Regression with Crisp and Fuzzy Covariates and Applications in Analyzing Economic Data of China // Computational Economics. 2012. 39. P. 29-49.

Nather W. Regression with Fuzzy Random Data // Computational Statistics and Data Analysis. 2006. 51. P. 235-252.

Tanaka H., Uegima S., Asai K. Linear Regression Analysis with Fuzzy Model // IEEE Trans. on Systems, Man and Cybernetics. 1982. 12. P. 903-907.

Tanaka H., Hayashi I., Watada J. Possibilistic Linear Regression Analysis with Fuzzy Model // European Journal of Operational Research. 1989. 40. P. 389-396.

Tran L., Duckstein L. Comparison of Fuzzy Numbers Using a Fuzzy Distance Measure // Fuzzy Sets and Systems. 2002. 130. P. 331-341.

Yang M., Lin T. Fuzzy Least-squares Linear Regression Analysis for Fuzzy Input-output Data // Fuzzy Sets and Systems. 2002. 126. P. 389-399.

Zadeh L.A. Fuzzy Sets // Information and Control. 1965. 8. P. 338-353.

On Fuzzy Least-squares Regression Analysis

Veldyaksov Vasily1, Shvedov Alexey2

1 National Research University Higher School of Economics, 20, Myasnitskaya ul., Moscow, 101990, Russian Federation.

E-mail: [email protected]

2 National Research University Higher School of Economics, 20, Myasnitskaya ul., Moscow, 101990, Russian Federation.

E-mail: [email protected]

The data used in regression analysis may be inexact or uncertain. Uncertainty of data comes from randomness and from fuzziness. Statistical regression has many applications. But problems can occur, for instance, if the data set is too small, or there is difficulty verifying distribution assumptions. The standard econometric estimation is used when both the independent and dependent variables are given as real numbers. However, in many real-life situations only fuzzy data is available. The statistical techniques can be extended to include ambiguity of events.

Fuzzy linear regression is a modelling techniques based on fuzzy set theory. It is applied to different areas such as finance, business administration and so on. The regression model with fuzzy data has been treated from diffferent points of view. Models where the variables are fuzzy or models where the relation of the variables is fuzzy may be considered.

Significant amount of research has been conducted on fuzzy regression models. One can consider models with fuzzy observations and crisp parameters, crisp observations and fuzzy parameters, fuzzy observations and fuzzy parameters,

In this paper, we apply calculus of variations methods in fuzzy regression analysis. The fuzzy regression model is considered to be fuzzy outputs, fuzzy inputs and crisp parameters. In order to include fuzzy constant term into regression model, we solve the calculus of variations problem. The results show that the regression model with fuzzy constant term has better performance than the regression model with crisp constant term.

Key words: fuzzy linear regression; least-squares estimates.

JEL Classification: C14, C32.

* * *

References

Magnus Ja.R., Katyshev P.K., Pereseckij A.A. (2004) Jekonometrika. Nachal'nyj kurs. [Econometrics. Basic Course]. Moscow: DELO.

Shvedov A.S. (2013) O nechetko-sluchajnyh velichinah [On a Vaguely-random Variables]. Working Paper WP2/2013/02, Moscow: HSE.

Jel'sgol'c L.Je. (2006) Variacionnoe ischislenie [Calculus of Variations].Moscow: URSS.

Abdalla A., Buckley J.J. (2007) Monte Carlo Methods in Fuzzy Linear Regression. Soft Computing, 11, pp. 991-996.

Bargiela A., Pedrycz W., Nakashima T. (2007) Multiple Regression with Fuzzy Data. Fuzzy Sets and Systems, 158, pp. 2169-2188.

Celmins A. (1987) Least Squares Model Fitting to Fuzzy Vector Data. Fuzzy Sets and Systems, 22, pp. 245-269.

De Sánchez A.J., Gómez A.T. (2003) Applications of Fuzzy Regression in Actuarial Analysis. Journal of Risk and Insurance, 70, pp. 665-699.

Diamond P. (1988) Fuzzy Least Squares. Information Sciences, 46, pp. 141-157.

Diamond P., Korner R. (1997) Extended Fuzzy Linear Models and Least Squares Estimates. Computers Math. Applic, 33(9), pp. 15-32.

González-Rodr'iguez G., Blanco A., Colubi A., Lubiano M.A. (2009) Estimation of a Simple Linear Regression Model for Fuzzy Random Variables. Fuzzy Sets and Systems, 160, pp. 357-370.

Kao C., Chyu C. (2002) A Fuzzy Linear Regression Model with Better Explanatory Power. Fuzzy Sets and Systems, 126, pp. 401-409.

Kao C., Chyu C. (2003) Least-squares Estimates in Fuzzy Regression Analysis. European Journal of Operational Research, 148, pp. 426-435.

Lin J.-G., Zhuang Q.-Y., Huang C. (2012) Fuzzy Statistical Analysis of Multiple Regression with Crisp and Fuzzy Covariates and Applications in Analyzing Economic Data of China. Computational Economics, 39, pp. 29-49.

Nather W. (2006) Regression with Fuzzy Random Data. Computational Statistics and Data Analysis, 51, pp. 235-252.

Tanaka H., Uegima S., Asai K. (1982) Linear Regression Analysis with Fuzzy Model. IEEE Trans. on Systems, Man and Cybernetics, 12, pp. 903-907.

Tanaka H., Hayashi I., Watada J. (1989) Possibilistic Linear Regression Analysis with Fuzzy Model. European Journal of Operational Research, 40, pp. 389-396.

Tran L., Duckstein L. (2002) Comparison of Fuzzy Numbers Using a Fuzzy Distance Measure. Fuzzy Sets and Systems, 130, pp. 331-341.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Yang M., Lin T. (2002) Fuzzy Least-squares Linear Regression Analysis for Fuzzy Input-output Data. Fuzzy Sets and Systems, 126, pp. 389-399.

Zadeh L.A. (1965) Fuzzy Sets. Information and Control, 8, pp. 338-353.

i Надоели баннеры? Вы всегда можете отключить рекламу.