УДК 519.85
О.В. СЕРАЯ, Т.И. КАТКОВА
ОЦЕНИВАНИЕ ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕССИИ ПО НЕЧЕТКИМ ИСХОДНЫМ ДАННЫМ
Анотація. Розглянуто технологію оцінювання параметрів рівняння регресії для випадку, коли вихідні дані - нечіткі числа з відомими функціями приналежності. Запропоновано метод розрахунку чітких значень шуканих оцінок, заснований на відшуканні чіткого рішення нечіткої системи лінійних алгебраїчних рівнянь.
Ключові слова: рівняння регресії, оцінювання параметрів, поліном, нечіткі числа, функція приналежності, система лінійних алгебраїчних рівнянь, критерій, оптимізація.
Аннотация. Рассмотрена технология оценивания параметров уравнения регрессии для случая, когда исходные данные - нечеткие числа с известными функциями принадлежности. Предложен метод расчета четких значений искомых оценок, основанный на отыскании четкого решения нечеткой системы линейных алгебраических уравнений.
Ключевые слова: уравнение регрессии, оценивание параметров, полином, нечеткие числа, функция принадлежности,система линейных алгебраических уравнений, критерий, оптимизация.
Abstract. A technology of the regress equation parameters estimation where initial data represents indistinct numbers with known accessory functions is considered. A method of calculation of accurate values of the required estimates, based on the search of accurate solution for indistinct system of linear algebraic equations, is offered.
Key words: the regress equation, estimation of parametres, polynom, indistinct numbers, accessory function, system of the linear algebraic equations, criterion, optimisation.
1. Введение
Разнообразные технологии описания поведения технических, экономических, социальных и других систем, а также проблемы оценки их эффективности сводятся к однотипной математической задаче: найти аналитическое соотношение, связывающее численные значения наборов факторов, определяющих условия и режим функционирования системы, со значением некоторым образом выбранного результирующего показателя этой системы. По многим причинам такое соотношение, обычно называемое функцией отклика, удобно выбрать в форме так называемого полинома Колмогорова-Габора [1]:
y(X) = a 0 + al X1 + a 2 X2 + к + anXn + al2 X1 X2 + к + an-1,nXn-1 Xn , (1)
где Xj - значение j -го фактора, j = 1,2,...,n; y - результирующий показатель.
Здесь максимальная учитываемая степень взаимодействия факторов равна двум. Если для оценивания параметров полинома (1) используются результаты N экспериментов, то наилучший в смысле наименьших квадратов вектор
T =(a0 al a2 к an al2 an —1, n ) определяется по формуле
Г l X11 X12 к Xln X11X12 - X1,n-1 X1n ^ f y ^
A = (HTH)-1 HTY, H = 1 X21 X22 к X2n X21 X22 - X2,n-1 X2n , Y = у 2 . (2)
V1 V XN1 XN 2 ••• XNn XN1 XN 2 ••• XN ,n—1 XNn J V yN J
© Серая О.В., Каткова Т.И., 2011
ISSN 1028-9763. Математичні машини і системи, 2011, № 1
Здесь xtj - значение j -го фактора в i -м эксперименте;
у - значение результирующего показателя в i -м эксперименте.
Этот стандартный подход усложняется, если значения результирующего показателя в каждом опыте оцениваются нечетко [2]. При этом, естественно, и оценки параметров уравнения регрессии будут нечеткими числами. Пусть заданы функции принадлежности m (yi), i = 1,2,..., N результатов измерений.
Введем матрицу R = (rpi )=(нтИ)1 HT , dimR = KxN, K = 1 + n + n(n -1)/2. Тогда, в соответствии с (2),
( N \
A = RY = [£rply, , p = 1,2,...,K.
V i=1 )
Теперь, используя правила выполнения операций над нечеткими числами [3,4], легко получить функции принадлежности компонентов вектора A . Пусть, например,
m(У ) = expj-(У2 J' ^, i = 1,2,...,N.
Тогда
/ \ Г (a - a )] nn
mp (ap )=ехрГ—25-^ [, p = 1,2,-,K, ap = £ rPiy, dp = Z°2rP2.
p
i =1
Г ораздо более сложной становится задача, если не только результаты, но и условия проведения экспериментов, то есть значения факторов в каждом опыте, также нечеткие числа. Поставим задачу оценивания параметров уравнения регрессии (1) в этом случае более полной неопределенности.
2. Постановка задачи
Введем функции принадлежности Цц (ху) значений факторов в каждом из опытов: і = 1,2,...,Ы, ] = 1,2,...,п . При этом будем считать, что уровень неопределенности значений для каждого из факторов определяется характером этого фактора и механизмом оценивания его значений. Поэтому функции принадлежности нечетких значений одного и того же фактора в разных экспериментах отличаются только модами. Это же допущение примем и в отношении функций принадлежности значений результирующего показателя. С учетом (1) результатам N проведенных экспериментов соответствуют соотношения
а0 + а1 Х11 + а2 Х12 + к + апХы + а12 Хп х12 + к + ап-1,пХ1,п-1Х1,п = У^
............................................................ (3)
а0 + а1 Хт + а2%2 + к + апХш + а12Хт %2 + к + an-1,nХN,n-1 ^,п = УN .
В этих соотношениях слева и справа находятся нечеткие числа и их равенство понимается в смысле равенства их функций принадлежности. Таким образом, задача оценивания параметров уравнения регрессии в случае, когда значения факторов и результаты экспериментов определены нечетко, сведена к отысканию наилучшего, в каком-либо естественном смысле, решения системы уравнений (3) с нечеткими параметрами. Рассмотрим возможный метод решения этой задачи.
3. Основные результаты
Пусть нечеткие значения хг]. и у^ системы (3) имеют соответствующие функции принад-
лежности:
И,- (х, ) = ехр] - (х 2Х;)~1, і =1,2,..., N, І =1,2,..., п, т (У,) = ехр|- (Уі Уі) ^
2о2
Введем нечеткие числа
2о2.
г,. = а0 + а, хл + а2 х. 2 + к + ах. + а12 х, хг.2 + к + ап , х. , х, п - у
г 0 1 г! 2 г 2 пт 12 г! г2 п—1,п г,п—1 г,п ./ г
и запишем их функции принадлежности:
(4)
(5)
Ґ
\
тк, )=т ао+X а]Хі] + X X ал;-2ХУ1Х2- у,
Л = І2 > Л У
V і=
п-1
= ехр^ -
к - ^)21 Ю(г,) І’
п-1
ь = ао + X аіхі+X X
І = І1 = І2 >І1
а,, хі хІ
]\Зі ІІ1 У 2
■у,. ^ )=X аУ2+XX і «+о;
І =1 І1 =1 І2 > І1
і = 1,2,..., N.
Теперь решим четкую систему линейных алгебраических уравнений, порождаемую системой (3) в случае, если нечеткие числа хц заменить их модальными значениями. Так
как в традиционной постановке задачи оценивания параметров уравнения регрессии число экспериментов превышает число оцениваемых параметров, то получаемая система переопределена. Решение таких систем отыскивается методом наименьших квадратов. При этом вектор А параметров уравнения регрессии определяется соотношением
А =(НТН )-1 ИТУ ,
(6)
где матрица Н по структуре совпадает с матрицей Н, в которой нечеткие числа хг]. заменены их модальными значениями хц, а Ут = (у у2 ... уы).
Рассмотрим общий подход к выбору четкого решения исходной нечеткой задачи. К этому решению естественно предъявить следующие требования. Во-первых, оно не должно слишком сильно отличаться от модального решения А , получаемого при замене нечетких параметров задачи их модальными значениями. Во-вторых, функции принадлежности нечетких чисел , вычисляемые при подстановке искомого решения в (5), должны быть как можно менее размытыми. При этом возможный вариант построения критериальной функции приводит к минимизации:
N
ф,( А)=1Н->,!+(а—А Да—А).
При этом, с учетом (6),
І =1 -¥
¥ ¥ Г / - 42 ^
I т(^1 К- = | ехР1 - 2^ ) р =л/2р£(г,).
N Ґ п п-1 Л . _. . _.
ф (А)^л/2р]Т X а 0] + X X І'!0!02! + 0 +[(А - А У(А - А )]
І= V І=1 І1 = І 2 > І1 У
(7)
.5
Смысл этого критерия понятен. Первая группа слагаемых характеризует уровень компактности функций принадлежности нечетких чисел г1,22,...,2Ы, соответствующих
решению, а последнее - степень близости получаемого решения к модальному.
Второй вариант построения критерия реализует чебышевское, минимаксное приближение в искомом «идеальном»решении. При этом
Ф2(A) = 4рpтах Xа;2+ Е ЕІ°Л+°2 I + [(а-АГ(а_А)■
V }=1 І1= І2 > І1 )
(8)
Аналитическое выражение критериев (7) и (8) можно несколько упростить, введя одноиндексную нумерацию слагаемых в соотношении (1). С этой целью предварительно перепишем его следующим образом:
У(Х) = а00 Х0 Х0 + а01 Х0 Х1 + ао2 Х0 х2 + к + а0пХ0 Хп + а12 Х1Х2 + к + а„_1,„Хп_1Х„
02 п _1 п
:ЕЕ аі н Хя і Х0 °1.
І1=0І 2=0
(9)
Введем теперь индекс р = 0,1,2,...,^, определяющий номер слагаемого в (9), через значения и у2 следующим образом:
Р =
0, І = 0, І2 = 0
І*2 , І = 0 І2 = ^.^ П
І1 _1
Е (П _ 5)+(І1 _ І2 ), І1 = 1,2,..., П _ 1 І2 = І1 + 1, І1 + П.
5=0
Кроме того, зададим наборы
(10)
Х0 Х0, І = 0, І2 = 0 Х0ХІ2, І = 0 І2 = 1,2, . . ., П
ХЛ ХІ2, І1 = 1,2,..., П _ 1, І2 = І + 1, І1 + n,
0, І1 = 0 І2 = 0,
°Р , І1 = 0, І2 = 1,2,. . ., n,
Ор , І = 1,2, . . ., п _ 1 І2 = І + 1, І + п.
(11)
Теперь, с учетом (10), (11), запишем выражения для уравнения регрессии (9) и критериев (7) и (8):
арир
Р=0
х 0.5 /
А ( к
Ф1 (а) = л/2яЕ Еа2рЬр +ъ2у + Е(ар _ар)2
а „ . „
р р У
і=1 V р=0 )
Л
0.5
V р=
к
Ф2 ^ = 72^ тах Е арЪр +О
0.5
р р У
V р=0 )
+
Е (ар _ ар):
V р=0
)
V5
I
)
(12)
(13)
0.5
0.5
Ъ
р
Искомый вектор А в обоих случаях отыскивается с использованием любого прямого метода численной минимизации (12) или (13).
Таким образом, предложенный метод сводит исходную задачу оценивания параметров уравнения регрессии в условиях нечетких исходных данных к обычной четкой задаче математического программирования. При этом понятно, что результат решения данной задачи - четкий набор параметров уравнения регрессии зависит от того, как выбран критерий качества четкого решения. Неоднозначность выбора делает целесообразным рассмотрение иного подхода к этой задаче, позволяющего получить ортодоксальное нечеткое ее решение. С формальных позиций, технология решения состоит в следующем. Сначала искомые значения параметров уравнения регрессии (1) необходимо выразить через значения функции отклика у, и факторов X^ в соответствующих экспериментах, то есть получить соотношения
ар = Л ((у,- ), (ХУ ^ * = ^..^N, J = ^.^п, Р = ^..^к . (14)
Далее с использованием правил выполнения операций над нечеткими числами для заданных функций принадлежности т, (у,), М, X) нечетких чисел (У, \ (ху) непосредственно отыскиваются функции принадлежности параметров ар. К сожалению, реализация
этой технологии ввиду нелинейности (14) для задач практической размерности затруднена. Приближенное решение задачи может быть получено следующим образом.
Используем рассчитываемый в соответствии с (6) модальный набор А параметров уравнения регрессии. Построим теперь многошаговую процедуру, на каждом шаге которой будем считать, что только одна какая-либо из компонентов задачи является нечеткой. Значения остальных компонентов положим равными модальным. Для ясности изложения вернемся к двухиндексной нумерации переменных. Пусть нечетким является конкретный, например, J0 -й фактор. Запишем систему уравнений (3), выделив элементы, содержащие неопределенность:
а + аД, + а,,Х„ +... + а X . +... + ах, + апХ,,Х„ + ••• +
0 111 212 Зо 1 J о п 1 п 121112
+ а, 1 J X З X З + а, J +X, J X З + +... + ап 1 X п ,Х п = у,,
Jо 1, 1, 1 1, Зо Зо, Зо +1 1, Зо 1, Зо +1 п 1,п 1,п 1 1,п ^1
а0 + аlX21 + а2X22 + к + азо X2зо + ... + ^п + а12к +
+ а, 1 З X. З X З + а, , ..X, З X2 З + +... + ап 1 nX9 п ^ п = У,, (15)
Зо-1, Зо 2 Зо-1 2 Зо Jо, Зо +1 2, Зо 2, Зо +1 п-1,п 2,п-1 2,п ^2 ’ 4 ’
ао + а1хы 1 + а2 ХЫ 2 + к + ак Хт +... + апхш + а12 хот% 2 + к +
+ аУо-1.УоХ^,У0-1Х^,/о + ау0,/о +1Х^,/оХ^,У0+1 + ... + ап-1,пХМ,п-1ХМ,п = ^ .
Используем эту систему для последовательного определения значений параметров уравнения регрессии. При этом для расчета параметра а0 решим независимо N уравнений
системы (15), считая остальные параметры ар, р = 1,2,...,К равными модальным. Получаемое при решении каждого из этих уравнений значение а0 является нечетким. Его функция принадлежности по результатам решения, например, і -го уравнения, имеет вид
т (ао С/о))=ехр|- (а° а° (/о ^ 1
2°ао (/о)
ао(і)С/о)=у -Еа/х/- X Еа, /2ХУ1ХУ2
З ^о у1 ^о у 2 = у1 +1
ст\ , = (а2 + аЗ аЗ + аЗ аЗ Ь .
ао (Зо) Зо Зо-1 Зо Зо-1 Зо+1 ' Зо
Полученные N функций принадлежности для параметра ао комплексируются, формируя при этом условную функцию принадлежности параметра ао , соответствующую неопределенности фактора Зо:
М, (ао (Зо)) = ехр-[- (а° а° З))1
*о _^о
2< с Л)
1 N
ао Оо )=^ Е аог) Сзо ).
N і=1
Аналогично рассчитываются условные функции принадлежности для остальных параметров уравнения регрессии.
Теперь с использованием полученных условных функций принадлежности для каждого из параметров уравнения регрессии сформируем их безусловные функции принадлежности. При этом для произвольного параметра а Р получим
1Мар;=ехР1 (ар ар ^
2ьр
а() и)
Ь2 ( З ) 1 п
— Зо =1 р\-/о/ _2 1 Vі _2 ( • \ і о
ар = --------------------, = — > а„( зо ), р = 1,2,...,К .
р пі ’ Р /—І Р о > ’ * ’ ’ ’
^ 1 п З о =1
З>1 Ьр Оо )
4. Выводы
Таким образом, в статье предложены методы оценивания параметров уравнения регрессии для случая, когда условия проведения опытов, используемых для идентификации регрессии, а также их результаты - нечеткие числа. Описанные подходы позволяют получить четкий и нечеткий наборы искомых регрессионных коэффициентов путем оптимизации критериев, имеющих ясный, естественным образом трактуемый смысл.
СПИСОК ЛИТЕРАТУРЫ
1. Рао С.Р. Линейные статистические методы и их применение / Рао С.Р.; пер. с англ. - М.: Наука, 1968. - 547 с.
2. Серая О.В. Оценивание состояния с использованием нечеткой регрессии / О.В. Серая, Т.И. Каткова, Л.В. Бачкир // Вісник НТУ «КПІ». - Київ: ВЕК+, 2оо8. - № 49. - С. 14о - 145.
3. Дюбуа Д. Теория возможностей. Приложение к представлению знаний в информатике / Д. Дюбуа, А. Прад; пер. с франц. - М.: Радио и связь, 199о. - 286 с.
4. Раскин Л.Г. Нечеткая математика. Основы теории. Приложения / Л.Г. Раскин, О.В. Серая. - Х.: Парус, 2оо8. - 353 с.
Стаття надійшла до редакції 26.07.2010