УДК 519.233.4+519.237.4
С.И. Жилин
Решение задач дисперсионного и ковариационного анализа методом центра неопределенности
S.I. Zhilin
Solving Problems of Dispersion and Covariation Analysis Using Uncertainty Center Method
Предложен способ решения задач дисперсионного и ковариационного анализа в рамках интервального нестатистического подхода к описанию неопределенности в данных. Способ заключается в сведении задач построения и анализа эмпирических зависимостей при необходимости учета влияния качественных факторов к задаче регрессионного анализа и ее последующем решении методом центра неопределенности.
Ключевые слова: нестатистический подход, интервальное оценивание, дисперсионный анализ, ковариационный анализ, метод центра неопределенности.
The paper describes a technique of ANOVA-type problem solving on the base of interval non-statistical approach to data uncertainty handling. The essence of the technique is to reduce a problem of building and analyzing empirical dependencies under the influence of categorical factors to the problem of regression analysis which could be solved using uncertainty center method.
Key words: non-statistical approach, interval estimates, analysis of variance, analysis of covariance, uncertainty center method.
Введение. Интервальный (нестатистический) подход к обработке и анализу экспериментальной информации основывается на описании неопределенностей в данных ограниченными множествами, чаще всего задаваемыми интервалами или их декартовыми произведениями - брусами. При этом на множествах неопределенности не вводится никаких дополнительных мер (вероятностных, нечетких и пр.). Такой взгляд на обрабатываемые данные хорошо согласуется с запросами практиков, зачастую не владеющих информацией о вероятностной структуре этих данных, особенно в случае коротких выборок.
Идейно восходя к пионерской работе Л.В. Канторовича [1] и часто совпадая содержательно, но различаясь терминологически, приемы построения и анализа эмпирических зависимостей на базе интервального подхода развиваются различными группами отечественных и зарубежных исследователей [2-9]. Выработанная техника оценивания параметров и построения прогнозов зависимостей позволяет существенно обогатить сведения, получаемые аналитиком, о восстанавливаемой зависимости и ее свойствах более традиционными статистическими методами. При этом большинство известных результатов в области интервального (нестатистического) подхода касаются постановки задачи, известной как задача регрессионного анализа, которая состоит в поиске и анализе приемлемой модели зависимости между количественными экзо-
генными и количественной же эндогенной переменными. Однако на практике при построении зависимости часто приходится сталкиваться с необходимостью учета некоторых качественных факторов. Ситуацию, когда экзогенные переменные представлены исключительно качественными факторами, обычно именуют задачей дисперсионного анализа [10, 11]. Задачу же изучения зависимости, в которой наряду с качественными имеются и количественные экзогенные факторы, принято называть задачей ковариационного анализа [10, 12]. В настоящей работе предложен способ решения задач этих двух типов в рамках интервального (нестатистического) подхода. В первом разделе работы изложены основные идеи интервального подхода, при этом используется терминология метода центра неопределенности [4, 5]. Во втором разделе показано, каким образом задачи дисперсионного и ковариационного анализа могут быть решены с помощью метода центра неопределенности. Наконец, в третьем разделе приведен простой численный пример.
1. Метод центра неопределенности. Основу метода центра неопределенности составляет техника исследования множества допустимых значений параметров зависимости, конструируемой по таблице наблюдений за экзогенными и эндогенной переменными. При этом полагается, что значения экзогенных переменных известны точно (или с пренебрежимо малыми погрешностями), а суммарная ошибка наблюдения эндогенной переменной огра-
ничена сверху по модулю величиной б . В частности, в случае построения линейно-параметризованной зависимости вида
y=Xßj
(i)
(2)
множество допустимых значений параметров зависимости представляет собой полиэдральное, а следовательно, и выпуклое множество
B = \ß = (ßo,..., ßn)
ß. = min ßt,
ß = max ß
ßeB
i = 0,
(4)
ß=1 (ß,+ß), Aß
ßi-ß,
i = 0,
, n .
(5)
по таблице экспериментальных данных, полученной в N наблюдениях,
у. - б <\ Дх.. < у. + б . . ,
/=0 J
и = 1,..., N.
При этом В ограничено тогда и только тогда, когда ранг матрицы наблюдений X = (хи)(п+1)у^ равен
п + 1. Содержательно неограниченность множества В может интерпретироваться как недостаток эмпирической информации. Пустота множества В говорит о противоречивости собранной информации.
Главным принципом нестатистической обработки наблюдений, определяющим все последующие алгоритмы и получаемые выводы, является отсутствие каких-либо предпочтений для элементов множества В (их равноправие при выборе в качестве оценок параметров).
Ввиду сложности полного описания множества В в ряде случаев ограничиваются некоторыми его аппроксимациями. В частности, в этой роли можно использовать брусы (гиперпараллелепипеды с гранями, параллельными координатным плоскостям), охватывающие множество неопределенности В. Наименьший из таких брусов отыскивается путем решения следующих задач линейного программирования:
Интервалы [Д , Д ], I = 0,..., п, определяющие
этот брус, содержат в себе возможные точечные оценки параметров Д, а их длины могут выступать в качестве меры точности точечных оценок.
В соответствии с главным принципом нестатистической обработки наблюдений точечной оценкой параметров Д зависимости (1) в равной степени
может служить любой из элементов множества В. Известен ряд подходов к выбору представительной точки из множества В, опирающихся на различные соображения [13], но одним из наиболее простых способов построения точечной оценки
Д = |Д0,...,Дп^ является выбор в этом качестве срединной точки охватывающего бруса, отыскиваемого при решении задач (4):
2у—. ' 2
Помимо задачи точечного и интервального оценивания параметров зависимости в отношении множества B может ставиться и задача интервального оценивания выходной переменной у зависимости (1) в точке х:
у(х) = min ßx , у(х) = max ßx . (6)
— ßeB ßeB
Интервал [y(x), y(x)] содержит возможные значения выходной переменной y в точке х при различном выборе параметров зависимости. В качестве точечной оценки прогнозного значения зависимости (1) в точке х по аналогии с (5) может использоваться полусумма концов интервала:
у(х) =1 (у(х) + у(х)) , Ay(х) =1 (у(х) - у(х)) . (7)
С использованием гарантированных интервальных оценок параметров и прогнозных значений зависимости довольно просто проводится анализ значимости коэффициентов зависимости [5, 6]. В случае пустоты множества допустимых параметров зависимости B возможно выявление выбросов [14] и/или построение совместных подвыборок наблюдений [15].
Таким образом, базовые приемы метода центра неопределенности позволяют исследователю решать тот же круг вопросов, которые находятся в фокусе классического регрессионного анализа.
2. Задачи ковариационного и дисперсионного анализа. Основной прием, позволяющий при построении зависимости ввести в рассмотрение качественные факторы, состоит в использовании фиктивных переменных. В классическом статистическом анализе хорошо известны [10-12, 16] способы применения этого аппарата для сведения задач дисперсионного анализа (все факторы качественные) и ковариационного анализа (часть факторов - количественные, а часть - качественные) к задаче регрессионного анализа. В настоящем разделе будет показано, что использование того же приема при нестатистическом подходе делает возможным решение задач дисперсионного и ковариационного анализов с помощью метода центра неопределенности.
Для учета влияния на значение выходной переменной каждого из качественных факторов х , принимающих значения на L. уровнях
X = {х,0,..., ха _j}, в зависимость вводятся L. -1
фиктивных переменных, значения которых в совокупности кодируют уровень фактора х , соответствующий каждому из наблюдений. Способ выбора фиктивных переменных не единственен. Одним из наиболее простых для реализации и интерпретации является следующий вариант сопоставления уровней фактора и значений совокупности фиктивных переменных.
i=0
Один из уровней фактора выбирается в качестве эталонного, например, х10, а для остальных определяются фиктивные переменные dл,...,-1}, принимающие значения 0 или 1. Ситуация, когда все переменные da,...,d¡(^_ц равны нулю, соответствует
эталонному уровню фактора х10. Равенство единице переменной dk при нулевых значениях остальных фиктивных переменных соответствует уровню фактора ха .
Коэффициент 8Л при каждой из заданных таким способом фиктивных переменных d ¡к представляет
собой оценку так называемого чистого эффекта, т.е. разницы в значении выходной переменной, обусловленной переходом фактора х с эталонного уровня х0 на уровень хк при фиксированных значениях прочих переменных, входящих в зависимость.
После пополнения фиктивными переменными структура зависимости приобретает вид
т-1 п А_1
У = ХДЛ + ££^а , (8)
¡=0 ¡=т к=1
где входные переменные Х0,..., хт-1 являются количественными факторами, а качественные факторы хт,...,хп представлены группами фиктивных переменных dn,..., d¡l -1, i = да,..., п .
При т = 0 задача построения и анализа зависимости вида (2) соответствует задаче дисперсионного анализа, а при т > 0 - задаче ковариационного анализа. Для оценивания коэффициентов Д и используются методы, изложенные в предыдущем разделе.
3. Пример. Данные для примера (табл., рис.) взяты из [12, с. 301] и представляют собой вес (у) в фунтах и возраст в неделях для 13 индеек. Четыре из них выращены в штате Джорджия, четыре -в Виргинии и пять - в Висконсине. Попытаемся связать вес и возраст птицы простой линейной зависимостью и выяснить, какое влияние на зависимость оказывает место ее происхождения. Для учета влияния этого качественного фактора, принимающего значение на трех уровнях, введем две фиктивные переменные d\ и d2, определив их значения. Конструируемая зависимость имеет вид:
у = Д0 + Д х + 8^1 +82 d2 + б . (9)
Данные об индейках
Номер опыта Вес, фунтов (У) Воз- раст, недель (х) Место происхождения dl d2
1 13,3 28 Джорджия 1 0
2 8,9 20 Джорджия 1 0
3 15,1 32 Джорджия 1 0
4 10,4 22 Джорджия 1 0
5 13,1 29 Виргиния 0 1
6 12,4 27 Виргиния 0 1
7 13,2 28 Виргиния 0 1
8 11,8 26 Виргиния 0 1
9 11,5 21 Висконсин 0 0
10 14,2 27 Висконсин 0 0
11 15,4 29 Висконсин 0 0
12 13,1 23 Висконсин 0 0
13 13,8 25 Висконсин 0 0
Диаграмма рассеяния для данных об индейках
Отсутствующую в первоисточнике информацию о верхней границе абсолютного значения ошибки ( б ) измерения выходной переменной восполним, положив ее равной 1 фунту. Множество неопределенности в нашей задаче определяется неравенствами вида
Уи-б<Д0 +Дхи +3Аи +^2и < У] +Б, и = 1,...,13, (10) где (У], х], d1 ], d2 ]) - данные из таблицы.
Используя те же процедуры метода центра неопределенности, что и при решении задачи регрессионного анализа, получаем интервальные оценки параметров зависимости:
Л Л
Д0 е [1,750; 5,570], Д е [0,350; 0,450],
ЛЛ
Д е [-3,350; -0,850], Д2 е [-2,600;-0,450].
В качестве точечной оценки примем наиболее просто вычисляемый центр прямоугольника:
Л Л Л Л
Д0 = 3,750, Д = 0,400, Д =-2,100, Д =-1,525.
Однозначно отрицательные интервальные оценки коэффициентов Д , 82 при фиктивных переменных указывают на различия в индейках, первая - из Джорджии и Висконсина, а вторая - из Виргинии и Висконсина соответственно. Подставляя три различных набора значений фиктивных переменных (dl, d2) и используя точечные оценки
параметров, получим зависимости, описывающие характеристики птиц, выращенных на трех разных территориях:
для Джорджии при d1 = 1, d2 = 0 :
У = 1,650 + 0,400х: для Виргинии при d1 = 0 , d2 = 1:
У = 2,225 + 0,400х; для Висконсина при d1 = 0 , d2 = 0 :
У = 3,750 + 0,400х .
Полученные результаты не противоречат результатам обработки этих данных классическими методами регрессионного анализа [12].
Заключение. Таким образом, задачи учета влияния качественных факторов при построении и анализе зависимостей по экспериментальным данным, традиционно решаемые статистическими методами дисперсионного и ковариационного анализа, могут быть с успехом решены и в рамках интервального (нестатистического) подхода. Достоинствами интервального подхода являются существенно более простая система условий применимости его методов и естественная для аналитиков-практиков форма представления информации о неопределенности в данных.
Библиографический список
1. Канторович Л.В. О некоторых новых подходах к вычислительным методам и обработке наблюдений // Сиб. мат. журнал. - 1962. - Т. 3, №5.
2. Спивак С.И. Информативность эксперимента и проблема неединственности решения обратных задач химической кинетики: автореф. дис. ... д-ра физ.-мат. наук. -Черноголовка, 1984.
3. Bounding Approaches to System Identification / Milanese M., Norton J., Walter E., editors. - London, 1996.
4. Белов В.М., Суханов В.А., Унгер Ф.Г. Теоретические и прикладные аспекты метода центра неопределенности. - Новосибирск, 1995.
5. Оскорбин Н.М., Максимов А.В., Жилин С.И. Построение и анализ эмпирических зависимостей методом центра неопределенности // Известия АлтГУ. - 1998. -№1.
6. Вощинин А.П., Бочков А.Ф., Сотиров Г.Р. Метод анализа данных при интервальной нестатистической ошибке // Заводская лаборатория. - 1990. - Т. 56, №7.
7. Померанцев А.Л., Родионова О.Е. Построение многомерной градуировки методом простого интервального оценивания // Жур. аналит. химии. - 2006. - №61.
8. Кумков С.И. Обработка экспериментальных данных ионной проводимости расплавленного электролита мето-
дами интервального анализа // Расплавы. - 2010. -№3.
9. Подружко А.А., Подружко А.С. Интервальное представление полиномиальных регрессий. - М., 2003.
10. Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. - М., 1976.
11. Шеффе Г. Дисперсионный анализ. - М., 1980.
12. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. - М., 1987.
13. Жилин С.И. Нестатистические модели и методы построения и анализ эмпирических зависимостей: дис. ... канд. физ.-мат. наук. - Барнаул, 2004.
14. Zhilin S.I. Simple Method for Outlier Detection in Fitting Experimental Data Under Interval Error // Chemo-metrics and Intellectual Laboratory Systems. - 2007. -Vol. 88(1).
15. Кумков С.И. Интервальный подход к обработке
зашумленных экспериментальных данных с многократными измерениями в условиях неопределенности // Современные проблемы прикладной математики и механики: теория, эксперимент и практика: докл. Междунар. конф., посвящ. 90-летию со дня рождения акад.
Н.Н. Яненко. - Новосибирск, 2011.
16. Доугерти К. Введение в эконометрику. - М., 1999.