УДК 519.24
СВОЙСТВА КОМБИНИРОВАННОЙ ОЦЕНКИ РЕГРЕССИИ ПРИ КОНЕЧНЫХ ОБЪЕМАХ ВЫБОРОК
С.В. Скрипин
Томский государственный университет Томский научный центр СО РАН E-mail: [email protected]
Представлены свойства комбинированной непараметрической оценки регрессии, использующей оценки двух построенных моделей регрессии - параметрической и непараметрической. Применение бутстреп-метода для комбинированной модели позволяет получать оценки, близкие к оптимальным по критерию минимума среднеквадратического отклонения. Статистическим моделированием показано, что при выборках конечного объема комбинированная оценка предпочтительнее, чем каждая из оценок построенных моделей.
Ключевые слова:
Непараметрическая оценка регрессии, комбинированная оценка, бутстреп-оценка, статистическое моделирование.
Задача оценки регрессии при конечных объемах выборок широко применяется в технических и компьютерных системах различного назначения и может быть решена с использованием различных моделей, как из класса параметрических так и непараметрических. В условиях малого объема данных возрастают требования к качеству оценок регрессионных моделей. Для повышения качества оценок можно использовать комбинированные модели регрессии различного вида. При отсутствии априорной информации о выборке конечного объема N качество оценок регрессии комбинированных моделей может быть лучше, чем у моделей из класса параметрических или непараметрических, либо получено частное решение для конкретной выборки.
Другой подход для оценки регрессии состоит в получении оценок комбинированных моделей, использующих оценки построенных моделей регрессии и априорную информацию о некоторых функционалах плотности. В настоящее время разработаны различные комбинированные модели регрессии и методы получения комбинированных оценок, в том числе [1-3].
Результаты работы [1] позволяют оперировать множеством построенных моделей из разных классов и рассматривать в виде результатов классы оценок. В данной работе рассмотрен случай реализации комбинированной модели регрессии [1], построенной по оценкам двух моделей - параметрической и непараметрической, с использованием подхода, предложенного в [2]. В этом случае матричные и векторные выражения в формулах преобразуются в скалярные, что позволяет упростить программную реализацию алгоритмов, сократить требования к вычислительным ресурсам и время обработки данных.
Пусть (У1,Х1),...,(У/,Х/) независимые наблюдения случайного вектора (У,Х) с неизвестной плотностью вероятности Дх,у); хей", уеЛ1. Для построения комбинированных оценок выберем две модели регрессии из разных классов: линейную параметрическую /(х;(9)=0о+01ха)+...+0„Х") и непараметрическую ](\)=}уЛУ\\)йу, гдеЛУ\х) - неизвестная условная
плотность вероятности случайной величины Y при фиксированном значении X=x. Комбинированную оценку регрессии представим в виде:
JN (x; 1) = JN (x) -1( JN (x) - J (x; в)). (1)
Здесь 1 - коэффициент, выбираемый согласно требованиям к качеству оценки, /(х;0) - параметрическая оценка регрессии, где в - оценка по методу наименьших квадратов вектора в=(в0,...,вт), /д(х) - непараметрическая оценка регрессии следующего вида
N .т
£ Y П к [(х(j5 - Xj v hN >]
JN (х(1),..., х( т)) = -,
N v > ' ' N т >
£п к [(*(j) - X,(j V hN)]
i=i j=i
где K(u) - заданное ядро (некоторая функция плот-
1
ности вероятности), h(!j) = cj(тт)4+т - параметры
масштаба, а cj - выбираются из условия минимума суммы квадратов регрессионных остатков
ö(Ci,...,Cm) = £[Yi - Jn(X(1),...,Xm))]2 ^ min.
i=i Ci--Cm
Продемонстрируем преимущества комбинированной оценки регрессии вида (1) по сравнению с оценками построенных моделей (параметрической или непараметрической). Рассмотрим два критерия качества оценок регрессии и соответствующие им комбинированные оценки. Выберем в качестве критерия выражение суммы квадратов регрессионных остатков
Qi(1) = £[Y - Jn(X,(1),..., Xjm); 1)]2 ^ min. (2)
,=i 1
Из выражения (2) получим оптимальный коэффициент 1=1o:
N
£ (JN (X®,..., X<m>) - Y)(JN (X®,..., X<m>) - J (X-0),..., X- т);в)) 1» = --N-. (3)
£ (JN (X®,..., x( m)) - J ( X® ,..., X<m); e ))2 i=i
Коэффициент 1o в выражении (3) не зависит от выбора точки хе R", в которой оценивается регрессия. С учетом (3) критерий (2) примет вид
йЯ)- ^ (х )]2 -
1=1
[X (JN (х,.) - у)(JN (х,.) - з (X.; в))]2
_ ,=1_
N '
X (JN (X, ) - 3 (X, ;в ))2
. =1
Добавим внутрь скобок критерия (2) два слагаемых: +/(Х;;в) и -/(Х,;в). В результате, с учетом оптимального коэффициента Я, получим эквивалентный вид критерия (2)
0а (Я) = Х[У -з(X;в)]2 -
,=1
[X (У, - з (X,; в))(JN (X) - з (X- ;в))]2
- ,=1_
N '
X (JN (X,) - J (X, ;в ))2
,=1
Рассмотрим другую комбинированную оценку (1) с выбором коэффициента Я на основе критерия
02(Я) = Е[JN(х;Я)- J(х)]2 ^ шш,
(4)
но непосредственно по исходной выборке, поскольку /(х) - неизвестна. Но можно предложить несколько способов оценки коэффициента ЯДх). Выделив в (5) главную часть и оценив ее по исходной выборке, получим оценку Я0(х) в точке х [2]:
Яо (х) =-
С(х) (1 - NN(АСх))2/ V(х)
V(х) ^ 1 + NH(А1 (х))2 / V(х) Здесь С(х)=&(х)-/(х)й(х),
1
(6)
А1 (х) = А о (х)
Л
1 —
1 + (NN )*(А о (х))2
Н = П # \
]=1
где Е - оператор математического ожидания, /(х) -неизвестная истинная функция регрессии. Из выражения (4) получим оптимальный коэффициент Я(х)=Я0(х), зависящий от выбора точки хе В",
Я ( ) Е(JN (х) - J(х))(JN (х) - J(х;в))
Яо(х) =-^-> (5)
Е (JN (х) - J (х;в ))2
а критерий (4) с учетом (5) примет вид 02 (Яо (х)) = Е[JN (х) - J(х)]2 -
- [Е(JN (х) - J (х))( JN (х) - J(х; в))]2
Е (JN (х) - J (х;в ))2 '
Или, аналогично критерию (2), в эквивалентном виде
02а (Яо (х)) = Е^ (х;в) - J (х)]2 -
- [ Е (J (х) - J (х;в))(JN (х) - J (х;в ))]2
Е (.1N (х) - J (х;в ))2 '
Из представленных выражений для квадратов остатков комбинированной оценки (1) - <21(Я0), <21а(Я0), 02(Яо(х)), 02°(Яо(х)) следует, что они меньше, чем квадраты остатков построенных моделей (первые слагаемые выражений). Следовательно, комбинированная оценка (1) эффективнее оценок построенных моделей (параметрической или непараметрической) как в случае конечного объема выборок N (критерий (2)), так и в асимптотическом случае (критерий (4)). Но проблема заключается в получении действительно оптимальных коэффициентов Я. На качество оценок влияет и объем выборок N (особенно когда он мал), и ошибки измерений, другие шумы в исходных данных. Далее, в отличие от (3) выражение (5) не может быть оцене-
Ао(х) = &(х) - J (х;в) £о(х) &(х), й(х), &(х) имеют вид:
N _т.
ёо(х) = -¿НХПК[(х°° -Х,а))/% >],
,=1 1=1
N т
&(х) = ^НXУ,ПК[(Xа) -Л)/#>],
,=1 1=1
N т
ё 2 (х)=-н X у2 П к[(*а) - X}1 у $>].
,=1 1=1
Оценку коэффициента Я0(х) в выражении (5) можно выполнить и бутстреп-методом [4]. При этом оценку коэффициента можно представить в двух вариантах.
Первый вариант предусматривает получение для каждой бутстреп-выборки оценок регрессии двух моделей - параметрической и непараметрической. Обозначим оценки, получаемые по бутстреп-методу символом звездочка, а по исходной выборке - без звездочки. В соответствии с (5) оценка оптимального коэффициента Я0(х) по бутстреп-вы-боркам примет вид [3]
в *
X (х) - JN (х))0С 1 (х) - Л. х;в)) Я о (х) = 11-в-;-,(7)
X (К, 1 (х) - J (х;в1 ))2
1=1
где В - размер серии сформированных бутстреп-выборок, соответствующих одной исходной выборке, для оценки коэффициента Я*,(х) в точке хеВ".
Второй вариант предусматривает получение для каждой бутстреп-выборки оценок регрессии только одной модели - непараметрической. Тогда оценка оптимального коэффициента Я0(х) по бут-стреп-выборкам будет иметь вид
X (JN у (х) - JN (х))( JN1 (х) - J (х; в))
Я + (х) = 11-в-. (8)
X (JN, 1 (х) - J (х;в ))2
1=1
Оценка (8) позволяет экономить вычислительные ресурсы и избегать проблем с получением оценок параметрической модели регрессии в случае вырожденной матрицы ковариаций у сформированных бутстреп-выборок.
Для сравнения качества оценок регрессии в условиях малых объемов выборок был проведен имитационный эксперимент, а также проверка качества оценок на нескольких выборках реальных статистических данных. Сравнение свойств комбинированных оценок является нетривиальной задачей, поскольку оценки коэффициентов Я в выражениях (3), (6)-(8) получены с использованием разных критериев оптимальности и требуют корректных условий сравнения. Для простоты интерпретации результатов имитационный эксперимент был проведен с одномерной величиной хеЛ1. Поскольку оценки (6)-(8) адаптированы к выбору точки х, вначале были рассмотрены свойства оценок регрессии в фиксированных точках выборки х! (г=1,...,п), выбранных с одинаковым шагом в заданном интервале моделирования. Затем выполнено сравнение свойств оценок со случайным выбором точек X. Для проверки качества комбинированных оценок в различных условиях в эксперименте использованы две функции «истинной» регрессии - линейная Р1(х)=2,0+х и нелинейная Р2(х)=х(10,0-х). Для добавления шумов к переменной отклика выбраны соответственно функции У1(х)=Р1(х)+% и У2(х)=Р2(х)+£, где £ - независимая случайная величина с нормальным законом распределения, нулевым математическим ожиданием и одинаковым значением дисперсии стдля всех точек заданного диапазона.
Для проведения имитационного эксперимента были выбраны следующие условия моделирования:
• для сравнения качества оценок в условиях малых объемов выборки выбран фиксированный объем п=10;
• интервал моделирования величин х1 и X выбран в диапазоне [0,9;9,0];
• шаг между фиксированными точками х1 выбран
0.9;
• случайная величина X выбрана из равномерного закона в диапазоне [0,9;9,0];
• величина дисперсии случайной величины £ равна о=3,0;
• числовые результаты эксперимента были получены по серии исходных выборок количеством К=1000 (с одинаковым объемом наблюдений п в каждой выборке). При этом для каждого наблюдения каждой исходной выборки из серии К формировалась серия В бутстреп-выборок размером В=1000.
Сравнение качества оценок регрессии у шести моделей (/;=/(х;0), /2=/д{х), /3=/д(х;Я0), /^Дх^х)), /5=/д(х;Хе0(х)), /6=/д(х;Х+0(х))) можно проводить по многим критериям. Поскольку преимущества комбинированной оценки регрессии вида (1) для применения к выборочным данным очевидны, ограничимся критериями, вычисляющими близость оценок моделей к истинной регрессии. Укажем критерии, вычисленные для каждой исходной выборки.
1. Средняя квадратичная погрешность прогнозирования в фиксированных точках
Бр(Р(х)) = П£[Рр ^) -- (х )]2, р = 1,6, р = 1,2,
где Рр(х) - истинное значение регрессии вида р в фиксированной точке х, /¡(х) - оценка регрессии по модели ¡ в фиксированной точке х.
2. Средняя квадратичная погрешность прогнозирования в произвольных точках
Бр (Р(X)) = П £ [Рр (X) - - (Х1)]2, р = 16, р = 12,
п 1=1
где Pp(X¡) - истинное значение регрессии вида р в произвольной точке X, /¡(X) - оценка регрессии по модели ¡ в произвольной точке X.
Укажем критерии, вычисленные по серии К исходных выборок.
3. Среднее квадратичных погрешностей прогнозирования по серии К в фиксированных точках
ар (Р(х)) = К £ Бр (Р(х)), р = 16, р = 12. (9)
4 = 1
4. Среднее квадратичных погрешностей прогнозирования по серии К в произвольных точках
ар (Р(Х)) = К £ Бр (Р(Х)), р = 16, р = 12. (10)
4=1
5. Средняя квадратичная погрешность прогнозирования по серии Кв каждой фиксированной точке
ар (Р( х))=К £[ Рр (х) - - (х )]2,
4=1
I = Щ р = 1б, р = 1Д (11)
6. Среднее оценок регрессии по серии выборок Кв каждой фиксированной точке
— (х-) = К £-р (хI), I = м, р= 16, р = 12.
4=1
7. Квадраты отклонений прогнозирования по серии Кв каждой фиксированной точке
1р(х■) = [Рр (х)-—(х )]2, I = й р = 1Л р = 12.
8. Среднее квадратов отклонений прогнозирования по серии Кв фиксированных точках
!р(х) = П£!р(х), Р= 16, р = 12. (12)
п -=1
Приведем результаты эксперимента. Средние квадратичных погрешностей оценок регрессии по критериям (9), (10) и (12) представлены в таблице.
Средние погрешностей оценок регрессии по критериям (11) представлены на рисунке.
По результатам сравнения при указанных условиях моделирования можно сделать следующие выводы. 1. Оценки модели регрессии:
• параметрической / дают наилучший результат среди представленных моделей в случае, когда истинна линейная регрессия. При этом качество оценок комбинированных моделей /5 и /6 почти равно / (рисунок, а). В случае
1=1
нелинейной регрессии оценки параметрической модели наихудшие (рисунок, б);
Таблица. Средние квадратичных погрешностей и квадратов отклонений прогнозирования в точках
Вид истинной регрессии Модели регрессии
Линейная па-раме-трич. J Непа-раме-триче-ская J2 Комбинированная Л Комбинированная J4 Ком-бини-рован-ная J5 Комбинированная
Среднее квадратичных погрешностей прогнозирования в фиксированных точках Qp(P(x))
Линейная P 1,252 2,515 2,318 3,189 1,450 1,437
Нелинейная P2 44,645 6,881 4,924 17,577 18,206 17,247
Среднее квадратичных погрешностей прогнозирования в произвольных точках Qp(P(Х))
Линейная P 1,395 5,315 2,612 4,195 2,057 2,236
Нелинейная P2 44,801 19,524 19,164 20,991 24,267 22,709
Среднее квадратов отклонений прогнозирования в фиксированных точках Ip(x)
Линейная P 0,00064 0,13873 0,07389 0,09404 0,00116 0,05292
Нелинейная P2 43,429 4,618 0,510 14,685 15,711 14,769
Рисунок. Средняя квадратичная погрешность прогнозирования Qlp(P(Xj)) в каждой точке xi для случая регрессии: а) линейной Pь б) нелинейной P2
• непараметрической /2 дают невысокий результат среди представленных моделей в случае истинной линейной регрессии. В случае нелинейной регрессии оценки модели дают второй по качеству результат (рисунок, б);
• комбинированной /3 в случае, когда истинна линейная регрессия, дают результат лучше, чем у непараметрической модели /2 и комбинирован-
ной /4. В случае нелинейной регрессии модель /3 дает наилучшие результаты (рисунок). Это свидетельствует о хороших свойствах модели /3;
• комбинированной модели регрессии /4 в случае истинной нелинейной регрессии дают результат, уступающий лишь оценкам непараметрической модели /2 и комбинированной модели /3 (рисунок, б);
• комбинированной /5 в случае, когда истинна линейная регрессия, дают третий по качеству результат среди представленных моделей, уступая лишь модели и модели /6 (рисунок, а). В случае, когда истинна нелинейная регрессия оценки модели /5 дают удовлетворительный результат (рисунок, б);
• комбинированной /6 дают результат, почти одинаковый с оценками модели /5 по указанным критериям, несколько выигрывая у модели /5. Это справедливо в случаях линейной и нелинейной регрессии (рисунок).
2. Проигрыш оценок комбинированной модели /4 в случае истинной линейной регрессии можно объяснить малым объемом данных исходных выборок п. Применение бутстреп-метода для моделей /5 и /6 требует больших вычислительных затрат, растущих с увеличением N.
3. При переходе к произвольному выбору точек X свойства оценок регрессии у представленных моделей почти не меняются, а величины погрешностей для случаев линейной и нелинейной регрессии - сближаются.
4. При невысоком качестве оценок одной из построенных моделей (параметрической или непараметрической) комбинированная оценка (1) позволяет достигать наилучших результатов в условиях малых объемов выборок.
5. Погрешность оценок регрессии на краях диапазона моделирования (рисунок) у всех представленных моделей регрессии увеличивается (в большей или меньшей степени).
На реальных данных оценки комбинированных моделей регрессии (/3, /4, /5) показали лучшие результаты по сравнению с оценками построенных моделей ^ и /2.
Результаты эксперимента позволяют утверждать, что предложенные комбинированные оценки регрессии /3, /4, /5 и /6 предпочтительнее оценок построенных моделей и /2 при конечных объемах выборок. Получение оценок моделей /3 и /4 требует значительно меньших вычислительных ресурсов по сравнению с оценками моделей /5 и /6.
Представленные комбинированные оценки могут найти широкое применение для получения качественных оценок регрессии в условиях малых объемов выборок и отсутствии априорной информации о данных.
Результаты моделирования, представленные на рисунках и в таблицах, получены с помощью кластера Межрегионального Вычислительного Центра ТГУ СКИФ СуЬепа (skif.tsu.ru). Автор выражает благодарность сотрудникам Центра за оказанную помощь.
СПИСОК ЛИТЕРАТУРЫ
1. Дмитриев Ю.Г. Непараметрическое условное оценивание функционалов плотности распределения // Математическое моделирование и теория вероятностей. - Томск: Изд-во «Пеленг», 1998. - С. 169-177.
2. Скрипин С.В. Комбинированная непараметрическая оценка регрессии // Проблемы компьютерной безопасности и криптография: Докл. IV Сибирской научной школы-семинара с международным участием. - 81Ъеегур1 '05 // Вестник Томского государственного университета. - 2005. - Прил. № 14. -С. 311-313.
3. Скрипин С.В. О свойствах комбинированной оценки регрессии // Проблемы компьютерной безопасности и криптография: Докл. VI Сибирской научной школы-семинара с международным участием. - 81Ъеегур1' 07 // Вестник Томского государственного университета. - 2007. - Прил. № 23. -С. 326-329.
4. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. - М.: Финансы и статистика, 1988. - 261 с.
Поступила 09.06.2008 г.
УДК 504.064(4)
ПРИМЕНЕНИЕ ПРОСТРАНСТВЕННЫХ ХАРАКТЕРИСТИК ПРИ МОДЕЛИРОВАНИИ ИЗМЕНЕНИЙ ЛАНДШАФТНОГО ПОКРОВА С ИСПОЛЬЗОВАНИЕМ КЛЕТОЧНЫХ АВТОМАТОВ
А.В. Замятин
Томский политехнический университет E-mail: [email protected]
Предложен подход к моделированию изменений ландшафтного покрова с использованием клеточных автоматов и 7-ми пространственных характеристик, наиболее часто встречающихся при решении различных задач геоинформатики, позволяющий повысить адекватность моделирования. Проведен поиск информативности каждой из характеристик в различных размерах скользящего окна. Предложена методика оценки значимости характеристик в различных сочетаниях при определении правил функционирования клеточных автоматов, а также выполнена соответствующая оценка значимости характеристик. Результаты экспериментов получены с использованием типовых разновременных данных растровой геоинформационной системы Idrisi Kilimanjaro.
Ключевые слова:
Моделирование, клеточные автоматы, пространственные характеристики, численные эксперименты, экосистемный мониторинг.
Введение
Моделирование изменений ландшафтного покрова является одним из наиболее перспективных подходов к прогнозированию таких явлений как распространение лесных пожаров, обезлесение, эрозия почвы, изменение границ снежного покрова [1, 2]. Решают задачи моделирования с использованием как детерминированных, так и стохастических моделей [3]. С учетом случайной природы моделируемых процессов ландшафтного покрова и возрастающими возможностями компьютерной техники наиболее перспективными следует считать стохастические модели, учитывающие пространственное взаимодействие элементов с помощью клеточных автоматов (КА).
Одним из ключевых факторов, влияющих на адекватность моделирования с использованием КА, является определение в каждом конкретном случае правил взаимодействия элементов (правил функционирования) КА. В настоящее время все большее распространение получают подходы к использованию пространственных характеристик при решении различных задач геоинформатики [4-6], а предварительные исследования в [7] показывают перспективность использования таких характеристик для определения правил функционирования КА.
При моделировании практическое применение пространственных характеристик, позволяющих более полно учитывать особенности ландшафта, обычно затруднено в связи с их различной информативностью в различных размерах анализируемой окрестности, а также неопределенностью вариантов возможного сочетания характеристик и их необходимого количества в каждом конкретном случае. Так, в [2, 4] использована лишь одна, а в [7] - четыре пространственные характеристики при решении задач моделирования изменений ландшафтного покрова.
Данная работа направлена на повышение эффективности моделирования изменений ландшафтного покрова с использованием увеличенного набора из 7-ми пространственных характеристик, наиболее часто встречающихся при решении различных задач геоинформатики, анализ этих характеристик в варьируемом размере анализируемой окрестности и определение их результативной сочетаемости при совместном применении.
Правила функционирования КА при моделировании
В [7] автором правила функционирования КА в алгоритме моделирования изменений ландшафтного покрова предлагается определять в каждой