Актуальные проблемы авиации и космонавтики - 2015. Том 1
УДК 519.6
ОБ ОДНОМ АЛГОРИТМЕ ПОСТРОЕНИЯ АНСАМБЛЯ НЕПАРАМЕТРИЧЕСКИХ
ОЦЕНОК РЕГРЕССИЙ
Е. С. Мангалова, М. С. Мангалова Научный руководитель - О. В. Шестернева
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Предложена процедура формирования ансамбля непараметрических оценок Надарая-Ватсона, основанная на принципах последовательного обучения. Проведены численные исследования, в ходе которых было показано, что точность ансамбля непараметрических оценок Надарая-Ватсона превосходит единственную оценку как в разреженных областях пространства входных переменных, так и в областях с большим количеством наблюдений.
Ключевые слова: восстановление регрессии, ансамблевое обучение, непараметрическая оценка Надарая-Ватсона, параметр размытости.
ABOUT ENSEMBLE LEARNING ALGORITHM BASED ON NONPARAMETRIC ESTIMATORS
E. S. Mangalova, M. S. Mangalova Scientific supervisor - O. V. Shesterneva
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
The ensemble learning method proposed by the authors is based on boosted learning of nonparametric estimators. The numerical researches show that proposed boosted ensemble is significantly more accurate than a single Nadaraya-Watson kernel estimator as in case of sparse areas in the space of input variables, as in case of areas with a large number of observations in the training set.
Keywords: regression, ensemble learning, Nadaraya-Watson estimator, bandwidth.
Широкое распространение методов восстановления регрессии объясняется возможностью их применения для построения моделей явлений, объектов и процессов разной физической природы. Одними из распространенных методов моделирования являются методы ансамблевого обучения [1].
Одной из основных задач объединения нескольких моделей одного типа является устранение тех или иных недостатков определенных моделей. В работе предложена процедура формирования ансамбля непараметрических оценок Надарая-Ватсона [2], позволяющая получать более гладкие и точные оценки в разреженных подобластях пространства входных переменных, чем при построении единственной непараметрической оценки.
Идея построения ансамбля непараметрических оценок состоит в итеративном улучшении некоторой начальной (базовой) оценки регрессии Надарая-Ватсона за счет последовательного добавления непараметрических оценок невязок текущего ансамбля, построенных с меньшими параметрами размытости, а следовательно, более ориентированных на имеющиеся данные. Каждая последующая оценка добавляется в ансамбль с целью улучшить его качество. Данный процесс продолжается до того момента, пока уменьшается значение меры рассогласования выхода модели и объекта, вычисленная по валидационной выборке.
Ансамблем нулевого уровня H0(x) является непараметрическая оценка [3]:
Секция «Математические методы моделирования, управления и анализа данных»
1П *
H0 (x) = г=1 j=1
( xj - xj л
Уг
n m ( xJ - xj \
ЕП *
'=1 ] =1
где х1, х2,..., хт - независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной у; С0 - вектор параметров размытости.
Каждая последующая непараметрическая оценка дополняет текущий ансамбль Ич-\(х), минимизируя невязку между выходом объекта у и выходом текущего ансамбля Ич-\(х)\
H q (x) = H q-1 (x)
in *
г=1 J=1
О Л
xJ - x/ c]
v q
(У, - Hq-1 (Xl ))
in *
,=1 j=1
( j > ^
x - x, c}
v q
0,
in *
i =1 j =1
in *
i =1 j =1
f j Л
x - xi
v cq
f j л
x - xi
v cq
> 0,
= 1,2, ..., Q.
= 0,
Задача построения ансамбля сводится к нахождению последовательности параметров размытости, минимизирующей выбранной критерий качества.
Добавление каждой последующей непараметрической оценки в ансамбль направлено на то, чтобы уменьшить ошибку текущего ансамбля. Поэтому большое влияние на итоговую оценку оказывают наблюдения близкие к границе области входных переменных и к границам разреженных областей, в силу особенности своего построения точность непараметрической оценки в данных областях меньше [3], а, следовательно, больше значения невязок между выходом объекта и выходом текущего ансамбля и больше вклад в итоговую оценку.
Предложена процедура обучения ансамбля непараметрических оценок, позволяющая повысить точность восстановления регрессионной зависимости по наблюдениям при наличии разреженных областей в пространстве входных переменных, а также на границах этого пространства.
Библиографические ссылки
1. Polikar R. Ensemble Based Systems in Decision Making. IEEE Circuits and Systems Magazine, third quarter. 2006. P. 21-45.
2. Надарая Э. А. Непараметрические оценки плотности вероятности и кривой регрессии. Тбилиси : Изд-во Тбил. ун-та, 1983. 194 с.
3. Хардле В. Прикладная непараметрическая регрессия. М. : Мир, 1993. 349 с.
© Мангалова Е. С., Мангалова М. С., 2015