Математические методы моделирования, управления и анализа данных.
УДК 519.6
ОБ АНСАМБЛЕВОМ АЛГОРИТМЕ ПОСЛЕДОВАТЕЛЬНОГО ОБУЧЕНИЯ НЕПАРАМЕТРИЧЕСКИХ ОЦЕНОК НАДАРАЯ-ВАТСОНА
Е. С. Мангалова
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Предложен алгоритм формирования ансамбля непараметрических оценок Надарая-Ватсона, основанный на принципе последовательного обучения моделей. Формализована процедура обучения ансамбля. Проведены численные исследования.
Ключевые слова: восстановление регрессии, ансамблевое обучение, непараметрическая оценка Надарая-Ватсона, параметр размытости.
ABOUT BOOSTED LEARNING OF NADARAYA-WATSON ESTIMATORS
E. S. Mangalova
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
The ensemble learning method proposed by the author is based on boosted learning of nonparametric Nadaraya-Watson estimators. There is a formalized algorithm of ensemble building. Algorithm is validated on the test tasks.
Keywords: regression, ensemble learning, Nadaraya-Watson estimator, bandwidth.
Введение. На сегодняшний день существует широкий спектр методов восстановления регрессии: от традиционных методов статистического анализа до современных алгоритмов машинного обучения [1]. В последние годы большую популярность получило построение ансамблей моделей [2]. Универсальность и эффективность ансамблевых методов восстановления регрессии позволяют применять их как для различных технических систем (в том числе и в ракетно-космической отрасли), так и в медицине, экономике и других областях науки и практики. Объединение нескольких моделей позволяет устранять те или иные недостатки моделей разных классов. В данной работе предложен алгоритм построения ансамбля непараметрических оценок Надарая-Ватсона [3], позволяющий получать более точные оценки в разреженных подобластях пространства входных переменных и на его границах, чем при построении единственной непараметрической оценки.
Постановка задачи. Пусть имеется множество наблюдений:
С = {{g2, ..., Яп}.
Каждое наблюдение характеризуется набором переменных:
^ = {{,х2,..., хТ,л},
где х1, х2, ..., хТ - независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной у. Требуется восстановить зависимость между независимыми
входными переменными х1, х2, ..., хТ и выходной переменной у.
При подобных постановках задачи одним из распространенных методов [4] восстановления зависимости между входом и выходом является непараметрическая оценка регрессии Надарая-Ватсона:
n m ( X ПК i =1 j=1 V V - xj
cj
nm X Пк i=1 j=1 ( xj - xj
I c
где К - ядерная функция; с - вектор параметров размытости.
Из-за особенностей распределения наблюдений в пространстве входных признаков может возникнуть следующая проблема: минимальные параметры размытости с, необходимые для того, чтобы оценка (1) существовала во всех точках пространства признаков, могут быть слишком большими и приводить к сильному сглаживанию в областях, где плотность наблюдений высока. Это чрезмерное сглаживание в областях с большим количеством наблюдений негативно влияет на точность оценки (1) в этих областях.
Другой недостаток оценки (1) связан с уменьшением точности на границах пространства входных переменных [5].
Объединение непараметрических оценок Надарая-Ватсона в ансамбль последовательного обучения позволяет устранять эти недостатки [6].
<Тешетневс^ие чтения. 2016
Алгоритм последовательного обучения непараметрических оценок Надарая-Ватсона. Идея построения ансамбля непараметрических оценок состоит в последовательном улучшении некоторой начальной (базовой) оценки регрессии Надарая-Ватсона за счет последовательного добавления непараметрических оценок невязок текущего ансамбля.
Ансамблем нулевого уровня Н0( х ) является непараметрическая оценка
Hо(x) =
n m / х п* i=1 j=1 v V — xj
cj
nm х п* i=1 j=1 f xj — xj
V c0
где с0 - вектор параметров размытости.
Каждая последующая непараметрическая оценка дополняет текущий ансамбль Нг-1( х ), минимизируя невязку между выходом объекта у и выходом текущего ансамбля Нг-1( х ):
Hq (X) = Hq ч( X) +
хп *
i=1 j =1
xj — xj "
cJ
q у
f
m п* x
j=1 v
0,
{i - Hq—1 (Xi ))
v q у
хп*
i=1 j=1
хп *
i=1 j=1
j
v q у
> о,
q = 1, 2, ..., Q.
j
v q у
= о,
Оптимизация параметров размытости на каждом шаге вычислительно затратна, поэтому была предложена процедура последовательного пересчета параметров размытости. На каждом шаге один из параметров размытости уменьшается в Ь раз (0 < Ь < 1).
Процесс добавления моделей в ансамбль продолжается до тех пор, пока добавление модели уменьшает ошибку, вычисленную по валидационным выборкам (предлагается использование кратной кросс-валидации). На первых итерациях (при больших параметрах размытости) алгоритм восстанавливает зависимость в разреженных областях. Начиная с некоторого шага, ядро непараметрической оценки в точках разреженных областей перестает захватывать какие-либо из имеющихся наблюдений, процесс формирования ансамбля для таких областей автоматически прекращается, начинается уточнение оценки в областях с достаточным количеством наблюдений.
Численные исследования показали эффективность предложенного алгоритма последовательного обучения ансамбля непараметрических оценок Надарая-Ватсона. В ходе решения тестовых задач восстановления регрессии было показано, что точность ансамбля непараметрических оценок Надарая-Ватсона превосходит единственную оценку как в разреженных областях пространства входных переменных, так и в областях с большим количеством наблюдений. Также продемонстрирована высокая эффективность предложенного ансамбля при оценке вблизи границ области входных переменных, а также в некоторой окрестности за ними. Для многомерных задач (с уменьшением соотношения «количество наблюдений / количество признаков») разница в точности между ансамблем последовательного обучения и единственной оценкой на границах и в разреженных областях становится более значительной.
Библиографические ссылки
1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition, 2009. 312 р.
2. Polikar R. Ensemble Based Systems in Decision Making // IEEE Circuits and Systems Magazine, third quarter. 2006. P. 21-45.
3. Надарая Э. А. Непараметрические оценки плотности вероятности и кривой регрессии. Тбилиси : Изд-во Тбил. ун-та, 1983. 194 с.
4. Медведев А. В. Анализ данных в задаче идентификации // Компьютерный анализ данных моделирования. Минск : Изд-во Белорус. гос. ун-та. 1995. Т. 2. С. 201-206.
5. Хардле В. Прикладная непараметрическая регрессия. М. : Мир, 1993. 349 с.
6. Schapire R. E. The strength of weak learnability // Machine Learning. 1990. Vol. 5, No. 2. Pp. 197-227.
References
1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition, 2009. 312 р.
2. Polikar R. Ensemble Based Systems in Decision Making. IEEE Circuits and Systems Magazine, third quarter 2006. P. 21-45.
3. Nadaraya E. A. Neparametricheskie ocenki plotnosti veroyatnosti i krivoj regressii [Non-parametric estimation of the probability density and the regression curve]. Tbilisi, izd, Tbil. un-ta, 1983. 194 p.
4. Medvedev A. V. Analiz dannih v zadache identifikacii [Data analysis in the identification problem]. Minsk, BGU. 1995. Vol. 2, pp. 201-206. (In Russ.)
5. Hardle W. Prikladnaya neperametricheskaya regre-ssiya [Applied nonparametric regression]. Mir, 1993. 349 p.
6. Schapire R. E. The strength of weak learnability. Machine Learning. 1990. Vol. 5, No. 2, pp. 197-227.
© Мангалова Е. С., 2016