Секция «Математические методы моделирования, управления и анализа данных»
УДК 519.6
ДЕТЕКТИРОВАНИЕ АНОМАЛЬНЫХ НАБЛЮДЕНИЙ С ПОМОЩЬЮ АНСАМБЛЯ РЕГРЕССИОННЫХ МОДЕЛЕЙ ПАРАЛЛЕЛЬНОГО ОБУЧЕНИЯ
Е. С. Мангалова
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Предложена процедура детектирования аномальных наблюдений с использованием ансамбля параллельного обучения. Проведены численные исследования алгоритма на тестовых задачах из ре-позитория, в том числе касающихся аэрокосмической области.
Ключевые слова: восстановление регрессии, ансамблевое обучение, параллельное обучение, аномальные наблюдения, разнообразие ансамбля.
OUTLIERS DETECTION USING ENSEMBLE OF BAGGED REGRESSION MODELS
E. S. Mangalova
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
The outlier detection algorithm proposed by the author is based on bagging ensemble learning method. The algorithm was researched using test data sets from repository including aerospace data set.
Keywords: regression, ensemble learning, bagging, outlier, ensemble ambiguity.
Введение. Проблема качества данных остро стоит при решении практических задач анализа данных в различных областях (в том числе и в аэрокосмической сфере) [1]. От качества исходных массивов данных зависит как достоверность результатов моделирования, так и его качества. По этой причине для улучшения качества обучающих выборок выполняется предобработка данных. Предобработка включает в себя в числе прочего очистку данных от аномальных измерений (выбросов), возникающих в результате сбоев измерительного оборудования, ошибок оператора и т.п. В работе предложен алгоритм детектирования аномальных наблюдений, основанный на максимизации разнообразия при построении ансамбля параллельного обучения.
Декомпозиция ошибки ансамбля. В работе [2] показано, что ошибка ансамбля зависит от точности индивидуальных моделей и их разнообразия следующим образом:
n
err (H | x ) = ^ wierr (H | x ) - ambi (H | x ) ,
i=1
в том случае, если правило объединения моделей представляет собой среднее взвешенное, а в качестве меры точности выбрана среднеквадратическая ошибка:
- ошибка индивидуальной модели в точке
err (h | x ) = (f (x) - h, (x))2,
- ошибка индивидуальной модели в точке
err(H | x) = (f (x) -H(x))2, неопределенность ансамбля в точке x определяется как
Актуальные проблемы авиации и космонавтики - 2016. Том 1
ambi (H | x) = £ wi (ht (x) - H(x))2
i=1
и показывает рассогласование среди индивидуальных моделей в x . Среднее значение неопределенности для тестовой выборки будем понимать под мерой разнообразия ансамбля. Важной проблемой при построении ансамбля является максимизация разнообразия ансамбля.
Максимизация разнообразия ансамбля. Из обучающей выборки могут быть сформированы различные обучающие подмножества. Чем меньшие мощности у попарных пересечений подмножеств, тем разнообразнее индивидуальные модели. Из выборки формируются T обучающих подмножеств, которые участвуют в построении T моделей. Выборки формируются так, что в подмножество попадает rN наблюдений, где r е (0,1) . Разнообразие может быть максимизировано последовательно:
в ансамбль добавляется модель (из определенного множества индивидуальных моделей), которая позволяет максимально увеличить разнообразие. При этом большее внимание уделяется аномальным наблюдениям, так как их включение в обучающее подмножество позволяет увеличить разнообразие ансамбля. Соответственно, количество попаданий наблюдения в обучающие подмножество, свидетельствует о том, что является показательной характеристикой.
Детектирование аномальных наблюдений. Оценим распределение количества попаданий наблюдения в обучающие подмножества при случайной генерации подмножеств. Плотность распределения количества попаданий наблюдения в обучающие подмножества:
P(z) = CzTrz (1 - r)-z.
Математическое ожидание и дисперсия количества попаданий наблюдения в обучающие подмножества: E(z) = rT, D(z) = r(1 - r)T . Доверительные интервалы оценим следующим образом:
E(T) - Ta,2^/ОД, E(T) + TanjD{T) ] , где Ta/2 — (1 - a / 2) -квантиль стандартного нормального распределения. Наблюдения, попавшие в обучающие подмножества более E(z) + za/2Л/D(z) раз, будем считать аномальными.
Численные исследования. В работе проведена апробация алгоритма на различных данных из репозитория [3]. Исключение найденных аномальных значений позволяет существенно повысить точность ансамблевой модели (точность оценивалась на одних и тех же тестовых множествах).
Также была произведена серия экспериментов, в ходе которых добавлялись искусственно сгенерированные выбросы. Предложенный алгоритм позволил обнаружить все искусственные выбросы в экспериментах, когда аномальное значение выходной переменной превышало значения в соседних точках более чем на 50 процентов (при этом аномальные значения не были самыми большими или маленькими в обучающей выборке).
Библиографические ссылки
1. Larose D. T. Discovering knowledge in data: an introduction to data mining. - New Jersey : John Wiley & Sons Inc., 2005. 240 p.
2. Krogh A., Vedelsby J. Neural network ensembles, cross validation and active learning // Advanced in Neural Information Processing System 7. Cambridge: MIT Рress, 1995. P. 231-238.
3. UCI Machine Learning Repository: Data Sets. [Электронный ресурс]. URL: https://archive.ics.uci.edu/ml/datasets (дата обращения: 01.04.2016)
© Мангалова Е. С., 2016