2013
ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА Управление, вычислительная техника и информатика
№ 1(22)
ОБРАБОТКА ИНФОРМАЦИИ
УДК 519.233.22
К. Андреа, П.О. Смирнов, Г.Л. Шевляков
ДВУМЕРНЫЙ БОКСПЛОТ НА ОСНОВЕ ВЫСОКОЭФФЕКТИВНЫХ РОБАСТНЫХ ОЦЕНОК МАСШТАБА И КОРРЕЛЯЦИИ
На основе новых «быстрых» высокоэффективных и робастных FQn-оценок масштаба и корреляции предложен двумерный боксплот, ориентированный на визуализацию эллиптически распределенных данных. Обоснован выбор этих оценок и исследована вычислительная сложность алгоритма построения боксплота.
Ключевые слова: визуализация, двумерный боксплот, робастность.
В [1] предложен новый способ визуализации данных двумерными FQn-боксплотами, где показано, что FQn-боксплоты более эффективны для данных, распределенных по двумерному нормальному закону, чем другой хорошо зарекомендовавший себя непараметрический боксплот - бэгплот (Ьа^1о1) [2].
В разведочном анализе существует ряд методов первоначальной обработки одномерных данных. В настоящей статье рассматриваются проблемы анализа и представления двумерных данных. Отправной точкой в нашем обсуждении служит одномерный боксплот Тьюки [3], изображенный на рис. 1: он представляет собой прямоугольник с высотой, равной выборочному межквартильному расстоянию с отмеченной медианой в качестве оценки параметра положения и так называемыми «усами», зависящими от экстремальных порядковых статистик выборки.
У4-
0
о-«-
Выброс
Верхний квантиль
Медиана-Нижний квантиль
Внутренняя
область
' Внешняя область
0
Одномерный боксплот Тьюки Двумерный бэгплот
Рис. 1 Классический одномерный боксплот Тьюки и двумерный бэгплот
Двумерный боксплот является статистическим средством представления данных на плоскости. Он отображает информацию о параметрах положения, масштаба, асимметрии, «хвостах» и выбросах распределения (см. рис. 1). Для полноты описания двумерного распределения используется дополнительная характеристика статистической взаимосвязи между случайными величинами - коэффициент корреляции.
1. Робастные оценки параметра положения и масштаба
Использование робастных оценок параметров распределения (положения, масштаба, корреляции) в боксплотах является традиционным; при этом желательно, чтобы эти оценки были возможно более эффективными. В [4] проводится анализ десяти различных оценок параметров положения двумерных выборок: показано, что наилучшей оценкой является пространственная медиана (spatial median), минимизирующая сумму модулей невязок. Алгоритм вычисления пространственной медианы реализован в среде R; подробное его описание можно найти в [5].
Задача оценивания параметров масштаба занимает второе по значению место после оценивания параметров положения распределения. В общем случае, оценка параметра масштаба определяется статистикой
Sn : Sn(axi,.^,axn) = \a\Sn(x1,...,x„).
Классической оценкой масштаба является стандартное отклонение, однако при наличии выбросов в выборке стандартное отклонение - неробастная и неэффективная оценка.
Методы робастной статистики предлагают более устойчивые статистические оценки для случаев, когда в выборке данных присутствуют выбросы, в частности робастная, высокоэффективная, но вычислительно сложная Qn-оценка масштаба [6]. В [7] предложена «быстрая» робастная высокоэффективная FQn-оценка масштаба, основанная на аппроксимации функции влияния Qn-оценки. Показано, что максимальная эффективность предложенной FQn-оценки достигает 96%, а минимальное возможное ее значение не опускается ниже уровня 81% на нормальном распределении, при этом их пороговая точка (breakdown point) достигает 50%. Вычисление модифицированной FQn-оценки по выборке {x1, ..., xn} производится по формуле
FQn (x) = 1,483 MAD
( 7_____n_ ^
1 _ 70 _V2
72
(1)
_Ц- x; _ med x
где 7. = V , .
k ^ 1 1 1,483 • MAD
med x - выборочная медиана, а MAD = 1,483 med\xt _med x| - медианное абсолютное отклонение. Поправочный коэффициент 1,483 обеспечивает состоятельность оценки MAD и FQn на нормальных распределениях. Параметр масштаба, определяемый в уравнении (1), является одношаговой M-оценкой [7]. В среде R создан пакет{fastqn}, где реализован алгоритм вычисления быстрых FQn-оценок масштаба.
2. Робастное оценивание коэффициента корреляции
Классическая оценка корреляции двумерных данных дается выборочным коэффициентом корреляции Пирсона
r = _ x/ _ y/(V( _ x/ ( _ y)2)Vl,
- V x - V y „
где x =----- и y =-----. Как отмечено выше, классические оценки положения и
nn
масштаба, такие, как арифметическое среднее и дисперсия, неработоспообны в присутствии загрязненных данных. Различные робастные оценки коэффициента корреляции рассматриваются в [8, 9].
В [1] коэффициент корреляции вычисляется по методу минимального определителя ковариационной матрицы [10]. Ковариационная матрица, полученная по методу минимального определителя, является аффинно-эквивариантной оценкой, обладающей высокой эффективностью 88% на двумерном нормальном распределении и пороговой точкой около 25%. Применение метода минимального определителя ковариационной матрицы для построения FQn-боксплота обусловлено его устойчивым поведением в присутствии выбросов, а также его аффинно-эквивариантным свойством. Наряду с робастным коэффициентом по методу минимального определителя в нашей работе используется FQn робастная оценка коэффициента корреляции [11]:
r FQn2( x + y) _ FQ2( x _ y) (
rFQn = 2 2 , ()
Q FQ2( x + y) + FQn2( x _ y)
где векторы x и y центрированы соответствующими компонентами пространственной медианы и нормированы соответствующими FQn-оценками.
В работе [8] проведено сравнение различных методов по вычислению коэфи-циента корреляции. В результате такого исследования наилучшим среди робастных оценок коэффициента корреляци является rFQn.
3. Алгоритм построения двумерного Р^и-боксплота
Приведем алгоритм построения FQn-боксплота [1]:
1) Заданные точки (x, y) на плоскости преобразуются в новую систему координат (x', y'), определяемую главными осями эллипса равной вероятности для нормального распределения с центром (xc, yc): (xc, yc) = spatial median (x, y) [7],
x'= (x _ xc) cos a + (y _ yc) sin a y' = _(x _ xc )sin a + (y _ yc )cos a
✓ч ^ ^2 ^2
где tg2a = (2rMCD CT1 cr 2)/(a 1 _ct 2).
Главные оси (x', y') эллипса рассеивания двумерного нормального распределения пропорциональны оценкам масштаба, а угол поворота а главных осей зависит также и от оценки коэффициента корреляции.
2) Выбирается половина ближайших по расстоянию Махаланобиса точек к центру. Выпуклая оболочка этих точек определяет внутреннюю область бокспло-та. Расстояние Махаланобиса точек от центра ц определяется
Dm =\/ (x _H-):rS Ч x _ц)
где £ - ковариационная матрица, имеющая следующий вид:
£ =
( ~ 2 С1
Л
РСТ1 Ст2 ^ ^2
чрСТ1 СТ 2 а 2 у
(4)
где С1 = ^0п(х'), а2 = ^0п(у') и р = грдп.
3) Внешняя область представляет собой выпуклую оболочку множества точек, которые не попали во внутреннюю область и при этом находятся в пределах эллипса, вписанного в прямоугольник со сторонами, параллельными осям х' и у' с левой и правой границами:
х'ь = тах {х - (х ')}, у’ь = тах {у^ ус - (у ')},
Х'к = т1п {X(n), Хс + а^п (х '^ У} = т1п {У(n), Ус + аРвп(У ')},
где а - коэффициент, значение которого выбирается исходя из модели распределения данных.
4) Точки, лежащие за границей внешней области, рассматриваются как выбросы (рис. 2).
(5)
Л'
/
V
И
/
(хс,Ус)
/
/
(0,0)
Рис. 2 Построение .^„-боксплота
4. Вычислительная сложность алгоритма построения .Р^и-боксплота
Алгоритмическая сложность двумерного Едп боксплота составляет
О(п V 1о§(п),
где п - размер выборки. Ниже приводится список операций над выборкой и их соответственная алгоритмическая сложность:
1) Вычисление ковариационной матрицы минимального определителя является линейной функцией от числа входных данные, т.е. О(п).
2) Сложность перевода точек из одной системы координат в другую составляет О(п).
3) Пространственная медиана вычисляется итеративным алгоритмом О(сп), где в худшем случае с = 500 (с - число итераций).
4)Вычисление приближенной ^^п-оценки масштаба составляет О(п).
5) Алгоритм вычисления выпуклой оболочки точек составляет О(п^^(п)), когда точки на плоскости распределены по нормальному закону.
х
0 1-104 2-104 3-104 N*J log2 N
Рис. 3, Сравнение времени вычисления FQw-боксплота (1) и бэгплота (2) при увеличении размера выборки (преобразование над N: N^Jlog N )
Рис. 4. Сравнение времени вычисления ^2п-боксплота (1) и бэгплота (2) при увеличении размера выборки (преобразование над N N2)
Итоговая сложность построения нашего двумерного ^^п-боксплота составляет О(п л/Ю^Сп) +503п). Исследование сравнения времени вычисления алгоритмов ^^п-боксплота и бэгплота показало, что ^^п-боксплот работает намного быстрее. Исследование проводилось по методу Монте-Карло с увеличением размера дву-
мерной выборки, распределенной по нормальному закону, от 100-10000. Измерение времени вычисления для каждого размера выборки оценивалось арифметическим средним по времени из 10 разных выборок заданного размера. Вычисления проводились на ЭВМ Intel(R) Core(TM) i7-2620M, 2.7 GHz, Windows 7 64bit.
На рис. 3 легко увидеть линейную зависимость времени вычисления FQn-боксплота от преобразованного размера выборки NyJlog N . Применение линейной регрессии свидетельствует о том, что такая зависимость приближается к прямой (коэффициенты наклона и пересечения 0,001 и -3,5) с очень высокой степенью достоверности (R2 = 0,99). Бэгплот в свою очередь имеет вычислительную сложность O(N2). Как можно увидеть из рис. 4, применение линейной регрессии для бэгплота с высокой степенью достоверности (R2 = 0,99) дает квадратичную зависимость времени вычисления от преобразованного размера выборки (коэффициенты наклона и пересечения 4,410-7 и 3,410-2).
Заключение
Предложеный FQn-боксплот построен на высокоэффективных оценках масштаба и корреляции, что обеспечивает его превосходство над бэгплотом. Рассматриваемые в литературе двумерные боксплоты делятся на два больших класса: ориентированные на данные и модельно-ориентированные боксплоты. Предложенный нами FQn-боксплот относится к классу модельно-ориентированных бок-сплотов, а именно ориентирован на модель двумерного нормального распределения. Превосходство FQn-боксплота над бэгплотом при отбраковке выбросов в случае двумерных нормально распределенных данных объясняется применением робастных высокоэффективных FQn-оценок параметров масштаба и коэффициента корреляции.
g 100
о
о
10 20 30 40 50
Процент смоделированных выбросов
Рис. 5 Результаты отбраковки выбросов: правильно обнаруженные выбросы -Р^и-боксплот (1) и бэгплот (2); неправильно - Р^и-боксплот (3) и бэгплот (4)
На рис. 5 проиллюстрировано поведение Р^и-боксплота при увеличении количества выбросов - оно является более устойчивым по сравнению с бэгплотом. Рис. 5 отражает значения чувствительности и специфичности получены для выборки, удовлетворяющей модели Тьюки - Хьюбера в виде засорения типа «сдвиг»
[12] с различными значениями параметра засорения е (вероятность появления выбросов в данных или процент смоделированных выбросов). Более подробное описание исследования мощности отбраковки выбросов при помощи двумерного FQn-боксплота можно найти в [1].
ЛИТЕРАТУРА
1. Андреа К., Лаврентьева Г.М., Смирнов П.О., Шевляков Г.Л., Визуализация данных двумерными fqn-боксплотами // Высокие технологии, фундаментальные исследования, экономика. Т.1: Сб. статей XII Междунар. научно-практ. конф. «Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности». СПб.: Изд-во Политехн. ун-та, 2011. С. 59-65.
2. Rousseeuw P.J., Ruts I, Tukey J.W. The bagplot: A bivariate boxplot // The American Statistician. 1999. V. 53. P. 382-387.
3. Тьюки Дж. Анализ результатов наблюдений. Разведочный анализ. М.: Мир, 1981.
4. Masse J.C., Plante J.F. A Monte Carlo study of the accuracy and robustness of ten bivariate location estimators // Computational Statistics & Data Analysis. 2003. V. 42. P. 1-26.
5. Vardi Y. and Zhang C.H. The multivariate L1-median and associated data depth // PNAS. 1999. V. 97. P. 1423-1426.
6. Croux C., Rousseeuw P.J. Time-efficient algorithms for two highly robust estimators of scale // Computational Statistics. 1992. V. 1. P. 411-428.
7. Смирнов П.О., Шевляков Г.Л. Приближение оценки Qn параметра масштаба с помощью быстрых M-оценок // Вестник Сибирского государственного аэрокосмического университета. 2010. Т. 5 (31). С. 83-85.
8. Shevlyakov G., Smirnov P. Robust estimation of the correlation coefficient: An attempt of survey // Austrian J. Statistics. 2011. V. 40. P. 147-156.
9. Shevlyakov G.L., Vilchevski N.O. Robustness in data analysis: criteria and methods. Utrecht: VSP, 2002. 315 p.
10. Hubert M., Rousseeuw P.J., Van Aelst S. High-breakdown robust multivariate methods // Statistical Science. 2008. V. 23. P. 92-119.
11. Bernholt T., Fischer P. The complexity of computing the MCD-estimator // Theoretical Computer Science. 2004. V. 326. P. 383-398.
12. Filzmoser P., Identification of Multivariate Outliers: A performance study // Austrian J. Statistics. 2005. V. 34. P. 127-138.
Андреа Клитон Смирнов Павел Олегович Шевляков Георгий Леонидович
Санкт-Петербургский государственный политехнический университет E-mail: [email protected]; [email protected]; [email protected]
Поступила в редакцию 4 мая 2012 г.
Andrea Kliton, Smirnov Pavel O., Shevlyakov Georgy L. (St. Petersburg State Polytechnical University). A bivariate boxplot based on robust highly efficient estimators of scale and correlation.
Keywords: visualization, bivariate boxplot, robustness.
A bivariate model-based boxplot based on fast highly efficient and robust FQn-estimates of scale and correlation is proposed. The choice of parameters is motivated by their high performance and is based on the state-of-the-art methods. It is shown that FQn-boxplot has a better speed performance over the conventional boxplot.