УДК 519.234
В. А. Симахин
РОБАСТНЫЕ НЕПАРАМЕТРИЧЕСКИЕ ОЦЕНКИ ЛИНЕИНЫХ ФУНКЦИОНАЛОВ
Рассматривается построение алгоритмов робастных непараметрических оценок линейных функционалов на основе взвешенного метода максимального правдоподобия.
Ключевые слова: робастный, непараметрический, оценка, линейный функционал.
Пусть у1,..., ум - выборка непараметрической оценки регрессии (НОР) с функцией распределения (ФР) G(у) и 9 = |ф(?)^Я(?) <го, где
? = (^,..., tm)Т; H(?) = G(t1)••• G(tm). Непараметриче-
ские оценки функционала 9 при симметричных функциях ф(?) получили название ^/-статистик [1; 2]. В классе робастных оценок 9 применяется метод усечения выборки - усеченные ^/-статистики [3].
Обозначим через f (x) и F(x) плотность и ФР
случайной величины X = ф(71,..., Уп1), тогда 9 = |zdF(2). Выборку У1,..., Ym преобразуем в выборку x1,..., хм, где xj = ф(у,..., у ); N - мощность
множества {/ < /2 <... < /т}. При таком преобразовании задача оценивания параметра 9 сводится к задаче оценивания параметра сдвига распределения F (х). В параметрической статистике такой прием широко используется для синтеза несмещенных оценок параметров как функций от достаточных статистик и в вычислительном отношении достаточно удобен, однако основная сложность здесь связана с переходом от распределения G( у) к распределению F (х) [4]. В связи с этим будем считать, что вид ФР F (х) нам неизвестен и задача относится к классу непараметрических задач оценки параметра сдвига.
В настоящее время нет недостатка в робастных оценках параметра сдвига, что создает даже определенное неудобство для пользователей (см. например, [3; 5] и библиографические списки к ним). Отметим ряд особенностей таких оценок. Большинство из них робастны на классе и имеют низкую эффективность в отсутствии выбросов. Как выход предложены адаптивные оценки: в основном используется адаптация по параметру усечения, но не по виду F(х) [3], или адаптация ведется по виду распределения F(х), но функция и параметр усечения подбираются эвристически [6]. Эта работа Р. Берана интересна в двух аспектах: в ней, очевидно, впервые введены робастные непараметрические оценки плотности, а также использован метод подстановки на основе этих оценок для получения оценки параметра. Становится понятным, что робастные эффективные оценки должны быть адаптивными как по виду основного распределения, так и по отбраковке выбросов.
В данной статье на основе взвешенного метода максимального правдоподобия (ВММП) [7; 8] синтезированы адаптивные робастные непараметрические оценки и показано их использование для оценки линейных функционалов.
Взвешенный метод максимального правдоподобия. Пусть F(х, 9) - унимодальное непрерывное распределение с плотностью f (х, 9) и неизвестным параметром 9 - принадлежит к классу унимодальных распределений и х1,..., хм - выборка НОР из распределения F(х, 9). Обозначим через FN (х) эмпирическую функцию распределения (ЭФР), а через g (х, 9) -априорную плотность распределения.
М-оценки неизвестного параметра 9 можно определить на основе решения эмпирического уравнения вида
|ф(х, 9N )dFN (х) = 0,
(1)
где ф( х, 9) - оценочная функция.
Анализ критерия радикальности и алгоритмов устойчивых оценок [5] позволяет сделать вывод, что все эти оценки можно получить на основе ВММП с оценочной функцией ф( х, 9) вида
ф(х, 9) =
5
—1п g(л;9)+Р
59
gl (х, 9),
(2)
где I - параметр радикальности оценки; р - параметр,
который определяется по условию несмещенности оценки, в нашем случае р = 0 [7].
Нетрудно заметить, что (2) определяет ВММП с весами ^ (х, 9). При I = 0 мы получаем оценки максимального правдоподобия (ОМП), при I = 0,5 - радикальные оценки, при I = 1 - оценки максимальной устойчивости (ОМУ) [5]. Физически роль параметра I вполне понятна и сводится к определению степени мягкого усечения как для удаленных выбросов, так и по форме априорного распределения. Таким образом, варьируя параметром I, можно получать эффективные оценки при локальных отклонениях распределения F(х, 9) от априорного в классе устойчивых оценок.
В непараметрическом случае, когда вид g(х, 9) неизвестен, заменим g(х, 9) в (2) непараметрической симметризованной оценкой Розенблатта-Парзена
gN (X, 0) = -11К ( 29 , Х 1 | dFN (г).
к
(3)
Например, для нормального ядра уравнения для оценки параметров сдвига 0 и масштаба X принимают следующий вид [7; 8]:
1 N N
---------ЕЕ (9^у - г,) • Щ (2и) = 0,
N(N-1)^*-}к N 4 1
Г9 -г ^
УJN V Х N У
1
/ + 1
(4)
•Щ1( г„) = 0,
где
Щ.( г,,) = ехр {-
N-7, ,Е=,е,ф {-
(0N - г,])2
(0N - 2т )2
X + X 2
- полусуммы Уолша.
Рассмотрим обобщенную М-оценку 0N параметра 0, которая определяется на основе решения эмпирического уравнения вида
I ф(х, 0N, (X, 0N )dFN (X) = 0,
где Т = (Т1,..., Тк)Т; Т, = |Sl(х, г, 0^(г);
Т N = | ^ (X, г, 0)dFN (г).
В связи с ограниченностью объема статьи приведем без доказательства ряд результатов в окончательном виде.
Имеет место следующее представление:
0N-0 =
я ^
|—ф( х, 0, Т )dF (х) •{^(г, 0)dF (г)
Я0
Выражение (5) определяет дисперсию параметрического ВММП (классические М-оценки) и при / = 0
(5) совпадает с выражением для дисперсии ОМП, а при / = 1 - с выражением для дисперсии ОМУ [7].
Для непараметрического ВММП
ф(х, 0, Т, Т2) = Т (х, 0) • Т2/ -1 (х, 0),
^(Х, г, 0) = -1К (20--Х г ^ К к
N у
я
S2( х, г, 0) = — S1( х, г, 0).
Я0
Выражение (5) определяет дисперсию непараметрического ВММП в зависимости от /.
Зависимости дисперсии параметрической (рис. 1) и вариации непараметрической (типа «складного ножа» jackknife) (рис. 2) оценок ВММП для модели Тьюки с асимметричным засорением от параметра радикальности 1(0 < / < 1) приведены ниже (кривая 1 на рис. 1 - без выбросов, кривая 2 - 3 % выбросов, среднее - 4, кривая 3 - 10 % выбросов, среднее - 4; кривая 1 - на рис. 2 - без выбросов, кривая 2 - выброс - 5, кривая 3 - выброс - 11, N = 39 + 1 выброс).
Рис. 1
У (г, 0) = ф(г, 0, т (г, 0)) + к Я
+ЕI ^ ( х, г, 0)—ф(г, 0, Т (г, 0)^ ( х).
,=1 ЯТ,
При выполнении ряда ограничений л/ы (0N -0)
имеет асимптотически нормальное распределение с дисперсией
а2 =
[—ф(х, 0,Т^ (х) •{у 2(г, 0^ (г). (5)
3 ЯА
Я0
Техника доказательства основана на работах Г. М. Кошкина ([9]) и результаты имеют место для стационарных процессов со слабой зависимостью.
В параметрическом случае (S, = 0)
ф(х, 0) =
Я
—я (X, 0)
Я0
я1 -1( X, 0).
(6)
Рис. 2
Анализ дисперсии и вариации в зависимости от / (рис. 1, 2) показывает, что существует оптимальное /, доставляющее минимум дисперсии и вариации оценки.
2
X
2
-|/-1
X
2
X
N
г,] =
2
Адаптивные оценки взвешенного метода максимального правдоподобного. Непараметрический подход на основе оценок Розенблатта-Парзена вида (3) позволяет осуществить адаптацию оценок ВММП по виду распределения. Адаптации по параметру радикальности / (0 < / < 1) производится с помощью бутстреп-метода. Для этого достаточно использовать простые бутстреп-процедуры типа «складного ножа» ^асккпИе) и алгоритмы поиска минимума вариации непараметрического ВММП. Моделирование также показывает, что при оптимальном / наблюдается и минимальное смещение оценки.
Примеры. Как отмечалось выше, значительный интерес представляет нахождение робастных непараметрических оценок для и-статистик. Применим для этого адаптивные оценки ВММП.
В первую очередь нас интересуют робастные непараметрические оценки функции распределения
G(г) = | С (г - у^( у) и плотности в виде
я (г) = { к ((г - у) • нм1 ^(у), где С(у) - функция Хевисайда; К(у) - ядерная функция. Зафиксируем значение г = г0. От выборки у1,...,ум перейдем к выборкам х1 = С(г0 - у,) для ФР и х, = К((г0 - у,) • к,1) для плотности соответственно.
Представим результаты моделирования в зависимости от / для асимметричной модели выбросов Тью-ки N = 100, 10 % выбросов из нормального распределения со средним, равным пяти, рис. 3, 4). Хорошие результаты показывают радикальные оценки (/ = 0,5), / оптимально при / = 0,35, при / = 1 происходит достаточно сильное подрезание.
Рис. 3
Рис. 4
Результаты моделирования для вариаций оценок дисперсии (хк = 0,5 • (у1 - у,)) и средней разницы
Джини (хк = |у, - у, |) приведены на рис. 5, 6 (И = 30 + + 1 выброс).
а.е-65 ---------------1------------1------------1-----------1------------
0 0.2 0.-1 0.6 0.0 1
Рис. 5
И ------------1----------1----------1-----------1----------
О 0.2 0.4 0.6 0.8 1
Рис. 6
Таким образом, предложен адаптивный робастный непараметрический алгоритм нахождения линейных функционалов, который позволяет адаптивно (путем мягкого усечения) настраивать оценку в зависимости от исходного распределения и выбросов. Рассмотрено робастное оценивание функции распределения, плотности распределения типа Розенблатта-Парзена, дисперсии, средней разницы Джини. Проведено моделирование оценок для асимметричной модели засорений Тьюки. На модели эксперимента Бе-рана [7] проведено сравнение оценки Берана и вышеприведенной оценки. Они показывают одинаковые результаты, но в оценке Берана функция усечения и окно для нее (адаптация) подбирались эвристически
[6]. Необходимо отметить, что представленный в данной статье подход позволяет применять робастные оценки ФР и плотности методом подстановки для получения адаптивных оценок неявных параметров от нелинейных функционалов.
Библиографические ссылки
1. Королюк В. С., Боровских Ю. В. Теория и-ста-тистик. Киев : Наук. думка, 1989.
2. Непараметрическое оценивание функционалов по стационарным выборкам / Ю. Г. Дмитриев,
Г. М. Кошкин, В. А. Симахин и др. ; Тос. гос. ун-т. Томск, 1974.
3. Шуленин В. П. Введение в робастную статистику / Тос. гос. ун-т. Томск, 1993.
4. Воинов В. Г., Никулин М. С. Несмещенные оценки и их применения. М. : Наука, 1989.
5. Шурыгин А. М. Прикладная статистика. Робастность. Оценивание. Прогноз. М. : Финансы и статистика, 2000.
6. Beran R. An efficient and robust adaptive estimator of location // Ann. Stat. 1978. Vol. 6, № 2. P. 292-313.
7. Симахин В. А. Непараметрическая статистика.
Ч. II. Теория оценок / Курган. гос. ун-т. Курган, 2004.
8. Симахин В. А. Взвешенный метод максимального правдоподобия // Высокие технологии XXI века : материалы IX Междунар. науч.-техн. конф. : в 2 т. Т. 2. Воронеж, 2008. С. 661-672.
9. Васильев В. А., Добровидов А. В., Кошкин Г. М. Непараметрическое оценивание функционалов от распределений стационарных последовательностей. М. : Наука, 2004.
V. А. Simakhin
ROBUST NONPARAMETRIC ESTIMATION OF LINEAR FUNCTIONALS
Robust nonparametric algorithms for estimation of linear functionals on the basis of weighted maximum likelihood method is considered in the article.
Keywords: robust, nonparametric, linear functional.
© CnMaxHH B. A., 2010
УДК 62-506.1
Н. А. Сергеева, Е. С. Терентьева
О НЕПАРАМЕТРИЧЕСКИХ ОЦЕНКАХ ФУНКЦИИ РЕГРЕССИИ И ЕЕ ПРОИЗВОДНЫХ ПРИ НАЛИЧИИ ПРОПУСКОВ ДАННЫХ
Рассмотрены непараметрические методы оценивания регрессии и ее производных по выборкам случайных величин с некоторыми особенностями при их измерении. Представлен бутстреп-метод, применяемый для решения задачи заполнения пропусков в неполных данных или устранения пустот в пространстве наблюдений.
Ключевые слова: непараметрическая оценка регрессии, Н-аппроксимация, бутстреп-метод, непараметрическая оценка производной функции регрессии, сходимость оценок.
Проблема моделирования дискретно-непрерывных процессов является одной из центральных в кибернетике. Определяющее значение при постановке задачи идентификации имеет математическая постановка, соответствующая различным априорным предпосылкам. Априорные сведения о процессе, по существу, определяют подход к задаче идентификации.
Ниже мы остановимся на задаче идентификации и связанной с ней задаче оценивания соответствующих вероятностных характеристик в условиях непараметрической неопределенности. В отличие от ставшего традиционным параметрического подхода к решению задачи идентификации в дальнейшем нам понадобятся некоторые качественные свойства поведения исследуемого процесса. Одним из главных этапов на пути решения этой задачи является оценивание регрессионных характеристик входных-выходных переменных процесса.
Непараметрический уровень априорной информации не предполагает наличия этапа выбора параметрической структуры модели, но требует некоторых сведений качественного характера о процессе, например от однозначности или неоднозначности его ха-
рактеристик, линейности для динамических процессов или характере нелинейности. При идентификации линейных динамических объектов мы сталкиваемся с необходимостью оценивания производной функции регрессии. Это связано с оценкой весовой функции линейной системы по измерениям функции переходной характеристики последней. Непараметрическая модель в этом случае представляет собой оценку интеграла Дюамеля.
Существенная особенность данного исследования состоит в предположении, что исходные выборки содержат пропуски данных при контроле входных-выходных переменных объекта. Это приводит к необходимости построения модифицированных непараметрических оценок функции регрессии и ее производных.
Пусть имеется неравномерная выборка статистически независимых наблюдений (иі, хі), і = 1,5, входных и выходных переменных системы объемом 5. Здесь иі - значение вектора наблюдений входных воздействий размерности т в і-й точке выборки, а хі -значение выходного воздействия в этой точке. Требу-