ЕСТЕСТВЕННЫЕ НАУКИ
УДК 528.06
(2)
С. Г. ВАЛЕЕВ, Ю. Е. КУВАИСКОВА, М. В. ЮДКОВА
РОБАСТНЫЕ МЕТОДЫ ОЦЕНИВАНИЯ: ПРОГРАММНОЕ
ОБЕСПЕЧЕНИЕ, ЭФФЕКТИВНОСТЬ
»
Численно исследуется эффективность ряда робастных методов оценивания, программно реализованных в виде пакета «Робастные методы оценивания»; описываются модификация программного комплекса и некоторое расширение его функционального наполнения. Эффективность программных модулей иллюстрируется.
Ключевые слова: временной ряд, выброс, динамическое регрессионное моделирование, программное обеспечение, робастные методы.
. Введение
Методы оценивания, учитывающие наличие «грубых ошибок» и позволяющие при этом достаточно точно определять оценки параметров, называются робастными, или устойчивыми. Создание устойчивых методов оценивания было вызвано стремлением улучшить существующие схемы метода наименьших квадратов (МНК) так, чтобы выбросы оказывали как можно меньшее влияние на конечные результаты оценки. Известно, что МНК-оценки являются эффективными в классе всех несмещённых оценок, если погрешности измерений распределены по нормальному закону. Однако на практике часто нормальность закона распределения погрешностей будет нарушаться, а истинный закон распределения останется неизвестным. Некоторые нарушения нормальности закона распределения могут приводить к значительной потере эффективности МНК-оценки и её отклонению от истинных значений искомых параметров. Особенно большая потеря эффективности МНК-оценок происходит при наличии даже небольшой доли больших выбросов. В таких ситуациях необходимо . применять . робастные методы оценивания, позволяющие значительно снизить вредное влияние больших выбросов на оценку и получить приемлемую итоговую оценку искомых параметров.
или как решение неявного уравнения
/=1
где р - произвольная функция, у/(х,в) = (д/д0)р{х,0), называется М-оценкой [1].
Ь-оценки [1] формируются как линейные комбинации порядковых статистик и обладают двумя важными для широкого практического применения качествами: чрезвычайной простотой вычислений и очень хорошими свойствами робастности. Ь-оценки имеют вид
п
, (3)
/=1
где Х1п9...,Хп:п есть упорядоченная выборка и
я,- - некоторые коэффициенты.
Понятие Я-оценок восходит к Ходжесу и 1еману (1963); название этих оценок отражает
Теория и алгоритмы
Всякая оценка Тп, определяемая как решение
экстремальной задачи на минимум вида
п
Л
тот факт, что они получаются из ранговых критериев.
Рассмотрим двухвыборочные ранговые критерии для определения параметра сдвига. Пусть Хх\...,Хт и У19...9Уп суть две выборки с
распределениями Н(х) и Щх+А) соответственно, где Д — неизвестный параметр сдвига. Пусть Я, есть ранг наблюдения Х{ в объединённой выборке объёма N = т + п. Критерий для проверки гипотезы А = 0 при альтернативе Д > 0 строится на основе статистики
т
1
(О
ты
(4)
1=1
п
Валеев С. Г., Кувайскова Ю. Е., Юдкова М. В., 2010
с весовыми коэффициентами ап(Г).
Я-оценку можно определить как последовательность функционалов Т„ =Тп(Х],...,Хп), в
которой Т„ выбираются так, чтобы значение (4)
оказывалось при вычислении по выборкам Х]9...9Хп и 2Тп -Х{9...92Тп -Хп сколь возможно
близким к нулю.
Рассмотрим М-оценки при оценивании параметров в основной модели регрессионного анализа У = Х(3 + в вместо минимизации суммы
квадратов отклонений (МНК)
(5)
Х><
—> Ш1П
где ¿г,- /?у •
Хьюбер [2] предложил для обеспечения устойчивости параметров к аномальности наблюдений минимизировать суммы менее быстро растущих функций
шш
или решать систему
=0, / = 1 эв. к = 0,.. ,
где у/ = р выбирается так, чтобы обеспечить
минимальную дисперсионную матрицу оценок. Хьюбером эта функция предложена в виде
• •
.• * • * •
К*,-) =
С при £1 < -с
£( ПрИ
<с
(6)
с при е{ > с
при этом вклад значении ¿г,, меньших по модулю некоторого с, измеряется в квадратах отклонений (как в МНК); если же е, >с, вклад
измеряется пропорционально^,
Параметр с определяется в зависимости от предполагаемого уровня засорения выборки аномальными наблюдениями: например, при 5%-ном засорении с = 1,40, при 20%-ном -
= П ЯЛ
V/ V/ * •
Более жёсткий подход по отношению к грубым ошибкам предложен Андрюсом:
щ
8Ш(£, / с) При < КС
> -I
0 при
> ПС
(7)
4
в т зависимости от степени засорения выборки величина с принимается в пределах 1,5...2,3, поскольку меньшие значения с сильнее ограничивают влияние грубых ошибок. В этом случае ошибки, большие по модулю, чем лс9 не
Г. .ф щ . * . •
участвуют в вычислении оценок параметров: в интервале Щ < лс/2 зависимость близка к МНК,
а прияс/2 < 1^1 < ж влияние е{ ниже, чем в
квадрате. Поэтому М-оценки Андрюса нечувствительны к грубым ошибкам в наблюдениях.
Хемпелем предложено оценивание парамет-
*
:ров с заданной функцией влияния, характер
которой определяет качественные рооастные свойства к большим выбросам. Им рекомендована функция
при
при С\ < 8{ < С2
У О/ ) = <
с -
а
8;
с-Ь
о
sign(£i) при С2 <
8;
<с
(8)
при
8.
> с
3
при значениях с\ = 1,3...2,5; с2 = 1 а, с3 = 5а.
В 1974 г. Тыоки была представлена очень гладкая \[/-функция, которая называется - бивес (или «биквадрат»). Эта функция выглядит так
«,-[1-(^/с)2]2 при
<с
8:
> С
0 при
при значениях с = 1,3...2,5.
Оценка Рамсея основана на функции
р(х) = \/у2[\-[\ + Г*
(9)
*е 11
, г>0. (10)
Робастная оценка, порождённая функцией
К*/) =
6'-(1 -СОБ^,- /С')) При
< Ж.'
2-е при
> 7Ю
, СИ)
называется оценкой Винзора. При уменьшении параметра с степень робастности оценки Винзора увеличивается.
Краткое описание прототипа библиотеки
Программа выполнена в виде отдельной формы, на которой сразу после запуска открывается меню программы «Файл», «Расчёт», «Анализ», «Библиотеки». Меню «Файл» предназначено для открытия и сохранения файлов данных.
После загрузки данных в пункте меню «Расчёт» имеется возможность выбора одного из пяти методов оценивания (Хьюбера, Андрюса, Хемпеля, Тьюки, Рамсея). После выбора метода и установки необходимых параметров для расчёта можно приступить к оценке параметров регрессионной модели. После получения робастных оценок параметров рассчитываются /-статистики и стандартные ошибки оценок.
Пункт меню «Библиотеки» содержит две библиотеки БП АКМ - «Библиотека процедур анализа качества моделей» и БП АСП - «Библиотеки процедур анализа соблюдения предположений РА-МНК».
Версия «Библиотеки процедур анализа соблюдения предположений РА-МНК» представляет собой набор процедур, реализующих проверку соблюдения следующих основных предположений регрессионного анализа: избыточность и не-дооп редел ённость модели, мультиколл и неарность регрессоров модели, нормальность распреде-
ления остатков модели, математическое ожидание остатков, гетероскедастичность, независимость остатков. Все процедуры содержатся в одном программном модуле, обращение к которым совершается при помощи соответствующих опций главного меню.
Версия программы «Библиотека процедур анализа качества моделей» реализована как библиотека, которую молено использовать как самостоятельный модуль и как приложение, которое легко можно внедрить в нужную программу. В программе реализованы внутренние, смешанные и внешние меры.
Модификация библиотеки робастных
методов
Пакет программ по робастному оцениванию был модифицирован в среду программирования Turbo Delph - одну из современных бесплатно распространяемых и доступных систем, обладающих развитыми возможностями и поддерживающих концепции объектно-ориентрованного и визуального программирования. Изменения в пакете были выполнены с учётом имеющихся в среде Turbo Delphi компонент и функциональных возможностей. Некоторым изменениям подвергся и сам интерфейс программы.
Модификация заключалась в добавлении процедуры расчёта робастных оценок методом Винзора. Кроме того, добавлен новый модуль «Процедуры идентификации типа распределения», который представляет собой набор процедур, реализующих идентификацию типа распределения: нормального, экспоненциального, равномерного, а также подбор кривых Джонсона и Пирсона. Все процедуры содержатся в одном программном модуле. Обращение к процедурам совершается при помощи соответствующих кнопок. К программе подключён модуль, дающий возможность работы с динамическими массивами и содержащий ряд процедур для работы с матрицами.
Программный модуль «Робастные методы оценивания» был интегрирован в пакет «Автоматизированная система динамического регрессионного моделирования - техническая версия»
# _
(АС ДРМ-Т). В результате интегрирования в программный комплекс АС ДРМ-Т были добавлены: функция нахождение среднего арифметического значения элементов матрицы, процедура приведения матрицы к диагональному виду модуль, процедура сортировки элементов матрицы. В модуль определения основной тенденции временного ряда в виде тренда была добавлена процедура для расчёта коэффициентов робастным методом Хыобера.
Исследование эффективности робастных методов
При оценивании параметров регрессионной модели при различных значениях параметра С для двух массивов данных получены результаты, приведённые в таблице 1.
Таблица 1
Выборка 1 Выборка 2
Метод с Sigma Delta Метод С Sigma Delia
Апдрюс 1.5 0,256057 Андрюс 1,5 166.925 *
Тьюки 2 0,211471 Тыоки 2 197,166
Хемпель 2,4 0,166440 Хемпель 2,4 710.420
Хыобср 1,2 0,192428 Хьюбер 1,2 194,537
Рамссй 1,3 0,207906 Рамсей 1,3 183,291
Винзор 1,9 0,355792 Винзор 1,9 ! 57,221
МНК 0,432145 МНК 345,477
Для первой выборки данных по внешней мере 81§таВека (внешнее среднеквадратичное отклонение (СКО)) метод Винзора по сравнению с остальными робастными методами и МНК признан наилучшим.
Для второй выборки данных но внешней мере 81§таОека метод Хемпеля по сравнению с остальными робастными методами и МНК признан наилучшим.
□ Sb Q Su nSl
<cï
«Г
9?
y
Рис. 1. Исследование эффективности робастных методов
□ Тип 6 ; El Тип 4 :
I
D ТИП 1 |
____I
яЯ?
-V-*
^
# J? Jp
Рис. 2. Исследование эффективности робастных методов (для типов 1, 4, 6)
При исследовании данных по схеме: «МНК -идентификация типа распределения - робастные методы» получены результаты: для кривых распределения Джонсона семейства SB метод Хем-
пеля дал лучший результат по сравнению с остальными, семейства SL - метод Хьюбера, семейства Sfj - метод Андрюса (рис. 1); для кривых
распределения Пирсона типа 1 метод Хемпеля дал лучший результат, для типа 4 - метод Хьюбе-ра, для типа 6 - метод Андрюса (рис/2).
Моделирование временных рядов
В качестве объекта исследования были привлечены данные по выпуску печатных плат на некотором предприятии. Исходные данные представляют собой количество печатных плат, произведённых на предприятии в течение рабочего дня. Полученный временной ряд состоит из 714 наблюдений.
Моделирование ряда проводилось по методу динамического регрессионного моделирование (ДРМ-подход) [3] и методике обработки техногенных временных рядов [4].
Предварительный анализ ряда с использованием мультифрактального анализа указы-вает на трендоустойчивость ряда. По графику временного ряда (рис. 3), где по оси абсцисс отложен временной интервал от 1 до 714, а по оси ординат значения исходного временного ряда, визуально наблюдаются выбросы (резкие всплески), поэтому на первом шаге исследования предлагается использование робастных методов оценивания параметров тренда.
Построен тренд с использованием робастного метода Хьюбера при внутреннем СКО, равным 1427,613, и внешнем СКО - 698,541. По результатам спектрального анализа делается заключение о присутствии гармонической составляющей, выделено шесть значимых гармоник. СКО гармонической модели составило 1318,8, внешняя точность - 741,863. Остатки сглаживались авторегрессионной моделью условной гетероскедастич-ности (ARCH(l)); СКО построенной модели составило 814,58, внешнее СКО - 585,382. Таким образом, для ряда получена комбинированная модель, включающая тренд, шесть гармоник и модель ARCH(l) (рис. 4).
Ряд дополнительно был обработан без использования робастных методов оценивания. На первом этапе исследования построен линейный тренд с внутренним СКО, равным 1428,019, и внешним СКО - 701,141, на следующем этапе
Рис. 4. График комбинированной модели ряда
выделено шесть гармоник с СКО - 1319,1 и по внешней точности - 758,463, на следующем этапе построена модель АКСН(1) с внутренним СКО, равным 814,99, и внешним СКО - 592,906.
Таким образом, применение робастного метода для оценивания коэффициентов трендовой составляющей позволяет несколько улучшить точность аппроксимации и прогнозирования временных рядов.
Заключение
ч
Исследована эффективность робастных методов оценивания, реализованных в виде пакета программ «Робастные методы оценивания», на примерах обработки двух выборок данных.
Добавление нового модуля «Процедуры идентификации типа распределения» позволяет дать рекомендации по применению конкретного робастного метода для определённого типа распределения остатков. Схему, используемую для исследования эффективности робастных методов, можно интерпретировать как новый взгляд на проблему неопределённости условий применения устойчивых методов.
С помощью библиотеки робастных методов, интегрированной в пакет АС ДРМ-Т, обработан временной ряд, представляющий собой информацию о производстве печатных плат. Вычисления
ТО его 11*30
юш
16000 tuai
I Г ШХ1 itSGu
II ОХ • 5WQ 15QCO НЮ t4 саз OSOO ■ »3000 IJSOU I2 0i» ПУЛ II ООО'
•0ÎOÛ ICOOQ
tsco
О ООП IWi еооо
?5CÛ
fooo
• «о
«ООО
Î0CU «400 «0U0
эосо з*со
• ого хм 1000
M
Рис. 3. График исходного временного ряда
хосо
11UU ЧУЮ ОССЛ
ttSOO
i/ouc
16 УХ
tcoon
15600
now
tlîOO 14 wu
1 > ьоо
иоио tî*» 120» Il асо 11 00Û 105СС то ООО » ил
были выполнены с применением робастного метода Хыобера на этапе выделения трендовой составляющей и без использования робастного метода.
Применение робастных методов для оценивания параметров тренда при моделировании временных рядов позволяет несколько улучшить качество модели по внешней и по внутренней точности.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Крянев, А. В. Математические методы обработки неопределенных данных / А. В. Крянев. - М.: ФИЗМАТЛИТ, 2003. - 211 с.
2. Хыобер, П. Робастность в статистике / П. Хьюбер. - М.: Мир, 1984. - 304 с.
3. Валеев, С. Г. Регрессионное моделирование при обработке наблюдений / С. Г. Валеев. -М. : Наука, 1991.-273 с. (2-е изд.: Валеев С. Г. Регрессионное моделирование при обработке данных. - Казань : ФЭН, 2001. - 272 е.).
4. Валеев, С. Г. Адаптация пакета АС ДРМ к решению экономических и производственных за-
I
УДК 539.3; 004.942
В. К. МАНЖОСОВ, И. А. НОВИКОВА
дач / С. Г. Валеев, 10. Е. Кувайскова // Вопросы современной науки и практики. Университет им. В. И. Вернадского.-2008.-№2(12).-С. 60-63.
Валеев Султан Галимзяпович, доктор физико-математических наук, профессор, заведующий кафедрой «Прикладная математика и информатика» УлГТУ. Имеет монографии и статьи в области астрометрии и небесной механики, математической статистики и разработки информационных технологий. Кувайскова Юлия Евгеньевна, аспирант кафедры «Прикладная математика и информатика» УлГТУ. Имеет публикации в области математического моделирования и разработки информационных технологий.
Юдкова Марина Викторовна, окончила экономико-математический факультет Ульяновского государственного технического университета.
МОДЕЛЬ ПЕРЕНОСА ЭНЕРГИИ ПРОДОЛЬНОЙ ВОЛНЫ ДЕФОРМАЦИИ НА ГРАНИЦЕ РАЗНОРОДНЫХ СТЕРЖНЕЙ С ЛИНЕЙНЫМ УПРУГИМ ЭЛЕМЕНТОМ
Рассмотрела задача о преобразовании продольной волны деформации на границе разнородных стерэ/спей с линейным упругим элементом. Изложена процедура расчёта процесса преобразования волны деформации в стержневой системе, определения энергии волны деформации и эффективности переноса энергии волны на границе.
Ключевые слова: волна деформации, преобразование волны, энергия волны деформации, стержневая система, граница разнородных стержней.
Работа выполнена в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» (2009 - 2013 гг.), ГК № П 1122.
Вопрос о преобразовании продольной волны деформации на границе разнородных стержней является важным при анализе ударных систем, обеспечивающих передачу энергии удара к технологической среде по составному волноводу. Эти задачи рассматривались в работах Алимова О. Д., Дворникова Л. Т., Еремьянца В. Э. [1], Алпеевой В. А. [2], Горбунова В. Ф., Цуканова А. Г., Саруева Л. А., Кашка-рова Г. М. [3], Манжосова В. К. [4, 5], Саруева Л. А., Слистина А. П., Авдеевой А. И. [6, 7] и других исследователей.
В данной работе рассмотрена задача о преобразовании продольной волны деформации на границе разнородных стержней с линейным упругим элементом. Схема стержневой системы изображена па рис. 1.
© Манжосов В. К., Новикова И. А., 2010