Научная статья на тему 'Адаптивные методы восстановления функции плотности распределения вероятности'

Адаптивные методы восстановления функции плотности распределения вероятности Текст научной статьи по специальности «Математика»

CC BY
937
122
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Сызранцев В. Н., Невелев Я. П., Голофаст С. Л.

Рассмотрен алгоритм восстановления плотности распределения основной характеристики закона распределения вероятности, на основе имеющейся выборки случайной величины, полученной в результате проведенных экспериментальных исследований или компьютерного моделирования, что является базового проблемой при решении задач прочностной надежности отдельных элементов и оборудования в целом а вероятностная аспекте. Приведен пример моделирования напряжений возникающих в стенке трубопровода, нагруженного внутренним избыточным давлением, являющимся случайной величиной, а также результаты восстановления функции плотности распределения напряжений, при расчете которых толщина стенки трубопровода и его размер приняты случайными,

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Сызранцев В. Н., Невелев Я. П., Голофаст С. Л.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Адаптивные методы восстановления функции плотности распределения вероятности»

• 2006 РАСЧЕТ И КОНСТРУИРОВАНИЕ МАШИН

620.10

АДАПТИВНЫЕ МЕТОДЫ ВОССТАНОВЛЕНИЯ ФУНКЦИИ ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТИ

Д-р техн. наук, проф. В. И. СЫЗРАНЦЕВ, канд. техн. наук Я. П. ИЕВЕЛЕВ, д-р техн. наук, проф. СЛ. ГОЛОФАСТ

Рассмотрен алгоритм восстановления плотности распределения - основной характеристики закона распределения вероятности, на основе имеющей с я выборки случайной величины, полученной в результате проведенных эксперт! ент альн ых исследований iviu компьютерного моделирования, что является базовой проблемой при решении задач прочностной надежности отдельных элементов и оборудования в целом в вероятностном аспекте. Приведен пример моделирования напряжений, возникающих в стенке трубопровода, нагруженного внутренним избыточным давлением, являющимся случайной величиной, а также результаты восстановления функции плотности распределения напряжений, при расчете которых толщина стенки трубопровода и его размер приняты случайными.

The algorithm of restoring a density distribution as the main concept of distribution probability law, on the basis of available samples of the aleatory variable received as a result of lead experimental researches or a computer simulation that is a base task of problem solving concerning strength reliability of separate elements and the equipment as a whole in probability aspect is examined. The given example is based on voltages simulation arising in a pipeline wall because of its internal overpressure which is an aleatory variable, and also results of restoring a frequency function of voltages distribution when the width of the wall and its size are random.

Решаемые в теориях вероятности и математической статистики задачи соотносятся между собой как прямые и обратные [1]. В рамках теории вероятности задачи формулируются следующим образом: для известного состава генеральной совокупности и известного закона распределения вероятности для заданной схемы проведения экспериментальных исследований оценить вероятность результатов эксперимента. Теория математической статистики направлена на решение задачи, обратной к рассмотренной выше: на основе результатов проведенных экспериментов восстановить закон распределения вероятности. Исчерпывающей характеристикой закона распределения вероятности является ее плотность. Знание плотности распределения вероятности позволяет решать все основные задачи статистического анализа. Восстановление плотности распределения вероятности на основе имеющейся выборки случайной величины, полученной в результате проведенных экспериментальных исследований или компьютерного моделирования, является базовой проблемой при решении задач прочностной надежности элементов и объектов нефтегазового оборудования.

Обозначим через х,, / = 1, /V выборку случайной величины X, являющуюся исходной для решения задачи определения плотности распределения вероятности Р (X). Если искомая функция Р (X) известна с точностью до конечного числа параметров, то задача восстановления плотности в подавляющем большинстве случаев является корректно поставленной [1] и для ее решения используются методы параметрической статистики [1,2]. В общем случае класс функций, к которому может принадлежать Р (.X), может быть весьма широким. По физическому смыслу .т(, i = \,N единственным требованием к Р (X) является ее непрерывность. В этом случае для восстановления Р (X) используется следующий подход.

№ 12 2006

Из теории вероятности известно, что плотность распределения вероятности Р (X) связана с функцией распределения вероятности Е(у) = Рг {X < интегральным соотношением

¡Р(х)сЬс = Е(у), (1)

-00

которое можно представить в форме

00

$ Ъ(у-х)Р(х)ск^Р(у), (2)

где 0(s)

1Э при s О, — фуНКЦИЯ единичного скачка (функция Хевисайда). О, при s < О,

При условии непрерывности функции Р(Х) решение (2) является единственным [3].

Рассмотрим эмпирическую кумулятивную функцию распределения вероятности FN(y). Если величина у превосходит к элементов выборки х,, / = объемом N, функция ^ (у) имеет вид

= (3)

** /=|

Известно [3], что эмпирическая функция распределения ^ (>>) является оптимальной непараметрической оценкой в каждой точке у для теоретической функции распределения ?{у). Следуя центральной теореме математической статистики, с ростом объема выборки N функция (у) с вероятностью единица равномерно приближается к Г (у)

Pr HmsuplF^-F^HO

= 1. (4)

В реальной ситуации обработки данных экспериментальных исследований правая часть уравнения (2), - функция распределения F(y), заменяется эмпирической функцией распределения^(у), найденной на основе выборки ограниченного объема. Поэтому решение уравнения (2) всегда будет приближенным. Для восстановления функции плотности распределения путем решения уравнения (2) в рамках теории непараметрической статистики разработаны специальные процедуры [3], обеспечивающие с ростом N сходимость последовательности решений уравнения (2) к искомой плотности вероятности Р(Х) и учитывающие некорректность постановки задачи (2), связанную с необходимостью дифференцирования неточно заданной ее правой части уравнения (2).

Выше было отмечено, что требованием при решении уравнения (2) к функции Р{Х) является ее непрерывность. Помимо этого, принимая во внимание физический смысл

функции плотности распределения, она на всей оси изменения X: от-оэ до +оо имеет

только положительные значения и удовлетворяет условию

+00

J P(x)dx — 1. (5)

№ 12 2006

Для восстановления неизвестной функции плотности распределения в рамках теории непараметрической статистики разработан ряд методов и алгоритмов [3]: «гребенка», метод гистограмм, метод ближайших соседей, метод Парзена—Розенблатта, метод разложения по базисным функциям и другие. В то же время практика решения технических задач свидетельствует, что в подавляющем большинстве случаев для восстановления функции плотности используется метод гистограмм.

Пусть F(rv)- непрерывная функция, тогда функция плотности распределения Р(у) = Е'{у). Если в качестве оценки Е(у) используется (у), то в качестве оценки Р(у)

может быть принята функция Ры (у) = (у). Естественно, в зависимости от вида функции Ем(у) и ее наполнения априорной информацией получаемое представление Рм(у) будет различным не только по форме, но и по содержанию.

При гистограммном методе оценки плотности распределения применяется разностная аппроксимация Р(у) в виде

Р(у)=Пу)=итБу±^т и ,

/>->0 /? //

а в качестве оценки функции Р(у) используется зависимость

к ' 11 т

где у — количество выборочных значений, попавших в интервал {у; у + к],

Алгоритм восстановления плотности распределения на основе (6) заключается в следующем. Имея хп г = 1, N выборку случайной величины А7, устанавливаем интервал ее наблюдения [а, Ь], где а - тт(х:,), Ъ = тах(х,), который разбивается на т непересекаю-

/ I

щихся интервалов Я,, #2,...ЯШ, каждый шириной к, и подсчитывается число выборочных значений уп попавших в интервал ///.На основе полученных величин и; оценка плотности распределения (в виде гистограммы) описывается следующим образом:

Рм{у) = %-> уен,. (7)

ш

Как показывает анализ [3], если ширина интервала И не стремится к нулю, оценка (7) является смещенной. Для уменьшения смещения необходимо увеличивать число интервалов т, что в реальной ситуации обработки экспериментальных данных по выборкам сравнительно небольшого объема далеко не всегда возможно. Более того, в работе [3] показано, что минимум вариации гистограммы достигается при вполне определенной величине /?, зависящей как от объема выборки N, так и вида восстанавливаемой функции Р(у). То есть в практическом плане, при отсутствии дополнительной информации о виде функции Р(у), критерии рационального разбиения выборки на интервалы для реализации метода гистограмм не определены. Естественно, дальнейшее использование восстановленной по данному алгоритму плотности распределения возможно только с большой осторожностью. Примером изменения гистограмм плотности распределения при вариации интервалов разбиения является рис. 1, на котором показаны результаты обработки выборки

случайной величины х,, / = 1,46, а также гистограмма, соответствующая выборке этой же случайной величины длиной 2000. Нетрудно видеть, что для выборки длиной N = 46

№12

2006

т = 16 N=46

О 0.17 0.33 0.5 0.67 0.83 ¡пМ

ту\ ~ 34 N==46

0.17 0.33 0.5 0.67 0.83 1 ш11

12 N=46

О 0.17 0.33 0,5 0.67 0.83 тИ

т= 10 N=46

О 0.17 0.33 0.5 0.67 0.83 шП

т = 8 N=46

РЖ 0.15 0.1

О 0.17 0.33 0.5 0.67 0.83 тИ

/и = 6 N=46

РЫ1 0.25

X

0.2

О 0.17 0.33 0.5 0.67 0.83 1 тИ

ю = 16 N=2000

РЫ1 0.075 4-

0.05

О 0.17 0.33 0.5 0.67 0.83 1 Ш

Рис. 1. Гистограммы восстановленной функции плотности распределения случайной величины

2006

№12

какие-либо выводы о виде функции Р{у) при изменении числа разбиений на интервалы сделать сложно, в то же время как на самом деле эта функция имеет вполне определенные закономерности. Оценка плотности распределения с использованием гистограмм является при решении технических задач весьма распространенным методом. Это, по-видимому, может быть объяснено лишь его простой реализацией. Применение этого метода в задачах прогнозирования надежности нефтегазового оборудования сопряжено с риском получения данных о вероятности безотказной работы, далеких от реальных.

Повысить степень гладкости получаемой оценки функции плотности распределения позволяют методы, предложенные Парзеном и Розенблаттом [1,3]. В них используется сглаженная эмпирическая функция распределения в виде

/ \ У-х.

К hN J

(8)

где G(i) — монотонно неубывающая функция от 0 до 1 своего аргумента, при этом G(t) = 1 - Ст(-/), т, е. G(t) — функция, симметричная относительно нуля; hN — параметр размытости.

После дифференцирования (8) имеем:

N

Тс

У

к

Nh

v*

Е*

N /=1

У

к

(9)

где К{г) = С{() — плотность распределения или ядерная функция (ядро).

Теоретические исследования функции (8) свидетельствуют [3], что смещение и вариация оценки (9) зависят от вида ядра КО) и значения параметра размытости /гл,. В работе [3] предложены различные зависимости, которые можно использовать в качестве ядерных функций (табл. 1).

Таблица 1

Функции, используемые в качестве ядерных [3|

Нормальное / т 1 п £|(0= п—ехр V2-K { 1 Лапласа Я2(0 = |ехр(-|/|) ФИШ€ 2 ipa t f \ / sin — 12J / . 2 /

Коши Логистическое Епанчикова ад-

Равномерное Треугольное *8(0 = Н'М'|<1 Квадратичное Kq{t)= v4 J,\t\<\

№12

2006

Восстановление функции плотности распределения методом Парзена—Розенблатта на "основе (9) связано с решением двух задач. Первая заключается в выборе ядерной функции K(t) из числа известных (табл. 1 или других). Вторая задача связана с определением значения параметра размытости hN .

Для выделения среди конечного числа функций K{t) наиболее подходящей, необходимо иметь критерий отбора. В качестве такого критерия может быть принят информационный функционал вида [3]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

f ]n[K(t)]P(t)di = J In [K{t)]dF(J),

(10)

максимальное значение которого соответствует условию К{1) = Р(1).

Тогда поиск оптимальных /гл, и К(1)еК = {К} (/),...Аг9(/)}сводится к решению следующей задачи:

{tiN, К* (0) = arg шах JN {hN, K(t)) = arg max

hx,K(l) hx,K(i)

i N

-5>

N-1

(N — l)h

l2K

N J* I

x,-xf

h,

(П)

Как показано в работе [3], задача оценивания оптимальной величины ЛЛ, является более сложной, нежели исходная задача восстановления плотности распределения, поскольку оптимальное значение зависит от неизвестной плотности распределения и, тем более, неизвестных ее производных. В практических приложениях весьма часто необходимы оценки плотности во вполне определенных областях, например, при решении задач прогнозирования ресурса и надежности, в первую очередь, важна оценка плотности на хвостах распределения. Поэтому при решении данной задачи необходимы алгоритмы, обеспечивающие получение оптимальных значений параметра Иы на основе имеющейся

выборки хп / = !,// случайной величины X.

В литературе по статистике для ряда функций К(1) из табл.1 получены зависимости для расчета оценок оптимальной величины на основе различных оценок выборки / = 1, N. Например, при использовании ядерной функции в виде нормального распределения (табл.1):

Л/-Х,. 1

К

У-**

h,

(12)

оптимальное значение параметра («ширины окна»), задается формулой

(13)

где .Од, — выборочная дисперсия, рассчитываемая на основе имеющейся выборки значе-

ний i-\,N 3

1 J*f 1 " ^

№ 12

2006

В результате для оценки плотности с ядром (12) и параметром размытости (13) на основе (9) имеем выражение

РАУ) =

/V

гЕехр

N

у-ъ

'Л' )

(15)

Анализируя (15), нетрудно видеть, что реализация метода Парзена — Розенблатта предполагает два этапа расчета. На первом этапе рассчитывается грубая характеристика выборки —выборочная дисперсия (14), которая в дальнейшем, через параметр размытости Ад., используется для уточнения оценки плотности распределения (15). Поскольку величина £>л. чувствительна к выбросам и не отражает характер изменения функции плотности (одномодальный, многомодальный), то извлекаемая с помощью Оы информация о плотности распределения может оказаться недостаточной для корректного решения задачи рассматриваемым методом.

Для решения задачи (11) на основе представленных в табл. 1 ядерных функций разработан комплекс программ в системе МаШсаё. Работу комплекса проиллюстрируем на примере моделирования напряжений, возникающих в трубопроводе, нагруженном внутренним избыточным давлением являющимся величиной случайной. Для генерирования выборки случайной величины g использована функция плотности в виде тригонометрического ряда

Р(У)

СОБ

.1

V

ук

(16)

0,31440; а =0,43318 име-

при а, - 1,27027; а2= -0,85566; а3 = 0,07521; а4 = -0,52205; а_ ющая два явных экстремума (рисЛ при N = 2000).

Разработанный на основе (16) датчик случайных чисел обеспечивал получение выборки gni = \yN величины g в пределах отgm.m = 5 МПа до £пшх = 8 МПа.

При расчете напряжений а в трубопроводе под действием g

а — £ (с/— 26)/(26)

толщина его стенки 5, как и диаметр приняты случайными, распределенными, соответственно, по равномерному (5тЫ= 19 мм; 5тах= 21 мм) и нормальному (среднее значение <1 = 1020 мм, среднеквадратичное отклонение 1 мм) законам распределения.

Результаты восстановления функции плотности распределения напряжений (решение задачи (11)) при использовании различных (из табл. 1) ядерных функций представлены (для N 500) на рис.2. Здесь же показаны полученные значения функционала (10), из анализа величин которых следует, что наилучшей оценкой для данной выборки является ядерная функция с равномерным ядром. Рис, 3 иллюстрирует результаты решения задачи восстановления функции плотности распределения а на основе ядерной оценки с нормальным ядром при вариации объема выборки 50, 100,200, 500, 1000. В правой части рис. 3 приведены рассчитанные значения а при вероятности 95% и 99%, а также вероятность появления напряжения величиной а = 170 МПа при различных объемах выборки. Представленные результаты расчета свидетельствуют об эффективности и достоверности разработанного программного комплекса при обработке статистических данных.

Рис. 2. Восстановленные функции плотности распределения случайной величины а с использованием ядерных

функций табл. 1

№ 12

2006

v7l>„ <>■ > « П_

vI-17

nVf

г

7У=50 m =10

h* =0,07

Jm=0,114

Pr(a = 170) =64.8%

■Prier =177.8) - 95% /М<т=18Ш = 99%

7V=100

m =20

=0,06

^N7= 0,236

Pria = 170)=62,0 %

Prfcr =177.9) = 95%)

Pr(cr =181,8)= 99%

v-7l>,p.U<IH vPl7

Л

iV=200

m

50

h*N1 =0,03

=0,266

N7

Pria =170) =62,6%

Pria =\11 A) = 95%

Pria =\79 A) = 99 %

7V=500

m =50

/j*,7 =0,025

JN7 =0,300

Pr(a = 170) =64.2%

Prier =176.8) = 95% Pria =179 Л) = 99 %

IL.

Vl»t7

Л

J30 J4<)

15(1 16()

iiiln

I 7(1 1ЯО

N=1000

m =50

=0,035

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

JN7=05350

Pr(a= 170) =64.0% Prfa =176,91= 95%

/V(a =179,7) = 99%

Рис. 3. Восстановление функции плотности распределения напряжений на основе ядерной оценки с равномерным ядром при различных объемах выборки

СПИСОК ЛИТЕРАТУРЫ

1. Д е в р о й Л., Д ь й р ф и Л. Непараметрическое оценивание плотности. Ц — подход: Пер. с англ. — М.: Мир, 1988, — 408 с.

2. А р а с л а н о в А. М. Расчет элементов конструкций заданной надежности при случайных воздействиях, — М: Машиностроение, 1987.— 128 с.

3. Симахин В. А. Непараметрическая статистика. 4.1. Теория оценок: Учебное пособие. — Курган: Изд-во Курганского гос. ун-та, 2004. — 207 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.