УДК 519.24:546.296
В. Г. Полосин, С. В. Тертычная
МЕТОДИКА РАЗДЕЛЕНИЯ СТАТИСТИЧЕСКИХ ДАННЫХ ДЛЯ СМЕСИ ДВУХ РАСПРЕДЕЛЕНИЙ НА ПРИМЕРЕ РЕЗУЛЬТАТОВ ИЗМЕРЕНИЯ ОБЪЕМНОЙ АКТИВНОСТИ РАДОНА
В работе обсуждаются причины одновременного наложения двух различных статистических распределений при наличии нескольких источников эксхаляции радона, расположенных на исследуемой территории г. Пензы. Авторами работы предложена аддитивная модель описания смеси нескольких распределений, рассмотрен метод установления составляющих смеси источника эксхаляции и оценки параметров модели, основанный на анализе статистических результатов измерения его объемной активности. Показано, что оценка информационной энтропии, содержащейся в результатах измерения, позволяет эффективно проводить разделение статистических данных для смеси двух распределений.
Введение
Одной из важнейших проблем анализа результатов экспериментальных данных является выявление причин высоких значений объемной активности радона на основе математических моделей его источников. Очень часто при получении экспериментальных данных проявляется ситуация, при которой излучение множества различных источников соизмеримо с излучением одного отдельного источника. Необходимо заметить, что излучение большого количества соизмеримых источников различной природы хорошо аппроксимируется логарифмически нормальным распределением. С другой стороны, излучение отдельного источника, определяющего смещение объемной активности в сторону больших значений на всей исследуемой территории, хорошо аппроксимирует смещенное распределение Вейбулла-Гнеденко. Поэтому результат измерения объемной активности (ОА) радона следует характеризовать смесью одновременно двух различных гипотез статистических распределений. Разделив смеси распределения, можно получить полезную информацию об источниках излучения: характер происхождения, интенсивности, мощности и др.
Авторами работы разработана методика разделения смеси нескольких распределений на составляющие и их последующей приближенной идентификации с использованием информационных свойств статистических распределений, получивших широкое распространение при идентификации симметричных распределений [1].
Методика разделения смеси распределений на составляющие
В работе авторов «Изучение составляющих источника радона на основе анализа статистических результатов измерения его объемной активности» рассмотрена выборка экспериментальных данных измерений ОА с помощью аддитивной модели смеси двух распределений [4]. В связи с аддитивными свойствами операции интегрирования для функций плотностей смеси распределений /(х,$1,$2,...,а^,а^,...) и ее составляющих /}(х,$1,$2) и /2(х,01,02,...) возможно разложение вида
/(х,$1,«2,...,«1,«2,...) = К\/\(х,$1$2) + К2/2(х,«ь«2,...) . (1)
Любому результату измерения ОА радона хі из экспериментальной выборки [ х] можно сопоставить коэффициенты статистической значимости 41 і и 42 і этого результата для составляющих /1(х,$1,$2) и /2(х,«1,«2,...) смеси распределения, которые находятся как отношения значения составляющей плотности к значению функции плотности смеси всего распределения, найденных при известных параметрах проверяемой гипотезы распределения и значении результата хі :
Воспользовавшись коэффициентами значимости ^ г- и ^ [, можно найти статистические весовые коэффициенты и «2д составляющих функций распределений ^(х,$1,$2) и ^2(х,01,а^,...) :
В работе [2] показано, что целый класс несимметричных распределений допускает их преобразование у = ф( х) к показательному экспоненциальному распределению вида
которое в результате симметричного отражения положительных значений выборки у относительно нулевого значения величины (уо = 0) преобразуется к симметричному двухстороннему показательному распределению Лапласа:
Для проверки статистической гипотезы смеси распределений подвергают преобразованиям ф1(х) и ф2(х) значения всей выборки. При этом необходимые параметры преобразований находят на основе известных параметров смеси распределений и функций ее составляющих. Следует отметить, что при образовании симметричной выборки значений их количество возрастает в два раза, следовательно, коэффициенты д{г- и д2г значений вновь образованных выборок [21 ] и [22] должны быть уменьшены в два раза по отношению к соответствующим коэффициентам значимости (2) базовой выборки [ х] результатов измерения ОА радона. Для построения гистограммы по результатам значений выборки [21] значения всей выборки сортируется в по-
4 1 / (х, $1, $2,..., «1, «2,...)’
/1( хі, $Ъ $2)
42 і =------———---------------.
/(хі,$1,$2,...,«1,02,...)
/2 (хі, «1,02,...)
(2)
N
N
п14 = 2 41і , п2д = 2 42] .
і=1
(3)
рядке возрастания. Вероятность попадания значения Zl г- выборки в интервал [ 21 j, 21 j +А2] определена путем суммирования весовых коэффициентов всех
значений выборки, попавших в указанный интервал: Plq j = £ 41 у .
г=к
Полученные, таким образом, вероятности р^ j попадания результата
в заданный интервал учитывают как количество результатов, так и их значимость для идентифицируемой составляющей смеси распределения. Эти вероятности Р1ду позволяют рассчитать оценки контрэксцесса X 21 и энтропийного коэффициента к21 для составляющей ^1(х, $1, $2) смеси распределений с учетом значимости результатов измерений. Приближенная идентификация формы распределения центрированной случайной величины 2ц проводилась по сочетанию оценок контрэксцесса х и энтропийного коэффициента к2 с использованием топографической классификации, показанной на рис. 1. Аналогично полученные оценки контрэксцесса Хг2 и энтропийного коэффициента к22 для составляющей смеси распределений ^2(х,01,02,...) учитывают значимости результатов измерений д2г, что позволяет провести ее идентификацию. На топографической диаграмме, показанной на рис. 1, распределению Лапласа соответствует точка Ь, для которой значение эксцесса распределения е, контрэксцесса %л и энтропийного коэффициента к2 соответственно равны 2,45, 0,408 и 1,92 [2]. Неопределенности контрэксцесса и энтропийного коэффициента для распределения Лапласа, расчет которых приведен в работе [2], ограничены соответственно интервалами [0,38; 0,44] и [1,82; 2,02]. Рассчитанные интервалы неопределенности позволяют выделить на топографической диаграмме распределений (рис. 1) области оценок X и кэ, используемые для идентификации распределений. Эта область оценок показана на топографической диаграмме (рис. 1) в виде заштрихованной области, ограниченной линией е.
Для анализа данных измерения ОА радона зимнего периода на основе аддитивной модели были получены следующие смеси распределений:
1) смесь смещенного распределения Вейбулла-Гнеденко и распределение минимального значения;
2) смесь смещенного распределения Вейбулла-Гнеденко и двойного показательного распределения.
Для каждого распределения при различных весовых коэффициентах составляющих смеси определены параметры модели методом минимизации средней квадратической погрешности решения и определены для каждой отдельной ее составляющей коэффициенты контрэксцесса и энтропийного коэффициента. Результаты расчета при различных весовых соотношениях функций на участках с наиболее удачными результатами даны в табл. 1, 2. Следует отметить, что на результат решения достаточно сильно влияют ограничения, накладываемые на параметры модели смеси распределения, которые могут быть установлены на основе экспериментальных данных до проведения расчетов.
1 1 1 1 1 1 1 1 1 1 1 1 №2 | №3 №4 1
№7 Ф №2
' Б 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,35 0,4 0,45 0,5 X
Рис. 1 Топографическая диаграмма распределений: а - составляющая распределения минимального значения в смеси со смещенным распределением Вейбулла-Гнеденко; Ь - составляющая распределения Вейбулла-Гнеденко в смеси с двойным показательным распределением; с - составляющая двойного показательного распределения в смеси с распределением Вейбулла-Гнеденко; ё - линия положения экспоненциальных распределений с различными степенными показателями; е - линия, ограничивающая область допустимых значений контрэксцесса и энтропийного коэффициента при идентификации симметричного распределения Лапласа, положение которого задано с помощью точки Ь
Таблица 1
Смесь смещенного распределения Вейбулла-Гнеденко и распределение минимального значения
№ *1 Распределение Вейбулла- Гнеденко Распределение минимального значения Параметры распределения
&1 кл Хй кт2 в, Бк/м3 У *0, Бк/м3 м3/Бк 3 , м Б
0 0,21 0,546 1,664 0,386 1,958 150,9 3,043 70 20,86 121,36
1 0,25 0,564 1,819 0,391 1,975 139,3 2,464 70 20,24 109,7
2 0,3 0,561 1,874 0,407 1,993 160,2 2,483 37,1 19,85 109,3
3 0,35 0,554 1,823 0,430 1,965 151,6 2,167 33,9 19,25 109,1
4 0,37 0,569 1,867 0,522 2,05 146,6 2,044 34,6 18,98 109,2
5 0,4 0,57 1,88 0,533 2,053 138,6 1,881 36,3 18,52 109,3
6 0,5 0,572 1,949 0,514 2,025 114,9 1,495 42,0 16,23 110,8
7 0,6 0,555 1,901 0,461 1,986 96,18 1,260 46,9 11,86 112,9
8 0,7 0,544 1,89 0,478 1,950 82,51 1,154 51,6 6,62 114,3
9 0,8 0,547 1,925 0,517 2,032 70,5 1,086 58,6 2,11 116,4
10 0,9 0,461 1,747 0,489 1,959 61,7 1,205 70 4,63 64,901
11 0,9 0,53 1,916 0,568 1,995 47,8 0,987 82 4,63 64,901
Таблица 2
Смесь смещенного распределения Вейбулла-Гнеденко и двойного показательного распределения
№ *1 Распределение Вейбулла- Гнеденко Двойное показательное распределение Параметры распределения
&1 ^г1 &2 кг2 в, Бк/м3 У *0, Бк/м3 ь, м3/Бк
0 0,45 0,554 2,035 0,589 1,916 110,4 7,302 0 0,018 6,553
1 0,55 0,443 2,007 0,553 1,923 109,8 5,82 0 0,017 7,031
2 0,6 0,404 1,96 0,518 1,915 109,2 5,311 0 0,017 8,096
3 0,65 0,396 1,957 0,459 1,886 108,3 4,964 0 0,017 10,91
4 0,67 0,384 1,938 0,444 1,87 108,5 4,892 0 0,017 11,67
5 0,69 0,395 1,945 0,428 1,882 108,5 4,835 0 0,018 13,47
6 0,7 0,393 1,943 0,415 1,892 108,4 4,819 0 0,018 14,98
7 0,75 0,395 1,942 0,505 1,963 108,6 4,841 0 0,021 32,41
8 0,8 0,383 1,905 0,578 2,021 110,8 4,703 0 0,022 57,84
9 0,85 0,405 1,851 0,591 2,045 102 3,901 11,7 0,029 380,4
10 0,695 0,400 1,955 0,416 1,901 108 4,843 0 0,018 15,97
Достаточно неплохие аппроксимации для данных ОА радона зимнего периода могут быть построены в результате смеси распределений Вейбулла-Гнеденко с распределением минимального значения, ряд реализаций которой при различных весовых коэффициентах составляющей Вейбулла-Гнеденко дан в табл. 1. При проведении расчетов на параметры накладывался следующий ряд условий: 1 < у < 5, в > 0 Бк/м3, ц > 30 Бк/м3, х0 > 0 Бк/м3. Вероятностная функция и функция плотности реализации смеси распределения при весовом коэффициенте Кь равном 0,3, дана на рис. 2 (кривая 1). В этой смеси распределений наибольший вес приходится на распределение минимального значения, для которого оценка контрэксцесса Хг и энтропийного коэффициента кэ2 для указанных в табл. 1 реализаций № 1, 2, 3 и 4 находится в области допустимых значений. На топографической диаграмме с помощью кривой а показаны положения результатов при увеличении весового коэффициента распределения Вейбулла-Гнеденко от 0,21 до 0,5.
Расчет контрэксцесса распределения %1 после обработки данных в соответствии с преобразованием распределения Вейбулла-Гнеденко находится за пределами интервала неопределенности распределения Лапласа, что указывает на несоответствие этого распределения анализируемой выборке экспериментальных данных. Действительно, из рассмотрения рис. 2 можно видеть, что рассчитанная составляющая смещенного распределения Вейбулла-Гнеденко располагается в области больших значений, где выборка не является однородной. В области максимального значения составляющей распределения 3 (рис. 2) гистограмма имеет существенный провал. Это несоответствие составляющей распределения Вейбулла-Гнеденко экспериментальной выборки отражено на топографической диаграмме положением точки преобразованного распределения за пределами допустимых границ области, используемой для его идентификации как распределение Лапласа. Таким образом, эта смесь распределений не достаточно полноценна для описания выборки данных, т.к. составляющая распределения Вейбулла-Гнеденко не находится в согласии с экспериментальной выборкой данных.
Рис. 2 Гистограмма для результатов измерений ОА радона в зимний период и аппроксимация смеси смещенного распределения Вейбулла-Гнеденко и распределения минимального значения: 1 - реализация функции плотности распределений смеси; 2 - составляющая распределения минимального значения;
3 - составляющая смещенного распределения Вейбулла-Гнеденко
Наиболее удачные результаты реализуются при использовании смеси смещенного распределения Вейбулла-Гнеденко и распределения минимального значения. На рис. 3 даны гистограмма для результатов измерений ОА радона, реализация функции плотности смеси распределения 1 и функции плотности составляющих /1(х), /2(х) при весовом коэффициенте К1 распределения Вейбулла-Гнеденко равном 0,7. Параметры смеси распределения, контрэксцесса и энтропийные коэффициенты составляющих смеси, рассчитанные при различных весовых коэффициентах К1, даны в табл. 2. При проведении расчетов на параметры накладывались следующие ограничения: 1 < у < 7, в > 0 Бк/м3, х > 0 Бк/м3, ц > 0, X > 0 м3/Бк.
Рис. 3 Гистограмма для результатов измерений ОА радона в зимний период и аппроксимация смеси смещенного распределения Вейбулла-Гнеденко и двойного показательного распределения: 1 - реализация функции плотности распределений смеси; 2 - составляющая двойного показательного распределения; 3 - составляющая смещенного распределения Вейбулла-Гнеденко
Анализ данных табл. 2 показывает, что после преобразования выборки соответствующего распределению Вейбулла-Гнеденко для всех реализаций смеси распределения, контрэксцессы распределений и их энтропийные коэффициенты находятся в области допустимых значений. Кривая b на топографической диаграмме (рис. 1) последовательно соединяет положение точек всех реализаций от № 1 до 10 для этой составляющей.
После обработки выборки в соответствии с преобразованием составляющей двойного показательного распределения только две реализации № 5 и 6 имеют значения контрэксцесса 0,428 и 0,415, находящихся в допустимых пределах, соответствующих распределению Лапласа. При этом значения энтропийного коэффициента при применении преобразования двойного показательного распределения к экспериментальной выборке всех реализаций находятся в допустимых пределах. Следовательно, из всех реализаций распределений нет оснований для отклонения только реализаций № 5 и 6, причем, учитывая тот факт, что на топографической диаграмме точка реализации № 6 имеет наименьшее расстояние по отношению к распределению Лапласа, ее выбор более предпочтителен. На топографической диаграмме положение точек для различных реализаций, соответствующих преобразованию выборки данных измерения ОА радона в соответствии с двойным показательным распределением, соединяет кривая с на рис. 1.
При анализе функции плотности смеси, показанной на рис. 3, необходимо также отметить тот факт, что максимальное значение составляющей двойного показательного распределения смещено по отношению к максимуму распределения составляющей Вейбулла-Гнеденко смеси распределения Вейбулла-Гнеденко и распределения минимального значения в сторону меньших значений (см. рис. 2), что снижает влияние провала частотности данных в интервале [192; 214] Бк/м3.
Обсуждение результатов
Анализируя данные смеси распределения Вейбулла-Гнеденко и двойного показательного распределения, следует отметить еще ряд важных свойств полученной реализации, связанных с ее составляющими. Во-первых, при значениях параметра формы у > 4 составляющей Вейбулла-Гнеденко функцию плотности можно заменить аппроксимацией нормального распределения. Это означает, что разброс значений источника, для которого имеет место составляющая распределения Вейбулла-Гнеденко, обусловлен влиянием факторов измерительного характера. Положения максимума функции плотности составляющей распределения fi(x) позволяет определить математическое ожидание объемной активности источника, равное 103 Бк/м3. Из проведенной аппроксимации можно также оценить среднюю квадратическую погрешность оценки, равную 24 Бк/м3. Следовательно, истинное значение ОА источника находится в области значений от 81 до 127 Бк/м3.
Другое свойство реализации относится к составляющей двойного показательного распределения, которое можно аппроксимировать с помощью логарифмического нормального распределения с параметрами формы и параметром масштаба, равным 0,377 и 170 Бк/м3 соответственно. Возможность подобной аппроксимации позволяет выполнить оценку вклада множества остальных источников в общий фон излучения по весу двойного показательного распределения, составляющего порядка 30 %.
Список литературы
1. Новицкий, П. В. Оценка погрешностей результатов измерений / П. В. Новицкий, И. А. Зограф. - Л. : Энергоатомиздат, 1985. - С. 175-177.
2. Полосин, В. Г. Методы исследования источника радона по форме статистического распределения его объемной активности / В. Г. Полосин, С. В. Тертычная // Известия вузов. Геология и разведка. - 2008. - № 5. - С. 68-74.
3. Полосин, В. Г. Изучение составляющих источника радона на основе анализа статистических результатов измерения его объемной активности / В. Г. Полосин, С. В. Тертычная // Известия высших учебных заведений. Поволжский регион. Физико-математические науки. - 2008. - № 4. - С. 73-80.
4. Р.50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Ч. II. Непараметрические критерии.
5. Яглом, А. М. Вероятность и информация / А. М. Яглом, И. М. Яглом. - М. : Изд-во технико-теоретической лит-ры, 1957. - 160 с.