Геодезия и маркшейдерия
УДК 519.2:528.1
АСИММЕТРИЯ И ЭКСЦЕСС В СТАТИСТИЧЕСКОМ АНАЛИЗЕ ЗАКОНА РАСПРЕДЕЛЕНИЯ
Наталья Борисовна Лесных
Сибирская государственная геодезическая академия, 630108, Россия, г. Новосибирск, ул. Плахотного, 10, кандидат технических наук, доцент, ведущий научный сотрудник, тел.(383)343-29-21
Предлагается использовать нормальный закон распределения для приближенного доверительного оценивания асимметрии и эксцесса законов, близких по свойствам случайных ошибок измерений к нормальному закону. Представлены результаты эксперимента.
Ключевые слова: закон распределения, асимметрия, эксцесс, статистический анализ.
ASYMMETRY AND EXCESS
IN STATISTIC ANALYSIS OF DISTRIBUTION LAW
Natalia B. Lesnykh
Siberian State Academy of Geodesy, 630108, Russia, Novosibirsk, 10 Plakhotnogo St., Ph. D., Assoc Prof, tel. (383)343-29-21
Normal law of distribution is offered to be used for approximate confidence estimation of asymmetry and excess of laws similar to the normal law in properties of random measurement errors. The experiment results are presented.
Key words: distribution law, asymmetry, excess, statistic analysis.
Статистические исследования случайных величин, каковыми, в частности, являются ошибки геодезических измерений, до настоящего времени являются актуальными как в научном, так и в практическом отношении [1-14]. В настоящей статье рассмотрим возможности нормального законораспределения при решении ряда задач указанного типа.
Числовые характеристики случайной величины, как известно [1], представляют определенные свойства кривых распределения. Асимметрия
S =р3/ а3 (1)
характеризует наклон кривой влево или вправо.
Эксцесс
Е =ц4/ а4 - 3 (2)
определяет крутость кривой распределения.
По результатам наблюдений оценка центрального момента к-го порядка вычисляется по формуле:
40
Геодезия и маркшейдерия
мк=Е(xi - x У/ п, (3)
i=1
оценка среднего квадратического отклонения:
о = AZ (xi- x )2/(п-1); (4)
\i=1
_ п
Мх = х = Е xi/ п (5)
i =1
- оценка математического ожидания (среднее арифметическое).
При статистическом анализе закона распределения возникает неопределенность относительно допусков для возможных расхождений оценок асимметрии и эксцесса с теоретическими значениями этих числовых характеристик.
Вследствие того, что законы распределения оценок S и E неизвестны, «по ним не представляется возможным сколько-нибудь просто построить доверительные интервалы для теоретических S и E, но степень их точности может быть приближенно оценена по их средним квадратическим отклонениям:
aS =
6 (п -1)
'У (п + 1)п + 3))
о E =
24п(п - 2)(п - 3)
------2---—----— »
У(п-1) (п + 3)(п + 5)
[1].
(6)
Другой подход имеет место при исследовании соответствия нормальному закону распределения случайных ошибок геодезических измерений.
Согласно центральной предельной теореме, закон распределения суммы одинаково распределенных, независимых слагаемых с увеличением их числа приближается к нормальному. Случайные слагаемые формул (1)-(3) независимы при условии, что среднее арифметическое случайных ошибок измерений, в соответствии с их свойством, несущественно отличается от нуля.
Так как с увеличением числа наблюдений распределение оценок S и E стремится к нормальному, «при проверке гипотезы о нормальности ошибок измерений асимметрию S и эксцесс E следует признать несущественными, если
S
< t ■&£;
E
< t ■oE ,
(7)
t - аргумент функции Лапласа Ф(ф> [2]. Предлагается по правилу «трех сигм» принимать t = 3.
Формулы (7) по сути соответствуют доверительным интервалам:
P(S -1 ■ оs < S < S +1 ■ ) = Р; (8)
41
Геодезия и маркшейдерия
P(E-1-Op <E<E +1-Op) = P, (9)
при S = 0 и E = 0 для нормального закона распределения,
где в = Ф(0 - доверительная вероятность (для t = 3 Ф(?) = 0,997) [3].
Двухпараметрические законы - логистический, Лапласа, максимальных и минимальных значений по свойствам случайных ошибок измерений близки к нормальному распределению (табл. 1) [4, 5].
Свойства случайных ошибок
Таблица 1
Закон P( А < о) P( А < 2о) Р( А < 3о) Р(А > 0) Р(о< А <2о)
Нормальн. 0,683 0,954 0,997 0,5 0,271
Логистич. 0,720 0,948 0,991 0,5 0,228
Лапласа 0,757 0,941 0,986 0,5 0,184
max 0,724 0,957 0,988 0,430 0,233
min 0,724 0,957 0,988 0,570 0,233
Именно эксцесс, а для законов экстремальных значений - и асимметрия определяют основное их различие (табл. 2).
Числовые характеристики
Таблица 2
Закон Нормальн. Логистич. Лапласа max min
S 0 0 0 1,14 -1,14
E 0 1,2 3 2,4 2,4
Приведенные в табл. 1 вероятности Р попадания случайных ошибок измерений А в заданные интервалы для разных распределений, в основном, совпадают с точностью одной-двух значащих цифр. Поэтому представляется допустимым, как и в случае нормального распределения, в соответствии с центральной предельной теоремой использовать формулы (8) и (9) в отношении всех выше перечисленных законов для приближенного доверительного оценивания асимметрии и эксцесса.
«При той сравнительно малой точности, которая требуется от вероятностных расчетов», замена одних законов распределения другими «тоже может быть сделана крайне приближенно» [8].
Вычислив границы доверительного интервала, проверяем, попадают ли теоретические значения асимметрии и эксцесса в заданный этими границами интервал. Эффективность такой методики при идентификации закона распределения проиллюстрируем экспериментально.
42
Геодезия и маркшейдерия
Выборки псевдослучайных чисел (ошибок измерений), объемом n = 60 и n = 36 смоделированы по законам:
1) нормальному, 2) логистическому, 3) Лапласа, 4) максимальных значений, 5) минимальных значений [7].
Выполнен их статистический анализ с вычислением асимметрии и эксцесса, критерия Пирсона %2 проверкой свойств случайных ошибок измерений с использованием критериев равенства вероятностей и равенства средних [3, 5]. В табл. 3 приведены результаты доверительной оценки асимметрии и эксцесса, на основе которых сделаны предварительные выводы о законе распределения исследуемой совокупности.
Таблица 3
Идентификация закона распределения (n = 60)
S S - 3a S S + 3cts S E E - 3ae E + 3a e E Закон
1. Нормальное распределение
-0,020 -0,931 0,891 0 -0,685 -2,419 1,048 0 1
2. Логистическое распределение
-0,082 -0,993 0,829 0 0,227 -1,507 1,961 1, 2 2, (1)
3. Распределение Лапласа
0,787 -0,124 1,698 0 2,969 1,235 4,703 3 3
4. Распределение максимальных значений
1,043 0,132 1,954 1,14 0,881 -0,853 2,615 2,4 4
5. Распределение минимальных значений
-0,978 -1,889 -0,067 -1,14 0,978 -0,756 2,712 2,4 5
Выводы по данным табл. 3.
1. Доверительное оценивание асимметрии и эксцесса подтверждает для каждой выборки заданного закона распределение по этому закону.
2. Неопределенность выбора между нормальным и логистическим законами не разрешается другими методами анализа. При логистическом распределении выборки свойства случайных ошибок измерений выполняются и для нормального, и для логистического законов. Значение вероятности критерия Пирсона %2:
2 2 2 2
Р(Х >хэ) = 0,286 и Р(х >Хэ) = 0,234, соответственно, (примерно равны).
Результаты, представленные в табл. 4, также подтверждают гипотезу о заданном распределении каждой выборки.
С уменьшением объема выборки понижается точность определения оценок асимметрии и эксцесса, возрастает количество возможных законов для каждого варианта распределения. Если проанализировать результаты расчетов для различных значений аргумента t (3; 2,5; 2), часть из этих законов можно отклонить.
43
Геодезия и маркшейдерия
Таблица 4
Идентификация закона распределения (п = 36)
S S - 3аS S + 3aS S E E - 3ag E + 3a g E Закон
1. Нормальное распределение
-0,028 -1,172 1,116 0 -1,113 -3,223 0,997 0 1
2. Логистическое распределение
-0,092 -1,236 1,052 0 -0,042 -2,152 2,068 1,2 2, (1)
3. Распределение Лапласа
0,620 -0,524 1,764 0 2,024 -0,086 4,134 3 3, (1, 2, 4)
4. Распределение максимальных значений
0,919 -0,225 2,063 1,14 0,351 -1,759 2,461 2,4 4,(1, 2)
5. Распределение минимальных значений
-0,956 -2,100 0,188 -1,14 0,874 -1,236 2,984 2,4 5,(1, 2)
Например, доверительные интервалы асимметрии и эксцесса выборки минимальных значений позволяют при t = 3 предполагать сразу три закона - нормальный, логистический и минимальных значений. При t = 2,5 границы доверительных интервалов:
S - 2,5ст^ = -1,910 и S + 2,5ag = -0,002;
E - 2,5аe = -0,885 и E + 2,5аg = 2,633.
В эти интервалы попадают соответствующие числовые характеристики закона минимальных значений. Гипотезу о нормальном и логистическом законах, для которых S = 0, следует отвергнуть.
Для выборки с распределением Лапласа при t = 3 проходят четыре закона: Лапласа, нормальный, логистический и максимальных значений. При t = 2,5 границы интервалов
S - 2,5аg = -0,334 и S + 2,5ag = 1,574;
E - 2,5ag = 0,265 и E + 2,5ag = 3,783
позволяют исключить нормальный закон с Е = 0. Нормальный закон отвергает-
2 2 2
ся и по критерию Пирсона х . Вероятность Р(% >хэ) = 0,0096 достаточно мала.
2 2
Для логистического закона Р(% >хэ) = 0,028, для закона максимальных
2 2
значений Р(% >хэ) = 0,158. Как и числовые характеристики, критерий Пир-
44
Геодезия и маркшейдерия
сона х2 существенных отклонений эмпирических распределений от соответствующих теоретических не обнаруживает.
Гипотезу о законах - логистическом и максимальных значений - можно отклонить на основании другого критерия - равенства вероятностей: не выполняется третье свойство случайных ошибок измерений.
2 2
Для закона Лапласа Р(х >хэ) = 0,133.
В программной системе [7] рассматривается 26 законов, в том числе достаточно далеких от нормального, асимметрия и эксцесс не вычисляются, а выбор наиболее подходящего распределения осуществляется с использованием «компромиссного» критерия.
При любом объеме совокупности необходимость выбора одного из нескольких законов может быть обусловлена:
1) задачей расширить границы допустимых значений случайных ошибок измерений или их функций, например, невязок, обоснованно сохранить единичные результаты, несколько превышающие 3о. Для логистического закона распределения, который по нашим данным обычно сопутствует нормальному, доверительная вероятность в = 0,997 соответствует интервалу ±3,6 о, |Д| пред. = 3,6 -а;
2) требованием отбраковки грубых ошибок измерений. Для законов экстремальных значений присутствие случайных ошибок в интервале 3,6 - а<|Д|< 4 - а закономерно, но эти ошибки превышают допуски нормального и логистического законов распределения [10].
В других случаях наличие законов, имеющих место наряду с нормальным, не имеет значения. Они не повлияют на статистические свойства результатов уравнивания по методу наименьших квадратов [11-14].
Приближенное доверительное оценивание асимметрии и эксцесса позволило в нашем эксперименте правильно установить заданные законы распределения и, в целом, всегда соответствовало результатам проверки гипотезы о законе распределения по критерию Пирсона х2.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Смирнов Н. В., Белугин Д. А. Теория вероятностей и математическая статистика в приложении к геодезии. - М.: Недра, 1969. - 382 с.
2. Машимов М. М. Методы математической обработки астрономо-геодезических измерений. - М.: Изд. ВИА, 1990. - 510 с.
3. Лесных Н. Б. Некоторые аспекты алгоритма статистического анализа геодезических данных // ГЕО-Сибирь-2009. V Междунар. науч. конгр. : сб. материалов в 6 т. (Новосибирск, 20-24 апреля 2009 г.). - Новосибирск: СГГА, 2009. Т. 1, ч. 1. - С. 16-19.
4. Лесных Н. Б, Лесных А. И., Мизина Г. И. Сравнительная характеристика законов распределения геодезических данных // Вестник СГГА. - 2000. - Вып. 5. - С. 49-54.
5. Лесных Н. Б. Объекты статистического анализа в геодезии: монография. - Новосибирск: СГГА, 2010. - 128 с.
6. Лесных Н. Б., Лесных Г. И. О законе распределения линейной функции случайного аргумента // Вестник СГГА. - 2012. - Вып. 4 (20). - С. 27-31.
45
Геодезия и маркшейдерия
7. Дударев В. И. Оценка относительной ошибки матрицы изохронных производных // Вестник СГГА. - 2011. - Вып. 1 (14). - С. 7-16.
8. Вентцель Е. С. Теория вероятностей. - М.: АСАОБМЛ, 2005. - 576 с.
9. Лемешко Б. Ю. Статистический анализ одномерных наблюдений случайных величин. - Новосибирск: НГТУ, 1995. - 125 с.
10. Лесных Н. Б., Лесных Г. И. Законы распределения экстремальных значений // Вестник СГГА. - 2012. - Вып. 2 (18). - С. 30-34.
11. Лесных Н. Б., Лесных Г. И. Иллюстрация к теореме Гаусса - Маркова // Интерэкспо ГЕО-Сибирь-2012. VIII Междунар. науч. конгр. : Междунар. науч. конф. «Геодезия, геоинформатика, картография, маркшейдерия» : сб. материалов в 3 т. (Новосибирск, 10-20 апреля 2012 г.). - Новосибирск: СГГА, 2012. Т. 1. - С. 116-120.
12. Падве В. А., Мурзинцев П. П. Нормальные случайные погрешности измерений в геодезических сетях и их МНК-оценки // Вестник СГГА. - 2012. - Вып. 3 (23). - С. 10-16.
13. Черемушкин А. В. Исследование погрешностей интерполяции высот по картам мелкого масштаба при взыскании топографической редукции // Интерэкспо ГЕО-Сибирь-2013. 1Х Междунар. науч. конгр. : Междунар. науч. конф. «Дистанционные методы зондирования Земли и фотограмметрия, мониторинг окружающей среды, геоэкология» : сб. материалов в 2 т. (Новосибирск, 15-26 апреля 2013 г.). - Новосибирск: СГГА, 2013. Т. 1. - С. 92-94.
14. Асмус В. В., Бучнев А. А., Пяткин В. П. Кластеризация данных в программном комплексе Planeta Monitoring // Интерэкспо ГЕО-Сибирь-2013. 1Х Междунар. науч. конгр. : Междунар. науч. конф. «Дистанционные методы зондирования Земли и фотограмметрия, мониторинг окружающей среды, геоэкология» : сб. материалов в 2 т. (Новосибирск, 15-26 апреля 2013 г.). - Новосибирск: СГГА, 2013. Т. 1. - С. 195-201.
Получено 17.02.2014
© Н. Б. Лесных, 2014
46