УДК 519.23
А.М. Бондаренко
КОЛИЧЕСТВЕННАЯ МЕРА ИНФОРМАЦИИ В СТАТИСТИЧЕСКОЙ ОБРАБОТКЕ
ОПЫТНЫХ ДАННЫХ
Рассматривается возможность применения количественной меры информации в виде критерия неопределенности (энтропии) как статистики, позволяющей оценить степень согласия ряда опытных данных с теоретическими законами распределения. Обосновывается и предлагается новая методика применения энтропии к статистической обработке выборочных данных.
Энтропия, критерий согласия, статистическая обработка, выборка, распределение вероятностей, интервалы группирования
A.M. Bondarenko
QUANTITATIVE INFORMATION MEASURE IN STATISTICAL ANALYSIS
OF EXPERIMENTAL DATA
A possibility of using the quantitative information measure in terms of indefiniteness criterion (entropy) as statistics that makes it possible to assess the goodness of fit of some experimental data to the theoretical statistical law has been studied. A new technique of using entropy in the sampling data statistical analysis has been proposed and substantiated.
Entropy, goodness of fit, statistical analysis, sampling, probability distribution, group interval
Статистическая проверка исходной информации в отношении гипотез согласия, однородности и случайности выполняется в ходе анализа статистических критериев (так называемых «статистик»), вычисляемых для выборочных совокупностей. Наиболее применяемые параметрические и непараметрические статистики имеют определенные недостатки, часто не позволяющие однозначно оценить степень соответствия эмпирического материала теоретической кривой распределения случайных величин. Например, при использовании критерия Пирсона х2 вычисляются выборочные параметры (среднее, дисперсия и др.), применяемые к предполагаемому теоретическому закону распределения. то приводит в ряде случаев к принятию нуль-гипотезы тогда, когда верна альтернативная гипотеза. Под нуль-гипотезой понимают гипотезу об отсутствии различий между выборочной и генеральной совокупностями. Другие критерии (такие как критерий согласия Колмогорова) используют далеко не всю информацию, заключенную в рядах данных, поскольку учитывается только максимальное расхождение между эмпирической и теоретической функциями распределений. В любом случае принятие гипотезы носит вероятностный характер, зависящий от принимаемого уровня значимости (вероятности неправомерности нуль-гипотезы). Кроме того, в том случае, если состояние случайных объектов или явлений различаются качественно, а не количественно, использование статистических характеристик типа дисперсии невозможно. Должна использоваться такая
статистика, которая не зависит от размерности случайных величин. Вполне приемлемым может оказаться применение некой характеристики, связанной с расчетом вероятностей.
В данной работе исследуется возможность приложения к статистической оценке
гипотез величины энтропии - критерия Шеннона как количественной меры
неопределенности опыта, нашедшей широкое применение в теории информации [1]. Понятие энтропии как меры неопределенности связано с распределением вероятности случайного события (объекта, явления, величины):
н(x)=н(pi,p2,p3,...pn) = ln(11 ) _ lnP>, (1)
где pt - вероятности случайных событий; n - количество случайных событий. При этом ^_nPj _ 1. За основание логарифма (2, 10 или число Непера е) принимается такое число,
которое оказывается удобным для анализа. Это число не оказывает качественного влияния на величину энтропии, а лишь определяет ее размерность (биты, диты, ниты). При
математическом анализе целесообразно вести расчет в нитах, то есть использовать
натуральные логарифмы. Применительно к исследуемым рядам случайных величин
показатель неопределенности (энтропия) дает представление о том, насколько уверенно (определенно) появилось данное событие - весь наблюденный ряд как опыт. Максимальная неопределенность события, отвечающая максимальному значению энтропии дискретных случайных величин, имеет место при равномерном распределении вероятностей, то есть при pj _ 1 / n . В этом случае она равна согласно (1)
H max _ - П 1ln — _ ln П . (2)
n n
Очевидно, что равномерный закон распределения является предельным в отношении степени неопределенности случайных событий, поскольку случайные величины в этом случае появляются с равной вероятностью в определенном диапазоне их значений.
Неопределенность максимальна тогда, когда появление исхода случайного события в интервале равновероятно, а значит абсолютно независимо от остальных исходов.
Для бесконечного множества случайных непрерывных величин Х энтропия может быть вычислена по формуле
(*+¥
H (х) _ -J p(х) ln p(x)dx, (3)
/•+¥
где p(х) - плотность распределения вероятностей величины случайной х и J p(x)dx _ 1.
Применяя формулу (3), получим некоторые теоретические значения вероятностных энтропий непрерывных случайных величин, рассматривая равномерный, нормальный и
экспоненциальный законы распределения вероятностей.
Для равномерного (равновероятного) закона распределения случайных величин в диапазоне значений от xmin до xmax энтропия равна
1 -ln(Cmax-xmJdx_ln(Cmx -xmJ (4)
x -x
max min
Для выборки случайных величин, распределенных по любому вероятностному закону, энтропия априори может оцениваться по этой формуле как максимально возможная, дающая первоначальное представление о степени неопределенности события. При этом следует формировать ранжированный (вариационный) ряд, правильно разделенный на интервалы группирования, и использовать формулу (2), где п - количество интервалов выборки. Для нормального закона распределения с плотностью вероятности
рх) (5)
энтропия распределения
H (x) _ J p( x)(ln(ffVP) +(x - mx )2/(2s2))dx _ ln(sV2P)J p(x)dx +
J —¥ J —¥
+ J p(x)(x - mx)2/(2s2)dx _ ln(sV2P)*1 + 1/(2s2)J p(x)(x - mx)2dx _ (6)
J —¥ J —¥
= 1п(Ол/2Р) + О2 /(2о2) = 1п(Ол/2Р) + 1/2 = 1п(Ол/2Р) = 1,419 + 1по Получим теоретическую величину энтропии непрерывной случайной величины, распределенной по экспоненциальному закону распределения с плотностью вероятностираспределения:
где параметр масштаба Ь равен математическому ожиданию и среднему квадратическому отклонению случайной величины ( Ь = шх = О ), а область определения аргумента хот 0 до + ¥ . В этом случае энтропия равна
Все формулы энтропии H(x), полученные для разных распределений вероятности, включают параметры, явно отражающие статистическую структуру вероятностного распределения в виде дисперсии. Дисперсия является одним из основных статистических параметров, и функциональная связь энтропии с этой характеристикой говорит о правомерности использования величины энтропии в статистическом анализе.
Выполнено статистическое моделирование методом Монте-Карло с генерированием около 2000 выборок случайных величин с разными законами распределения вероятностей. Исследование выполнено для равномерного, нормального, экспоненциального и частично пуассоновского распределений. Генератором случайных чисел формировались ряды случайных величин разного объема данных (#=10, 20, 30, 40, 50, 60, 70, 80, 90,100, 200, 300, 400, 500, 700, 800, 900, 1000, 2000, 3000), для которых вычислялись эмпирические значения энтропий по формуле (1) с определением вероятностей событий как относительных частот pt _ щ /N (щ - частота попадания в интервал). Программа расчета энтропий составлена на языке программированияVBA для среды Excel.
Случайные числа равномерного закона распределения генерировались на интервале [0,1]. Нормальное распределение формировалось при значениях параметровтх _ 0 и s =1.
Экспоненциальное распределение [2] вычислялось по формуле E _ -b ln R, где b - среднее значение случайной величины (параметр масштаба, принятый равным 1), а R - равномерная случайная величина на интервале [0,1]. Числа, распределенные по Пуассону, генерировались для параметра 1 _ 0,5; 1; 5; 10.
При обработке ряда опытных данных как выборки из генеральной совокупности, обычно используют метод сгруппированных данных, то есть предварительно выполняется ранжирование эмпирической выборки и группирование данных по интервалам. Весь диапазон значений делится на m равных интервалов, определяется ширина интервала k _ (xmax - xmin ) / m, вычисляются относительные частоты, строятся гистограммы и
эмпирические функции распределения вероятностей. В связи с этим каждый раз делается выбор количества интервалов группирования, что является важным этапом статистической обработки. Если количество этих интервалов мало, то график не будет информативен, поскольку в этом случае нельзя составить представления о вероятностной структуре ряда. С другой стороны, большое количество интервалов может приводить к наличию «пустых», то есть не заполненных данными, интервалов, что дает недопустимое искажение гистограмм распределения. Предполагаем, что существует оптимальное число интервалов m, но
p(x) _1 e-x'b b
(7)
(8)
xe x/bdx+lnb*1 _—1— *b2 + lnb _1+lnb b2
теоретического обоснования его определения нет. Как правило, применяют эмпирическую формулу Стерджеса [3], по которой рекомендуемое число интервалов т ставится в зависимость от объема выборки: т = 1+3,322^^. Однако для ряда значений N ее
применение часто дает завышенное количество интервалов, что вытекает и из результатов выполненных численных экспериментов.
Выбор числа т свяжем с некоторыми понятиями теории информации, рассматривая процесс группирования данных и интервального осреднения как способ снятия неопределенности. В этом случае следует ожидать изменения величины энтропии вариационного ряда опытных данных как в зависимости от объема выборочных данных N, так и от количества интервалов группирования т . На рис. 1 представлены диаграммы энтропий (энтропийные кривые) для нормального распределения вероятностей генерированных выборок различного объема. Очевидна более выраженная зависимость энтропии Н от количества интервалов группирования т , нежели от длины ряда N. С увеличением т возрастает неопределенность данной выборки как события, поскольку увеличивается степень разнообразия сгруппированного материала. Показатель неопределенности (энтропия) вполне может служить и для оценки степени разнообразия случайных величин. В частности, он нашел применение при проведении географических исследований с целью районирования территории по ряду географических признаков, распределенных по площади неравномерно.
Для выборки нормированных случайных величин, полученных с помощью датчика случайных чисел на ЭВМ при о =1, теоретическое значение энтропии нормального распределения непрерывных величин из формулы (6) Н=1,42 (с округлением до сотых). Используем это значение в виде прямой линии, параллельной оси абсцисс, для оценки оптимального значения количества группировок т , назначаемого при статистической обработке опытных данных.
Полагаем, что пересечение прямой линии, соответствующей теоретическому значению Н=1,42, с энтропийной кривой выборки объемом N, должно соответствовать оптимальной величине т для данного N. Для нормального распределения в соответствии с рис.1 количество группировок может меняться от 4 до 7.
На рис. 2 показаны аналогичные диаграммы энтропий для выборок экспоненциального распределения. В соответствии с полученной формулой (7) при принятом параметре Ь=1 теоретическая величина энтропии Н =1,0. Для этого распределения вероятностей величина т , определенная по соответствующим пересечениям прямой линии и энтропийных кривых, изменяется от 4-5 до 9.
Представленные диаграммы дополнены фактическим материалом в виде таблиц вычисленных значений энтропий Н для генерированных выборок объемом N .
Расчеты, выполненные для равномерного распределения, показали, что в этом случае величина энтропии практически не зависит от объема выборки, начиная с N =100 (рис. 3). Теоретическая предельная кривая вычислена в соответствии с формулой (2), в которой величина п равна числу группировок т . Можно утверждать, что для выборки, близкой к равномерному распределению, выбор количества группировок не оказывает существенного влияния на форму кривой распределения, построенной по эмпирическим данным.
.0
I-
5
X
к
"Ю N
—а-
=20
1,0151,2891,477
■N=30
1,0051,2731,4741,64!
■N=70
■N=100
■N=300
■N=500
------ N=700
■N=1000
■N=2000
■N=3000
3
0,9721,2361,4331,6051,7531,883
0,9321,1991,4081,5671,7141,847
0,9431,1961,417
0,797
4
5
1,626
1,5741,727
0,7480,9911,1751,339
0,7751,0251,2101,3651,5061,6351,747
1,8501,9562,0632,1492,2272,3132,3782,432
1,0421,2321,3901,5381,6621,7721,877
1,48
8 9
1,607
0,8641,1121,3001,4681,6141,7401,8581,9522,0462,1282,2082,2792,343
0,8211,0541,2501,4141,5581,6801,7951,8941,9882,0732,1502,2232,288
1,9712,0512,1302,2042,270 1,8491,9402,0232,1012,1702,240 1,9111,9952,0712,1442,212 0,7240,9741Д521,3161,4531,5821,692|1,7891,8841,9682,0452Д172Д84
10 11 12 13 14 15
1,7151,817
Рис. 1. Табличные диаграммы энтропий нормально распределенных данных в зависимости от объема выборки N и количества группировок т (от 3 до 15)
1,6
1,4
1Д
0,8
0 а -
1
<т>
0,6
0,4
л *
/V Н-1,0 у' /ж'
ьу,' г
V,/. 3 4 5 6 7 8 9 10 11 12 13
—■—N=20 0,678 0,913 1,083
- -а- - N=50 0,649 0,906 1,095 1,262
—е—N=100 0,554 0,791 0,978 1,147
—*—N=200 0,474 0,697 0,887 1,045 1,188
N=300 0,451 0,687 0,870 1,032 1,173
—•— N=500 0,373 0,584 0,767 0,917 1,058 1,181 1,291
— <^ N=1000 0,320 0,523 0,702 0,857 0,997 1,123 1,233 1,332 1,423
—а— N=2000 0,259 0,438 0,606 0,755 0,890 1,010 1,118 1,217 1,307 1,391 1,468
_ _ N=3000 0,216 0,385 0,544 0,692 0,823 0,943 1,049 1,147 1,237 1,320 1,396
Рис. 2. Табличные диаграммы энтропий экспоненциально распределенных данных в зависимости от объема выборки N и количества группировок т (от 3 до 13)
Таблица 1
6
7
Рекомендуемое количество группировок
Объем выборки N 10-40 40-100 100-300 300-1000 >1000
т 4 5 6 7 7-9
Обобщая вышеизложенное, можно рекомендовать количество интервалов группирования т в зависимости от объема выборки N (табл. 1). Максимальное количество группировок рекомендуется равным 8-9, что существенно отличается от расчетных значений по формуле Стерджеса. Например, для интервала объемов выборки N =[500-1000] формула дает т = 10-11 , тогда как по нашим рекомендациям количество группировок следует принять равным 7. Полагаем, что количество т для N, близкого к 100, следует принять равным 5 , а не 8 в соответствии с расчетом по формуле Стерджеса.
Отметим, что гистограммы распределения случайных величин, полученные с рекомендуемым меньшим количеством группировок, лучше согласуются с гистограммами генерированных случайных величин нормального распределения, нежели гистограммы с завышенными значениями количества группировок.
0.0 4 5 6 7 8 9 10 11 12 13 14 15
теоретическая 1,386 1,609 1,792 1,946 2,079 2,197 2,303 2,398 2,485 2,565 2,639 2,708
—•—N=30 1,057 1,322 1,540 1,686 1,840 1,943 2,042
—*—N=50 1,349 1,558 1,731 1,880 1,989 2,106 2,200 2,284 2,356 2,429 2,488 2,545
—•— N=70 1,367 1,585 1.761 1,911 2,033 2.144 2,240 2,320 2,412 2,480 2,545 2,601
—•—N=100 1,373 1,591 1,767 1,919 2,047 2,158 2,263 2,349 2,430 2,497 2,568 2,635
—*—N=500 1,383 1,606 1,787 1,941 2,073 2,191 2,294 2,389 2,475 2,554 2,627 2,695
Рис. 3. Табличные диаграммы энтропий равномерно распределенных данных в зависимости от объема выборки N и количества группировок т (от 3 до 15)
По данным численных экспериментов построено несколько энтропийных кривых для разных вероятностных распределений. Под энтропийными кривыми в данной работе понимаются графические изображения диаграмм в виде кривых, полученных в зависимости величины энтропии Н от количества интервалов группирования т для заданного объема выборки случайных величин N . На рис. 4 приведены кривые энтропии для выборки объемом N =200. Показательно, что энтропийная кривая равномерного распределения вероятностей как предельная для всех распределений случайных величин является огибающей. Кривая энтропии нормально распределенных величин почти параллельна огибающей, и с нею фактически совпадают кривые пуассоновского распределения при больших 1=5 и 1=10 для значений т от 4 до 9. Это совпадение кривых соответствует подобию форм кривых плотности нормального распределения вероятностей и распределения Пуассона для больших значений 1. В то же время при значениях параметра 1 < 1 кривые распределения Пуассона отличаются характерной асимметричностью. Соответствующие им энтропийные кривые на рис. 4 значительно удалены от энтропийной кривой нормального распределения. Очевидно,
163
что форма энтропийной кривой и удаленность от предельной кривой равномерного распределения свидетельствуют о принадлежности данной выборки определенному закону распределения.
Рис.4. Энтропийные кривые для разных вероятностных распределений при объеме
выборки N=200
Полученные кривые вполне могут быть использованы в качестве критерия согласия эмпирического материала теоретическим кривым распределения путем графического сопоставления эмпирических энтропийных кривых и энтропийных кривых, полученных в данной работе для различных распределений случайных величин. С учетом рекомендаций по назначению количества группировок т (табл. 1) от 4 до 7 и выполненного статистического исследования величины энтропии по стандартной программе «Описательная статистика» составлена табл. 2, которая рекомендуется для практического применения. В ней помещены среднестатистические из 200 выборочных энтропий (Н), полученных для разных объемов выборки N, а также соответствующие им средние квадратические отклонения о и коэффициенты вариации су. Эта таблица статистической оценки энтропии рекомендуется к
использованию в том случае, если анализируется одно численное значение энтропии Н , вычисленное для ряда опытных данных.
Приведем пример оценки степени согласия эмпирических данных нормальному распределению с использованием рекомендуемой табл. 2.
Для ряда горизонтальных углов, измеренных 108 раз, взятого из книги Н.В. Смирнова [4], вычислено эмпирическое значение энтропии Н =1,401 при количестве группировок т =5. Пользуясь табл. 2, учитывая близость объема выборки углов к N =100, находим для N =100 и т =5 основные статистические параметры энтропии: Н =1,395,о =0,098. Распределение самой величины энтропии подчиняется нормальному распределению, поэтому можно утверждать, что с доверительной вероятностью Р =0,997 значение полученной энтропии лежит в пределах 1,395 ± 3 о =1,395 ± 0,294. Энтропия ряда углов Н =1,401 оказалась близкой к среднестатистическому значению 1,395 и практически совпадает с ним при округлении до сотых. Эта эмпирическая величина входит не только в интервал «± 3 о », но и в более жесткий интервал «± о», что однозначно подтверждает гипотезу о нормальном распределении вероятностей измеренных углов.
Таблица 2
Статистическая оценка энтропии нормального распределения
т 4 5 6 7
N Н а Су Н а Су Н а Су Н а Су
10 1,242 0,111 0,089
20 1,258 0,088 0,070
30 1,453 0,099 0,068
40 1,447 0,083 0,058
50 1,436 0,089 0,062
60 1,421 0,086 0,061
70 1,422 0,078 0,055
80 1,418 0,081 0,057
90 1,394 0,090 0,065
100 1,395 0,098 0,071
200 1,509 0,092 0,061
300 1,470 0,096 0,066
400 1,444 0,104 0,072
500 1,419 0,118 0,083
600 1,551 0,097 0,063
700 1,531 0,131 0,086
800 1,534 0,108 0,071
900 1,516 0,112 0,074
1000 1,497 0,128 0,085
Данный вывод хорошо иллюстрирует рис. 5, на котором приведены эмпирическая энтропийная кривая измеренных углов, энтропийная кривая нормального и предельная энтропийная кривая равномерного распределений. Наблюдается практически полное совпадение эмпирической и нормальной кривых энтропий.
.О
н
X
сс
X
с
о
н
X
т
4 5 6 7 8 9 10 11 12 13
Н опытного ряда углов 1,228 1,401 1,566 1,700 1,848 1,955 2,052 2,140 2,251 2,289
Н норм. распределения 1,198 1,379 1,580 1,736 1,843 1,943 2,040 2,133 2,221 2,304
—*—Н равном.распределения 1,380 1,586 1,778 1,922 2,054 2,168 2,268 2,336 2,452 2,516
Рис. 5. Табличные диаграммы энтропий эмпирического ряда объемом N=108, энтропий нормального и равномерного распределений
Применение критерия неопределенности случайных событий в виде энтропии Шеннона дает хорошие результаты при определении степени согласия распределениям нормальному,
экспоненциальному, равномерному и Пуассона. Есть основания полагать, что этот критерий вполне применим и к другим законам распределения вероятностей. Кроме того, вполне оправданно применение этой статистики и для оценки других статистических гипотез -гипотезы однородности и гипотезы случайности опытных данных.
Выводы
Критерий неопределенности (энтропия) может применяться в качестве «статистики», позволяющей оценить степень согласия (соответствия) ряда опытных данных теоретическим законам распределения. Для графического выявления степени согласия рекомендуются энтропийные кривые, полученные для разных законов распределения вероятностей. Может быть использовано и одно численное значение энтропии опытного ряда данных, если применять рекомендуемые статистические параметры энтропии нормального распределения при выявлении соответствия эмпирических данных нормальному распределению. Предлагается новое обоснование выбора оптимального количества интервалов группирования данных при статистической обработке. Количество группировок следует принимать в интервале от 4 до 9. Критерий неопределенности должен быть изучен не только для оценки статистической гипотезы согласия, но также однородности и случайности выборочных опытных данных.
ЛИТЕРАТУРА
1. Яглом А.М., Яглом И.М. Вероятность и информация. М.: Наука,1973. 354 с.
2. Хастингс Н., Пикок Дж. Справочник по статистическим распределениям. М.: Статистика, 1980. 95 с.
4. Кремер Н.Ш. Теория вероятностей и математическая статистика. М.: ЮНИТИ, 2007. 551 с.
4. Смирнов Н.В., Белугин Д.А. Теория вероятностей и математическая статистика в приложении к геодезии. М.: Недра, 1969. 381 с.
Бондаренко Александр Михайлович -
кандидат географических наук, доцент, заведующий кафедрой «Инженерные изыскания и информационные технологии в строительстве» Саратовского государственного технического университета
Статья поступила в редакцию 07.04.2011, принята к опубликованию 20.04.2011
Bondarenko Aleksandr Mikhailovich -
Candidate of geographical sciences (Ph.D. in Geography), associate professor, head of the department of Engineering Survey and Information Technology in Construction, Saratov State Technical University