УДК 519.24; 519.7; 57.017
СРАВНЕНИЕ МОЩНОСТИ КРИТЕРИЯ СРЕДНЕГО ГЕОМЕТРИЧЕСКОГО И КРИТЕРИЯ КРАМЕРА - ФОН МИЗЕСА НА МАЛЫХ ВЫБОРКАХ БИОМЕТРИЧЕСКИХ ДАННЫХ
А. И. Иванов, Е. А. Малыгина, К. А. Перфилов, С. Е. Вятчанин
THE COMPARISON OF PERFORMANCE BETWEEN THE CRITERION MEAN GEOMETRIC AND THE CRITERION OF CRAMER-VON MISESA ON A SMALL SAMPLE OF BIOMETRIC DATA
A. I. Ivanov, E. A. Malygina, K. A. Perfilov, S. E. Vyatchanin
Аннотация. Актуальность и цели. Сравниваются мощности двух статистических критериев. Исследуется мощность критерия Крамера - фон Мизеса, созданного в 1928 г., и критерия среднего геометрического, предложенного в 2014 г. Сравнение осуществляют для малых тестовых выборок, характерных для биометрических данных. Материалы и методы. В качестве мощности критериев рассматривается десятичный логарифм равновероятных ошибок проверяемой гипотезы о нормальном законе распределения значений и второй альтернативной гипотезы о равномерном законе распределения данных. Результаты. Показано, что в логарифмическом масштабе мощность сравниваемых критериев хорошо описывается линейной функцией. При этом критерий среднего геометрического имеет большую мощность при выборках более 50 опытов. Этот критерий перспективнее критерия Крамера - фон Мизеса для выборок среднего объема, превышающего 50 опытов. Для обработки биометрических данных он не перспективен, так как обучение и тестирование биометрических средств, как правило, осуществляют на выборках объемом от 8 до 30 примеров. Мощность обоих рассматриваемых критериев выше мощности классического хи-квадрат критерия. Выводы. По результатам исследования было выявлено, что критерий Крамера - фон Мизеса более эффективен, чем критерий хи-квадрат. У критерия хи-квадрат больше амплитуда шума квантования и ниже его частота в сравнении с шумом квантования критерия Крамера - фон Мизеса. Однако проделанная работа по сравнению критериев среднего геометрического и Крамера - фон Мизеса оказалась недостаточной, так как линейные функции их мощности в логарифмической шкале пересекаются, но стал очевиден путь дальнейшего исследования.
Ключевые слова: критерий Крамера - фон Мизеса, критерий среднего геометрического, критерий хи-квадрат, сравнение мощности критериев.
Abstract. Background. The comparison of capacities of two statistical criteria. We investigate the power of tests of Cramer - von Misesa, which was created in 1928, and the geometric mean criterion, which was proposed in 2014. The comparison is carried out for small test samples, characteristic for the biometric data. Materials and methods. The decimal logarithm of the equiprobable error of the testable hypothesis about normal distribution of values and the second alternative of the hypothesis of uniform distributions of data examine as the power of the tests. Results. It is shown that the power of the compared criteria is described well by a linear function in logarithmic scale. At the same time the geometric mean criterion has more power in samples of more than 50 experiments. This criterion is more promising than the criterion of Cramer - von Misesa for the samples in average depth of more than 50 experiments. It is not prospecting for the processing of biometric data, because the training and testing of biometric tools usually carried out on samples with volumes from 8 to 30 examples. The output of the two considered test power above the classi-
cal Chi-square criterion. Conclusions. The study found that the Cramer - von Mises criterion is more effective than the chi-square test. In the chi-square greater the amplitude of quantization noise and lower its frequency in comparison with quantization noise Cramer -von Mises criterion. However, the work done compared to the geometric mean of the criteria and the Cramer-von Mises proved inadequate because linear function of their power on a logarithmic scale cross, but became clear the way for further research.
Key words: the criterion of Cramer - von Mises, the geometric mean criterion, Chi-square, comparing the power of tests.
Введение
Одним из наиболее популярных критериев при статистическом анализе данных является критерий Пирсона. Хи-квадрат критерию Пирсона полностью посвящена первая часть рекомендаций Госстандарта [1], тогда как все остальные критерии описаны во второй части рекомендаций [2]. К сожалению, большинство классических критериев ориентированы на использование больших выборок данных. Так, критерий хи-квадрат начинает хорошо работать при 200 опытах и выше, т.е. при анализе биометрических данных его нельзя использовать. В связи с этим необходимо для анализа биометрических данных построить статистический критерий, который смог бы достаточно эффективно работать на выборках, имеющих от 8 до 30 примеров. Эта задача достаточно сложна, так как связана с исследованием множества известных статистических критериев и, если это необходимо, синтеза нового критерия. В табл. 1 приведены перспективные, по мнению авторов данной статьи, статистические критерии с указанием времени их появления [3].
Таблица 1
Наиболее перспективные статистические критерии
Название критерия и год создания Формула критерия
1 2
Хи-квадрат критерий, или критерий Пирсона (1900 г.) ум х) - р (X)}2 dx -L р(х)
Критерий Крамера - фон Мизеса (1928 г.) J {Р(х) - Р(х)}2 dx
Критерий Колмогорова -Смирнова (1933 г.) sup |Р(х) - Р(х)|
Критерий Смирнова - Крамера -фон Мизеса (1936 г.) J {Р(х) - Р(х)}2 dP(х)
Критерий Джини (1941 г.) J |р(х) - Р(х)| <Лх
Критерий Андерсона - Дарлинга (1952 г.) 7 {Р(х) - Р(х)}2 <Р(х) 1Р (х) -{1 - Р( х)}
Критерий Ватсона (1961 г.) Г х ] J \ Р(х) - Р(х) - J [Р(х) - Р(х)]dP(х) ldP(х)
Окончание табл. 1
1 2
Критерий Фроцини (1978 г.) | Р(х) - Р(х)|йР(х)
Дифференциальный вариант критерия Джини (2006 г.) [4] I |р(х) - Р(х)|й?х
Критерий среднего геометрического (2014 г.) [5-7] I д/Р(х) • (1 - Р(х))йх
Указание времени появления того или иного критерия неслучайно, так как достаточно старым критериям (например хи-квадрат критерию Пирсона 1900 г.) в литературе уделено много внимания. Они хорошо исследованы несколькими поколениями ученых. Иначе обстоит дело с недавно созданными критериями. Вероятность того, что они окажутся эффективными, высока из-за того, что они слабо исследованы. Еще одной проблемой является то, что давно созданные критерии пока не имеют одной и той же шкалы сравнений.
В рамках данной работы предлагаем, на наш взгляд, достаточно универсальную шкалу сравнения мощности различных критериев, которая очень похожа на общепринятый метод описания цифровых линейных фильтров. Естественно, что все статистические критерии являются некоторыми нелинейными низкочастотными фильтрами, подавляющими возникающие при статистической обработке шумы квантования.
1. Шумы квантования при статистической обработке малых выборок
Рассмотрим простейшую ситуацию, когда тестовая или обучающая выборка представлены девятью примерами образа «Свой». Из-за того, что непрерывная функция вероятности Р (х) первого биометрического параметра -
У1 малой выборки, мы вынуждены описывать ее ступенчатой, монотонно возрастающей функцией Р(х), как это показано в левой части рис. 1.
Рис. 1. Эффекты квантования непрерывной вероятности распределения значений и непрерывной плотности распределения значений путем их представления девятью примерами, порождающие непрерывный шум ошибки квантования
Для того чтобы построить ступенчатое, монотонно возрастающее приближение Р(х), необходимо осуществить сортировку биометрических данных по их возрастанию:
xi = sort(v1i) для i = 0,1, 2,...., n, (1)
где n - размер тестовой выборки или число квантов приближения монотонной функции вероятности.
В этом случае монотонно возрастающая ступенчатая функция будет описываться следующим кусочно-постоянным приближением:
Р( х,) = -. (2)
n
Ошибка приближения, или шум квантования, находится как разность непрерывной функции вероятности и ее ступенчатого приближения:
АР (х) = Р( х) - Р( х). (3)
В нижней части рис. 1 отображены функции ошибки квантования или шумы квантования, возникающие из-за малых тестовых выборок.
В контексте вышеизложенного статистический критерий Колмогорова -Смирнова [7] следует рассматривать как поиск максимального значения модуля ошибки приближения
sup |Р(х) - Р(х)| = max |АР(х1 )| (4)
или выбор наибольшего из локальных максимумов шума квантования.
С этих же позиций статистический критерий Крамера - фон Мизеса [7] является оценкой стандартного отклонения шума квантования непрерывной функции вероятности
J {Р(х) - Р(х)}2 <Х = J {E(АР(х)) - АР(х)}2 <Х =
= J {АР(х)}2 <Х = а2 (АР(х)), (5)
если выполняется условие нулевого математического ожидания шума квантования E(АР(х)) = 0 .
Следует подчеркнуть, что статистический критерий Колмогорова -Смирнова (4) всегда имеет меньшую мощность в сравнении с критерием Крамера - фон Мизеса (5). Критерий Колмогорова - Смирнова (4) точечный, а критерий Крамера - фон Мизеса (5) интегральный.
Очевидно, что с ростом размеров тестовой выборки n статистические критерии набирают мощность оценок, однако оценка по интегральному критерию всегда оказывается надежнее, чем оценка по точечному критерию.
2. Сравнение по мощности критерия Крамера - фон Мизеса и хи-квадрат критерия Пирсона
Будем исходить из того, что биометрические данные по каждому из контролируемых параметров распределены нормально. Тогда качество данных одного параметра можно оценивать и по критерию Крамера - фон Мизеса, и по критерию хи-квадрат [7]. Для сравнения критериев как альтернативу будем использовать распределение данных по равномерному закону. Результаты численного моделирования для выборок из девяти примеров приведены на рис. 2.
Рис. 2. Распределения значений критерия Крамера - фон Мизеса и хи-квадрат критерия Пирсона для нормального закона распределения и его альтернативы в виде равномерного закона распределения для выборок из девяти примеров
При принятии решения важным является порог сравнения. Каждый порог сравнения дает свое значение вероятностей ошибок первого рода P\ и вероятность ошибок второго рода P2. Для исключения неопределенности порога сравнения будем сравнивать результаты в точке равной вероятности ошибок P\ = P2 = Pee.
Из рис. 2 видно, что распределение данных, полученных по критерию Крамера-фон Мизеса, дает значение P\ = P2 = PEE = 0,306. При тех же условиях хи-квадрат критерий дает значение равновероятных ошибок P\ = P2 = PEE = = 0,327. Результат оказывается хуже примерно на 9 %. Это означает, что хи-квадрат критерий требует выборки из \0 примеров, тогда как для критерия Крамера - фон Мизеса потребуется только девять примеров. Снижение требований к размерам тестовой выборки обусловлено тем, что ошибка квантования функции вероятности P(x) оказывается меньше ошибки квантования плотности распределения p(x) (см. рис. \). При вычислении хи-квадрат критерия мы вынуждены переходить от дискретного приближения P (x) c девятью ступеньками (левая часть рис. \) к гистограмме, приближающей плотность распределения четырьмя столбцами (правая часть рис. \). Два сравниваемых статистических критерия имеют разный шум квантования. Шум квантования критерия Крамера - фон Мизеса всегда имеет примерно в \fñ больше скачков в сравнении с шумом квантования, получающимся при использовании гистограмм в процессе вычисления хи-квадрат критерия.
Вычислительная процедура критерия Крамера - фон Мизеса примерно в \[ñ раз эффективнее подавляет влияние шумов квантования в сравнении с
процедурой вычисления данных по критерию хи-квадрат. Чем больше тестовая выборка, тем сильнее сказывается эффект более сильного подавления влияния шумов квантования. На рис. 3 приведены данные моделирования для выборки, состоящей из 32 примеров.
Рис. 3. Распределения значений критерия Крамера - фон Мизеса и хи-квадрат критерия для нормального закона распределения и его альтернативы в виде равномерного закона распределения для выборок из 32 примеров
Из рис. 3 видно, что для выборки из 32 примеров критерий Крамера -фон Мизеса дает P = P2 = PEE = 0,111, что на 43 % меньше, чем дает критерий хи-квадрат P1 = P2 = PEE = 0,196. В первом приближении можно ожидать снижения объемов тестовой выборки примерно на 40 %, если перейти от применения критерия хи-квадрат к критерию Крамера - фон Мизеса.
3. Сравнение мощностей статистических критериев
Очевидно, что для сравнения статистических критериев необходимо рассчитать для каждого критерия равные вероятности ошибок первого и второго рода для выборок, имеющих разные объемы. Результаты расчетов сведены в табл. 2, в которой наиболее слабые критерии помещены в верхнюю часть таблицы. По мере роста мощности критерия он опускается в низ таблицы.
Таблица 2
Значения равных вероятностей ошибок первого и второго рода при проверке гипотезы нормального и гипотезы равномерного закона распределения значений
Критерии Число опытов в тестовой выборке
9 16 25 36 49 64 81 100 121
Значения равновероятных ошибок Р1 = Р2 = РЕЕ
1 2 3 4 5 6 7 8 9 10
Критерий Джини 1941 г. 0,50 0,497 0,482 0,417 0,348 0,269 0,225 0,205 0,186
Критерий Смирнова - Колмогорова 1933 г. 0,46 0,44 0,345 0,315 0,239 0,232 0,215 0,201 0,177
Окончание табл. 2
1 2 3 4 5 6 7 8 9 10
Критерий Фроцини 1978 г. 0,439 0,38 0,325 0,268 0,212 0,172 0,154 0,107 0,089
Хи-квадрат критерий Пирсона 1900 г. 0,42 0,32 0,29 0,256 0,207 0,153 0,131 0,101 0,083
Дифференциальный критерий Джини [4] 2006 г. 0,40 0,305 0,285 0,245 0,197 0,145 0,120 0,91 0,078
Среднее геометрическое 2015 г. [5, 6,7] 0,414 0,331 0,231 0,155 0,103 0,058 0,036 0,017 0,012
Критерий Крамера -фон Мизеса 1928 г. 0,259 0,22 0,18 0,13 0,095 0,069 0,045 0,021 0,019
К сожалению, работа с таблицей затруднена, данные в таблице не наглядны. В связи с этим воспользуемся логарифмической шкалой и построим графики, приведенные на рис. 4.
0.1
0.01
1о8 0 10
р)
••Г"
Оч КфМ
>
/ щ
о
20
40
60
80
100
120
140
Рис. 4. Графики мощностей % -критерия Пирсона, критерия Крамера - фон Мизеса (КфМ), критерия среднего геометрического
Из рис. 4 видно, что критерий среднего геометрического имеет большую мощность в сравнении с критерием Крамера - фон Мизеса для выборок объемом более 50. Однако, для решения задач биометрии он малоперспективен, так как уступает по своей мощности критерию Крамера - фон Мизеса. Видимо, критерий Крамера - фон Мизеса следует использовать как исходный генетический материал для создания более мощного критерия, хорошо работающего на выборках от 8 до 30 примеров, объединяя его с иными статистическими критериями.
Заключение
Рассматривать статистические критерии как некоторые нелинейные низкочастотные фильтры, подавляющие шумы квантования, технически выгодно. Очевидной становится причина более высокой эффективности критерия Крамера - фон Мизеса по сравнению с хи-квадрат критерием. У хи-квадрат критерия больше амплитуда шума квантования и ниже его частота в сравнении с шумом квантования критерия Крамера - фон Мизеса (см. рис. 1). Если сравнивать критерий среднего геометрического и критерий Крамера -фон Мизеса, все оказывается сложнее. Линейные функции их мощности в логарифмической шкале пересекаются. Естественно, что проведенных исследований пока недостаточно, однако ясен путь, по которому следует двигаться.
Список литературы
1. Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа х2. - М. : Госстандарт России, 2001. - 140 с.
2. Р 50.1.037-2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. - М. : Госстандарт России, 2002. - 123 с.
3. Кобзарь, А. И. Прикладная математическая статистика. Для инженеров и научных работников / А. И. Кобзарь. - М. : ФИЗМАТЛИТ, 2006. - 816 с.
4. Малыгин, А. Ю. Быстрые алгоритмы тестирования нейросетевых механизмов биометрико-криптографической защиты информации / А. Ю. Малыгин,
B. И. Волчихин, А. И. Иванов, В. А. Фунтиков. - Пенза : Изд-во Пенз. гос. ун-та, 2006. - 161 с.
5. Волчихин, В. И. Эффект снижения размера тестовой выборки за счет перехода к многомерному статистическому анализу биометрических данных / В. И. Вол-чихин, А. И. Иванов, Н. И. Серикова, Ю. В. Фунтикова // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2015. - № 1 (33). -
C. 50-59.
6. Использование среднего геометрического, ожидаемой и наблюдаемой функций вероятности как статистического критерия оценки качества биометрических данных / Б. С. Ахметов, А. И. Иванов, К. А. Перфилов, Е. Д. Проценко, Д. С. Пащенко // Труды Международного симпозиума «Надежность и качество». - 2015. -Т. 2. - С. 281-283.
7. Перфилов, К. А. Расширение многообразия статистических критериев, используемых при проверке гипотез распределения значений биометрических данных / К. А. Перфилов, А. И. Иванов, Е. Д. Проценко // Европейский союз ученых. -2015. - № 13, ч. 5. - С. 9-12.
Иванов Александр Иванович доктор технических наук, доцент, начальник лаборатории биометрических и нейросетевых технологий, Пензенский научно-исследовательский электротехнический институт E-mail: [email protected]
Ivanov Alexander Ivanovich doctor of technical sciences, associate professor, head of the laboratory of biometric and neural network technology, Penza Scientific-Research Electrotechnical Institute
Малыгина Елена Александровна
кандидат технических наук, младший научный сотрудник межотраслевой лаборатории тестирования биометрических устройств и технологий, Пензенский государственный университет E-mail: [email protected]
Malygina Elena Aleksandrovna candidate of technical sciences, junior researcher of inter laboratory testing of biometric devices and technologies, Penza State University
Перфилов Константин Александрович
аспирант,
Пензенский государственный университет E-mail: [email protected]
Perfilov Konstantin Aleksandrovich postgraduate student, Penza State University
Вятчанин Сергей Евгеньевич доцент,
заведующий кафедрой радио-и космической связи,
Пензенский государственный университет E-mail: [email protected]
Vyatchanin Sergey Evgenjevich associate professor, head of sub-department of radio and space communications, Penza State University
УДК 519.24; 519.7; 57.017
Сравнение мощности критерия среднего геометрического и критерия Крамера - фон Мизеса на малых выборках биометрических данных / А. И. Иванов, Е. А. Малыгина, К. А. Перфилов, С. Е. Вятчанин // Модели, системы, сети в экономике, технике, природе и обществе. - 2016. - № 2 (18). - С. 155-163.