Эффект снижения размера тестовой выборки за счет перехода к многомерному статистическому анализу биометрических данных

Волчихин Владимир Иванович; Иванов Александр Иванович; Серикова Наталья Игоревна; Фунтикова Юлия Вячеславовна

Известия высших учебных заведений. Поволжский регион

УДК 519.7; 519.66; 57.087.1, 612.087.1

В. И. Волчихин, А. И. Иванов, Н. И. Серикова, Ю. В. Фунтикова

ЭФФЕКТ СНИЖЕНИЯ РАЗМЕРА ТЕСТОВОЙ ВЫБОРКИ ЗА СЧЕТ ПЕРЕХОДА К МНОГОМЕРНОМУ СТАТИСТИЧЕСКОМУ АНАЛИЗУ БИОМЕТРИЧЕСКИХ ДАННЫХ

Аннотация.

Актуальность и цели. В настоящее время большинство отраслевых методик оценки качества данных строятся на использовании классического критерия хи-квадрат, который хорошо работает на больших тестовых выборках. При оценке качества обучающих выборок и тестовых выборок биометрических данных нет возможности использовать большие тестовые выборки, состоящие из 200 экспериментально полученных значений. Обычно для обучения и тестирования искусственных нейронных сетей используются выборки из 20 примеров. В связи с этим возникает актуальная задача снижения на порядок размеров выборки экспериментально получаемых данных при сохранении уровня достоверности результатов статистического анализа.

Материалы и методы. В работе анализируется влияние ошибки квантования биометрических данных, возникающей из-за приближения функции плотности распределения значений экспериментальных данных их гистограммой. Показано, что синтез гистограмм плотностей распределения значений значительно усиливают ошибки квантования данных, обусловленные малым числом примеров в выборке.

Результаты. Предложено отказаться от использования гистограмм в пользу аппроксимации функции вероятности появления наблюдаемых событий. Это эквивалентно переходу от статистического критерия хи-квадрат к статистическому критерию Джини. При этом на малых выборках ошибка квантования снижается до 5 раз при использовании одномерного критерия Джини. Еще большего снижения влияния ошибок квантования удается достичь, если пользоваться многомерным обобщенным критерием Джини. Доказано, что влияние ошибок квантования падает пропорционально корню размерности используемого критерия Джини.

Выводы. При переходе от одномерного хи-квадрат критерия проверки статистических гипотез к использованию многомерного критерия Джини удается существенно снизить требования к размерам обучающих и тестовых выборок биометрических данных. Появляется возможность увеличения качества обучения и тестирования искусственных нейронных сетей преобразователей биометрия-код за счет многомерного статистического контроля обучающих и тестовых выборок.

Ключевые слова: биометрические данные, статистическая обработка информации, критерий Джини, критерий хи-квадрат.

V. I. Volchikhin, A. I. Ivanov, N. I. Serikova, Yu. V. Funtikova

THE EFFECT OF REDUCING THE SIZE OF A TEST SAMPLE BY SWITCHING TO MULTIDIMENSIONAL STATISTICAL ANALYSIS OF BIOMETRIC DATA

Abstract.

Background. At the present time most industrial methods of data quality assessment are based on using a classic criterian of chi-square that shows a good perfor-

50

University proceedings. Volga region

№ 1 (33), 2015 Технические науки. Информатика, вычислительная техника

mance with large test samples. At quality assessment of training and test samples of biometric data there is no possibility to use large test samples, consisting of 200 experimentally obtained values. For training and testing of artificial neural networks one usually uses the samples, consisting of 20 examples. In this connection there arises a topical problem of reduction (decimation) of sample sizes of experimentally obtained data while saving the level of statistical analysis’ results reliability.

Materials and methods. The work analyses the influence of a biometric data quantization error, occurring due to approximation of the function of experimental data values distribution density by the histogram thereof. It is shown that the synthesis of value distribution density histograms significantly aggrevates the data quantization errors, caused by a small number of examples in a sample.

Results. The authors suggested to refuse to use histograms in favor of approximation of the function of observed events occurrence probability. It is equivalent to the transition from a chi-square statistical criterion to the Gini statistical criterion. Therewith, having small samples the quantization error dicreases 5 times with the usage of a one-dimensional Gini criterion. Even greater reduction of the effect of quantization errors may be achieved using a multidimentional generalized Gini criterion. It is proved that the effect of quantization errors is proportional to the dimension root, used in a Ginin criterion.

Conclusions. At the transition from a one-dimensional chi-square criterion of statistical hypotheses checking to the usage of the multidimensional Gini criterion it is possible to significantly lower the requirements to the sizes of training and test samples of biometric data. There occurs an opportunity to increase the quality of training and testing of artificial neural networks of biometrics-code converters due to multidimensional statistical control of training test samples.

Key words: biometric data, statistical data processing, Gini criterion, chi-square criterion.

Введение

Для обучения по ГОСТ Р 52633.5-2011 [1] и тестирования по ГОСТ Р 52633.3-2011 [2] большой нейронной сети достаточно выборки из 20 примеров. При этом нейронная сеть среды моделирования «БиоНейроАвтограф» [3] будет иметь 416 входов и 256 выходов. То есть с помощью нейронной сети в среде моделирования «БиоНейроАвтограф» удается решать 416-мерную задачу.

Если идти стандартным путем одномерного статистического анализа биометрических данных [4, 5] по критерию хи-квадрат, то потребуется выборка не менее чем из 100 примеров. Возникает вопрос о том, почему хорошо изученный одномерный статистический анализ [4, 5] требует примерно в 5 раз больший объем исходной информации в сравнении с более современными методами многомерного статистического анализа [2, 6]. Данная статья является попыткой оценить эффект от обобщения классических статистических критериев [7] в их одномерном варианте на многомерный вариант применения этих же критериев.

1. Критерий Джини, как наиболее удобный критерий для исследования влияния на него ошибок квантования,

возникающих из-за малого числа данных в тестовой выборке

При малом числе данных в тестовой выборке возникает большая ошибка квантования. Наиболее ярко этот эффект виден на примере критерия Джини [5]:

Engineering sciences. Computer science, computer engineering and control

51

Известия высших учебных заведений. Поволжский регион

D(x) = J р(х) -P(x)|• dx , (1)

—

где P(х) - теоретическая функция вероятности проверяемой гипотезы; P (х) - практическое приближение теоретической функции вероятности.

Критерий Джини удобен тем, что для него очень просто строится функция практического приближения P(х). В этом легко убедиться, глядя на рис. 1, где приведены результаты численного эксперимента для тестовых выборок в 12 примеров и в 24 примера, полученных от генератора случайных чисел с нормальным законом распределения значений.

Рис. 1. Дискретное представление функции вероятности и ошибка квантования для выборок из 12 и 24 опытов

52

University proceedings. Volga region

№ 1 (33), 2015 Технические науки. Информатика, вычислительная техника

Из рис. 1 видно, что амплитуды ошибок квантования, обусловленных малым числом опытов в тестовой выборке, оказываются примерно одинаковыми для выборки из 12 и 24 опытов. Очевидно, что с ростом числа опытов в тестовой выборке амплитуда ошибок квантования будет уменьшаться (при п^ж происходит снижение Л^0), однако эта связь статистическая. При обработке реальных данных монотонное уменьшение амплитуды ошибок квантования с ростом числа опытов отсутствует.

Заметим, что критерий Джини занимает уникально место среди десятков других статистических критерием, так как для него очень просто строится дискретная функция приближения монотонной функции роста вероятности по экспериментальным данным. Для всех других критериев функция квантования и функция дискретного приближения P(x), возникающая из-за недостаточного числа данных в тестовой выборке, формализуется намного сложнее. За промежуточными сложностями этих формализаций прячется информационная суть процессов, вносящих значительные ошибки квантования в результаты статистической обработки данных.

2. Влияние числа опытов на мощность критерия Джини

Интуитивно понятно, что классический критерий статистического анализа Джини будет работать тем лучше, чем больше данных будет содержаться в тестовой выборке. Убедимся в этом, повторив 3000 раз численный эксперимент для одного и того же генератора нормального шума с выборками по 12 и 24 опытов. В итоге мы получим кривые плотностей распределения значений критерия Джини, приведенные на рис. 2.

Высокая кривая плотностей распределения на рис. 2 соответствует использованию генератора данных с нормальным законом распределения значении. По этим данным было вычислено математическое ожидание E и среднеквадратическое отклонение с по выборке из 12 или 24 значений. Ожидаемая кривая вероятности в выражении (1) вычислялась через два найденных из опыта статистических момента:

+ж

D( x) = J

—ж

exp

' —(E—u)2 Л • du — P (x)

l 2с2 V

• dx.

(2)

Более низкая плотность распределения значений на рис. 2 соответствует ситуации, когда вместо нормального закона распределения значений использован генератор случайных чисел с равномерным законом распределения значений. При этом критерий Джини имеет распределение, сдвинутое в правую сторону.

Решение о применимости нормального или равномерного закона принималось по порогу, обеспечивающему равное значение вероятностей ошибок первого и второго родов P1 = P2. Данные о значениях вероятностей ошибок первого и второго родов приведены в нижней части рис. 2. Из рис. 2 видно, что удвоение числа опытов в тестовой выборке позволяет почти в л/2 раз сократить вероятность ошибочных решений, принимаемых по критерию Джини (0,18/0,13 ~ 1,39). При увеличении числа опытов в п раз должно наблюдаться увеличение мощности критерия Джини в yfn раз.

Engineering sciences. Computer science, computer engineering and control

53

Известия высших учебных заведений. Поволжский регион

Рис. 2. Плотности распределения значений критерия Джини для 12 и 24 опытов, полученных от генератора нормального закона распределения и от равномерного закона распределения значений

3. Эффект от перехода к двухмерной статистической обработке биометрических данных

Биометрических данных много, например, нейросетевой преобразователь рукописных символов в код доступа среды моделирования «БиоНейроАвтограф» [3] преобразует 416 биометрических параметров рукописного почерка в код доступа длиной 256 бит. При этом классическое выражение (2) может быть применено к любому из 416 биопараметров. Принимать решение по каждому биометрическому параметру отдельно нерационально, имеет смысл при статистических исследованиях использовать совместную обработку нескольких биометрических параметров. Для начала ограничимся решением двухмерной задачи по совместной обработке любой пары биометрических параметров, осуществляя усреднение частных критериев:

D( xi, Х2)

D( xi) + D( x2) 2

(3)

Усредняя значения частных критериев Джини для двух независимых (некоррелированных) биометрических параметров, мы дополнительно усили-

54

University proceedings. Volga region

№ 1 (33), 2015 Технические науки. Информатика, вычислительная техника

вает мощность этого статистического критерия. Результаты соответствующих численных экспериментов отражены на рис. 3.

1.00

<ош

0.333

о

Рис. 3. Плотности распределения значений двухмерного критерия Джини для независимых биометрических выборок из 12 и 24 данных

Нетрудно заметить, что для двухмерного варианта критерия Джини (3) двукратное увеличение числа опытов в тестовой выборке приводит к усилению мощности критерия в х/2 раз (0,10/0,07 = 1,4). Если сравнивать рис. 2,а и 3,а, а также рис. 2,б и 3,б между собой, то получается, что наращивать размерность решаемой статистической задачи выгоднее, чем наращивать число примеров в обучающей выборке. Для рис. 2,а и 3,а имеем увеличение мощности критерия в 1,8 раза (0,18/0,1 = 1,8). Для рис. 2,б и 3,б рост мощности критерия составит 1,86 раза (0,13/0,07 = 1,86).

Для нас принципиально важным является то, что, кроме первого пути повышения размеров тестовой выборки, существует еще один путь повышения точности статистических оценок - за счет повышения размерности критерия Джини. При этом многократное повышение размерности решаемой задачи легко достижимо простым усреднением m частных критериев:

Engineering sciences. Computer science, computer engineering and control

55

Известия высших учебных заведений. Поволжский регион

D(...........ч D(xl) + D(x2) + ••• + D(xm)

D(x1, x2,---, xm 4 =--------------------------

m

(4)

В частности, при обработке биометрических данных, извлеченных из среды моделирования «БиоНейроАвтограф», мы можем пытаться скомпенсировать недостаток данных в тестовой выборке, увеличивая значение m до величины 416. Практика подобных действий показывает, что такой путь статистических обобщений эффективен только для относительно небольших размерностей m = 2, 3, 4, ..., 32. С ростом размерности быстро наступает насыщение, далее вероятность принятия ошибочного статистического решения снижается очень медленно.

Предположительно, что именно переход к 416-мерной обработке биометрических данных в среде моделирования «БиоНейроАвтограф» [3] в итоге и позволяет эффективно обучать искусственные нейронные сети и эффективно их тестировать на 20 примерах рукописных знаков. Если учесть, что одномерные статистические критерии начинают эффективно работать при 100 и более примерах в тестовой выборке, мы наблюдаем 5-кратное снижение требований к тестовым или обучающим выборкам.

4. Учет влияния коррелированности биометрических параметров

Сравнение между собой данных, отображенных на рис. 2 и 3, дает очень хорошие результаты по двум причинам: во-первых, они получены для некоррелированных данных; во-вторых, при их усреднении возникает эффект нормализации изначально асимметричных распределений. Значительное снижение вероятности ошибок до 1,86 раза обусловлено том, что оба эти эффекта складываются. Столь значительного снижения вероятности ошибок достичь на практике нельзя из-за высокой коррелированности биометрических параметров.

В ряде работ, касающихся обработки биометрических данных [7, 8], показано, что статистические свойства многомерных преобразований (многомерных распределений) легко описываются в двух предельных случаях: в случае полностью зависимых данных и в случае совершенно независимых биометрических данных. Интервал между этими двумя предельными точками описывается монотонной трехмерной функцией F(m, n, r). Параметр r - это среднее значение модулей коэффициентов парной корреляции биометрических данных. Фактически речь идет о том, что для учета влияния корреляционных связей необходимо упростить многомерную задачу через симметризацию [9] ее корреляционных связей. Заменяется реальная асимметричная корреляционная матрица на ее симметричный эквивалент:

" 1 r1,2 r1,3 r1,4" "1 r r r

r2,1 1 r2,3 r2,4 \ r 1 r r

^ r = E Г j

r3,1 r3,2 1 h,4 V h J i * J / r r 1 r

_ r4,1 r4,2 r4,3 1 r r r 1

(5)

Заметим, что прием симметризации корреляционных матриц (5) широко используется пока только в России и Казахстане [7, 8]. Это связано с тем, что в англоязычной литературе корреляционными связями биометрических параметров пренебрегают, считая их несущественными. Иностранные стан-

56

University proceedings. Volga region

№ 1 (33), 2015 Технические науки. Информатика, вычислительная техника

дарты [10] рекомендуют удалять один из пары биометрических параметров, обладающих сильной корреляционной связью, |r у| ^ 0,3 .

Подход России и Казахстана обратный и сводится к тому, что нужно учитывать все доступные биометрические параметры, даже если модули коэффициентов парной корреляции между ними значительны. При этом мощность любого из известных статистических критериев [4, 5] будет описываться некоторой трехмерной функцией монотонно возрастающей при росте числа опытов в тестовой выборке n и размерности решаемой задачи т. Если эти параметры зафиксировать, то трехмерная функция всегда оказывается монотонно убывающей с ростом показателя среднего модулей коэффициентов корреляции г. Трехмерная функция мощности всегда монотонна и будет находиться в следующем интервале:

4n < F(n, m, г) <yjn ■ т . (6)

Следует обратить особое внимание на то, что многомерная сборка частных критериев Джини имеет простую форму (4) только в случае, когда собираются частные критерии одинаковой природы, полученные при обработке одинаковых объемов тестовой выборки. Это условие легко выполнить при обработке биометрических данных, но не всегда оно выполнимо для данных другой природы.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заключение

Практика обработки биометрических данных показывает, что повышать размерность решаемой задачи намного выгоднее, чем пытаться увеличивать объем данных в тестовой или обучающей выборке, что и отражает оценка (6). На данный момент этот тезис проверен на ряде статистических критериев. Предположительно, мощность любого из известных статистических критериев может быть существенно увеличена за счет повышения размерности статистической обработки данных. Все изложенные выше результаты проверены на реальных биометрических данных и данных, полученных от программных псевдослучайных независимых генераторов. Видимо, перенос положительного опыта многомерной статистической обработки биометрических данных может быть безболезненно осуществлен на статистических данных, получаемых от объектов неживой природы.

Список литературы

1. ГОСТ Р 52633.5-2011. Защита информации. Техника защиты информации. Автоматическое обучение нейросетевых преобразователей биометрия - код доступа. -М., 2011.

2. ГОСТ Р 52633.3-2011. Защита информации. Техника защиты информации. Тестирование стойкости средств высоконадежной биометрической защиты к атакам подбора. - М., 2011.

3. «БиоНейроАвтограф» - среда моделирования больших искусственных нейронных сетей, преобразующих данные рукописных знаков в код личного ключа доступа. Среда моделирования создана лабораторий биометрических и нейросетевых технологий ОАО «Пензенский научно-исследовательский научно-исследовательский электротехнический институт» в 2006-2014 гг. для свободного использования университетами России, Казахстана и Белоруссии . - URL: ййр://пниэи.рф/асйу11у/ science/noc.htm.

Engineering sciences. Computer science, computer engineering and control

57

Известия высших учебных заведений. Поволжский регион

4. Р 50.1.037-2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. - М. : Госстандарт России, 2002.

5. Кобзарь, А. И. Прикладная математическая статистика. Для инженеров и научных работников / А. И. Кобзарь. - M. : ФИЗМАТЛИТ, 2006. - 816 с.

6. Ахметов, Б. С. Алгоритмы тестирования биометрико-нейросетевых механизмов защиты информации Казахстан / Б. С. Ахметов, В. И. Волчихин, А. И. Иванов, А. Ю. Малыгин. - Алматы : КазНТУ им. Сатпаева, 2013. - 152 с.

7. Оценка рисков высоконадежной биометрии : моногр. / Б. С. Ахметов, Д. Н. Наде-ев, В. А. Фунтиков, А. И. Иванов, А. Ю. Малыгин. - Алматы : Из-во КазНТУ им. К. И. Сатпаева, 2014. - 108 с.

8. Надеев, Д. Н. Аналитическое описание оценки вероятности появления коллизий у нейросетевого преобразователя биометрия-код / Д. Н. Надеев // Нейрокомпьютеры: разработка, применение. - 2009. - № 6. - С. 53-55.

9. Фунтикова, Ю. В. Гипотеза %2 распределения расстояний Хэмминга для кодов биометрической аутентификации примеров образа «Свой» / Ю. В. Фунтикова, А. И. Иванов, О. С. Захаров // Труды научно-технической конференции кластера пензенских предприятий, обеспечивающих безопасность информационных технологий. - Пенза, 2014. - С. 7-8. - Т. 9. - URL: http://www.pniei.penza.ru/RV-соп1УТ9/С7.

10. Эйкхо фф, П. Основы идентификации систем управления / П. Эйкхофф. - М. : Мир, 1975. - 680 с.

11. Руководство по биометрии : пер. с англ. / Болл Руд, Коннел Джонатан Х., Панкан-ти Шарат, Ратха Налини К., Сеньор Эндрю У. - М. : Техносфера, 2007. - 368 с.

References

1. GOST R 52633.5-2011. Zashchita informatsii. Tekhnika zashchity informatsii. Avto-maticheskoe obuchenie neyrosetevykh preobrazovateley biometriya-kod dostupa [Data protection. Data protection technique. Automatic training of neural-network converters of biometrics-code access]. Moscow, 2011.

2. GOST R 52633.3-2011. Zashchita informatsii. Tekhnika zashchity informatsii. Te-stirovanie stoykosti sredstv vysokonadezhnoy biometricheskoy zashchity k atakam pod-bora [Data protection. Data protection technique. Resistance testing of highly-reliable biometric matching protection]. Moscow, 2011.

3. Available at: http://pniei.rf/activity/science/noc.htm.

4. R 50.1.037-2002. Prikladnaya statistika. Pravila proverki soglasiya opytnogo raspre-deleniya s teoreticheskim. Chast' II. Neparametricheskie kriterii [Applied statistics. Rules of checking concord between experimental and theoretical distribution. Part II. Non-parametric tests]. Moscow: Gosstandart Rossii, 2002.

5. Kobzar' A. I. Prikladnaya matematicheskaya statistika. Dlya inzhenerov i nauchnykh rabotnikov [Applied mathematical statistics. For engineers and scientific staff]. Moscow: FIZMATLIT, 2006, 816 p.

6. Akhmetov B. S., Volchikhin V. I., Ivanov A. I., Malygin A. Yu. Algoritmy testirovani-ya biometriko-neyrosetevykh mekhanizmov zashchity informatsii Kazakhstan [Testing algorithms for biometric neural-network mechanisms of data protection of Kazakhstan]. Almaty: KazNTU im. Satpaeva, 2013, 152 p.

7. Akhmetov B. S., Nadeev D. N., Funtikov V. A., Ivanov A. I., Malygin A. Yu. Otsenka riskov vysokonadezhnoy biometrii: monogr. [Assessment of highly-reliable biometrics’ risks: monograph]. Almaty: Iz-vo KazNTU im. K. I. Satpaeva, 2014, 108 p.

8. Nadeev D. N. Neyrokomp'yutery: razrabotka, primenenie [Neurocomputers: development, application]. 2009, no. 6, pp. 53-55.

58

University proceedings. Volga region

№ 1 (33), 2015 Технические науки. Информатика, вычислительная техника

9. Funtikova Yu. V., Ivanov A. I., Zakharov O. S. Trudy nauchno-tekhnicheskoy konfer-entsii klastera penzenskikh predpriyatiy, obespechivayushchikh bezopasnost’ infor-matsionnykh tekhnologiy [Proceedings of scientific and engineering conference of the cluster of Penza enterprises providing information technologies protection]. Penza, 2014, vol. 9, pp. 7-8. Available at: http://www.pniei.penza.ru/RV-conf/T9/S7.

10. Eykkhoff P. Osnovy identifikatsii sistem upravleniya [Basic control systems identification]. Moscow: Mir, 1975, 680 p.

11. Boll Rud, Konnel Dzhonatan Kh., Pankanti Sharat, Ratkha Nalini K., Sen'or Endryu U. Rukovodstvo po biometrii: per. s angl. [Biometrics guide: translation from English]. Moscow: Tekhnosfera, 2007, 368 p.

Волчихин Владимир Иванович доктор технических наук, профессор, президент Пензенского государственного университета (Россия, г. Пенза, ул. Красная, 40)

E-mail: [email protected]

Иванов Александр Иванович доктор технических наук, доцент, начальник лаборатории биометрических и нейросетевых технологий, Пензенский научно-исследовательский электротехнический институт (Россия, г. Пенза, ул. Советская, 9)

E-mail: [email protected]

Серикова Наталья Игоревна инженер-программист, научнопроизводственное предприятие «Рубин» (Россия, г. Пенза, ул. Байдукова, 2)

E-mail: [email protected]

Фунтикова Юлия Вячеславовна инженер-программист, Пензенский научно-исследовательский электротехнический институт (Россия, г. Пенза, ул. Советская, 9)

E-mail: [email protected]

Volchikhin Vladimir Ivanovich Doctor of engineering sciences, professor, President of Penza State University (40 Krasnaya street, Penza, Russia)

Ivanov Aleksandr Ivanovich Doctor of engineering sciences, associate professor, head of laboratory of biometric and neural-network technologies, Penza Research Electrotechnical Institute (9 Sovetskaya street, Penza, Russia)

Serikova Natal'ya Igorevna

Engineer-programmer, research and production enterprise “Rubin” (2 Baydukova street, Penza, Russia)

Funtikova Yuliya Vyacheslavovna

Engineer-programmer, Penza Research Electrotechnical Institute (9 Sovetskaya street, Penza, Russia)

УДК 519.7; 519.66; 57.087.1, 612.087.1 Волчихин, В. И.

Эффект снижения размера тестовой выборки за счет перехода к многомерному статистическому анализу биометрических данных /

В. И. Волчихин, А. И. Иванов, Н. И. Серикова, Ю. В. Фунтикова // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2015. -№ 1 (33). - С. 50-59.

Engineering sciences. Computer science, computer engineering and control

59

EFFECT OF REDUCING THE SIZE OF A TEST SAMPLE BY SWITCHING TO MULTIDIMENSIONAL STATISTICAL ANALYSIS OF BIOMETRIC DATA

Текст научной работы на тему «Эффект снижения размера тестовой выборки за счет перехода к многомерному статистическому анализу биометрических данных»