ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
УДК 519.7; 519.66; 57.087.1, 612.087.1
В. И. Волчихин, Б. Б. Ахметов, А. И. Иванов
БЫСТРЫЙ АЛГОРИТМ СИММЕТРИЗАЦИИ КОРРЕЛЯЦИОННЫХ СВЯЗЕЙ БИОМЕТРИЧЕСКИХ ДАННЫХ ВЫСОКОЙ РАЗМЕРНОСТИ
Аннотация.
Актуальность и цели. Поставлена цель быстрого вычисления коэффициентов равной коррелированности биометрических данных, являющихся эквивалентами для обычных асимметричных корреляционных матриц высоких размерностей.
Материалы и методы. Показано, что по аналогии с симметризацией ядер Вольтерра при идентификации нелинейных динамических объектов в близкой задаче биометрической идентификации личности могут быть применены похожие упрощающие вычисления конструкции.
Результаты и выводы. Доказано, что для перехода от обычных корреляционных матриц к матрицам равной коррелированности достаточно малых тестовых выборок. Размерность решаемой задачи симметризации корреляционных связей не влияет на размер необходимой выборки примеров биометрического образа «Свой». Вычислительная сложность процедуры симметризации корреляционных связей оказывается меньше, чем вычислительная сложность получения полной матрицы коэффициентов парной корреляции.
Ключевые слова: симметричные ядра Вольтерра, идентификация нелинейных динамических объектов, симметризация корреляционных связей, биометрическая идентификация личности.
V. I. Volchikhin, B. B. Akhmetov, A. I. Ivanov
A FAST SYMMETRIZATION ALGORITHM FOR CORRELATIONS OF BIOMETRIC DATA OF HIGH DIMENSION
Abstract.
Background. The aim is to quickly calculate the correlation coefficients equal to the biometric data that are equivalent to conventional asymmetric correlation matrices of high dimension.
Materials and methods. It is shown that, similarly to Voltaire kernel symmetriza-tion at identification of nonlinear dynamic objects in the related problem of bio-metric identification there can be used similar constructions that simplify calculations.
Results and conclusions. It is proved that the transition from conventional correlation matrices to matrices of equal correlation requires small test samples. The dimension of the correlation symmetrization problem to be solved does not affect the
size of the required sample examples of a biometric image of "Friend". The computational complexity of the procedure of correlation symmetrization is less than the computational complexity of the complete coefficient matrix of pair correlations.
Key words: Volterra symmetric kernel, identification of nonlinear dynamic objects, correlation symmetrization, biometric identification.
Базовые математические конструкции, используемые при идентификации нелинейных динамических объектов
Задача идентификации нелинейных динамических объектов стала активно исследоваться в 70-х гг. прошлого века [1], тогда, как правило, рассматривались ее приложения к машинам и механизмам, созданным человеком. Однако такая постановка задачи не менее актуальна и для живых существ [2], изучаемых биологией. Эффективным и наиболее корректным инструментом описания нелинейной динамики является аппарат функциональных рядов Вольтерра. Преимущество этого инструмента связано с тем, что он сводит нелинейные преобразования к линейным преобразованиям более высокой размерности. Например, кубический член динамического степенного ряда во временной области может быть представлен трехмерным линейным
функционалом:
< < <
y3(t) = | | | x(t-т1)• x(t-т2)• x(t-т3)• h(T1,т2,т3)■dx1 • dx2 • dT3, (1) —< —< —<
где h(T1, Т2, Т3) - ядро Вольтерра третьего порядка.
В общем случае ядра Вольтерра являются несимметричными, однако, пользуясь линейностью преобразований вида (1), ядра Вольтерра могут быть симметризованы путем их усреднения по всем возможным перестановкам переменных [1]:
h( т, т, т) =1 {h(T1, Т2, Т3)+h(T2, ть Т3) + h( Т3, % Т2) + 6
+h(T1, Т3, Т2) + h(T2, Т3, Т1) + h( Т3, Т2, Т1)}. (2)
Последнее эквивалентно приведению трехмерной линейной задачи к некоторой псевдоодномерной задаче, так как все три переменные влияют на результат (1) одинаково. Если теперь ортогонализовать задачу псевдоодномерной идентификации, то мы получаем ряд быстрых и точных (устойчивых) вычислительных алгоритмов [3-5].
Обратим внимание на то, что замещение в (1) несимметричного ядра Вольтерра на его симметричный аналог никак не влияет на отклик нелинейного динамического объекта. Мы можем оцифровать этот отклик и далее рассчитать его энтропию, энтропия отклика до и после симметризации останется неизменной. Симметризацию многомерных функционалов совершенно не обязательно проводить исходя из полного тождества их откликов. Вполне возможна более широкая постановка задачи, когда симметризация многомерного объекта идентификации проводится исходя из сохранения энтропии его выходного сигнала.
Технологии биометрической идентификации (аутентификации) личности
В настоящее время активно идут процессы информатизации современного общества. В интернет-среде создаются и развиваются электронные правительства, электронный бизнес, электронная торговля, электронный банкинг. Все эти приложения построены на личных электронных кабинетах пользователей. По условиям информационной безопасности каждый личный электронный кабинет должен иметь длинный (уникальный) логин и длинный неповторяющийся (уникальный для каждого кабинета) пароль доступа. К сожалению, пользователи не способны запоминать длинные логины и отказываются запоминать множество длинных паролей, состоящих из случайных знаков.
Решить эту проблему можно двумя путями. Первый путь состоит в использовании так называемых «нечетких экстракторов» [6-8]. По этому пути идут инженеры и программисты США, Канады и страны Евросоюза. По второму пути идут исследователи России и Казахстана. Второй путь построен на использовании больших искусственных нейронных сетей [9, 10]. Нейросете-вой преобразователь биометрия-код заранее обучают преобразовывать примеры биометрического образа «Свой» в код длинного логина или длинного пароля доступа.
На рис. 1 приведены блок-схемы организации «нечетких экстракторов» и нейросетевых преобразователей биометрия-код.
Рис. 1. Блок-схемы построения «нечетких экстракторов» и нейросетевых преобразователей биометрия-код
Из рис. 1 видно, что «нечеткие экстракторы» можно рассматривать как частный случай нейросетевого преобразователя биометрия-код, если нейроны
этого преобразователя сделать вырожденными (вместо нескольких входов у сумматора нейрона оставить только один вход). Принципиальным преимуществом нейросетевых преобразователей биометрия-код является то, что исходные «сырые» биометрические данные обогащаются сумматорами нейронов и уже после этого квантуются. При этом число входов у нейронной сети всегда оказывается примерно в 1,5 раза больше, чем число выходов нейронной сети. В «нечетких экстракторах» используются классические коды обнаружения и исправления ошибок с 15-кратной избыточностью. То есть длина выходного кода «нечетких экстракторов» оказывается примерно в 10 раз ниже длины выходного кода нейросетевых преобразователей биометрия-код.
Следует подчеркнуть, что при биометрической идентификации (аутентификации) личности человека играет важную роль не сама длина выходных кодов, а их энтропия. Преобразователь биометрия-код более надежен, если энтропия его выходных кодов выше.
Технологии моделирования длинных кодов с существенно коррелированными разрядами
Известно [11], что моделировать случайные многомерные процессы крайне сложно. Технически вполне возможно вычислить симметричную матрицу корреляционных связей 256x256, описывающую корреляционные связи между выходами нейросетевого преобразователя (между 256 разрядами выходного кода). Однако построить генератор, точно воспроизводящий корреляционные связи столь высокой размерности, технически невозможно.
Формально можно использовать 256 генераторов независимых случайных данных 1, умножив их на некоторую связывающую данные матрицу А. Однако найти нужную связывающую матрицу, которая даст нужные корреляционные связи г( у^, у^), трудно. Эта обратная задача относится к плохо
обусловленным.
Так как задача не решается, ее нужно симметризовать. Для этой цели необходимо использовать симметричную связывающую матрицу, которая имеет единичную диагональ и одинаковые элементы вне диагонали:
1 а а Г ^ 1 Г УЦ ' " 1 r •••• r
а 1 ••• а X = У2,г ^ Rm - r 1 •••• ••• r
а а • •• 1 ^m,i ym,i r r •••• 1
В этом случае данные оказываются равно коррелированными. Если плавно изменять регулируемый параметр а связывающей матрицы от 0 до 1, коэффициенты равной коррелированности г так же меняются в пределах от 0 до 1.
Умножение непрерывных данных (континуумов) на связывающую матрицу порождает вектор непрерывных откликов у . Для того чтобы непрерывные данные преобразовать в дискретные данные, необходимо использовать 256 компараторов г:
г(у) = г( А -1) =" х". (4)
После того как данные квантованы, может быть вычислена их многомерная энтропия Н(" х"). При а = 0 коррелированность данных отсутствует г = 0 и энтропия оказывается максимально возможной Н(" х") = 256 бит. Плавно увеличивая регулируемый параметр, мы будем наблюдать снижение энтропии. Как только энтропия тестируемого преобразователя биометрия-код совпадет с энтропией равнокоррелированных кодов (4), мы определим соответствующее значение коэффициентов равной коррелированности. Для ускорения вычислений созданы специальные таблицы связи энтропии кодов длинной 256 бит с коэффициентами равной коррелированности [12].
Все вышесказанное можно интерпретировать как процедуру симметризации некоторого (т — т)/ 2 -мерного асимметричного корреляционного функционала Я(г\,Г2,гз, . ) в его симметричный аналог Я(г,г,г,...) той же размерности.
Хи-квадрат функции плотности распределения значений зависимых данных
Обычно при оценках рисков используется гипотеза независимости данных. В том числе при применении хи-квадрат критерия Пирсон. В биометрии эта гипотеза не работает, биометрические данные сильно зависимы. Учтем зависимость данных, опираясь на предварительную симметризацию их корреляционных связей и имитационное моделирование. Схема численных экспериментов приведена на рис. 2.
Рис. 2. Блок-схема моделирования симметричных равно коррелированных данных при получении зависимых хи-квадрат распределений с числом степеней свободы т
Естественно, что численный эксперимент может быть проведен для разного значения числа степеней свободы т хи-квадрат распределений:
Xm (Г) =
i=1
E ( y) - y
. yi)
(5)
На рис. 3 приведены кривые хи-квадрат распределений, полученные для данных разного уровня коррелированности при т = 21. В табл. 1 даны
квантели достоверности принятия решении для зависимых распределении хи-квадрат.
Рис. 3. Плотности распределения значении хи-квадрат распределении с 21 степенью свободы для зависимых данных
Таблица 1
Значения хи-квадрат для разных уровнеИ достоверности и разных значении коррелированности данных при числе степенеИ свободы т = 21
m - 21 Квантили доверительнои вероятности п] ринятия решения а
0,01 0,02 0,05 0,1 0,2 0,5 0,8 0,9 0,95 0,98 0,99
Коррелированность данных r 0,01 8,895 9,90 11,58 13,23 15,43 20,32 26,15 29,59 32,67 36,33 38,95
0,1 8,56 9,57 11,23 12,87 15,07 20,09 26,34 30,27 33,97 38,67 42,22
0,2 7,98 8,92 10,48 12,05 14,21 19,34 26,53 31,73 37,18 44,78 50,7
0,3 7,20 8,08 9,54 11,03 13,11 18,33 26,86 34,01 41,82 52,83 61,57
0,4 6,37 7,14 8,47 9,85 11,81 17,12 27,57 37,02 47,24 61,26 72,19
0,5 5,47 6,15 7,34 8,57 10,39 15,81 28,47 40,07 52,57 69,88 83,29
0,6 4,49 5,08 6,09 7,17 8,80 14,38 29,56 43,35 58,26 78,62 94,83
0,7 3,49 3,96 4,78 5,68 7,13 13,03 30,73 46,72 63,95 87,60 106,0
0,8 2,46 2,80 3,41 4,10 5,32 11,81 31,86 49,93 69,24 95,81 116,4
0,9 1,318 1,512 1,879 2,338 3,32 10,65 33,11 53,28 74,83 104,7 128,2
0,99 0,165 0,198 0,287 0,526 1,54 9,69 34,46 56,64 80,21 112,6 138,0
Получение плотностеи хи-квадрат распределения значении для зависимых данных расширяет область применения классических методик оценки достоверности проверяемых статистических гипотез.
Влияние коэффициента равной коррелированности на положение медианы распределения хи-квадрат
Из табл. 1 (центральный столбец а = 0,5) видно, что медиана хи-квадрат распределений сильно зависит от показателя равной коррелированности г. Кривые зависимостей положения медианы для чисел степеней свободы т = 16, 21, 26 приведены на рис. 4.
Из рис. 5 видно, что при разных значениях числа степеней свободы т получаются разные оценки коэффициентов равной коррелированности (пунктирные линии) для одинакового (вычисленного по реальным данным) значе-
2
ния медианы распределений хт(г, а = 0,5) = 14 .
Очевидно, что зависимость положения медианы распределений Хт (г, а = 0,5) от коэффициента равной коррелированности г вполне может быть использована для его оценки. При этом достаточно достоверно оценить положение медианы распределения удается, если использовать порядка 200 примеров в тестовой выборке. Последнее означает, что для корректного решения задачи симметризации корреляционных связей с использованием хи-квадрат распределений с 21 степенью свободы потребуется 21^200 = 4200 примеров в тестовой выборке биометрического образа. Этот способ симметризации задачи является крайне расточительным, применять его на практике трудно из-за необходимости использовать слишком большие тестовые выборки.
30 tit
25
20 15 10
1 Г a=0.5)
m = 26
m = 21
l i I i
i i l i I l 1 l i i
0 0.2 0.4 0.6 0.S 1
Рис. 4. Кривые зависимости положения медианы при разных числах степеней свободы m
Заметим, что медиана распределений хи-квадрат зависимых данных является не единственной статистической характеристикой, на использовании которой можно построить процедуры симметризации. Из рис. 4 видно, что
положение моды распределении хи-квадрат сильно зависит от значения показателя равнои коррелированности. То есть положение моды наблюдаемого распределения вполне может быть использовано для решения задачи симметризации корреляционных связеи. Однако и это направление исследовании приводит к появлению расточительных по объему исходных данных процедур симметризации.
Быстрый алгоритм симметризации многомерных корреляционных связей за счет перехода к использованию энтропийно-корреляционных показателей
Следует отметить, что непрерывные (континуальные) случаиные данные равнои коррелированности могут быть оцифрованы. После квантования данных (правая часть рис. 2) для этих цифровых кодов с зависимыми разрядами можно вычислить их энтропию. Если определять энтропию по Шеннону, вычислить ее для длинных кодов технически невозможно. Обоити это препятствие удается, если переити от расчетов по Шеннону в обычном кодовом пространстве к расчетам в пространстве расстоянии Хэмминга [9, 10, 12]. В итоге мы можем вычислить энтропию длинных кодов и рассчитать энтро-пиино-корреляционныи функционал:
Я(т,г) = 1 - Н("Х1,^^Хт " . (6)
т
£ н (" х")
г=1
Энтропииныи корреляционныи функционал Я(т, г) меняется в пределах от 0 до 1 при изменении коэффициента равнои коррелированности г от 0 до 1. Связь корреляционного энтропииного функционала с коэффициентом равнои коррелированности приведена на рис. 5.
Из рис. 5 видно, что для т = 16 корреляционныи энтропииныи функционал связан с коэффициентом равнои коррелированности линеино. По этои причине простое усреднение модулеи коэффициентов корреляции корреля-ционнои матрицы дает хорошее приближение коэффициента равнои корре-лированности:
1
162 -16
16 16
ZZI r(vi, V j )| -16
I i=1 j=1
Если нам требуется симметризовать корреляционную матрицу более высокои размерности N > т, то необходимо вычислить множество корреляционных функционалов (7) для различных 16-мерных комбинации биометрических параметров V!,V2,....,VN с последующим усреднением данных. Подобные перестановки являются некотрым эквивалентом перестановок переменных, используемых при симметризации ядер Вольтерра (2). Видимо, это одна из самых экономичных процедур симметризации корреляционных связеи, способная работать на выборках от 20 до 30 примеров биометрического образа.
D.S
□ б
0,-
о.:
1 (m, r)
m= 128
/ / f
// / 16 / 11 1=2 /
о о^ 0.4 о.б о.з :
Рис. 5. Кривые связи корреляционного энтропийного функционала с параметром равной коррелированности г
Заключение
Принципиальным отличием применения хи-квадрат функционалов для оценки уровня коррелированности данных является то, что вычисления можно проводить без промежуточной оценки энтропии зависимых длинных кодов. Исчезло одно их промежуточных преобразований, что в конечном итоге и позволяет сократить объемы вычислений и работать с меньшим объемом исходных данных. При необходимости еще большего снижения вычислительных затрат следует снизить число степеней свободы в использованных корреляционных функционалах. Такая возможность в использованных ранее процедурах [12] отсутствовала, приходилось все вычисления выполнять при высоких значениях размерности. В конечном итоге объем проводимых вычислений при оценках коэффициентов равной коррелированности оказывается существенно меньше, чем объем вычислений, связанных с расчетом полной асимметричной корреляционной матрицы.
Список литературы
1. Эйкхофф, П. Основы идентификации систем управления / П. Эйкхофф. - М. : Мир, 1975. - 517 с.
2. Мармарелис, П. Анализ физиологических систем. Метод белого шума / П. Мармарелис, В. Мармарелис. - М. : Мир, 1981. - 480 с.
3. Иванов, А. И. Быстрый синтез моделей нелинейных динамических систем с заданной погрешностью / А. И. Иванов // Измерительная техника. - 1995. -№ 10. - С. 13-15.
4. Иванов, А. И. Синтез нелинейных динамических моделей Винера - Гаммер-штейна перераспределением памяти между входом и выходом / А. И. Иванов // Автоматика и телемеханика. - 1997. - № 11. - С. 21-32.
5. Иванов, А. И. Одномерный аналог многомерной идентификации Ли-Щецена / А. И. Иванов // Управляющие системы и машины. - 1999. - № 2. - С. 16-21.
6. Monrose, F. Cryptographic key generation from voice / F. Monrose, M. Reiter, Q. Li, S. Wetzel // In Proc. IEEE Symp. on Security and Privacy, 2001.
7. Ramirez-Ruiz, J. Cryptographic Keys Generation Using FingerCodes / J. Ramirez-Ruiz, C. Pfeiffer, J. Nolazco-Flores // Advances in Artificial Intelligence -IBERAMIA-SBIA 2006 (LNCS 4140). - 2006. - P. 178-187.
8. Hao, F. Crypto with Biometrics Effectively / Feng Hao, Ross Anderson and John Daugman // IEEE TRANSACTIONS ON COMPUTERS. - 2006, Sept. - Vol. 55, № 9.
9. Волчихин, В. И. Быстрые алгоритмы обучения нейросетевых механизмов биометрико-криптографической защиты информации : моногр. / В. И. Волчихин, А. И. Иванов, В. А. Фунтиков. - Пенза : Изд-во ПГУ, 2005. - 273 с.
10. Технология использования больших нейронных сетей для преобразования нечетких биометрических данных в код ключа доступа : моногр. / Б. С. Ахметов, А. И. Иванов, В. А. Фунтиков, А. В. Безяев, Е. А. Малыгина. - Казахстан, Алматы : LEM, 2014. - 144 c.
11. Шалыгин, А. С. Прикладные методы статистического моделирования / А. С. Шалыгин, Ю. И. Палагин. - Л. : Машиностроение, 1986. - 320 с.
12. Оценка рисков высоконадежной биометрии : моногр. / Б. С. Aхметов, Д. Н. Наде-ев, В. А. Фунтиков, А. И. Иванов, А. Ю. Малыгин. - Алматы : Изд-во КазНТУ им. К. И. Сатпаева, 2014. - 108 с.
References
1. Eykkhoff P. Osnovy identifikatsii sistem upravleniya [Foundations of control system identification]. Moscow: Mir, 1975, 517 p.
2. Marmarelis P., Marmarelis V. Analiz fiziologicheskikh sistem. Metod belogo shuma [Physiological system analysis. The white noise method]. Moscow: Mir, 1981, 480 p.
3. Ivanov A. I. Izmeritel'naya tekhnika [Measuring technology]. 1995, no. 10, pp. 13-15.
4. Ivanov A. I. Avtomatika i telemekhanika [Automatics and remote control]. 1997, no. 11, pp. 21-32.
5. Ivanov A. I. Upravlyayushchie sistemy i mashiny [Control systems and machinery]. 1999, no. 2, pp. 16-21.
6. Monrose F., Reiter M., Li Q., Wetzel S. Cryptographic key generation from voice. In Proc. IEEE Symp. on Security and Privacy, 2001.
7. Ramirez-Ruiz J., Pfeiffer C., Nolazco-Flores J. Advances in Artificial Intelligence -IBERAMIA-SBIA 2006 (LNCS 4140). 2006, pp. 178-187.
8. Hao F., Anderson Ross and Daugman John Crypto with Biometrics Effectively. IEEE TRANSACTIONS ON COMPUTERS. 2006, Sept., vol. 55, no. 9.
9. Volchikhin V. I., Ivanov A. I., Funtikov V. A. Bystrye algoritmy obucheniya ney-rosetevykh mekhanizmov biometriko-kriptograficheskoy zashchity informatsii: monogr. [Fast algorithms for training neural-network mechanisms of biometric-cryptographic data protection: monograph]. Penza: Izd-vo PGU, 2005, 273 p.
10. Akhmetov B. S., Ivanov A. I., Funtikov V. A., Bezyaev A. V., Malygina E. A. Tekhnologiya ispol'zovaniya bol'shikh neyronnykh setey dlya preobrazovaniya nechetkikh biometricheskikh dannykh v kod klyucha dostupa: monogr. [Technology of large neural networks usage for fuzzy biometric data conversion to access key codes: monograph]. Kazakhstan, Almaty: LEM, 2014, 144 p.
11. Shalygin A. S., Palagin Yu. I. Prikladnye metody statisticheskogo modelirovaniya [Applied methods of statistical modeling]. Leningrad: Mashinostroenie, 1986, 320 p.
12. Akhmetov B. S., Nadeev D. N., Funtikov V. A., Ivanov A. I., Malygin A. Yu. Otsenka riskov vysokonadezhnoy biometrii: monogr. [Risk estimation in highly reliable biometrics: monograph]. Almaty: Iz-vo KazNTU im. K. I. Satpaeva, 2014, 108 p.
Волчихин Владимир Иванович
доктор технических наук, профессор, президент Пензенского государственного университета (Россия, г. Пенза, ул. Красная, 40)
E-mail: [email protected]
Ахметов Берик Бахытжанович
кандидат технических наук, вице-президент Международного Казахско-Турецкого университета имени Х. А. Ясави (Казахстан, г. Туркестан, пр. Б. Саттарханова)
E-mail: [email protected]
Иванов Александр Иванович доктор технических наук, доцент, начальник лаборатории биометрических и нейросетевых технологий, Пензенский научно-исследовательский электротехнический институт (Россия, г. Пенза, ул. Советская, 9)
E-mail: [email protected]
Volchikhin Vladimir Ivanovich Doctor of engineering sciences, professor, President of Penza State University (40 Krasnaya street, Penza, Russia)
Akhmetov Berik Bakhytzhanovich Candidate of engineering sciences, vice-president of Hodja Ahmet Yassawi International Kazakh-Turkish University (B. Sattarkhanova avenue, Turkestan, Kazakhstan)
Ivanov Aleksandr Ivanovich Doctor of engineering sciences, associate professor, head of the laboratory of bio-metric and neural network technologies, Penza Research Institute of Electrical Engineering (9 Sovetskaya street, Penza, Russia)
УДК 519.7; 519.66; 57.087.1, 612.087.1 Волчихин, В. И.
Быстрый алгоритм симметризации корреляционных связей биометрических данных высокой размерности / В. И. Волчихин, Б. Б. Ахметов, А. И. Иванов // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2016. - № 1 (37). - С. 5-15.