Научная статья на тему 'Классификация нестационарных вероятностных биометрических параметров личности'

Классификация нестационарных вероятностных биометрических параметров личности Текст научной статьи по специальности «Математика»

CC BY
241
70
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИОМЕТРИЧЕСКИЕ СИСТЕМЫ ИДЕНТИФИКАЦИИ / ПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ / РЕШАЮЩЕЕ ПРАВИЛО КЛАССИФИКАЦИИ / ТОЧНОСТЬ КЛАССИФИКАЦИИ / НЕСТАЦИОНАРНЫЙ СЛУЧАЙНЫЙ ПРОЦЕСС / ВЫПУКЛЫЕ И НЕВЫПУКЛЫЕ ОБЛАСТИ РАСПРЕДЕЛЕНИЯ ДАННЫХ / ФУНКЦИЯ ПОТЕНЦИАЛА / BIOMETRIC AUTHENTICATION SYSTEMS / PARAMETRIC TRAINING METHODS / DISCRIMINATION RULE / ACCURACY OF CLASSIFICATION / NONSTATIONARY RANDOM PROCESS / CONVEX AND CONCAVE AREAS OF DATA DISTRIBUTION / POTENTIAL FUNCTION

Аннотация научной статьи по математике, автор научной работы — Брюхомицкий Ю. А.

Предлагается вероятностный метод классификации параметров в биометрических системах идентификации личности по рукописному и клавиатурному почеркам. Построение решающего правила классификации ориентировано на образуемые нестационарным случайным процессом невыпуклые ограниченные и распавшиеся области распределения параметров. Суть подхода состоит в аппроксимации невыпуклых ограниченных областей объединением многих выпуклых подобластей со своими плотностями и центрами распределения, каждая из которых соответствует одному образцу обучающей выборки. Конфигурация каждой выпуклой подобласти задается в виде функции потенциала, конкретный вид которой определяется условиями задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Classification of Non-Stationary Probabilistic Personal Biometric Parameters

This paper presents a probabilistic method of feature classification for biometric systems, which analyze handwriting and keystroke dynamics. Discriminative rule generation is oriented to non-convex limited and separated feature distribution areas. The pivotal idea of the approach is the approximation of non-convex limited areas by sets of convex sub-areas with their own centers and densities of distribution, each of which corresponds to the single pattern of the training set. Configuration of each convex subset is defined as a potential function, whose particular parameters are defined by conditions of the problem.

Текст научной работы на тему «Классификация нестационарных вероятностных биометрических параметров личности»

потока лампы подсветки, работой механической части сканера, аддитивными шумами сенсоров ПЗС-линейки.

а б

Рис. 3. Корреляция отпечатка сканера №2 и отпечатков изображений из выборки, полученной при помощи сканера №2(а) и сканера №1 (б)

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Jan Lukas, Jessica Fridrich, and Miroslav Goljan Determining Digital Image Origin Using Sensor Imperfections. Proceedings of the SPIE-2005, Vol. 5685, pp. 249-260.

2. Mehdi, K.L. Sencar, H.T. Memon, N. Blind source camera identification. International Conference on Image Processing, 2004, Vol. 1, pp. 709- 712.

3. Lukas J., Fridrich J., and Goljan M..: “Determining Digital Image Origin Using Sensor Imperfections”, Proc. SPIE Electronic Imaging, Image and Video Communication and Processing, San Jose, California, January 16-20, 2005, pp. 249-260.

4. Kharrazi, M., Sencar, H. T., and Memon, N.: “Blind Source Camera Identification”, Proc. ICIP’ 04, Singapore, October 24-27, 2004. pp. 312-317.

5. Рублёв Д.П., Чумаченко А.Б. Идентификация цифровых фотокамер по карте светочувствительности матрицы // XIII Всероссийская научно-практическая конференция “Проблемы информационной безопасности в системе высшей школы”. - М.: МИФИ, 2007. - С. 78-79.

6. Рублёв Д.П., Чумаченко А.Б., Макаревич О.Б., Фёдоров В.М. Идентификация цифровых микрофонов по неидеальностям тракта записи // Известия ЮФУ. Технические науки. Тематический выпуск “Информационная безопасность”. - Таганрог: Изд-во ТТИ ЮФУ, 2007. - С. 84-92. №1(76).

УДК 681.324

Ю.А. Брюхомицкий

КЛАССИФИКАЦИЯ НЕСТАЦИОНАРНЫХ ВЕРОЯТНОСТНЫХ БИОМЕТРИЧЕСКИХ ПАРАМЕТРОВ ЛИЧНОСТИ*

Применяемые в настоящее время динамические биометрические системы идентификации (БСИ) личности (по голосу, рукописному и клавиатурному почеркам) основаны на анализе индивидуальных особенностей динамики подсознатель-

*Работа выполнена при поддержке грантов РФФИ: № 08-07-00117а; № 0б-07-9бб09-р_юг_а, 0б-07-89010-а.

ных движений, которые в общем случае могут быть представлены Ж-мерными векторами биометрических признаков УеЛ^ В математической постановке такие системы решают задачу классификации векторов биометрических признаков У на классы: «свой» - У+ и «чужой» - У-. Построение решающих правил для классификации основано на сравнении векторов У лиц, претендующих на доступ, с эталонными векторами УЭ, к = 1, М всех М зарегистрированных и хранящихся в памяти

БСИ «своих» пользователей.

Вероятностный характер векторов биометрических признаков У приводит к необходимости построения среднестатистических эталонов УЭ на основе серии образцов, предъявленных системе в режиме обучения. Построение хороших решающих правил для классификации биометрических признаков У обычно затруднено по следующим причинам:

- отсутствуют сведения о законах и числовых характеристиках распределения векторов У;

- имеет место статистическая нестабильность распределения векторов У;

- отсутствует представительная выборка обучающих векторов У- «чужих» пользователей;

- ограничен размер представительной выборки обучающих векторов У+ «своих» пользователей (во избежание ухудшения потребительских качеств системы;

- велика размерность пространства входных данных (векторов У). Векторы У можно рассматривать как значения Ж-мерной случайной величины

распределение которой описывает статистическую изменчивость биометрических параметров пользователя и характеризуется плотностью р(У). Соответственно распределения векторов биометрических признаков У+ «своих» и У- «чужих» пользователей будут характеризоваться плотностями р(У+) и р(У-).

В реальных условиях распределения р(У) и р(У-) неизвестны, поэтому возникает необходимость в построении их оценок р(У +) и р(У-) на основе обучающих выборок векторов У+ и У-. Однако если формирование ограниченной обучающей выборки векторов У+ не вызывает принципиальных трудностей, то формирование даже сильно ограниченных обучающих выборок векторов У- «всевозможных чужих» является серьезной проблемой [1, 2]. В связи с этим возникает задача построения хороших решающих правил для классификации векторов У+ и У- в условиях наличия только ограниченной обучающей выборки векторов У+: Т+ = (У+1, У+2, ..., У+Д

В общем случае решающее правило должно выполнять классификацию векторов биометрических признаков У на М классов (по числу зарегистрированных в БСИ пользователей). Однако в БСИ задачу классификации векторов У на М классов без нарушения общности всегда можно свести к задаче классификации векторов У только на два класса: вектор У+ - «свой» и вектор У- - «чужой». Это становится возможным благодаря принятой в БСИ двухэтапной процедуре идентификации/аутентификации. На первом этапе - идентификации - претендующий на доступ к-пользователь (к = 1,М ) в рамках стандартной процедуры ОС предъявляет свой символьный идентификатор, инициируя внесение в структуру классификатора своего персонального биометрического эталона УЭ. На втором этапе - собственно аутентификации - к-пользователь предъявляет свои биометрические харак-

теристики в виде вектора V, классификатор сравнивает предъявленный вектор V с

Vk __

э . этого пользователя и выносит решение о допуске.

Учитывая отмеченную выше особенность аутентификации в БСИ, решающее правило может строиться в расчете на использование в текущем сеансе аутентификации только одного биометрического эталона V^

При классификации векторов V+ и V- задача построения решающего правила сводится, по существу, к заданию подходящей гиперповерхности G(V), реализующей разделение векторов V+ и V-. В свою очередь, выбор способа задания G(V) определяется априорными сведениями о распределении векторов V+.

В том случае, если параметры распределения векторов V+ a priori не известны, то разделяющая гиперповерхность G(V) может быть задана в явном виде с использованием m параметров-весов:

G(V) = G(V, W1, W2, ..., Wm),

а построение решающего правила сведено к выбору вида G(V) и подбору параметров-весов, такому, чтобы гиперповерхность G(V) с приемлемой точностью могла отделить область распределения векторов V+ от остального гиперпространства. Такой способ задания гиперповерхности G(V) широко используется в геометрических и нейросетевых методах классификации. Однако геометрические методы в задаче классификации векторов V+ и V- дают обычно высокий уровень ошибок, а нейросетевые методы для оптимального построения гиперповерхности G(V) требуют наличия представительной обучающей выборки векторов V-, что является самостоятельной проблемой [1, 2].

В том случае, если параметры распределения векторов V+ a priori известны, целесообразно использовать параметрические методы обучения, когда гиперповерхность G(V) может быть задана в явном виде от параметров обучающего множества [3]. Качество решающего правила при этом определяется степенью соответствия реальных и использованных в G(V) параметров распределения.

При построении решающего правила для классификации векторов V+ и V-можно также руководствоваться видом области распределения. Если область распределения векторов V+ выпуклая ограниченная и имеет один выраженный центр распределения, то в большинстве случаев хорошим приближением для аппроксимации распределения векторов V+ является гауссово распределение [3]. Такая аппроксимация широко распространена и во многих случаях дает хороший эффект. Однако в динамических БСИ обычно наблюдаются существенные флуктуации контролируемых биометрических параметров, обусловленные суточными биоритмами, психофизическим состоянием в момент прохождения процедуры идентификации и другими факторами [4, 5]. Это приводит к тому, что область распределения векторов V+ становится невыпуклой или даже распадается на несколько подобластей. В таких случаях аппроксимация области на основе нормального распределения становится излишне идеализированной и приводит к повышению уровня ошибок классификации. Рис. 1 иллюстрирует образование различного вида ограниченных областей распределения векторов V+ для N=2.

Таким образом, при распределении векторов V+ в виде невыпуклых областей или областей, состоящих из отдельных подобластей, по разным причинам плохо подходят все традиционные методы задания G(V). Это обусловлено тем, что контролируемая в БСИ динамика подсознательного воспроизведения заученных действий представляет собой нестационарный случайный процесс, для которого ис-

пользование традиционных подходов, ориентированных на стационарные процессы, не может дать хороших результатов.

Рис. 1. Образование ограниченных областей распределения векторов V для N=2: а - выпуклая область с одним центром С;

Ь - невыпуклая область с двумя центрами С1, С2; с - область, распавшаяся на две подобласти

В данной работе предлагается иной подход, который позволяет рассматривать распределения векторов У+, описываемые невыпуклыми ограниченными областями, как результат нестационарного случайного процесса, состоящего в воспроизведении обучающей выборки ¥ + = (У1+,У2 ,■■■,УЬ). Распределения векторов У+, описываемые выпуклыми ограниченными областями, в этом случае можно рассматривать как частный случай, представленный стационарным случайным процессом воспроизведения обучающей выборки ¥+. Суть подхода состоит в аппроксимации невыпуклых ограниченных областей объединением многих выпуклых подобластей со своими плотностями и центрами распределения.

Пусть невыпуклая или распавшаяся область распределения векторов У+, представленная обучающим множеством Т+, аппроксимирована объединением Ь выпуклых, ограниченных подобластей, представленных обучающими подмножествами ¥1; ¥2,...,¥Ь :

¥+ = ¥+и ¥+ и... и ¥+,

где ____

¥+= {Уі}, і = 1Л;

¥+= {У*.}, і = 1, К2,

¥+ = {у,}, . = 1, Кь.

Рис. 2 для случая N=2 иллюстрирует образование невыпуклой и частично распавшейся области распределения векторов У+ на основе трех выпуклых ограниченных подобластей.

Рассмотрим предельный случай, когда каждое из обучающих подмножеств

¥2,..., ¥Ь содержит по одному образцу: Я1 = Я2 =... = ЯЬ = 1. Тогда

¥+ = {У1}; ¥+ = {У2}; ^ = {Уь},

а все обучающее множество будет состоять из Ь векторов У+:

¥+ = {У+}, . = 1Ь.

Рис. 2. Образование невыпуклой и частично распавшейся области распределения векторов V на основе трех выпуклых ограниченных подобластей для случая N=2

Конфигурацию каждой выпуклой подобласти зададим в виде функции потенциала, конкретный вид которой будет определяться условиями задачи. В итоге невыпуклые ограниченные или распавшиеся области распределения векторов У+ будут аппроксимированы объединением Ь выпуклых областей специального вида, каждая из которых соответствует одному из Ь образцов обучающей выборки ¥+. Ситуацию для размерности N=2 иллюстрирует рис. 3.

Аппроксимированная — | _ ф С ' }

область распределения '---------^ ^

векторов У+ —

Рис. 3. Аппроксимация невыпуклой ограниченной области объединением выпуклых областей специального вида

Такой подход к построению решающего правила с некоторой долей условности можно отнести к параметрическим методам. Условность состоит в том, что априорное знание параметров распределения сводится к предположению, что распределение векторов У+ описывается невыпуклыми ограниченными или распавшимися областями, которые затем моделируются объединением специально подобранных функций потенциала.

Пусть область распределения биометрических параметров «своего» пользователя задана множеством учебных данных, содержащих Ь векторов Уг+ , I = 1, Ь , случайно распределенных в N мерном пространстве:

У+= (У+, У2+,..., V+N), ] = Щ / = 1ТЬ.

Для оценки плотности распределения каждого учебного вектора Уг+, / = 1, Ь используем функцию потенциала, задающую конфигурацию каждой подобласти, в виде упрощенной формы функции Гаусса [6] с центром в точке Уг+

р(\: )=Ф, (V)=ехр

V - V,"

і = 1, Ь,

(1)

где ц - параметр, задающий ширину функции ф(У).

Форма (1) отличается от классической функции гаусса отсутствием коэффициента 1/стл/2я перед экспонентой. Это позволяет получить максимальное значение функции (1), равное единице, а не величине указанного коэффициента.

В покомпонентном представлении выражение (1) будет иметь вид

р(У+) = ехр

7=1

і = 1, Ь, 7 = 1, N.

(2)

Всё множество учебных данных ¥ = (Уг- }, I = 1, Ь представляет собой матрицу Уг+ = ^ |. Оценку функции плотности распределения для всего множества можно получить путем суммирования функций (1) [6]:

Ф(У = £фУ) = Е ехр

(3)

В покомпонентном представлении выражение (3) будет иметь вид

Ь [ 1 N

Ф(У =Е ехр - — Е (Vj -v^)

2ц2

j=1

(4)

Входные данные классификатора (вектора У и Уг- ) удобно нормализовать к единичной длине:

V )' = vjl

І

N

Е, (уу- )'=1 j=1

І

N

Е V )2.

]'=1

(5)

Оценка функции плотности распределения для одного учебного вектора Уг+ при нормализованных входных данных в покомпонентном представлении на основе (2) и (5) примет вид

(

Ф(V) = ехр

1 N / [її Гм ^ ( 1 N '

—Е2^- • )2 -2 =ехр— ^(у+),-:.

2ц2 М

I ]=1 V 7=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

. (6)

1

2

2=1

г=1

2

2=1

Оценка функции плотности распределения для всего множества ¥ + при нормализованных входных данных в покомпонентном представлении на основе (4) и (5) соответственно примет вид

Задачу построения решающего правила для классификации векторов У+ и У- в условиях наличия только ограниченной обучающей выборки векторов Уг+ = (У+1, У+2, ..., У+Ь) можно решить путем задания разделяющей гиперповерхности О(У) в виде порогового значения суммарной плотности вероятности Фп(У), являющегося минимально допустимым для «своего» пользователя.

Пороговое значение уровня суммарной плотности распределения Фп(У) можно получить следующим способом. Выражение (7) фактически реализует вычисление евклидовых расстояний от неизвестного образца до всех учебных образцов, которые затем с помощью функции потенциала преобразуются в значение суммарной плотности вероятности Ф(У). Заменим неизвестный образец на один из учебных (к-образец из к = 1, Ь ) и вычислим евклидовы расстояния от этого образца до остальных (Ь-1) учебных образцов. С помощью функции потенциала эти расстояния преобразуются, в конечном итоге, в значение суммарной плотности вероятности Ф(Ук). Повторим эту процедуру последовательно для всех Ь учебных

векторов Ук+, к = 1, Ь, IФ к. Выражение (7) для этих вычислений будет иметь вид:

Суммарное значение плотности вероятности Ф(Ук), вычисленное по формуле (8), учитывает распределение (Ь-1) образцов, т.е. на один меньше, чем суммарное значение плотности вероятности Ф(У), вычисленное по формуле (7) для неизвестного образца. Поэтому в формулу (8) включен поправочный коэффициент пропорциональности К=Ь /Ь-1.

Ранжируем теперь полученные значения плотности вероятности Ф(Ук ), к = 1,Ь по величине и выберем минимальное из них Фтш(Ук+)- Его можно трактовать как пороговое значение уровня суммарной плотности распределения Фп(У), являющееся минимально допустимым для «своего» пользователя, т.е. как искомую разделяющую поверхность О(У).

В БСИ представление векторов Уг+ сопровождается ошибкой первого рода -вероятностью Р1 ложного отказа «своему». Поэтому разделяющую поверхность в(У) вокруг области «свой» следует «расширить» на величину этой ошибки. В итоге, выражение для порогового значения плотности вероятности Фп(У), соответствующего разделяющей гиперповерхности в(У) будет иметь вид

Ь ( 1 N 4

ф(у)=е ехр— Е (V! )'• (^ у-1 .

і-1 7=1

\

(7)

Фп (V) = тіп Ф(у+) = —— Е ехР —г Е V- )'• V )'-1 + Р1,

Ь 1 2-1 V Ц 7 = 1 ,

і-1 V Ц !=1

к = 1, Ь, і = 1, Ь -1, і ф к.

(9)

Образование разделяющей поверхности О(У) для классификации векторов У+ и У- при N=2 иллюстрирует рис.4.

Аппроксимированная область распределения векторов У+

Разделяющая

поверхность

О(У)

Рис. 4. Образование разделяющей поверхности О(У) для классификации векторов

V и V при N=2

Искомое решающее правило для классификации векторов У+ и У- в условиях наличия только ограниченной обучающей выборки векторов Уг+ формулируется следующим образом: если Ф(У) > Фп(У), то предъявленный вектор относится к классу У+, в противном случае - к классу У-.

В конечном итоге решающее правило приобретает вид

V є

V +, если 8Іяп[Ф^)-Ф п (V)] = 1;

V -, если 8Іяп[Ф^) -Ф п (V)] = 0.'

(10)

БСИ на основе решающего правила (10), получается простой, допускает использование неточных биометрических данных и обеспечивает приемлемую точность классификации на ограниченных наборах учебных образцов.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Брюхомицкий Ю.А., Казарин М.Н. Метод обучения нейросетевых биометрических систем на основе построения аппроксимированных областей / Известия ТРТУ. Тематический выпуск «Материалы V международной научно-практической конференции «Информационная безопасность». - Таганрог: Изд-во ТРТУ, 2003. - С. 155-159. - № 4(33).

2. Брюхомицкий Ю.А., Казарин М.Н. Метод обучения нейросетевых биометрических систем на основе копирования областей / Электронный журнал «Перспективные информационные технологии и интеллектуальные системы». - 2003. - С. 17-23. — №3 (15). -http://pitis.tsure.ru.

3. Брюхомицкий Ю.А., Казарин М.Н. Параметрическое обучение биометрических систем контроля доступа / Вестник компьютерных и информационных технологий. - М.: Изд-во «Машиностроение», 2006.- С. 6-13. — № 2 (20).

4. Иванов А.И. Биометрическая идентификация личности по динамике подсознательных движений. - Пенза: Изд-во Пенз. гос. ун-та, 2000. - 188 с.

5. Широчин В.П., Кулик А.В., Марченко В.В. Динамическая аутентификация на основе

анализа клавиатурного почерка. - http://www.masters.donntu.edu.ua/2002/fvti/aslamov/-

Й^/Ью_аиепййсай0п.йт.

6. Каллан Р. Основы концепции нейронных сетей.: Пер. с англ. - М.: Издательский дом «Вильямс», 2001. - 287 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.