Научная статья на тему 'Метод биометрической идентификации пользователя по клавиатурному почерку на основе разложения Хаара и меры близости Хэмминга'

Метод биометрической идентификации пользователя по клавиатурному почерку на основе разложения Хаара и меры близости Хэмминга Текст научной статьи по специальности «Математика»

CC BY
1016
185
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Брюхомицкий Ю. А., Казарин М. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод биометрической идентификации пользователя по клавиатурному почерку на основе разложения Хаара и меры близости Хэмминга»

величина может контролироваться автоматически или методом самоконтроля пользователя.

_______________________________________________________________________Таблица 3

Номер диктора FAR, % FRR, % Номер диктора FAR, % FRR, %

1 0 20 11 0 0

2 0 20 12 0 40

З 0 З0 1З 0 З0

4 0 20 14 0 З0

5 0 10 15 0.25 З0

б 0 10 16 0.25 0

7 0.5 20 17 0 З0

S 0.5 З0 1S 0 З0

9 0.25 З0 19 0.5 З0

10 0 10 20 0.25 20

Заключение

Представленный в данной работе метод позволяет решить ряд проблем, возникающих при практической эксплуатации систем биометрической идентификации. В частности, данный метод позволяет использовать для проведения процессов аутентификации незащищенную вычислительную среду, предусматривает хранение биометрических параметров без дополнительных средств защиты, позволяет выполнять построение системы биометрической аутентификации поверх уже существующих протоколов сетевой аутентификации или шифрования. Использование данного метода значительно расширяет круг устройств, которые могут быть включены в защищенную информационную систему, например, для случая голосовой аутентификации в состав системы могут быть включены не только рабочие станции, терминалы, портативные компьютеры, но также и PDA, смарто-фоны и мобильные телефоны. Наряду с очевидными достоинствами данный метод имеет ряд недостатков. Например, для рассмотренного случая это довольно высокие значения FAR и FRR. Снижение данных значений может быть выполнено за счет мер, описанных выше. Кроме того, в ходе дальнейшего исследования предполагается разработка программных методов улучшения качество распознавания.

Библиографический список

1. Dirk Sheuermann , Scarlet Schwiderski - Grosche and Bruno Struif GMD -Report 118: Usability Biometrics in Relation to Electronic Signatures, Nov 2002

2. BIOMETRIC: Personal identification in networked society, Anil J. Kain and Ruud Bolle and Sharath Pankanti, Kluwer Academic Publichers, 1999

3. Л.Р.Рабинер, Р.В.Шафер Цифровая обработка речевых сигналов. М., «Радио и связь», 1981.

4. Ф. Уоссермен Нейрокомпьютерная техника, М.: Мир, 1992 г., 238 с.

Ю.А. Брюхомицкий, М.Н. Казарин

Россия, г. Таганрог, ТРТУ

МЕТОД БИОМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ ПО КЛАВИАТУРНОМУ ПОЧЕРКУ НА ОСНОВЕ РАЗЛОЖЕНИЯ ХААРА И МЕРЫ БЛИЗОСТИ ХЭММИНГА

Принцип идентификации личности по клавиатурному почерку заключается в возможности проведения анализа этого почерка при вводе парольной фразы. При

многократном вводе одной и той же фразы подготовленный пользователь обычно осуществляет большую часть манипуляций с клавиатурой на подсознательном уровне, что и порождает эффект клавиатурного почерка. Контролируемыми параметрами клавиатурного ввода является время нажатия каждой кла-

виши из последовательности клавиш, соответствующей парольной фразе, а также интервалы времени между нажатием соседних клавиш хь х2, х3, хи-ь При наборе возможно перекрытие времени при нажатии соседних клавиш. В этом случае параметр х* становится отрицательным. Контролируемые параметры ^ и х* существенно зависят от того, сколько пальцев используется при наборе, а также от характерных для пользователя сочетаний движений рук и пальцев при наборе определенных символов на стандартной клавиатуре [1].

Процедура идентификации состоит из двух этапов. На первом подготовительном этапе для каждого пользователя на основе многократного ввода фиксированной парольной фразы формируется биометрический эталон пользователя. На втором - собственно этапе идентификации, текущие параметры ввода парольной фразы сравниваются с биометрическим эталоном данного пользователя, и по результатам сравнения принимается решение о его допуске. Сравнение может выполняться на основе использования какой-либо меры близости, а также на основе обучаемой нейронной сети. Пусть с клавиатуры пользователем вводится некоторая парольная фраза, которой соответствует последовательное нажатие клавиш с номерами 1, 2, 3, ... . Процесс ввода первых шести символов парольной фразы может быть отображен временной диаграммой (рис. 1, а).

клавиши

6

5

4

3

2

1

f(t)

2A

1.

б ^

Рис.1. Принцип конструирования функции f(x) из временной диаграммы набора парольной фразы

Суть предлагаемого метода опирается на два обстоятельства.

1. Действительно информативными параметрами, отражающими характерные особенности индивидуального клавиатурного почерка пользователя, являются только время нажатий клавиш t1, t2, t3, ..., tn и интервалы времени между нажатием соседних клавиш хь х2, х3, ...., xn-1, т.е. исключительно параметры времени.

2. Последовательность нажатия клавиш при вводе фиксированной парольной фразы для данного пользователя одинакова, поэтому эту последовательность можно исключить из рассмотрения (ось ординат на рис.1, а). С учетом этих обстоятельств можно искусственно сконструировать специальную временную функцию, которая бы отражала процесс набора пользователем на клавиатуре парольной фразы во времени и несла в себе всю необходимую информацию об особенностях клавиатурного почерка пользователя. В качестве такой функции может выступать, в частности, кусочно-постоянная периодическая функция f(t), которая формируется по следующим правилам.

а

Период Т функции f(t) соответствует времени набора на клавиатуре парольной фразы;

Функция f(t) имеет участки:

- с постоянной амплитудой А, которые соответствуют временным участкам нажатия одной из клавиш;

- с нулевой амплитудой (А=0), которые соответствуют временным участкам пауз между нажатиями клавиш;

- с амплитудой кА, которые соответствуют временным участкам перекрытия (одновременное нажатие двух последующих клавиш).

Коэффициент к учитывает степень влияния перекрытий в общей совокупности информативных параметров. В проведенных экспериментах к=2.

С учетом введенных правил временную диаграмму начала парольной фразы (рис. 1, а) можно представить функцией f(t) (рис. 1, б).

Принцип конструирования функции f(t) позволяет утверждать, что она несет в себе всю необходимую информацию, отражающую индивидуальные особенности клавиатурного почерка пользователя при наборе им парольной фразы. Вместе с тем непосредственное использование этой функции для получения вектора V информативных параметров конкретного пользователя неудобно, поскольку она зависит от времени. Классическим математическим приемом, позволяющим сделать переход от f(t) к V, является разложение функции f(t) в какой-либо ряд, члены которого и будут являться компонентами вектора V информативных параметров.

Функция f(t) - кусочно-непрерывна на интервале времени Т и имеет ограниченное число разрывов первого рода, поэтому ее можно трактовать как полигар-монический процесс, протекающий в интервале времени Т, а, следовательно -представить рядом Фурье. Ограничиваясь конечным числом членов разложения m, получим

Линейность ортогональных функционалов разложения Фурье позволяет осуществлять простое масштабирование функции fit) при каждом вводе парольной фразы. Коэффициент масштабирования ц некоторой вводимой фразы fxit) относительно первой введенной f1 it) (как масштабного эталона) равен

Коэффициенты разложения а0, а^., , вычисленные для г = 1, т членов раз-

ложения, в совокупности представляют искомый Ж-мерный вектор информативных биометрических параметров

V = {V], У2, ..., ^} = {ао, аА, а^ ..., ам V Ы ..., Ъ}т\, где Ы=2т+\.

Число членов разложения т определяет погрешность метода, поэтому т целесообразно выбирать на этапе экспериментальных исследований.

Вектор V является исходным для последующей процедуры аутентификации, которая в простейшем случае может строиться на основе измерения близости предъявляемого вектора V к биометрическому эталону VЭ мерой Хэмминга, что в

m

m

где: ю0 = 2л/Т - основная угловая частота;

а0, а-р, Ъ-р - коэффициенты разложения, вычисляемые по формулам

итоге позволяет классифицировать предъявляемый вектор V как «свой» - УС или «чужой» - Vч..

Дальнейшая реализация метода аналогична реализации метода идентификации пользователя по рукописному почерку, которая была представлена в работе [2]. Разница состоит лишь в виде и числе функций /(ф). Метод реализован в виде программной модели. Вместе с тем, дальнейшие исследования показали, что использование разложения функции /(ф) в ряд Фурье является не самым оптимальным решением по следующим причинам.

Особенностью функции /(ф) является то, что она является кусочно-постоянной на всем интервале ввода парольной фразы и, следовательно, имеет множество амплитудных скачков. Базис синусоидальных ортогональных функций разложения Фурье, покрывая весь спектр входного сигнала, обладает свойством глобальной чувствительности, которое заключается в том, что каждый коэффициент разложения является функцией всех координат пространства входного сигнала. Это приводит к тому, что полезная биометрическая информация, содержащаяся в функции /(ф), распределяется в широком спектре частот по большому числу коэффициентов Фурье. В такой ситуации вынужденное ограничение на число членов разложения функции /ф может привести к потере значительной доли полезной биометрической информации. Чтобы снизить указанные потери, желательно использовать другое разложение функции /(ф), отличное от синусоидального базиса Фурье. Такое разложение, с одной стороны, должно быть более адекватным к виду функции /ф и, с другой стороны - иметь такую структуру коэффициентов разложения, в которой основная доля полезной информации концентрировалась бы в сравнительно небольшом числе начальных коэффициентов.

Поиск базиса разложения с указанными свойствами в классе несинусоидальных ортогональных функций приводит к функциям Хаара [3]. Функции Хаара образуют периодическую, ортонормированную, полную систему непарных функций, обладающих свойством как глобальной, так и локальной чувствительности. Из N коэффициентов разложения Хаара: N/2 коэффициентов соответствуют корреляции двух соседних точек в пространстве входного сигнала; N/4 коэффициентов -четырех соседних точек и т.д. до NN коэффициентов, соответствующих всем N координатам пространства входного сигнала. Таким образом, только первые два коэффициента разложения Хаара являются функциями всех N координат пространства входного сигнала (свойство глобальной чувствительности), далее степень чувствительности быстро (пропорционально степени 2) понижается. Следовательно, функции Хаара в наибольшей степени удовлетворяют в качестве искомого базиса разложения биометрической функции /ф.

Каждая функция Хаара {Иаг (п, т, ф)}, за исключением первой, представляет собой прямоугольный двуполярный импульс различной амплитуды, занимающий строго определенное положение на полуоткрытом интервале [0, 1). Первая функция Хаара Иат (0, 0, ф), в отличие от всех остальных, представляет собой прямоугольный импульс положительной полярности и единичной амплитуды на всем интервале [0, 1).

Функции Хаара Иаг (п, т, ф) можно получить из рекуррентного соотношения:

Иат (0, 0, ф)= 1, ф е [0, 1);

Ьаг (г, т,г) =<

„г/2 т — 1 т — 1 / 2

2г/2, если----------< г <------------;

2г 2г

г/2 т —1 / 2 т

— 2 2, если--------------< г < —; (1)

2г 2г

0, при остальных г е [0,1),

где 0 < г < 1о^2 N и 1 < т < 2Г.

Дискретизация системы функций Хаара приводит к матрице Хаара Н (п), где п=^2 N. Каждая строка матрицы Н (п) является дискретной функцией Хаара.

Для преобразования исходной функции Д(/) в вектор биометрических параметров V на основе разложения Хаара, ее необходимо предварительно дискретизировать во времени в соответствии с параметрами дискретизации функций Хаара:

Р(4) = (Д/с),Ж), ...,Д/ш)}, к = 0, 1, ...,N-1. (2)

Тогда искомый вектор биометрических параметров V можно представить через преобразование Хаара:

1 .

V (п) = —И (п) • ¥(ґк),

N

(3)

где п=^2 N. Компоненты вектора Vд(n) = {^(п), Дп),..., Удлц)(п)}:

1 N-1

уг(п)=^ X f(tk)^ к, (4)

м к=0

где функции Нкг вычисляются согласно (1).

Описанный способ получения вектора Vд(n) на основе функции Д(/) подразумевает тот факт, что базисные функции Хаара должны иметь шаг дискретизации Дь обеспечивающий представление без потерь высокочастотной части функции Дф. Применительно к виду функции Д(/) (см. рис. 1,б), это означает, что шаг Дк должен быть соразмерным минимальному значению длительностей:

- нажатия клавиш без перекрытия;

- перекрытий в нажатии двух клавиш;

- пауз между соседними нажатиями клавиш, выявленных на всем периоде Т ввода парольной фразы.

Дк < Ш1П (/н.ш1ш ^.тт? тт1п) ^тт. (5)

Так, для функцииДф (рис. 2) ДЬ < /п.тт = /тт.

ад

А

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Период Т ввода парольной фразы, состоящей из I символов, можно определить следующим образом:

Т = Хгні +ХТ]

7=1 у-1 к-1

(6)

где р - число перекрытий при нажатии соседних клавиш, которое находится в диапазоне 0 < р< (1-1).

Правую часть выражения (6) можно упростить, если на всем периоде Т ввода парольной фразы принять следующие допущения:

/п.ср. ^шт;

і = п/і '

‘•н.ср. ‘•шш?

Хср. Р ^ш

р = У(1-1) , (7)

где а, р и у - некоторые коэффициенты, характерные для данного пользователя, причем а > 1, р > 1, С < у < 1.

Тогда выражение (7) можно приближенно представить в виде

Т -1 ■а■ ^ + (1 -1)-р-С-(1 -1)Т С - ■а+(1 -1)р-(1 -1)-у] ■ ^. (8)

X

і

Т

Рис. 2. Минимальные значения длительностей /нш1п, /пш1п, т

С другой стороны, за тот же период Т осуществляется преобразование Хаара:

Т = N ■ Д*, (9)

Приравнивая (8) и (9) при условии, что Д* = /тш, получим соотношение, связывающее число базисных функций Хаара с длиной парольной фразы:

N = /■а + (/-1)-р - (/-1)-у. (10)

Следует подчеркнуть, что выражение (10) является верхней оценкой для параметра N, поскольку оно было получено при условии, что преобразование исходной функции /(/) в вектор биометрических параметров У/п) осуществляется без потери точности. Оценка размерности вектора У/п) для реальной длины парольной фразы в /=10-20 символов дает N=50-500. Реальные же значения N должны быть на порядок меньше. Очевидно, что прямое сокращение размерности вектора У/П) на порядок приведет к значительной потере точности преобразования. Выходом из этой ситуации является введение дополнительной дискретизации функции Р(4) с более мелким шагом, при этом шаг дискретизации базисных функций Хаара остается прежним. Положим шаг дискретизации Д; функции Р(/к) в q раз меньшим, чем шаг дискретизации базисных функций Хаара:

Д* = q ■ Д/. (11)

Тогда Р(х*) = (Д/0),/А), ...,//м-0>, к = 0, 1, ...,М-1, (12)

где М = q■N.

Компоненты вектора биометрических параметров У/(п) будут вычисляться по той же формуле (4), но изменятся пределы суммирования:

, М-1

Vfr(n) = ТТ Е ^к)^кг. (13)

М k=0

При одинаковой размерности вектора У/(п<птах) в (4) и (13), вычисление по формуле (13) позволит существенно снизить потери точности, но займет в q раз больше времени. Сократить время вычисления У/(п) с шагом Дх = qД* при сохранении точности можно, если учесть свойства функций /(4). Действительно, в выражении (13) функции _Д4) являются кусочно-постоянными и положительными (или равными нулю) на всем интервале к=(1, М), а функции Нкг - кусочно-постоянными и двуполярными (или равными нулю) на том же интервале, за исключением первой функции Ик0 - положительной на всем интервале к=(1, М). Используя эти свойства, выражение (13) можно вычислять с помощью алгоритма, использующего логические условия взаимного расположения отсчетов обеих функций и формулу прямоугольников.

Для непрерывного представления системы функций Хаара, вычисление каждой компоненты вектора У/(п) можно проводить по формуле

(14)

Пример преобразования /(х) в g(t) с использованием одной из базисных функций Хаара показан на рис. 3.

Поскольку функция g(t) - прямоугольная, интеграл (14) можно вычислять как сумму площадей прямоугольников, составляющих функцию g (^:

k

v/г = ^ + S2 + ... + Sk =ЁSl .

1=1

Изложенный метод идентификации пользователя реализован в виде программной модели доступа для персонального компьютера с операционной системой класса Windows 9x/Windows ЭТ.

Следует отметить, что в биометрических системах контроля доступа, основанных на вводе рукописного, клавиатурного и речевого пароля, уровень защиты определяется двумя факторами: «секретностью» вводимого пароля; возможностью системы отличить «своего» и «чужого» пользователя при вводе ими одного и того же пароля (фактически - не секретного).

Эти факторы образуют соответственно две ступени защиты от несанкционированного доступа. При испытаниях изложенного метода (по понятным причинам) контролировалась только вторая ступень защиты. Для испытания были привлечены 6 пользователей, разбитых на две группы, по 3 в каждой.

Первая группа вводила одно и то же короткое, 8-символьное слово «уважение». Вектор биометрических параметров имел размерность N=64.

На рис. 4 показан вид функций/(/) для трех пользователей первой группы. На оси времени указано число дискретных отсчетов с шагом дискретизации ДЛ

1 [ пп ПОП Пользователь 1

1 г" 1 1 и 1 Пользователь 2

Пользователь 3

12 3 4

Рис. 4. Вид функций/(/) для трех пользователей первой группы

х10

1ПП ПППП ПППП ППП

Пользователь 1

Д

И

Пользователь 2

п п п п п

Пользователь 3 і

Рис. 5. Вид функций/(/) для трех пользователей второй группы Вторая группа также вводила одно и то же, но более длинное, 14-символьное слово «аутентификация». На рис. 5 показан вид функций /(/) для трех пользователей второй группы.

Испытания проводились следующим образом. Каждый из шести пользователей ввел свое парольное слово 20 раз (пользователи первой группы - парольное слово «уважение», пользователи второй группы - «аутентификация»). Сравнение мерой Хэмминга проводилась по всем пользователям. Таким образом, общее число примеров равнялось 20*6=120, причем для каждого пользователя 20 примеров должны идентифицироваться как «свой» и 100 примеров - как «чужой». При 20 примерах вероятность ошибки первого рода (вероятность отказа подлинному пользователю) была задана - ^=0,03, что соответствует коэффициенту Стьюдента 2,0. В результате испытаний была набрана статистика. Гистограммы распределения областей «свой» и «чужой» меры Хэмминга с контролем 64 биометрических параметров (N=64) для каждого пользователя приведены на рис. 6.

_ Пользователь 1

■■■■ШИИИП,

Г руппа 1

_■■■ ■ ■_■

-Пп.ПП.

—I—I—I—I—I—I—

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40

1 Группа 1

В □ П □ В П в |||.|||||||М ■ щ Пользователь 2

1 1 ■ ■ _

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40

16 -12 -8 -4 -0 -

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40

16 -12 -8 -4 -0 -

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40

,.|||||||||

11 I ■ 111

Г руппа 2 Пользователь 1

РпП

И п

иШИИп!

Группа 2 Пользователь 3 ■ 1 - -

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40

I I

«свой» «чужой»

Рис. 6. Гистограммы распределения областей «свой» и «чужой»

Из гистограмм видно, что предлагаемый метод позволяет достаточно точно разделить области «свой» и «чужой». Для первой группы пользователей пороговое значение меры Хэмминга близко к 7, для второй - 10. При использовании достаточно большого числа контролируемых биометрических параметров распределение значений меры Хэмминга близко к нормальному, и пороговое значение меры Хэмминга Еп можно определить через математическое ожидание и дисперсию значений меры Хэмминга для «своего» пользователя:

Еп = т(Ес) + CfL.f1-р )]• о(Кс), где С[Ь, (1-Р\)] - коэффициент Стьюдента, задаваемый, исходя из числа использованных примеров Ь и величины ошибки первого рода (вероятности Р\ ложного отказа «своему» пользователю).

Предложенный метод отличается от известных тем, что он рассчитан на максимальную длину парольной фразы, в пределах которой структура классификатора остается неизменной. Это позволяет легко настраивать систему идентификации на любых новых пользователей, при необходимости менять биометрические параметры ранее зарегистрированных пользователей (при изменении их клавиатурного почерка), а также оперативно менять саму парольную фразу в пределах ее максимальной длины без каких-либо последствий для структуры классификатора и точности системы. Точность метода определяется единственным параметром - числом коэффициентов разложения, которое выбирается, исходя из максимальной длины парольной фразы.

Библиографический список

1. Иванов А.И. Биометрическая идентификация личности по динамике подсознательных движений: Пенза: Изд-во ПГУ, 2000, 188 с.

2. Брюхомицкий Ю.А., Казарин М.Н. Система аутентификации личности по почерку // Сборник трудов научно-практической конференции с международным участием «Информационная безопасность». Таганрог: Изд-во ТРТУ, 2002. С. 22-29.

3. Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сигналов: Пер. с англ./ Под ред. И.Б. Фоменко. М.: Связь, 1980, 248 с.

П.Ю. Юрков

Россия, г. Таганрог, ТРТУ

СИСТЕМА БИОМЕТРИЧЕСКОЙ АУТЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ ПО ГОЛОСУ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ

В работе приведен один из вариантов решения задачи текстонезависимой аутентификации субъекта по голосу на основе комбинации методов быстрой цифровой обработки сигналов и нейронных сетей. Задача аутентификации пользователя по голосу состоит в определении, соответствует ли предъявленное имя и образец голоса, голосу пользователя зарегистрированного в системе. Однако, непосредственное сравнение речевых сигналов невозможно вследствие ряда причин, например случайного характера искажений при записи, а так же нерегулярности речевого сигнала по амплитуде и времени. Поэтому для текстонезависимой аутентификации субъекта по голосу необходимо использовать набор устойчивых параметров, выделяемых из речевого сигнала, с последующей их обработкой искусственными нейронными сетями.

Известно, что характеризующая диктора информация, содержащаяся в речевом сигнале, сконцентрирована, в основном, в средней и верхней частях спектра. Учитывая, что речь является мультипликативным сигналом, в котором один

i Надоели баннеры? Вы всегда можете отключить рекламу.