Научная статья на тему 'Система распознования клавиатурного почерка пользователей на основе полигауссового алгоритма'

Система распознования клавиатурного почерка пользователей на основе полигауссового алгоритма Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
857
116
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
004.93'12 / КЛАВИАТУРНЫЙ ПОЧЕРК / KEYBOARD HANDWRITING / ЭТАЛОН ПОЛЬЗОВАТЕЛЯ / USER REFERENCE / ИДЕНТИФИКАЦИЯ / IDENTIFICATION / АУТЕНТИФИКАЦИЯ / AUTHENTICATION / ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ / INFORMATION SECURITY / БИОМЕТРИЯ / BIOMETRICS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шарипов Р. Р., Катасёв А. С.

В данной статье проводится анализ методов распознавания клавиатурного почерка на основе сравнения эталонных гауссовских значений с новыми поступившими значениями. Показана актуальность построения систем разграничения доступа с использованием биометрических методов идентификации и аутентификации. Подробно рассматриваются методы анализа клавиатурного почерка пользователей. Проводится анализ работ известных российских ученных в данной области. Приводится и анализируется схема статистического анализатора клавиатурного почерка на основе эталонных гауссовских сигналов. На основе статистического анализатора и реализованных в нем полигауссовских моделей и алгоритмов разрабатывается система распознавания клавиатурного почерка пользователей. Проведено тестирование системы и получены результаты, на основе которых делается вывод о повышении достоверности принятия решений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USER KEYBOARD HANDWRITING RECOGNITION SYSTEM BASED ON POLY GAUSSIAN ALGORITHM

This article analyzes the handwriting recognition methods of keyboard users by comparing the standard Gaussian values with the new values. The urgency of access control systems construction using biometric identification and authentication methods. The methods of handwriting keyboard users analysis are considered. The analysis of famous Russian scientists works in this field. Presents and analyzes the statistical analyzer circuit keyboard handwriting on the basis of standard Gaussian signals. On the basis of the statistical analyzer and realized it poly-Gaussian models and algorithms developed handwriting recognition software keyboard users. Testing of the system and the results obtained, based on which concludes that improving the reliability of the decision.

Текст научной работы на тему «Система распознования клавиатурного почерка пользователей на основе полигауссового алгоритма»

УДК 004.93'12

СИСТЕМА РАСПОЗНОВАНИЯ КЛАВИАТУРНОГО ПОЧЕРКА ПОЛЬЗОВАТЕЛЕЙ НА ОСНОВЕ П О Л И Г А У С С О В О Г О А Л Г О Р И Т М А

Шарипов Р.Р., канд. техн. наук, доцент Катасёв А.С., д-р техн. наук, доцент

Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ Контакты: [email protected]

В данной статье проводится анализ методов распознавания клавиатурного почерка на основе сравнения эталонных гауссовских значений с новыми поступившими значениями. Показана актуальность построения систем разграничения доступа с использованием биометрических методов идентификации и аутентификации. Подробно рассматриваются методы анализа клавиатурного почерка пользователей. Проводится анализ работ известных российских ученных в данной области. Приводится и анализируется схема статистического анализатора клавиатурного почерка на основе эталонных гауссовских сигналов. На основе статистического анализатора и реализованных в нем полигауссовских моделей и алгоритмов разрабатывается система распознавания клавиатурного почерка пользователей. Проведено тестирование системы и получены результаты, на основе которых делается вывод о повышении достоверности принятия решений.

Ключевые слова: клавиатурный почерк, эталон пользователя, идентификация, аутентификация, информационная безопасность, биометрия.

Введение

В настоящее время одной из важных задач в сфере информационных технологий и безопасности информационных систем является защита информационных ресурсов и систем от несанкционированного доступа. Существует большое количество известных методов и алгоритмов обеспечения информационной безопасности, а также от несанкционированного доступа к информации [1; 2]. Такие известные методы защиты информации, как шифрова-

45

ние, установка паролей и резервное копирование данных или настроек работоспособных систем, являются стандартным необходимым набором практически в любых информационных системах, к которым предъявлены минимальные требования безопасности. Но, не смотря на это, важной частью обеспечения безопасности информационных систем является задача разграничения лиц, которые имеют доступ к определенной информации, а также защита от несанкционированного доступа к информации.

Другим важным аспектом обеспечения информационной безопасности телекоммуникационных систем и сетей является необходимость установления личности пользователей и обеспечение возможности их аутентификации. Известны несколько типов систем идентификации и аутентификации: парольные, технические и биометрические. При этом биометрическая идентификация и аутентификация наиболее тесно связана с пользователем, так как его биометрические характеристики не отделяется от субъекта.

Для идентификации и аутентификация субъектов доступа выделяют следующие биометрические характеристики [3; 4]:

- отпечатки пальцев;

- форма и размеры ладони;

- узоры радужной оболочки глаза;

- узоры сетчатки глаза;

- формы лица людей;

- голосовые характеристики;

- биомеханическая характеристика рукописного почерка;

- биомеханическая характеристика почерка пользователя, работающего на клавиатурных устройствах ввода информации.

Применение данных признаков в качестве идентификационных параметров людей является развивающимся направлением в системах идентификации и аутентификации личности [5; 6]. Одним из наиболее актуальных направлений является идентификация субъектов по их клавиатурному почерку [7^9].

46

Анализ методов распознавания клавиатурного почерка

Одним из первых исследований решения задачи анализа клавиатурного почерка изложен в [10]. Данный автор разработал методику, в которой он принял временные интервалы нажатия и отпускания клавиш при наборе заранее обусловленного текста как случайные процессы. При разработке математической модели автор сделал допущении, о том, что измеренные временные интервалы подчиняются нормальному гауссовскому, закону распределения [11]. Кроме этого им разработаны и представлены достаточно простые алгоритмы для решения следующих задач [10]:

- построения доверительных интервалов дисперсии и математического ожидания;

- проверки гипотезы о равенстве центров распределения двух нормальных гауссовских выборок, при этом автор допускает равенство дисперсий данных выборок;

- проверки гипотезы о равенстве дисперсий двух нормальных гауссовских выборок;

- исключения ошибок из выборок.

В общем аспекте задачу проверки данных автор изложил в виде сравнения двух гипотез следующим образом [10]. Допустим - закон распределения некой случайной величины У, которая зависит от одного параметра Ь. Необходимо гипотезу Ко при которой параметр Ь=Ь0 (в этом случае полученные и эталонные результаты принадлежат одному и тому же пользователю), и гипотезу К при которой параметр Ь=Ь\ (в этом же случае полученные и эталонные результаты принадлежат разным пользователям). После этого автор описал и предложил несколько алгоритмов для вычисления численных значений математических ожиданий и дисперсий временных значений для обучения системы распознавания и для идентификации пользователей.

В работе [12] приводится классификация методов вычисления и обработки временных значений параметров клавиатурного

47

почерка на программно-аппаратные и программные методы. Программные методы сбора и анализа характеристик клавиатурного почерка осуществляются только программными средствами без дополнительного оборудования и устройств. Применяя же аппаратно-программные методы, в которых используется частичное подключение разработанных дополнительных средств и оборудования, можно осуществлять съем дополнительных параметров клавиатурного почерка, которые невозможно зафиксировать на программном уровне. Обычно аппаратно-программные методы используются для съема и анализа исходной информации. Дальнейший анализ собранных данных выполняется с применением специализированного программного обеспечения. Например, в работе [13] предложена аппаратная реализация устройства для съема и вычисления скорости движения клавиш. В данной работе измеряют скорость движения клавиш, измеряя изменение емкости контактной пары клавиши при ее надавливание пользователем. В данном случае скорость движения клавиши представлена как процесс изменения электрической емкости контактной пары клавиши во времени:

V = &С & '

где С - емкость контактной пары клавиши, I - время изменения емкости.

Для реализации данного метода в [13] было разработано устройство, устанавливаемое в стандартную пленочную клавиатуру. Устройство состоит из следующих компонентов:

- согласующего фильтра для съема емкости клавиш;

- преобразователя, который переводит измеренную емкость в электрическое значение;

48

- аналого-цифрового преобразователя для преобразования электрического значения в набор дискретных значений;

- контроллера для счета этих значений и вычисления их количества за единицу времени;

- интерфейса ЯБ232, для согласования работы устройства с персональным компьютером, в котором через драйвер порта программа-обработчик получает временные данные с контроллера для дальнейшей статистической обработки.

Кроме того, существуют эффективные нейросетевые [14], нечеткие и нейронечеткие методы, которые можно эффективно использовать в системах информационной безопасности в целом, и для анализа клавиатурного почерка пользователей [15^17], в частности.

Особенности работы пользователей за клавиатурой, вследствие перемены эмоционального состояния, можно отнести к случайному процессу. Соответственно, измеренные временные интервалы клавиатурного почерка относятся к случайным величинам. В работе [10] рассмотрена методика распознавания клавиатурного почерка, автор которой делает допущение о том, что измеренные временные значения распределены по нормальному гауссовскому закону. Известен метод определения законов распределения случайных величин [18], который является аппаратурным анализом случайных процессов, использующих эталонные гауссовские сигналы. В [19] представлена одна из реализаций метода для анализа клавиатурного почерка.

Авторский метод включает следующие этапы:

1) формируются эталонные сигналы гауссовского вида, которые описываются функциями плотности вероятности Ж„(х);

2) для каждых вспомогательных сигналов х„г(/) и 1-й реализации анализируемого процесса хг(^) формируются сигналы сходства по следующей формуле:

49

$пг = Л^т) = |1+^„г|-1, п = 1,2...N

где йП1 - является расстоянием между выборками эталонных процессов и анализируемого процесса;

3) 1-я реализация исследуемого процесса включается в некоторую подсовокупность Хп после сравнения исходных сигналов с заданным пороговым уровнем Ъп.

Результатом сравнения сигналов сходства между собой является разделение генеральной совокупности реализаций I рассматриваемого процесса на подсовокупности реализаций 1п, п=1,2...Ы. Так как каждая п-я подсовокупность рассматриваемого процесса характеризуется некоторым ядром, то есть многомерной плотностью распределения вероятностей п-го вспомогательного процесса Жп(х), то многомерные законы распределения заданного процесса описываются смесями плотности распределения со следующими весовыми коэффициентами:

дп = 1пИ, п=1,2...Ж

Для реализации способа разделения в смеси сигналов гаус-совской формы, используя эталонные сигналы, авторами работы [20] предложен статистический анализатор. В качестве эталонных сигналов выбраны временные значения нажатия и отпускания клавиш. При этом эталон формируют путем измерения временных интервалов нажатия и отпускания клавиш пользователями, работающими за клавиатурой и набирающими определенный текст. После формирования набора исходных характеристик клавиатурного почерка пользователей собранные данные очищаются путем исключения выбросов, шумов и аномальных значений. Затем на основе очищенных данных вычисляют их математические ожидания, которые в дальнейшем принимаются в качестве эталонных значений клавиатурного почерка.

50

На рисунке 1 представлена структурная схема статистического анализатора.

Рис. 1. Схема статистического анализатора клавиатурного почерка

Анализатор, представленный на данном рисунке, содержит в себе эталонные значения различных пользователей 1 1-1ы, блоки для формирования разности по модулю эталонных значений и поступивших значений 2\-2м, блок принятия решения 3, счетчик 4, счетчики 51-5#, генераторы сигналов нормальной гауссовской формы 61-6^, умножители 71-7^, и сумматор 8. Эталонные значения 11-1# синхронизируются с временными входными параметрами и передаются на входы всех блоков формирования разности по модулю эталонных и поступивших значений 21-2^, куда на вторые входы всех блоков поступает исследуемый временной параметр. В блоках формирования модуля разности вычитается по модулю эталонное значение из входного значения и результат вычисления интегрируется. При этом вероятность того, что наименьшее значение будет накоплено в интеграторе того канала, где эталонное

51

значение наиболее близко к реализации исследуемого значения, будет максимальна. После передачи на вход анализатора всех значений, накопленных в интеграторах блоков 21-2^, они поступают на решающий блок 3, где сравниваются и выделяется канал с минимальным значением, что регистрируется счетчиком канала 5п.

Результатом анализа реализаций исследуемого значения является регистрация счетчиками 51-5^ величин 11, 12,...1^ количества реализации исследуемого значения Х(^), которые максимально сходны с эталонными значениями хп({), п = 1,Ы и совпадают по величине.

Исходя из этого, статистический анализатор разделяет на N подсовокупностей всю совокупность I реализаций исследуемых значений. Законы распределения N подсовокупностей соответствуют по вероятности законам соответствующих эталонных значений. Определение вероятностей происходит следующим образом. Счетчиком нормирования результата 4, коэффициент пересчета которого установлен заранее, считывают общее количество поступивших реализаций. Если счетчик нормирования результата переполняется, то с его выхода одновременно подаются сигналы для нормирования показателей счетчиков 51-5N и запуска генераторов 6^6^ Значения нормированных показателей счетчиков 51-5N представляют вероятности дп = 1п/1, п = 1, N разделенных подсовокупностей [18].

Далее в перемножителях 71-7N вероятности дп перемножаются с выходными значениями генераторов Жп(^). В сумматоре 8 суммируются выходные сигналы перемножителей. После этого вырабатывается для исследуемого значения функция распределения и плотность распределения, которая состоит из N подсовокупностей, описываемых смесями гауссовских плотностей распределения:

52

Г (0 = £ Л (0, д„ > 0, £ чп = 1.

П=1

п=1

В данном случае смесь характеризует распределение временных характеристик пользователя.

Реализация полигауссового алгоритма

На рисунке 2 показана структура разработанной системы идентификации пользователей по клавиатурному почерку, в которой реализован полигауссов алгоритм.

Рис. 2. Структура системы идентификации пользователей

Алгоритм работы системы включает следующие этапы. 1. Настройка системы для заданных параметров клавиатурного почерка. На данном этапе формируются эталонные значения,

53

в которые записываются значения наблюдений, математические ожидания и дисперсии. При формировании эталона зарегистрированные пользователи многократно набирают заранее известные фразы или тексты.

2. Идентификация случайного пользователя. Данный пользователь набирает на клавиатуре текст, по которому вычисляются заданные параметры его клавиатурного почерка в блоке вычисления параметров клавиатурного почерка (БВПКП).

Далее формируются сигналы сходства по следующей формуле:

8п1=Г(ёп1)=|1+ёп1|-1, п=1,2...^

где ёш - расстояние между выборками анализируемого процесса и эталонных процессов. В данном случае для простоты вычислений было выбрано прямое расстояние между эталоном и поступившим значением случайного тестируемого пользователя.

3. Сравнение сигналов сходства для каждого зарегистрированного пользователя. При этом минимальное его значение относят к определенному пользователю. Все поступившие значения фиксируются и формируется смесь распределений для каждого заданного параметра.

4. Формирование решения системы аутентификации для каждого параметра клавиатурного почерка к согласно стратегии Байеса. Для этого вычисляются условные вероятности принадлежности параметров клавиатурного почерка ко всем заданным пользователям по следующим соотношениям:

Р(ЬС | у.) = 5 ( С)ез'( 17 1 7 7 ^ ,

^Р(ЬсК31(Х1,Х1 , •••

С=1

54

где ЬС - класс, принадлежащий с-му зарегистрированному пользователю, Гсэ; - распределение значение 1-го эталонного параметра почерка, принадлежащий с-му зарегистрированному пользователю.

Условная вероятность принадлежности общего к-го параметра к с-му пользователю определяется как:

£ Р(Ъо|У1)

Р(Ьо |к<) =

У

где у - количество параметров появившихся в наблюдении.

Ввиду того, что за малый период времени могут появиться не все заданные параметры, условная вероятность принадлежности общего параметра определяется как среднее значение условной вероятности принадлежности параметров к с-му пользователю. Общая вероятность принадлежности наборных характеристик с-му пользователю определяется как сумма условных вероятностей принадлежности наборных значений общих заданных параметров:

Р(ЬС | К) = Р(ЬС | к1) + Р(ЬС | к2) + Р(ЬС | кз),

где к1 - время удержания клавиш, к2 - время между нажатиями клавиш на клавиатуре, к3 - средняя скорость набора символов на клавиатуре.

Значения Р(ЬС|К) сравниваются между собой, и выбирается максимальное значение, соответствующее одному из зарегистрированных пользователей. Кроме этого необходимо задание порогового уровня.

5. В случае парольной идентификации осуществление проверки правильности набора заранее известных парольных фраз. Оптимальным является длина парольных фраз в 25-30 символов.

55

6. При условии правильности набора парольной фразы предоставление системой доступа пользователю.

7. При удачной аутентификации обновление эталонных значений по рекуррентным соотношениям следующего вида:

/ N 1 " 1 / N 1

т^) = — • т1 + -, 1 1

1 - 2 2 / ч 1

• о.Ду;) н---(У-- - т(

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

= — • З-^) + —■ • (У, - Ш1(у))2 1 -1 1 -1

В случае если массивы измеренных значений сохраняются, происходит пересчет параметров эталонных значений по формулам:

1 N

ш(у,) =—V V,,

1 NV 11

1 1

о 2(Уj) = ^ •Е (У, - шI(Уj))2

С целью оценки эффективности работы системы в течение нескольких дней проводилась процедура идентификации. Пользователи многократно работали на клавиатуре. При этом вычислялись временные значения параметров клавиатурного почерка каждого зарегистрированного пользователя. На основе вычисленных значений определялись условные вероятности принадлежности параметров клавиатурного почерка к зарегистрированным пользователям, условные вероятности принадлежности наборных характеристик, а также фиксировалось количество работ на клавиатуре и сами пользователи. В результате попыток идентификации пользователей вычислялись коэффициенты ошибочных решений системы:

Кош Яош^

56

где Яош - ошибочные решения системы, Яр - все решения системы и коэффициенты достоверности аутентификации;

Кд = Япр/Яр,

где Япр - правильные решения системы.

Кроме того, важной задачей является выбор порогового уровня общей условной вероятности принадлежности наборных характеристик к одному из зарегистрированных пользователей. В результате проведения численных расчетов получена зависимость коэффициента достоверности от заданного порогового уровня (рис. 3).

Кд

0,95 -0,7В " 0,57 -0,38 -0,19 -

0 т-1-1-1-1-1-1-1-1-1-1

0 0,1 0,2 03 0,4 0^ 0,6 0,7 018 03 1

Рис. 3. Зависимость коэффициента достоверности от заданного порогового уровня

апостериорной вероятности

Таким образом, в результате подбора порогового значения апостериорной вероятности, которая составила 0.5, удалось снизить коэффициент ошибочных решений и тем самым повысить достоверность аутентификации пользователей до 95%.

57

Заключение

Описанный в данной работе подход позволяет получить коэффициент достоверности принимаемых решений на уровне 95%. Это говорит об эффективности предложенного математического обеспечения и возможности практического использования разработанной системы для анализа клавиатурного почерка в различных сферах человеческой деятельности, в которых требуется подтверждение достоверности зарегистрированных пользователей.

Источники

1. Аникин И.В., Глова В.И. Методы и средства защиты компьютерной информации: учеб. пособие. Казань: Изд-во Казанского государственного технического университета, 2008. 260 с.

2. Ибрагимов А.Р. Методы распознавания пользователей по клавиатурному почерку в системах дистанционного образования // Инновационные технологии научного развития. Сборник статей международной научно-практической конференции. Уфа, 2016. С. 60-62.

3. Иванов А.И. Биометрическая идентификация личности по динамике подсознательных движений: монография. Пенза: Изд-во Пензенского государственного университета, 2000. 188 с.

4. Рудаков О.М. Метод биометрической аутентификации, основанный на анализе клавиатурного почерка // Молодой ученый. 2016. № 11 (115). С. 448-451.

5. Мазниченко Н.И., Гвозденко М.В. Анализ возможностей систем автоматической идентификации клавиатурного почерка // Вестник Национального технического университета Харьковский политехнический институт. Серия: Информатика и моделирование. 2008. № 24. С. 77-82.

6. Рудаков О.М. Клавиатурный почерк как метод биометрической аутентификации // Тенденции науки и образования в современном мире. 2016. № 12 -2. С. 19-21.

7. Еременко Ю.И., Олюнина Ю.С. Об идентификации клавиатурного почерка пользователей // Перспективы развития информационных технологий. 2016. № 28. С. 145 -151.

8. Ефимова Ю.В. Система анализа образа пользователя на основе динамики клавиатурного почерка // Методы, средства и технологии получения и обработки измерительной информации. Международная научно -техническая конференция. 2014. С. 93-96.

9. Шарипов Р.Р., Катасёв А.С., Кирпичников А.П. Методы анализа клавиатурного почерка пользователей с использованием эталонных гауссовских сигналов // Вестник технологического университета. 2016. Т.19, №13. С. 157-160.

10. Расторгуев С.П. Программные методы защиты информации в компьютерах и сетях. М.: "Яхтсмен", 1993. 188 с.

58

11. Савинов А.Н., Сидоркина И.Г. Математическая модель механизма распознавания клавиатурного почерка на основе гауссовского распределения // Известия Кабардино -Балкарского научного центра РАН. 2013. № 1 (51). С. 26-32.

12. Шарипов Р.Р. Разработка полигауссового алгоритма аутентификации пользователей в телекоммуникационных системах и сетях по клавиатурному почерку: диссертация на соискание ученой степени кандидата технических наук. - Казань, 2006. - 134 с.

13. Шарипов Р.Р., Сафиуллин Н.З. Способ формирования эталонных значений характеристики пользователя персонального компьютера: патент на изобретение RUS 2333532 07.07.2005.

14. Катасёв А.С., Катасёва Д.В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. 2015. № 1 (25). С. 68-78.

15. Сафонов В.М. Модель клавиатурного почерка в задачах защиты автоматизированных систем // Вестник Российского нового университета. 2015. № 9. С. 101 -108.

16. Сидоркина И.Г., Савинов А.Н. Три алгоритма управления доступом к КСИИ на основе распознавания клавиатурного почерка оператора // Вестник Чувашского университета. 2013. № 3. С. 293-301.

17. Файрузов Р.А., Умутбаев Э.И., Кашапов Н.Р. Клавиатурный почерк как средство аутентификации пользователя // Роль и место информационных технологий в современной науке. 2015. С. 49-51.

18. Сафиуллин Н.З. Анализ стохастических систем и его приложения: монография. Казань: Казан. гос. техн. ун-т. 1998. 168 с.

19. Шарипов Р.Р., Сафиуллин Н.З. Аппаратурный анализ клавиатурного почерка с использованием эталонных гауссовских сигналов // Вестник Казанского государственного технического университета им. А.Н. Туполева. 2006. № 2. С. 21 -23.

20. Сафиуллин Н.З., Чабдаров Ш.М. Устройство для определения законов распределения случайных сигналов: А.С. СССР 972527. МКИ G06G7/52.

USER KEYBOARD HANDWRITING RECOGNITION SYSTEM BASED ON POLY

GAUSSIAN ALGORITHM Sharipov R.R., Katasev A.S.

This article analyzes the handwriting recognition methods of keyboard users by comparing the standard Gaussian values with the new values. The urgency of access control systems construction using biometric identification and authentication methods. The methods of handwriting keyboard users analysis are considered. The analysis of famous Russian scientists works in this field. Presents and analyzes the statistical analyzer circuit keyboard handwriting on the basis of standard Gaussian signals. On the basis of the statistical analyzer and realized it poly-Gaussian models and algorithms developed handwriting recognition software keyboard users. Testing of the system and the results obtained, based on which concludes that improving the reliability of the decision. Keywords: keyboard handwriting, user reference, identification, authentication, information security, biometrics.

Дата поступления 15.11.2016.

59

i Надоели баннеры? Вы всегда можете отключить рекламу.