Газин А.И. ОСНОВНЫЕ ПРИНЦИПЫ ОРГАНИЗАЦИИ ДИНАМИЧЕСКОЙ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ ИНФОРМАЦИОННОЙ СИСТЕМЫ
В настоящее время существует множество вариантов непрерывного контроля доступа к различным массивам информации. Подавляющее большинство этих методов основываются на сравнении биометрических характеристик пользователя [1]. Наиболее прогрессивными на сегодня являются методы, не требующие дополнительного аппаратного обеспечения, т.к. это существенно снижает их стоимость по сравнению с другими, использующими в совокупности программные и аппаратные средства. К таким программным методам относятся, прежде всего, методы, основанные на идентификации по манере работы пользователя с клавиатурой [2] или манипулятором (мышью) [3].
Работа таких программ состоит из первичной обработки полученных данных и сравнения их с эталоном. На этапе первичной обработки происходит фильтрация рассматриваемых величин с помощью частотного, временного и клавиатурного фильтров [4], что позволяет избавиться от параметров не существенно влияющих на процесс идентификации, а так же от помех, наличие которых может увеличить вероятность возникновения ошибки ложного отказа. Принцип работы частотного фильтра основан на исключении из рассматриваемого множества событий с частотой возникновения менее заданного значения. Временной фильтр направлен на исключение событий продолжительность которых слишком велика (целесообразно исключать значения длительность которых ^1с.). Клавиатурный фильтр используется для того, чтобы рассматривать события только с теми группами клавиш, которые необходимые для решения определённой задачи (например: при наборе текста необходимо учитывать работу пользователя с алфавитными клавишами, а нажатия функциональных клавиш игнорировать). На этом этапе также необходимо учесть уровень владения пользователя клавиатурой т.к. от этого зависит величина пропускной способности описанных выше фильтров и процедура идентификации в целом. На этапе сравнения прошедших обработку данных проверяется их соответствие эталонной выборке, на основании чего делается вывод о положительном или отрицательном результате процедуры идентификации. При анализе клавиатурного почерка очень существенным является тот факт, что при работе с клавиатурой возникающие события взаимосвязаны, то есть характеристики события Щ, наступившего после события Р и того же события Щ, наступившего после события Г (ГУР), будут различны, следовательно, при идентификации пользователя нельзя рассматривать множество отдельных не связанных друг с другом событий.
Одна из ключевых проблем возникающих в ходе идентификации пользователя в этих системах - математическое представление и обработка сигналов, характеризующих их работу. В качестве основных методов обработки данных используют методы математической статистики, теории вероятности и искусственные нейронные сети. Все вышеперечисленные методы основаны на анализе усреднённых значений временных параметров характеризующих манеру работы пользователя с клавиатурой или манипулятором, некоторые из них представлены на рис.1. При идентификации пользователя в процессе работы с манипуляторами любых типов огромное значение имеет анализ траектории движения курсора.
Рис.1 Наиболее распространённые параметры для анализа клавиатурного почерка: ^ - время одновременного удержания двух клавиш, t2 - промежуток между нажатиями на клавиши, tз - время удержания
пятой клавиши
Метод, основанный на использовании математической статистики, наиболее простой в организации его применения. Он основан на создании в процессе обучения некой статистической выборки (эталонной) усреднённых значений временных параметров характеризующих работу пользователя с клавиатурой или манипулятором с интервалами отклонения от них. В процессе идентификации пользователя в данном случае создаётся аналогичная выборка, а затем полученные значения, с учётом отклонений, сравниваются, и делается вывод: зарегистрированный это пользователь или посторонний. В случае положи-
тельной идентификации эталонная выборка корректируется в соответствии с новыми полученными в ходе идентификации данными. Корректировка эталонной выборки позволяет избежать «старения» эталона, которое обусловлено изменением характера работы пользователя с течением времени. Этот метод, несмотря на свою простоту, имеет много недостатков. Во-первых, он больше подходит для идентификации по парольной фразе, чем для динамической идентификации. Это связано, прежде всего, с достаточно сложным алгоритмом получения интервалов отклонения от средних значений параметров, что при динамической идентификации вызывает увеличение этих интервалов и как следствие вероятность возникновения ошибки ложного пропуска. Во-вторых, данный метод очень чувствителен к возникновению так называемых случайных помех, а это влияет на увеличение ошибки ложного отказа. Существуют и другие менее критичные недостатки.
Наиболее распространённый на сегодняшний день - это вероятностно - статистический метод. Отличие этого метода от предыдущего, прежде всего в том, что в данном случае величины характеризующие характер работы пользователя рассматриваются как вероятностные события. В ходе обучения программы данным методом определяются оценки вероятностей исследуемых величин и соответствующие им доверительные области [5]. Этот метод достаточно удобен ещё и потому, что закон распределения исследуемых величин приближённо можно считать нормальным. Благодаря вероятностному подходу доверительные области также имеют вероятностный характер, что существенно облегчает их корректировку в процессе работы системы идентификации.
Существует три основных метода определения доверительных областей. Первый метод основывается на отношении оценки 0 параметра 0 к самому параметру 0. Зная распределение можно найти вероятность попадания этого отношения в любой интервал и, наоборот, по заданной вероятности (3 можно найти такой интервал вероятность попадания, при котором отношение 0/0 будет равно р. Такой интервал и будет доверительным для 0. Доверительный интервал для положительного параметра 0 определяется формулой:
шах{0,(1 - ер)в} < 2 < (1 + ер)в . (1)
Для Ер Е (0,1] интервал симметричен относительно 9, для > 1 симметрия не достигается. Неравенства (1) выполняются тогда и только тогда, когда:
1 9 1
-< —<-------7-------7 • (2)
1 + Єр Q max |0,1 -є^
Следовательно, формула (1) определяет доверительный интервал для Q, с коэффициентом доверия р, если выполняется условие:
™ 1 ° 1 4 0
Р(-----------< “ <-(---7 ) = Р (3)
1 + вр Q maxi0,1 - єЛ
Следующий метод заключается в том, что каждому возможному значению параметра Q выбирают такую область, содержащую этот параметр, в которую оценка 0 попадает с заданной вероятностью р. В общем случае эта область зависит от Q и р, обозначим её Dp (Q) и запишем:
Р(Оє Dp(Qj) = р. (4)
Затем для каждого фиксированного 0 определяют множество значений Q, при которых О Є D^(Q), это множество в общем случае зависит от Q и р. Поэтому мы обозначим его Gp (0). Очевидно, что Q Є G^ (О) тогда и только тогда, когда О Є Dp (Q) при том же Q. А значит для любого Q:
P(Q є Ор(ОУ) = Р(О є Dp(3)) =р . (5)
Это равенство демонстрирует тот факт, что область Gp (0) представляет собой доверительную область для параметра Q, соответствующую доверительному уровню р.
Последний способ заключается в нахождение скалярной функции y(0, S,Q), где 0 - оценка, S -
некая другая статистика и Q - неизвестный параметр, обладающий следующими свойствами:
1) для любого s статистики S и любом Q неравенство y(0,S,Q)<c, с>0, при возрастании с определяет монотонно возрастающую группу вложенных одна в другую областей D(s,Q,c)={0: y(0,s,Q)<c};
2) Y(0,s,Q)=O при любых s, Q и y(0,s,Q)>O при любых 0, s, Q 0 Ф Q, и, следовательно, точка 0=Q принадлежит области D(s,Q,c) при любых с>0, s, Q;
3) распределение случайной величины Т= y(0,S,Q) не зависит от Q. Зная это распределение можно
найти такое £р>0 , чтобы с вероятностью р выполнялось неравенство y(0,S,Q)< Єр :
P(ms,Q)<єр)=p. (6)
Эта область определяет доверительную область для Q, соответствующую коэффициенту доверия р.
И третий из наиболее используемых для решения задачи непрерывной идентификации пользователя методов - это метод, основанный на применении концепции искусственных нейронных сетей.
Нейронные сети дают огромные возможности для обработки информации[6]:
а) гибкая модель для нелинейной аппроксимации многомерных функций;
б) средство прогнозирования во времени для процессов, зависящих
от многих переменных;
в) классификатор по многим признакам, дающий разбиение входного пространства на области;
г) средство распознавания образов;
д) инструмент для поиска по ассоциациям;
г) модель для поиска закономерностей в массивах данных.
Нейронная сеть представляет собой несколько слоёв, состоящих из одного или более нейронов, причём выходы нейронов каждого слоя соединены с входами нейронов последующего слоя. Структура самого нейрона показана на рис.2, а математическая модель нейрона определяется формулами [6,7]:
n
S = 2wixi + b , У = f (S), (7)
i=1
где wi - весовые коэффициенты связей, xi - сигнал, подаваемый на вход, b - величина смещения, i=l...n, f - функция активации.
Рис. 2 Структура искусственного нейрона
Такая структура нейронной сети позволяет обучить систему идентификации используя только данные , характеризующие работу пользователя с клавиатурой или манипулятором (без каких-либо математических выкладок); нейронные сети также не чувствительны к случайным помехам. Наиболее распространённый алгоритм обучения на сегодняшний день - это алгоритм обратного распространения ошибки, но сейчас существуют методы, использующие для обучения дополнительную нейронную сеть. Данный метод на сегодняшний день является одним из лучших используемых при создании программ непрерывной идентификации пользователя.
Основная сложность использования данных методов заключается в том, что лишь у профессиональных операторов ЭВМ, у небольшой части системных администраторов и лишь у единиц обычных пользователей ЭВМ сформирован пригодный для идентификации навык работы с клавиатурой. Для работы «обычного» пользователя требуется расширение доверительного интервала соответствия полученных динамических характеристик эталонным, что неминуемо приведёт к увеличению вероятности возникновения ошибки ложного пропуска. В качестве выхода из этой ситуации можно предложить одновременный анализ не только клавиатурного почерка, но и анализ движения курсора по экрану. Использование одновременно двух различных динамических характеристик позволит увеличить доверительные интервалы для каждой из них в отдельности.
Характер работы пользователя с манипулятором также индивидуален, как и клавиатурный почерк, или почерк вообще и, как правило, большинство пользователей ЭВМ лучше владеют именно этим устройством т.к. оно гораздо чаше используется. При исследовании характера работы пользователя с манипулятором нетрудно увидеть аналогию с простым рукописным почерком или рисованием: разница лишь в том, что письме мы используем пальцы, а при перемещении манипулятора, как правило, всю руку.
К основным свойствам «почерка», получаемого при работе с манипулятором благодаря которым возможна идентификация пользователя, как и для обычного почерка можно отнести его индивидуальность, динамическую устойчивость и избирательную изменчивость [8].
Индивидуальность - характеризует неповторимость манеры перемещения курсора, и гарантирует отсутствие одинаковой манеры перемещения манипулятора у двух и более различных людей. Это свойство формируется у пользователя с первого опыта обращения с «мышью». На него влияет не только психологические особенности личности, но и физиологическая структура его руки (размер ладони, фаланг пальцев и т.п.).
Динамическая устойчивость - означает определённую стабильность во времени, т.е. полученный навык работы с манипулятором слабо меняется с течением времени.
Избирательная изменчивость - это перестройка характера работы человека с «мышью» в результате воздействия помех или отвлекающих факторов. Анализируя данную особенность, система может определять насколько пользователь в данный момент времени поглощён своей работой.
На индивидуальность работы людей с манипулятором также влияет различное строение кистей рук, правша человек или левша и т.д.
Для непосредственной процедуры идентификации с помощью манипулятора на этапе обработки данных необходимо выделить наиболее информативные понятия, влияющие на динамику работы пользователя с этим устройством. Экран монитора можно представить как координатную плоскость, на которой перемещается курсор манипулятора, наиболее естественно для описания его движения воспользоваться методами классической механики.
На сегодняшний день основной способ исследования движения курсора - это анализ изменения его положения относительно осей Х или Y в отдельности [8].
Также данный анализ можно провести с помощью физических методов описания криволинейного движения материальной точки на плоскости [9]. Исследуя движения курсора, можно выделить такие параметры, совокупность изменения которых позволит получить статистику их значений характерную для зарегистрированного пользователя.
Представим плоскость экрана как первую четверть декартовой системы координат с нулём в левом нижнем углу экрана. Тогда положение курсора будет задаваться вектором (рис.3):
к=к(1) ={х(1) ;у(Ь) }
У
УЮ
уа+лґ)
Л--
*■(4
/ ^іґ'к{г+йх) !
\ ! >
О хр+ДЦ х
Рис 3. Изменение положения радиус-вектора на данном участке траектории
В исследуемом случае движение будет с переменным ускорением, поэтому рассматривать скорость курсора в данный момент времени не имеет смысла, наиболее информативными будут такие показатели как скорость изменения ускорения 1 в данный момент времени:
Ла
і=— , (1)
Л
и отношение ускорения а в точке траектории, к радиусу кривизны кривой в данной точке К в данный момент времени (2):
, а
Ь = — . (2)
Я
Статистика совокупности значений этих величин даёт нам первичную эталонную выборку, которая в дальнейшем может уточняться и другими параметрами, влияющими на характер перемещения курсора манипулятора по экрану.
Получив эталонную статистику изменения выделенных параметров с течением времени (перед началом любого перемещения курсора t=0) т.е. в достаточной степени обучив программу, далее идентификацию можно проводить по уже известным принципам динамической идентификации [2].
Использование анализа движения курсора по экрану позволит существенно расширить возможности программ использующих для идентификации пользователя его динамические характеристики.
Таким образом, рассмотренные в настоящей работе методы на сегодняшний день наиболее актуальны и востребованы при создании систем непрерывной идентификации пользователя информационных систем и имеют огромное значение для модернизации и развития подобных методов.
Литература
1. Волчихин, В.И.Быстрые алгоритмы обучения нейросетевых механизмов биометрико-
криптограграфической защиты информации / В.И. Волчихин, А.И. Иванов, В.А. Фунтиков. - Пенза: Изд-во Пенз. гос. ун-та, 2005. - 276с.
2. Широчин В.П., Кулик А.В., Марченко В.В. Динамическая аутентификация на основе анализа кла-
виатурного почерка. - http://www.biometrics .ги/рг1п^ азр?п^еш1Б=491.
3. Д.Мурашёв «Разработан метод идентификации при помощи подписи мышью» http://www.biometrics.ru/priпt.asp?пItemID=25 6
4. Казарин, Н.М. Разработка и исследование методов скрытого клавиатурного мониторинга: Авто-реф. дис.... канд. техн. наук / Н.М. Казарин. - Таганрог, 2 0 0 6.
5. Пугачёв, В.С.Теория вероятности и математическая статистика / В.С. Пугачёв- М.: Наука.
Главная редакция физико-математической литературы, 197 9. - 34 6с.
6. Заенцев, И.В. Нейронные сети. Основные модели / И.В. Заенцев - ВГУ, 1999.
7. Круглов В.В., Борисов, В.В. Искусственные нейронные сети. Теория и практика / В.В. Борисов, В.В. Круглов - М.: Горячая линия - Телеком , 2001 - 382с.
8. Иванов, А.И. Биометрическая идентификация личности по динамике подсознательных движений.
Монография / А.И. Иванов - Пенза: Изд-во Пенз. гос. ун-та, 2000. - 188 с..
9. Курс физики под ред. В.Н. Лозовского. Т.1. - СПб.:Издательство «Лань», 2000г.