УДК 004.891.3
А. С. Катасёв, Д. В. Катасёва, А. П. Кирпичников, С. Г. Костюжов
НЕЙРОСЕТЕВАЯ МОДЕЛЬ РАСПОЗНАВАНИЯ ПОЛЬЗОВАТЕЛЕЙ В СИСТЕМАХ ДИСТАНЦИОННОГО ОБУЧЕНИЯ
Ключевые слова: нейронная сеть, дистанционное обучение, распознавание пользователей.
Данная работа посвящена разработке нейросетевой модели распознавания пользователей в системах дистанционного обучения. Разрабатываемая нейросетевая модель проектировалась на основе анализа информативности биометрических характеристик пользователей систем дистанционного обучения. Построение и тестирование нейронной сети проходило на основе реальных данных в среде моделирования Deductor Studio Academic.
Keywords: neural network, distance learning, users recognition.
This work is dedicated to the development of neural network model of users recognition in distance learning systems. The developed neural network model was designed based on the analysis of information content of biometrics by users distance learning systems. Training and testing the neural network was based on actual data with Deductor Studio Academic modeling environment.
Появление повсеместного доступа в интернет сделало возможным создание систем дистанционного обучения. Однако вместе с удобством дистанционного получения знаний появилась проблема достоверности оценивания результатов обучения. Появилась угроза, что человек, проходящий проверку знаний в системе дистанционного обучения, может оказаться посторонним лицом, выдающим себя за легального пользователя с целью несанкционированного получения положительного результата проверки знаний. Таким образом, перед создателями систем дистанционного обучения встает проблема достоверного распознавания пользователей. Решение данной проблемы сводится к выбору эффективных методов и построению адекватных моделей распознавания пользователей. Кроме того, необходимым условием обеспечения эффективности решения поставленной задачи является своевременность идентификации пользователя в системе дистанционного обучения. При выборе алгоритма идентификации необходимо учитывать, существует ли при этом угроза несанкционированного доступа.
Классическая схема идентификации пользователя предполагает, что данный процесс происходит только один раз при входе пользователя в систему. Данная схема достаточно эффективна для большинства информационных систем, поскольку минимизирует риски несанкционированного доступа в систему без участия легального пользователя.
Специфика систем дистанционного обучения допускает, что легальный пользователь может быть заинтересован в несанкционированном доступе постороннего лица под своими учетными данными с целью прохождения процедуры проверки знаний. Актуальность данной угрозы свидетельствует о том, что классический подход к идентификации пользователя не может решить проблему его распознавания в полной мере, поскольку пользователь, заинтересованный в завышении результата оценки знаний, может авторизоваться и передать управление компьютером постороннему лицу.
Для решения проблемы распознавания пользователей в системах дистанционного обучения необходимо проводить идентификацию не только при входе пользователя в систему, но и регулярно с некоторой периодичностью в течение всего пользовательского сеанса [3]. Предлагаемая схема идентификации представлена на рисунке 1.
Регистрация пользователя
Создание учетной записи
Оповещение администратора
Вход в сис- Создание
биометри-
тему ческого
профиля
Сеанс пользователя
Рис. 1 - Схема идентификации пользователя
Как видно из рисунка, реализация данной схемы позволяет предотвратить умышленную передачу доступа постороннему лицу. Это достигается за счет использования биометрического эталона зарегистрированного в системе дистанционного обучения пользователя. При входе в систему текущего пользователя формируется его профиль биометрических характеристик, который сравнивается с биометрическим эталоном [4]. В процессе работы в системе дистанционного обучения данный процесс проверки периодически повторяется, что обеспечивает достоверность легального пользователя.
Эффективность идентификации пользователя напрямую зависит от эффективности выбранного метода идентификации [2]. Традиционно исполь-
зуемый в информационных системах метод парольной идентификации не решает проблему, поскольку легальный обладатель логина и пароля может в корыстных целях передать их другому лицу. Очевидно, что для распознавания пользователя, который может быть заинтересован в нелегальной передаче идентификатора другому лицу, необходимо использовать идентификаторы, которые нельзя передать, то есть биометрические признаки [1].
Многообразие биометрических признаков определяет множество соответствующих методов биометрической идентификации. Для выбора наиболее адекватного из них сформулируем следующие требования к методам идентификации пользователей в системах дистанционного обучения:
- отсутствие необходимости в дополнительном аппаратном оснащении (с учетом того, что обучение обычно проходит на персональных компьютерах пользователей, требования по аппаратные обеспечения не должны выходить за пределы комплектации среднестатистического ноутбука или планшетного компьютера);
- возможность идентификации незаметно для пользователя, при этом, не нарушая права на частную жизнь (пользователь не должен замечать момент идентификации, в противном случае он определит промежуток времени для передачи управления компьютером другому лицу; в то же время средства идентификации не должны фиксировать события, не касающиеся процесса обучения);
- простота сбора и анализ признаков в процессе работы в системе дистанционного обучения.
Таким образом, решение второго вопроса сводится к выбору наиболее эффективного метода биометрической идентификации, для чего необходимо проанализировать существующие методы на предмет соответствия перечисленным требованиям.
С учетом того, что обучение обычно проходит на персональных компьютерах пользователей, требования к аппаратному обеспечению не должны выходить за пределы комплектации среднестатистического ноутбука или планшетного компьютера. Этому требованию удовлетворяют все существующие динамические методы биометрической идентификации и идентификация по геометрии лица, поскольку фронтальная камера присутствует у подавляющего большинства пользовательских устройств.
Требованию по идентификации незаметно для пользователя также удовлетворяют динамические методы идентификации. Статические методы не подходят, поскольку либо требуют участия пользователя (сканер отпечатка пальца), либо нарушают право на частную жизнь (незаметное использование фронтальной камеры устройства).
Если учитывать требования по отсутствию необходимости в дополнительном аппаратном обеспечении, то к читаемым признакам можно отнести все динамические признаки. Однако применяемость конкретного метода идентификации определяется спецификой проверки знаний в конкретных системах дистанционного обучения. Если проверка знаний осуществляется при помощи устных ответов на вопрос, применима идентификация по голосу. Если
проверка знаний осуществляется путем ввода развернутых ответов на вопрос, применима идентификация по клавиатурному почерку. Если основу проверки знаний составляют тесты, применима идентификация по динамике использования манипулятора «мышь».
Таким образом, наиболее предпочтительными методами идентификации пользователей в системах дистанционного обучения являются динамические методы биометрической идентификации. С учетом того, что оценка знаний, как правило, проходит в форме тестирования, наиболее предпочтительным методом является идентификация по динамике использования манипулятора «мышь».
В качестве инструмента для решения интеллектуальных задач, в частности задачи распознавания пользователей, часто используют такие средства, как экспертные диагностические системы [7,10,16], нечеткие и нейронечеткие системы [8,9], нейронные сети [11-14] и генетические алгоритмы [15]. В данной работе для подтверждения гипотезы об эффективности распознавания пользователя по динамике использования манипулятора «мышь» была разработана нейросетевая модель. В рамках разработки были решены следующие задачи:
- выбор исходных характеристик для распознавания пользователя;
- разработка программного модуля для сбора исходных данных;
- разработка методики сбора исходных данных;
- сбор исходных данных;
- очистка исходных данных;
- формирование обучающей и тестовой выборок для анализа;
- очистка данных в обучающей выборке;
- выбор оптимальной архитектуры нейронной сети и ее обучение [17].
На основе результатов проведенных исследований для анализа были выбраны следующие биометрические характеристики пользователей [5]:
- время движения манипулятора «мышь» до остановки;
- погонная длина траектории:
Т = £д/(Х "*«)2 + (У "У«)2,
¿=1
где х, и у, - координаты, а п - количество точек разрыва первого рода, включая конец траектории;
- начальная скорость манипулятора «мышь» -скорость прохождения первых 10% траектории:
V =
д/(х, - Х1)2 + (у, - У1)2
г,
где 4 - время движения указателя на начальном промежутке траектории; / - номер вершины, для которой выполнено условие:
п I- Т
ХТсХ^ХТнУТУ)7 >-;
- длина начального участка траектории:
I, = 0,1Т ;
- максимальная скорость движения указателя по траектории;
- время удержания левой кнопки на манипуляторе «мышь».
Для сбора исходных данных по выбранным характеристикам динамики использования манипулятора «мышь» специально разработан программный комплекс, включающий модуль наблюдения за траекториями, модуль наблюдения за кнопками манипулятора «мышь» и модуль вычисления параметров динамики манипулятора.
Для построения точной модели при сборе исходных данных необходимо достичь максимального соответствия поведения пользователя реальной ситуации [6]. Исходя из этого тезиса, было принято решение использовать для сбора данных сценарий прохождения тестирования в системе дистанционного обучения информационной системы «Электронный корпоративный университет».
На персональные компьютеры семи пользователей был установлен программный модуль сбора характеристик динамики использования манипулятора «мышь», после чего пользователи проходили четыре тестирования, в ходе каждого из которых проводился сбор требуемых характеристик. Пример процесса тестирования в информационной системе «Электронный корпоративный университет» представлен на рисунке 2.
^ЕС-иШУЕН
Вопрос 1 из 10
К какой области знаний относится создание структуры работ:
Один ответ
управление сроками управление поставками управление содержанием управление стоимостью
Очистка исходных данных предполагает выявление и удаление выбросов и аномальных значений. Для очистки данных использовалось программное решение «Excel 2013» из пакета «Microsoft Office 2013». Методика очистки состояла из следующих шагов:
- сортировка всех данных по одному столбцу от меньшего к большему и построение точечной диаграммы;
- удаление выбросов и аномальных значений (для выбора удаляемых значений на точечной диаграмме выбираются значения, которые статистически отличаются от большинства значений);
- после исключения выбросов и аномальных значений по параметру выбирается следующий столбец и пункты 1 и 2 повторяются.
В рамках подготовки исходных данных описанным образом были очищены данные семидесяти текстовых файлов.
Завершающим этапом подготовки данных является формирование обучающей и тестовой выборок, на основе которых будет разрабатываться, обучаться и тестироваться нейросетевая модель.
Для формирования выборки необходимо свести результат одного замера характеристик в биометрический эталон, каждый из которых будет составлять строчку в обучающей или тестовой выборке. Для статистического обобщения результатов по каждому параметру были вычислены математические ожидания и дисперсии каждого из анализируемых признаков по всем 70 файлам.
В результате сформированы обучающая и тестовая выборки. Обучающая выборка была импортирована в Deductor Studio Academic. Импортированные данные были дополнительно очищены встроенными средствами Deductor.
На основе очищенной обучающей выборки была спроектирована и обучена нейронная сеть. Экспериментальные исследования показали, что оптимальной является сеть с шестнадцатью нейронами в одном скрытом слое. На рисунке 3 представлен граф итоговой нейросетевой модели.
Рис. 2 - Пример процесса тестирования в системе «Электронный корпоративный университет»
По итогам сбора данных было получено 70 файлов статистики траекторий и длительности нажатия кнопок манипулятора. Файлы были экспортированы программным модулем сбора характеристик динамики манипулятора «мышь» в формате текстовых файловых с разделителем табуляции, где каждому столбцу соответствует характеристика, каждой строке - траектория или нажатие.
Для оценки качества исходных данных был использован программный комплекс «Аналитическая платформа Deductor Studio Academic». Оценка качества данных показала, что среди исходных значений присутствуют выбросы и аномальные значения, следовательно, для полноценного анализа данных необходимо произвести их очистку.
Время траект.(М) Время траект.(Б)
Длина(М)
Длина (Б)
Начальная скорость (М) Начальная скорость (Б)' Длина нач. участка (М) Длина нач. участка(Б) Максим. скорость (М) Максим. скорость(Б) Длительн. нажатия (М) Длительн. нажатия (Б)
Рис. 3 - Граф нейросетевой модели
User 1
User 2
User 3
User 4
User 5
User 6
User 7
Результаты распознавания показали высокую эффективность построенной модели. При тестировании нейронной сети ошибки первого и второго рода не выявлены. Разработанная нейросетевая модель с высокой степенью точности осуществляет распознавание пользователей систем дистанционного обучения на основе характеристик использования манипулятора «мышь». Оценка эффективности данной модели показала, что разработанная модель действительно способна повысить безопасность систем дистанционного обучения, а оценка ее экономической эффективности показала экономическую целесообразность разработки данного решения для крупных промышленных компаний.
Описанную в статье нейросетевую модель планируется использовать в составе разрабатываемого программного модуля распознавания пользователей в информационной системе «Электронный корпоративный университет ОАО «Татнефть».
Литература
1. Болл Руд, Коннел Джонатан Х., Панканти Шарат, Ратха Налини К., Сеньор Эндрю У. Руководство по биометрии. - Москва: Техносфера. - 2007. - 368 с.
2. Вакуленко А., Юхин А. Биометрические методы идентификации личности: обоснованный выбор и внедрение // PC Week/RE. - 2005. - № 29. - С. 15-31.
3. Горбатов В.С., Дураковский А.П., Петров В.Р. Постановка задачи распознавания пользователей в системах дистанционного обучения // Безопасность информационных технологий. - 2013. - № 1. - С. 94-95.
4. Гуревич О. Биометрическая идентификация по электрофизиологическим характеристикам. Краткий обзор BDC // Компоненты и технологии. - 2007. - №5. - С. 114-116.
5. Диденко С.М. Разработка и исследование компьютерной модели динамики системы «пользователь-мышь» // Математическое моделирование, численные методы и комплексы программ. - 2007. - № 1. - С. 3-98.
6. Иванов А., Малыгин А. Высоконадежная биометрическая аутентификация пользователя: последний дюйм первой мили // Приложение к журналу «Электроника: наука, технология, бизнес» - «Первая миля/Last mile» . - 2007. -№ 2(2). - С.20-24.
7. Катасёв А.С. Математическое обеспечение и программный комплекс формирования нечетко-
продукционных баз знаний для экспертных диагностических систем // Фундаментальные исследования. - 2013. - № 10 (часть 9). - С. 1922-1927.
8. Катасёв А.С. Формирование базы знаний системы фильтрации электронных почтовых сообщений // Научно-технический вестник Поволжья. - 2013. - № 5. - С. 191194.
9. Катасёв А.С., Ахатова Ч.Ф. Нейронечеткая система обнаружения продукционных зависимостей в базах данных // Программные продукты и системы. - 2011. - № 3. С. 26-32.
10. Катасёв А.С., Газимова Д.Р. Инвариантная нечетко-продукционная модель представления знаний в экспертных системах // Вестник КГТУ им. А.Н. Туполева. - 2011. - № 1. - С. 142-148.
11. Катасёв А.С., Катасёва Д.В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. - 2015. - № 1 (25). - С. 6878.
12. Катасёв А. С., Катасёва Д. В., Кирпичников А. П. Нейросетевая диагностика аномальной сетевой активности // Вестник технологического университета. -2015. - Т. 18. № 6. - С. 163-167.
13. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая технология классификации электронных почтовых сообщений // Вестник технологического университета. - 2015. - Т. 18. № 5. - С. 180-183.
14. Катасёв А. С., Катасёва Д. В., Кирпичников А. П. Нейросетевое прогнозирование инцидентов информационной безопасности предприятия // Вестник технологического университета. - 2015. - Т. 18. № 9. - С. 215-218.
15. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Оценка стойкости шифрующих преобразований моноалфавитной замены с использованием генетического алгоритма // Вестник технологического университета. - 2015. - Т. 18. № 7. - С. 255-259.
16. Самигулина Г.А. Интеллектуальная экспертная система дистанционного обучения на основе искусственных иммунных систем // Информационные технологии моделирования и управления. - 2007. - № 9 (43). - С. 1019-1024.
17. Charalambous, C. Conjugate gradient algorithm for efficient training of artificial neural networks // IEEE Proceedings, vol. 139, no. 3. - 1992. - pp. 301-310.
© А. С. Катасёв - д-р техн. наук, доц. кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; Д. В. Катасёва - аспирант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; А. П. Кирпичников - д-р физ.-мат. наук, профессор, зав. кафедрой интеллектуальных систем и управления информационными ресурсами КНИТУ, e-mail: [email protected]; С. Г. Костюжов - студент кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected].
© A. S. Katasev - Dr. Sci, Associate Professor the Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; D. V. Kataseva - Postgraduate Student the Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; A P. Kirpichnikov - Dr. Sci, Prof, Head of the Department of Intelligent Systems & Information Systems Control, KNRTU, e-mail: [email protected]; S. G. Kostyuzhov -Student the Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected].