Автоматизация почерковедческой экспертизы, построенная на обучении больших искусственных нейронных сетей

Иванов Александр Иванович; Газин Алексей Иванович; Качайкин Евгений Иванович; Андреев Дмитрий Юрьевич

УДК 519.24; 57.017

АВТОМАТИЗАЦИЯ ПОЧЕРКОВЕДЧЕСКОЙ ЭКСПЕРТИЗЫ, ПОСТРОЕННАЯ НА ОБУЧЕНИИ БОЛЬШИХ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ

А. И. Иванов, А. И. Газин, Е. И. Качайкин, Д. Ю. Андреев

AUTOMATION OF GRAPHOLOGIC EXAMINATION BASED ON TEACHING LARGE ARTIFICIAL NEURONAL NETS

A. I. Ivanov, A. I. Gazin, E. I. Kachaikin, D. Y. Andreev

Аннотация. Актуальность и цели. В статье рассматривается возможность автоматизации почерковедческой экспертизы. Поставлена цель получить не только экспертное заключение «подлинник» или «подделка», но и дать оценку вероятностей ошибок этого экспертного заключения. Материалы и методы. Предложено использовать большие искусственные нейронные сети для анализа биометрических данных, полученных из отсканированных фрагментов рукописного текста. Обучение больших нейронных сетей экспертной системы осуществляют алгоритмом ГОСТ Р 52633.5-2011. Результаты. Существенно снижаются затраты времени на экспертизу и требования к квалификации человека (эксперта). Основным преимуществом нового подхода является то, что он позволяет прогнозировать вероятности ошибок первого и второго рода по принятому решению. Человек-эксперт, обычно осуществляющий почерковед-ческую экспертизу, не дает дополнительную информацию о достоверности принятого им решения. Выводы. Дополнительная оценка достоверности принятого решения является новым и крайне важным аспектом, увеличивающим уровень доверия пользователей к искусственному интеллекту. Появилось новое преимущество интеллекта искусственных нейронных сетей, на которое ранее никто не обращал внимания.

Ключевые слова: почерковедение, обучение больших нейронных сетей, прогнозирование вероятностей ошибок первого и второго рода.

Abstract. Background. The article deals with the possibility of automation of expert handwriting analysis. Delivering the first goal is to get an expert opinion "original " or "fake". Supplying a second goal is to determine the probability of a error made by the expert opinion. Materials and methods. It is proposed to use large artificial neural networks for the analysis of biometric data obtained from scanned handwritten text. Training large artificial neural network expert system carried algorithm GOST R 52633.5-2011. Results. Significantly reduces the time required for examination and qualifications for the person (an expert). The main advantage of the new approach is that it allows you to predict the probability of errors of the first and the second kind of decision-making. Man-expert, is generally carried out handwriting examination, does not provide further information on the authenticity of his decision. Conclusions. Further evaluation of the reliability of the decision is a new and very important aspect that increases the level of trust users to artificial intelligence. There is a new benefit of intelligence artificial neural networks on which no one previously did not pay attention.

Key words: graphology, teaching large artificial neuronal nets, forecast possible error of first and second kind.

Введение

Почерковедческое исследование документов является одной из наиболее популярных экспертиз в гражданских и арбитражных судебных спорах. Наиболее часто объектом почерковедческого исследования является руко-

писная подпись человека, а предметом исследования - идентификация и верификация рукописной подписи. Автоматизация этой процедуры является крайне актуальной задачей, так как может сократить трудоемкость процедуры исследования и ее стоимость. На текущий момент время проведения экспертизы составляет от 3 до 7 дней при ее усредненной стоимости в 10 000 рублей. При этом эксперт (экспертная организация) не дают оценок достоверности выданного решения (заключения). В связи с этим актуальной становится задача создания программного обеспечения для автоматизации проведения по-черковедческой экспертизы. Предположительно обладатель программного обеспечения после небольшой тренировки сможет самостоятельно определять подлинник или подделку, например, по отношению к автографу, поставленному под вызвавшим сомнения документом [1]. Если средство автоматизированной экспертизы дает решение «подлинник», то скорее всего обращаться к человеку-эксперту нет смысла. И наоборот, решение автоматизированной экспертизы «подделка» может служить мотивом для более тщательного исследования документа. Естественно, что при принятии решения о более тщательном исследовании документа необходимо знать оценку вероятности того, что автоматизированная экспертиза дала верное заключение. Возникает еще одна параллельная задача по оценке достоверности решений автоматизированной экспертизы [2, 3].

Современная технологическая база для создания средств автоматизации анализа особенностей рукописного почерка

Следует отметить, что несколько лет назад в России и за рубежом начался активный процесс разработки средств биометрической аутентификации личности. Распространение Интернета привело к тому, что государственные и частные структуры создают на своих сайтах личные кабинеты пользователей. К сожалению, существующая практика парольной защиты доступа к личным кабинетам обладает существенной уязвимостью. Пользователи не способны запоминать длинные случайные пароли. Владелец информационного ресурса не может быть уверен в том, что к личному электронному кабинету получил доступ именно его хозяин. Пароль может быть перехвачен программной закладкой, также не составляет проблемы подменить Ш-адрес интернет-пользователя.

Для усиления защиты доступа к электронным кабинетам в США, Канаде, странах Евросоюза используются так называемые «нечеткие экстракторы» преобразующие рисунок отпечатка пальца [4], рисунок радужной оболочки глаза [5], голосовой пароль [6] в обычный длинный пароль или криптографический ключ пользователя. В России для этой же цели используются нейросетевые преобразователи биометрия-код [7]. Для затронутой тематики наибольшей интерес представляют нейросетевые преобразователи биометрии рукописного образа в код доступа. С ними можно ознакомиться, скачав с сайта АО «Пензенский научно-исследовательский институт» программное обеспечение среды моделирования «БиоНейроАвтограф» [8]. Суть технологии состоит в том, что пользователь воспроизводит своим почерком некоторое рукописное слово несколько раз. На рис. 1 отображена графическая форма интерфейса ввода рукописного почерка с введенным примером рукописного слова «Пенза».

Рис. 1. Интерфейс ввода рукописных слов

Для обучения нейросетевого преобразователя среды моделирования «БиоНейроАвтограф» необходимо ввести от 8 до 16 примеров рукописного образа. Далее следует активировать поле «Обучить сеть». Процесс автоматического обучения выполняется в соответствии со стандартным алгоритмом ГОСТ Р 53633.5-2011. В итоге обученная нейронная сеть становится способной хорошо узнавать введенное рукописное слово. В том случае, если заданное слово вводить будет хозяин преобразователя, по инициации режима «Проверить» на 256 выходах нейронной сети появится верный пароль доступа (экранная форма верного пароля приведена на рис. 2).

Рис. 2. Экранная форма, соответствующая верному паролю доступа

Ситуация меняется, если рукописное слово «Пенза» будет воспроизведено почерком другого человека. В этом случае на выходах нейронной сети

появляется код другого пароля. Примерно половина бит другого пароля будет отличаться от бит нужного пароля. Неверный код отображен на экранной форме рис. 3, звездочками отмечены разряды кода, не совпадающие с разрядами заданного при обучении верного кода.

Рис. 3. Пример неверного кода, возникающего при воспроизведении слова «Пенза»

другим почерком

Заметим, что число не совпавших бит двух кодов является расстоянием Хэмминга, которое формально вычисляется с использованием операции сложения по модулю два - ©:

256

И = ^ «сi» © «zi», (1)

I=1

где «сi» - состояние /-го разряда кода «подлинник»; «zi» - состояние /-го разряда кода «подделка»; эти состояния дискретны и могут принимать значения только «0» и «1».

Подготовка данных для осуществления почерковедческой экспертизы

Средства биометрической аутентификации личности человека по рукописному почерку (среда их моделирования «БиоНейроАвтограф») работают с «живыми» подписями, которые пользователь вводит с графического планшета. Почерковедческая экспертиза, напротив, работает с «мертвыми» надписями, когда-то нанесенными на бумагу. В связи с этим перед экспертизой необходимо отсканировать исследуемый документ с проверяемой подписью и ряд документов с образцами подписи «подлинник». Далее следует режим автоматизированного редактирования отсканированных документов с целью выделить из него рукописный образ (автограф). Блок-схема реализации этапов технологии автоматизированной экспертизы приведена на рис. 4.

После редактирования автографов идет этап извлечения из них 480 контролируемых биометрических параметров; подробности извлечения контролируемых параметров из рисунка подписи описаны в работе [9]. Число контролируемых биометрических параметров может быть любым, однако, если пользоваться средой моделирования «БиоНейроАвтограф», то потребуется

извлекать из изображений именно 480 параметров в форме коэффициентов двухмерного преобразования Фурье или его части (например, двухмерных косинус-коэффициентов 1РБО-формата).

Рис. 4. Блок-схема основных этапов проведения автоматизированной почерковедческой экспертизы

Для того чтобы обучать нейронную сеть среды моделирования «БиоНейроАвтограф», потребуется создать первую базу из 12 «подлинников» автографа (используются 12 документов с примерами автографа «подлинник») и вторую базу, состоящую из 36 примеров «подделка». Примеры «подделка» проверяющему следует писать самостоятельно, воспроизводя чужой автограф своею рукой или попросив об этом других людей с другим почерком.

После обучения нейронной сети (инициируется поле «Обучить сеть») можно проводить экспертизу. Для этого на вход обученной нейронной сети предъявляется 480 биометрических параметров исследуемого рукописного автографа. При этом если на выходе нейронной сети появится код «с», то автограф следует признать как подлинник (к = 0), любой иной код свидетельствует об обнаружении подделки (к Ф 0).

Анализ вероятности ошибок первого и второго рода по принятому автоматизированной экспертизой решению

На сегодняшний день нейросетевой почерковедческой экспертизы не существует при всех ее потенциальных преимуществах. Причина этого состоит в том, что к применению искусственных нейронных сетей нет доверия. Эксперт-почерковед анализирует порядка 30 параметров рукописного почерка, но при этом он имеет большой предшествующий опыт подобной работы. Искусственная нейронная сеть анализирует 480 недоступных человеку-эксперту параметров, однако она способна обобщать только текущие данные в базах «подлинник» и «подделка». Доверия к автоматизированной нейросе-

тевой экспертизе пока нет. Для обеспечения доверия к себе нейросетевая экспертиза должна наряду с правдоподобным решением давать дополнительно его вероятностные характеристики.

Дополнительная оценка достоверности каждого из принимаемых нейронной сетью решений является новой функцией, отсутствующей в среде моделирования «БиоНейроАвтограф». Для того чтобы ее реализовать, необходимо перейти к специальным нейронным сетям, каждый нейрон в которых на выходе сумматора имеет несколько квантователей с разными порогами квантования. Поясним это на примере работы первого нейрона. Обучение этого нейрона стандартным алгоритмом ГОСТ Р 52633.5-2011 предполагает, что порог его квантователя е3 точно совпадает с математическим ожиданием биометрических данных базы образов «подделка». Эта ситуация отображена на рис. 5.

Рис. 5. Первый нейрон с пятью выходными пороговыми квантователями

Пороги первого и второго квантователей (е1 и е2) должны выбираться меньше стандартного положения порога е3. Напротив, пороги четвертого и

пятого квантователей (е4 и е5) должны выбираться больше, чем стандартное положение порога е3. Такое расположение порогов дает монотонное снижение математических ожиданий расстояний Хэмминга для примеров образа «подлинник»:

ВД > Е(А2) > Е(кз) > ВД > ВД > - (2)

Для образов базы «подделка» наблюдается монотонный рост математических ожиданий следующих разностей:

Е(256 - А1) > Е(256 - А2) > Е(256 - А3) > Е(256 - А4) > Е(256 - Н5) > - (3)

Выполнение условий (2) и (3) обусловлено наличием простой связи вероятностей ошибок первого и второго рода со средними расстояниями Хэм-минга:

) =

Р2(е,) =

Е (А,) ^ 256 Е(256 - А,)

(4)

256

Пример функций изменения вероятностей от значений порогов приведен на рис. 6.

Рис. 6. Функция вероятности ошибок первого рода - Р\(е) и функция вероятности ошибок второго рода - Р2(е)

Из рисунка видно, что под при стандартном положении порога е3 проверяемый автограф не дал нулевого расстояния Хэмминга, однако изменение порога сравнения в интервале от е3 до е4 позволяет найти положение порога ех, обеспечивающее условие А = 0 для всех е > ех. Спроектировав ех на ранее полученные функции вероятности, мы получаем оценку вероятности ошибок первого рода Р1(ех) и вероятность ошибок второго рода Р2(ех).

Заключение

Развитие средств интеллектуальной поддержки решений идет активными темпами. Видимо, в ближайшее время будут созданы первые образцы нейросетевой поддержки принятия решений при почерковедческой экспертизе. Новый инструмент обязательно будет использовать пакет отечественных стандартов ГОСТ Р 52633.хх-20хх, однако эти стандарты нельзя применять в экспертных системах без внесения в них корректировок. Материалы данной статьи являются подтверждением этого положения. Стандарт по тестированию нейросетевых преобразователей биометрия-код ГОСТ Р 52633.3-2011 не требует вычисления вероятностей ошибок первого и второго рода при каждой процедуре биометрической аутентификации. Тем не менее это оказывается технически вполне возможно и может найти практическое применение в биометрии. В системах поддержки почерковедческой экспертизы описанная в данной статье функция оказывается одной из самых важных.

Список литературы

1. Иванов, А. И. Идентификация подлинности рукописных автографов сетями Байе-са-Хэмминга и сетями квадратичных форм / А. И. Иванов, П. С. Ложников, Е. И. Качайкин // Вопросы защиты информации. - 2015. -№ 2. - С. 28-34.

2. Оценка достоверности нейросетевой автоматизированной экспертизы рукописного почерка / Е. И. Качайкин, А. И. Иванов, А. В. Безяев, К. А. Перфилов // Вопросы кибербезопасности. - 2015. - № 2 (10). - С. 43-48.

3. Качайкин, Е. И. Оценка качества результатов почерковедческой экспертизы, осуществляемой нечетким экстрактором / Е. И. Качайкин // Евразийский Союз Ученых (ЕСУ). Технические науки. - 2015. - № 4 (13). - С. 62-64.

4. Ramirez-Ruiz, J. Cryptographie Keys Génération Using FingerCodes / J. Ramirez-Ruiz, C. Pfeiffer, J. Nolazco-Flores // Advanees in Artificial Intelligence - IBERAMIA-SBIA. - 2006. - P. 178-187.

5. Monrose, F. Cryptographie key generation from voiee / F. Monrose, M. Reiter, Q. Li, S. Wetzel // Proe. IEEE Symp. on Security and Privacy, 2001.

6. Hao, Feng. Crypto with Biometrics Effectively / Feng Hao, Ross Anderson, John Daugman // IEEE Transactions On Computers. - 2006. - Vol. 55, no. 9, Sept.

7. Нейросетевая защита персональных биометрических данных / Ю. К. Язов, В. И. Волчихин, А. И. Иванов, В. А. Фунтиков, И. Г. Назаров ; под ред. Ю. К. Язова. -М. : Радиотехника, 2012. - 157 с.

8. Среда моделирования «БиоНейроАвтограф» : программное обеспечение свободного доступа / Иванов А. И., Захаров О. С. // Сайт ОАО «ПНИЭИ». - URL: http://пниэи.рф/activity/science/noc.htm

9. Качайкин, Е. И. Получение биометрических параметров высокого качества из статического изображения рукописной подписи / Е. И. Качайкин, С. В. Куликов // Инфокоммуникационные технологии. - 2015. - № 4. - С 41-45.

Иванов Александр Иванович доктор технических наук, доцент, начальник лаборатории биометрических и нейросетевых технологий, Пензенский научно-исследовательский электротехнический институт E-mail: [email protected]

Ivanov Alexander Ivanovich doctor of technical sciences, associate professor, head of the laboratory of biometric and neural network technology, Penza Scientific-research Electrotechnical Institute

Газин Алексей Иванович кандидат технических наук, преподаватель, Липецкий государственный педагогический университет E-mail: [email protected]

Качайкин Евгений Иванович советник отдела защиты информации департамента организации и контроля, Министерство юстиции Российской Федерации

E-mail: [email protected]

Андреев Дмитрий Юрьевич программист лаборатории биометрических и нейросетевых технологий, Пензенский научно-исследовательский электротехнический институт E-mail: [email protected]

Gazin Alexei Ivanovich

candidate of technical sciences, teacher,

Lipetsk State Pedagogical University

Kachaykin Evgeny Ivanovich adviser of sub-department of information security, department of organization and control,

Ministry of justice of the Russian Federation

Andreev Dmitry Yurjevich programmer of the laboratory of biometric and neural network technology,

Penza Scientific-research Electrotechnical Institute

УДК 519.24; 57.017 Иванов, А. И.

Автоматизация почерковедческой экспертизы, построенная на обучении больших искусственных нейронных сетей / А. И. Иванов, А. И. Газин, Е. И. Качайкин, Д. Ю. Андреев // Модели, системы, сети в экономике, технике, природе и обществе. - 2016. - № 1 (17). - С. 249-257.

AUTOMATION OF GRAPHOLOGIC EXAMINATION BASED ON TEACHING LARGE ARTIFICIAL NEURONAL NETS

Текст научной работы на тему «Автоматизация почерковедческой экспертизы, построенная на обучении больших искусственных нейронных сетей»