Метод баггинга и отбор признаков в построении нечётких классификаторов для распознавания рукописной подписи
К. С. Сарин1, И.А. Ходашинский1 1 Томский государственный университет систем управления и радиоэлектроники, Томск, Россия
Аннотация
Распознавание рукописной подписи является важной проблемой в области исследований аутентификации личности и биометрической идентификации. Известны два метода распознавания рукописной подписи: если возможно оцифровать скорость движения пера, то говорят о динамическом распознавании; в противном случае, когда доступно только изображение подписи, говорят о статическом распознавании. Доказано, что при использовании динамического распознавания достигается большая точность, чем при использовании статического распознавания. В настоящей работе в качестве характеристик подписи используются амплитуды, частоты и фазы гармоник, извлечённых из сигналов подписи координат X и У движения пера с помощью дискретного преобразования Фурье. Предварительно все сигналы подвергаются предобработке, включающей в себя устранение разрывов, устранение угла наклона, нормализацию позиции и масштабирование. В качества инструмента распознавания подписи по полученным признакам предлагается использовать нечёткий классификатор. В работе исследуется эффективность данного инструмента в составе ансамбля, а также с применением процедуры отбора информативных признаков. Для построения ансамбля классификаторов используется известный метод баггинга, а отбор признаков основан на определении взаимной информации между признаком и классом объекта. Проведены эксперименты по распознаванию подписи на наборе данных 8УС2004 с построением нечёткого классификатора и ансамблей из трёх, пяти, семи и девяти нечётких классификаторов. Эксперименты проводились как с использованием процедуры отбора, так и без отбора. Проведено сравнение эффективности работы построенных классификаторов между собой и с известными аналогами: деревьями решений, машинами опорных векторов, дискрими-нантным анализом и ^-ближайшими соседями.
Ключевые слова: рукописная подпись, нечёткий классификатор, ансамбль, баггинг, отбор признаков.
Цитирование: Сарин, К.С. Метод баггинга и отбор признаков в построении нечётких классификаторов для распознавания рукописной подписи / К.С. Сарин, И.А. Ходашинский // Компьютерная оптика. - 2019. - Т. 43, № 5. - С. 833-845. - Б01: 10.18287/2412-6179-201943-5-833-845.
Введение
В последние годы в связи с быстрым развитием технологий машинного обучения, а также растущей доступностью недорогих устройств ввода, биометрические технологии распознавания стали активной областью исследований [1]. Основаны биометрические технологии на физиологических (отпечатки пальцев, форма лица, радужная оболочка глаза, геометрия ладони, ДНК) или поведенческих (походка, рукописная подпись, клавиатурный подчерк, голос, электроэнцефалограмма) характеристиках субъекта.
Использование рукописного текста в эпоху компьютеров и гаджетов всё ещё остается средством коммуникации, кроме того, рукописный текст является навыком, который индивидуализирует субъектов [2]. Применение цифровых планшетов для рукописного ввода позволило разработать новые приложения для здравоохранения, обучения, обеспечения безопасности в различных сферах.
Рукописная подпись подвержена изменчивости из-за долгосрочных и краткосрочных факторов. Долгосрочное изменение в основном вызвано старением, тогда как краткосрочная изменчивость обусловлена либо психологическими причинами, либо внешними
факторами, такими как различные позиции, инструменты для письма, поверхности для подписи и другие причины. Моделирование этих изменений является ключевым фактором в распознавании подписей, и в разных научных областях эти изменения трактуются по-разному. В области здравоохранения и медицины анализ почерка применяется для выявления некоторых проблем обучения у детей или ранних стадий дегенеративных, когнитивных или двигательных проблем, таких как болезни Паркинсона и болезни Альц-геймера [3], рукописная подпись используется для изучения активации мышц [4, 5] и творческих способностей человека [6].
Проверка рукописной подписи является важной областью исследований в области аутентификации личности и биометрической идентификации [2, 7, 8]. Экспертиза почерка занимает немаловажное место и в области криминалистики [9]. Для распознавания рукописной подписи были предложены различные классификаторы, такие как нейронные сети, машины опорных векторов, метрические классификаторы.
Проблеме распознавания рукописной подписи посвящено множество научных публикаций, регулярно проводятся конференции по распознаванию почерка.
Так, в 2018 году прошла 16th International Conference on Frontiers in Handwriting Recognition.
Если есть возможность оцифровывать скорость движения пера, то говорят о динамическом распознавании; в противном случае, когда доступно только изображение рукописного текста, говорят об автономном или статическим распознавании.
Фальсификаторы стараются воспроизвести внешний вид подписи, не имея представления о динамических признаках оригинальной подписи. Динамические признаки носят индивидуальный характер, поэтому они существенно отличают оригинальную подпись от подделок. Различные исследования показали, что использование динамической подписи позволяет повысить точность распознавания [10].
В [11] представлена методика статического распознавания подписи, основанная на глобальных, сеточных и текстурных признаках, а также двухэтапном классификаторе. На первом этапе используется три многослойных персептрона фиксированного размера, каждый из которых предназначен для распознавания только одного человека. На втором этапе используется RBF-сеть для принятия окончательного решения. В [12] для верификации подписи применялись однослойные («широкие») нейронные сети и их модификации.
Нечёткие классификаторы, относящиеся к классификаторам, основанным на правилах, имеют большие преимущества как с точки зрения их функциональности, так и последующего анализа и проектирования. Уникальное преимущество нечётких классификаторов связано с интерпретируемостью правил классификации. Основным показателем эффективности является точность классификации (ошибка классификации), часто применяющаяся в сравнительном анализе нечётких классификаторов с классификаторами, построенными на иных принципах [13].
В [14] описан подход к биометрической аутентификации на основе динамики подписи с использованием нечётких классификаторов и отбора информативных биометрических признаков. Параметры нечётких классификаторов настраивались непрерывными метаэвристическими алгоритмами.
Исследования, опубликованные в [15], показали преимущества ансамблевой парадигмы перед моделями одиночных классификаторов. Наиболее популярными методами создания ансамблей являются баггинг [16] и бустинг [17]. В [18] описана статическая методика распознавания подписи, основанная на текстурных признаках и алгоритме построения ансамблей классификаторов Adaboost.
В [19] статическое распознавание подписи выполнено с использованием ансамбля классификаторов, основанных на графометрических признаках. Ансамбль построен с использованием стандартного генетического алгоритма.
Большое количество признаков в исходных наборах данных увеличивает время вычислений и снижает точность классификации. Отбор признаков позволяет уменьшить размерность входного пространства при-
знаков, выявив и устранив шумовые и нерелевантные признаки [20, 21].
Методы отбора признаков принято разделять на две категории: фильтры (filter) и обёртки (wrapper) [22]. Методы фильтров основаны на определённых метриках, таких как энтропия, распределение вероятностей или взаимная информация, и не предполагают использования классифицирующего алгоритма в процессе работы. Методы обёртки используют классификатор для оценки подмножества признаков, при этом сам классификатор как бы «завёрнут» в цикл отбора признаков. Методы фильтров и обёртки имеют свои достоинства и недостатки. Достоинством методов, основанных на фильтрах, является их масштабируемость и более высокая скорость выполнения. Общий недостаток заключается в том, что отсутствие взаимодействия с классификатором и игнорирование учёта зависимости между признаками приводит к различной для разных классификаторов точности классификации. Преимущество методов обёртки заключается в том, что они работают совместно с конкретным алгоритмом классификации и учитывают синергетический эффект от совместного использования отобранных признаков. Недостатками методов обёртки являются более высокий риск переобучения и большие временные затраты по причине необходимости вычисления точности классификации.
Цель работы - исследование возможности повышения качества распознавания динамической рукописной подписи путём применения ансамбля нечётких классификаторов и процедуры отбора признаков.
Предварительная обработка данных рукописной подписи
Оцифрованная рукописная подпись - это поведенческий биометрический идентификатор, связанный с физическим лицом и являющийся признаком подлинности и намерения [10].
Оцифрованные данные, поступающие с планшета, представляют собой сигналы координат X и Y прикосновений пера. Если перо находится на поверхности планшета, то сигналы поступают через равные промежутки времени, которые будем называть отсчётами. В процессе нанесения подписи субъект может отрывать перо от планшета, тогда интервал между соседними сигналами может увеличиться.
Подписи одного и того же лица могут отличаться ориентацией, размером, отклонением и т.д. Это зависит от различных обстоятельств, например, ограничения пространства подписи сказывается на изменении размера, угол наклона участка подписи графического планшета влияет на отклонение. На рис. 1 показаны два варианта подписи одного субъекта, можно заметить, что размеры и положение подписи на планшете отличаются. Для того, чтобы свести к минимуму различия в конечных показаниях сигналов, все подписи нормализируются по своему положению, углу поворота и размеру. Эти преобразования сигналов сделаны согласно работам [23, 24]. Поскольку
дискретное преобразование Фурье требует, чтобы в сигнале не было разрывов, граничные точки разрывов соединяются с помощью линейной интерполяции. Ниже показаны проделанные в настоящей работе преобразования для нормализации сигналов. Преобразования проводились в том порядке, в котором они представлены.
Рис. 1. Варианты подписи одного субъекта
Устранение разрывов. Для удобства записи преобразований сигналов подписи будем представлять подпись /(?) в виде функции от времени, возвращающей комплексное значение. Координата X представляет реальную часть, а У - мнимую:
/ (?) = х () + 1у (?),
где х (?) и у (?) - значение координаты X и У соответственно в момент времени /.
Разрывы в сигналах подписи возникают в том случае, когда перо отрывается от планшета. При отрыве образуются два сегмента подписи, которые необходимо связать, добавив новые значения для координат X и У в отсчёты времени, когда перо было поднято. Для этого преобразования используется линейная интерполяция, имеющая для подписи /(?) следующий вид:
? - ?1
f (t ) = f (A ) + (f (2)-f (1 ))• 7^7
Í2 — <1
где ?! - отсчёт времени, с которого начинается разрыв, ?2 - отсчёт времени, которым разрыв заканчивается. Следует отметить, что данные преобразования подписи /(?) ведутся только для отсчётов времени ?, при которых перо было оторвано от планшета. Подпись /1(?) будет отличаться от /(?) только значениями в отчёты времени, когда были разрывы в сигналах подписи.
На рис. 2а и 2б показаны сигналы подписи рис. 1 до преобразования по координатам X и У соответственно. Выделяются четыре разрыва, образующие пять сегментов. На рис. 2в и 2г показаны преобразованные сигналы с устранёнными разрывами с помощью линейной интерполяции.
Устранение разрывов преобразовывает последовательность входных сигналов таким образом, что к ней добавляются сигналы в отчёты времени, когда перо было оторвано от поверхности планшета. Т.е. последовательность сигналов будет выглядеть следующим образом:
(х1, у!), (х2, у 2),-••, (, уы).
Устранение угла наклона. Во время подписи субъект может направить её под разными углами, что сказывается на значении её признаков. Чтобы устранить
угол наклона подписи по горизонтали, в [23] предлагается провести следующие преобразования:
/2 (?) = /1 (?У* ,
где
N N N N
6 = аго1в(|3у/Рх), Рх хА -, Ру -УЪ>,
1=1 1=1 1=1 1=1
х и у - среднее значение сигналов по координатам X и У соответственно.
12 x(t), y® 6 Яр, xlO' Л
6 - 4 Л /\Д VWV "
, , t ■> , t
100 200 300 0 100 200 300
12 xl°3 sJ^® 6 y(.Ü, *10> . л л t®
6 - - 4 M/wv lw\M '
. , t ? . t
100
200 300 0 100
Рис. 2. Сигналы подписи
200
300
Нормализация позиции. Поскольку субъект может поставить подпись в любой области планшета, то координаты X и У двух идентичных подписей могут не совпадать. Предлагается нормализовать положение путём вычитания из каждого значения сигнала подписи среднего значения:
/з () = /2 ()- /2.
Масштабирование. Подписи одного и того же субъекта могут иметь разный размер (рис. 1). Для приведения их к одному масштабу применяется следующее преобразование:
Л/з (?)
Е /з (ti )/3-(t')
/4 () =
где f - комплексно-сопряжённое число по отношению к f K - константа, определяющая величину масштаба, в данной работе принимает значение 256.
Пример предварительной обработки подписи. Сигналы необработанных подписей рис. 1 представлены на рис. 3, причём на рис. 3а и Зб координаты X и Y первой, а на Зв и Зг соответствующей координаты второй подписи.
К данным сигналам была применена описанная выше предварительная обработка. Соответствующие графики преобразованных сигналов показаны на рис. 4.
Извлечение признаков из сигналов подписи
Преобразование Фурье. Сигналы подписи - это дискретные значения координат X и Y, снятые через равные промежутки времени At. Используя дискретное преобразование Фурье на основе N отчётов времени, функции изменения координат x (t) и y (t) от времени определяются следующими выражениями:
ax N/2
x(t) = — + Е( cosnt + bx sinnt),
2 n=1
1=1
ay N/2
y (t)= — + ^ (ay cos nt + by sin nt),
2 n=1
где aX и bx - коэффициенты n-й гармоники функции x (t), aX и by - коэффициенты n-й гармоники функции y (t). Для их нахождения использовался алгоритм быстрого преобразования Фурье.
Амплитуды гармоник подписи. Амплитуда каждой гармоники соответствует её максимальному значению и определяется следующим выражением:
An =
y/(aX )2 +(bX )2, A„y =^¡(a> )2 +(b„y )2
где п = 1, 2, ..., N/2.
На рис. 5 представлены частотные спектры сигналов подписи, соответствующие сигналам рис. 4.
Гармоники с наибольшими амплитудами в большей степени влияют на формирование сигналов. Поэтому среди признаков подписи были выделены первые шесть амплитуд Апх и АпУ с наибольшими значениями.
x(t), *103 12]
y(t), xlO3
x{t), xlO3
y(t), XlO3 6
а) 0 100 200 300
x(i)
2
0 -
-2 t
а) 100 200 300
Al
0,6
0,4 -
0,2 0 L.
Рис. 3. Сигналы необработанных подписей x(i)
Рис. 4. Сигналы подписей после предварительной обработки Al
а) 10 20 30 40 50 б)
0,06
0,04 il
0,02 á 1
0 1ш
Al о.б г
0,4 0,2 О
L
10 20 30 40 50 в) 10 20 30 40
Рис. 5. Частотные спектры сигналов подписи
Частоты гармоник подписи. Частота каждой гармоники в преобразовании Фурье пропорциональна её номеру. К множеству признаков подписи добавляются и частоты гармоник с наибольшими амплитудами. Частоты можно описать номером гармоники или перейти к значению реальных частот в герцах с помощью следующего преобразования:
юп = п /^ -А/).
50 г)
Al 0,06
0,04
0,02
О
lm, „:
1 10 20 30 40 50
Фазы гармоник подписи. В пространство признаков добавлены фазы гармоник с наибольшими амплитудами. Величина фазы для п-й гармоники рассчитывается следующим образом:
Фп = агС£ фп / ап).
Сигналы скорости ведения пера. Важной характеристикой, определяющей индивидуальные особенности субъекта, является скорость ведения пера в различные отсчёты времени. Сигналы скорости в определённые отсчёты времени можно рассчитать с помощью расстояния между двумя соседними точками прикосновения пера (рис. 6). Формула для вычисления сигналов скорости принимает следующий вид:
-у/дх^+ду2 = ij(xi+i -Xi)2 +(+1 -y¡)2
At
At
где I = 1, 2, ..., N - 1. Вычисление проводится с помощью сигналов (х,,у), которые были получены после этапа предварительной обработки.
Так же, как и в случае с сигналами координат, для извлечения признаков из сигналов скоростей используется спектральное разложение с помощью преобразования Фурье. Выбираются первые шесть гармоник с наибольшими амплитудами. Признаками будут являться амплитуды, частоты и фазы этих гармоник. Число отсчётов скорости будет на единицу меньше (т.е. N- 1), чем координат. На рис. 7 показаны сигналы скоростей и соответствующие им частотные спектры: на рис. 7а и 7б - скорость и спектр для сигналов рис. 4а и 4б, а на 7в и 7г - для рисунков 4в и 4г.
Ум
Рис. 6. Определение расстояния между соседними точками подписи
10 20
Рис. 7. Сигналы скорости пера и их частотные спектры Пространство признаков рукописной подписи. В качестве признаков подписи используются спектральные характеристики сигналов координат и скорости пера. Величины ЛЩ, ЛЩ, Л"п, юЩ, юЩ, юЩ, фП, фП, фП будут составлять пространство признаков рукописной подписи. В табл. 1 представлено признаковое пространство, а именно номер признака и группа, к которой он относится. Группы признаков распределены по строкам, где первый столбец характеризует группу. Признаки описывают свойства гармоник, упорядоченных в каждой группе по убыванию амплитуд.
Табл. 1. Признаки рукописной подписи
An 1 2 3 4 5 6
юП 7 8 9 10 11 12
фП 13 14 15 16 17 18
Ay 19 20 21 22 23 24
юу 25 26 27 28 29 30
ФП 31 32 33 34 35 36
An 37 38 39 40 41 42
юП 43 44 45 46 47 48
фп 49 50 51 52 53 54
Нечёткий классификатор
Построение классификатора основано на предположении о том, что известны метки класса для каждого экземпляра в обучающем наборе данных. Метки классов в тестовом наборе данных прогнозируются классификатором, построенным на обучающем наборе данных.
Основой нечёткого классификатора является база нечётких правил следующего вида:
Правило Rj :
IF xi = Aij AND ... AND xn = A, THEN class = c, j = 1, ..., R,
где R - количество правил; (x1, ..., xn) - входные переменные; Akj - нечёткий терм, характеризующий k-ю переменную в j-м правиле; cj е C = {c1, c2, ..., cm} -метка класса в правиле.
Обучение классификатора проводится на заданной таблице наблюдений {(xp; cp), p = 1, ..., z} с использованием меры точности классификации, определяемой как отношение числа правильно классифицированных образцов к их общему числу:
|1, IF cp = argmax f■ (x ;0)
к ■■< m ^ '
X] 1S m"
P=1 10, OTHERWISE
acc (0) =-^-,
z
где f(xp; 0) - выход нечёткого классификатора, задаваемого вектором параметров 0, в точке xp,
class = с,, t = argmax,
1< j < m
n
H j (x p) = H Aj,( Xpi)-...'M ■AJn (Xpn ) = 11 H Ajk (Xpk X
k=1 n
p,(xp) = X hj(xp) = X ПнAjk(xpk X
Rj
C. = c]
R. k = 1
C, = class t
ЦлдОх*) - значение функции принадлежности терма Л]1 в точке Хрк. В работе используются функции гаус-сового типа.
Построение нечёткого классификатора проводится в три этапа. Первый этап - отбор информативных признаков - позволяет исключить признаки, не влияющие на результат классификации. Второй этап - генерация структуры - определяет структурные характеристики классификатора, такие как число нечётких правил, типы функций принадлежности, а также определяет начальные значения параметров функций принадлежности и метки классов в правиле. Третий этап - оптимизация параметров - определение таких параметров функций принадлежности 9, на которых достигается максимальная точность классификации.
Построение нечёткого классификатора
Отбор признаков. Для отбора информативных признаков использовался алгоритм, предложенный в [21]. Согласно данному алгоритму, информативными признаками объекта считаются те, которые имеют значение взаимной информации с классом данного объекта больше установленного порога. В работе используется нормированное значение взаимной информации Ш, распределённое в диапазоне [0, 1]:
I (Р\С)
IN (P, C ) = 2
H (P) + H (C):
где P - случайная величина, характеризующая признак, С - случайная величина, характеризующая класс, I(P|C) - взаимная информация P и С, H( ) - энтропия случайной величины.
Величина порога IN в данной работе подобрана эмпирически и установлена в значение 0,001.
Генерация структуры. Алгоритм генерации структуры основан на нечёткой кластеризации обучающих данных. Каждому кластеру ставится в соответствие нечёткое правило. Параметром среднего значения функции принадлежности является центр кластера, а отклонением - средневзвешенное квадратичное отклонение обучающих данных относительно центра. Кластеризация выполняется известным алгоритмом Fuzzy C-means (FCM) [26]. FCM - итеративный алгоритм, в котором на каждой итерации происходит
определение степени принадлежности данных кластеру и новых положений центров кластеров:
^и --
1
j-i
\\Xk _ Vi
■ УД«)' Vj '
\\xk - V
I (ki ) xkj =1_
£ /
jll у
где с - число кластеров, - степень принадлежности к-го экземпляра данных ,'-му кластеру, у,- - вектор центра ,'-го кластера, к - константа больше 1 (обычно к = 2). Алгоритм начинает свою работу с определения значений векторов центров кластеров случайным образом и заканчивает, когда выполнено условие
c
11h
■new _v°ld
i i
<e.
где у,°и и у"е™ - векторы ,'-го кластера до и после итерации соответственно, е - малая величина (в данной работе е = 0,0001). Число кластеров с задаётся перед выполнением алгоритма.
Ниже представлен алгоритм генерации структуры. На вход алгоритма подаётся таблица наблюдений из г элементов и вектор с, в котором ср соответствует числу кластеров, на которое должно быть разбито пространство данных ¡-го класса, р = 1, ..., т (в экспериментах данной работы ср = 1).
Инициализация к = 1.
Шаг 1. Разбить пространство данных к-го класса на си кластеров алгоритмом БСМ.
Шаг 2. Добавить в базу правил классификатора правила, соответствующие каждому кластеру. Выходом правила, соответствующего ,'-му кластеру, будет метка к-го класса, а параметрами нечёткого терма Ар будут среднее s,р и отклонение стр-:
iхр- ( -чр) /iхР- .
V Р=! У/ Р=!
Шаг 3. Если рассмотрены все классы (т.е. к = т), то завершить работу алгоритма, иначе к=к + 1 и перейти на Шаг 1 .
Пример работы алгоритма представлен на рис. 8. Входное пространство на данном примере представлено двумя признаками - амплитудой и фазой первой гармоники. Экземпляры разбиты на два класса - «Оригинал» и «Подделка». Вектор числа кластеров задаётся значением с = [1, 1]. В каждом из классов содержится 10 экземпляров данных. После первого прохода алгоритм определяет центр кластера и степени принадлежности экземпляров «Оригинал». На основе найденных величин находятся параметры функций принадлежности, соответствующие термам Ац и А21 (шаг 2 алгоритма). На втором проходе та же процедура проделывается над экземплярами «Подделка» и формируются параметры функций принадлежности, соответствующие термам А12 и А22. Далее алгоритм
завершает свою работу и возвращает следующую базу нечётких правил:
IF xi = An AND x2 = А2i THEN class = «Оригинал», IF xi = A12 AND X2 = А22 THEN class = «Подделка».
0,25
Фаза первой
гармоники о
i 8 ° о
о
о
х Оригинал
° Подделка
X X х X 1 - > XXX
An
0,25 050 1,00
Амплитуда первой гармоники
Рис. 8. Генерация структуры нечёткого классификатора
Оптимизация параметров. На этапе оптимизации необходимо подобрать параметры функций принадлежности таким образом, чтобы точность классификации на обучающих данных была максимальной:
acc(0) ^ max,
min(xj) < Sj < max(xj);i -1,..., r; j -1,..., n, (xj)_ min(xj ))/3;¿ -1
j - 1, ..., n ,
0 < < < (max(
r;
здесь вектор 8 содержит параметры функций принадлежности гауссового типа
0 - (i, СТЦ, Si,2 , <1,2,...,
0Г.
Верхнее ограничение параметров отклонений является следствием правила трёх сигм. Параметры средних значений лежат в области пространства обучающих данных.
Поставленная выше задача решалась с помощью метаэвристического алгоритма «кукушкин поиск», показавшего большую эффективность по сравнения с генетическим алгоритмом и алгоритмом роящихся частиц в поиске оптимума мультимодальных целевых функций [27]. Метаэвристика «кукушкин поиск» имитирует поведение кукушки в период размножения. Кукушка находит недавно построенные гнезда и подкладывает в них свои яйца (заменяет своими), которые в итоге могут быть выкинуты хозяином гнезда [28, 29].
Ниже кратко представлен алгоритм «кукушкин поиск» применительно к оптимизации параметров 8 нечёткого классификатора.
На начальном этапе происходит генерация исходной популяции решений 0 = {81, 82, ..., 8р}, где 81 принимает значения параметров, определяемых алгоритмом генерации структуры, а 82, ..., 8р определяются случайным образом.
1
k-1
i-1
Далее осуществляется итерационный процесс поиска оптимума, который состоит из генерации новых и удаления худших решений популяции. Генерация новых решений осуществляется путём изменения всех текущих элементов векторов решений на случайную величину полета Леви:
Qrnw =0+ Lev¿,
где Levi = у- u /| v |1/|3, у- коэффициент прыжка полёта Леви (в [28, 29] рекомендовано значение 0,01), ß = 1,5; u, v - нормально распределённые случайные величины v ~ N(0; ст2), u ~ N(0; ctU), ст2 = 1,
Г(1 + ß)- sin (к-ß/2) I Г((1 + ß)2)-2(ß-'V2 | ,
здесь v ~ N (0; ai2v) Г (x), Г(-) - гамма-функция.
Если новый вектор решения показывает лучшую точность классификации, чем соответствующий вектор популяции, то происходит замена вектора популяции на новое решение. Удаление худшего решения в популяции - это удаление решения k, такого, что
k = arg min (acc (öi)).
Решение удаляется с вероятностью p, которая задаётся в начале алгоритма, и вместо удалённого решения генерируется новое случайным образом.
Процесс продолжается заданное число итераций. Алгоритм возвращает вектор решения, показавший лучшее значение точности классификации среди векторов популяции ©.
Ансамбли нечётких классификаторов
Одним из способов, позволяющих повысить точность классификации без изменения самого алгоритма классификации, является построение ансамблей классификаторов. В ансамблях повышение точности достигается за счёт использования определённой архитектуры в построении композиции классификаторов, а также специфики построения элементов [30].
Выделяют два направления в построении элементов ансамбля. Первое, называемое бустинг (boosting), основано на том, что классификаторы строятся последовательно, исправляя «неточности» предыдущих классификаторов. Здесь каждый последующий классификатор сосредоточен на правильной классификации экземпляров обучающих данных, неверно классифицируемых до его построения. Второе направление, называемое баггинг (Bootstrap aggregating), здесь при построении классификаторов не использует информации о других элементах ансамбля.
В настоящей работе ансамбли строятся согласно второму направлению. Ансамбль состоит из k классификаторов FCi, ..., FCk. Вывод ансамбля формируется голосованием, т.е. класс объекта определяется большинством голосов.
Алгоритм формирования ансамбля представлен ниже. На вход алгоритма подаётся таблица наблюдений T и число элементов ансамбля k.
Шаг 1. Отобрать информативные признаки на классификаторе, построенном алгоритмом генерации структуры на всём признаковом пространстве.
Шаг 2. Разбить обучающие данные на k частей и сформировать k таблиц наблюдений, которые будут отличаться друг от друга отсутствием одной из этих частей.
Шаг 3. Построить k нечётких классификаторов на полученных таблицах наблюдений алгоритмами генерации структуры и оптимизации параметров.
Эксперимент
Построение нечётких классификаторов и их ансамблей для распознавания рукописной подписи осуществлялось с помощью приведённых выше алгоритмов. Сигналы подписи были взяты из набора SVC2004 (www.cse.ust.hk/svc2004/). Всего в наборе 40 различных подписей, полученных на графическом планшете WACOM Intuos с частотой дискретизации 100 Гц. Каждая подпись содержит 40 вариантов нанесения - 20 подлинных и 20 квалифицированных подделок. Задача распознавания заключается в определении подлинности или поддельности каждой подписи.
Признаки сигналов извлекались из первых шести гармоник дискретного преобразования Фурье с наибольшими амплитудами. Экспериментально установлено, что признаки большего числа гармоник не влияют на прогностическую способность классификаторов.
Методика эксперимента представлена следующими шагами.
Шаг 1. Сигналы X, Y преобразованы в признаки согласно методу, указанному в пункте «Предварительная обработка». Таким образом, получено 40 таблиц наблюдений (каждая для субъекта) с 55 столбцами и 40 строками. Первые 54 столбца соответствуют значениям признаков, последний - метке класса («1» - оригинальная подпись, «2» - подделка). Строки соответствуют экземплярам подписи, всего 20 оригинальных и 20 квалифицированных подделок.
Шаг 2. Проведена случайным образом разбивка каждой таблицы наблюдений на обучающую и тестовую выборку по 20 экземпляров в каждой (10 оригинальных и 10 подделок).
Шаг 3. Построены классификаторы для каждой таблицы наблюдений на обучающей выборке. Нечётких классификаторов и их ансамблей было построено 30 для каждой таблицы, поскольку при построении используются стохастические алгоритмы (метаэври-стика «кукушкин поиск»).
Шаг 4. Проведены оценки качества каждого классификатора на тестовой части таблицы наблюдений. Для нечётких классификаторов и их ансамблей оценки определялись усреднением по 30 классификаторам.
Шаг 5. Обучающая и тестовая выборки были поменяны местами, и шаги 3 и 4 повторены снова.
Шаг 6. Проведена общая оценка качества классификации каждого классификатора как среднее значение двух оценок.
В табл. П1 Приложения представлены результаты эксперимента без отбора признаков; FC3, FC5, FC7, FC9 - ансамбли классификаторов из 3, 5, 7 и 9 элементов соответственно. В столбцах асс указаны значения точности классификации в процентах, в FRR -ошибка первого рода (подлинные подписи, определённые как подделки), в FAR - ошибка второго рода (поддельные подписи, определённые как подлинные). Ошибки представлены так же в процентах. Для построения классификаторов в алгоритмах использовались следующие параметры. В алгоритме генерации структуры все элементы вектора c принимают значения 1, т. е. для каждого класса обучающих данных выделялся один кластер. Параметр p (вероятность удаления гнезда) и размер популяции алгоритма оптимизации параметров установлены в значения 0,25 и 20 соответственно. Данные значения были рекомендованы в работах [28, 29].
В эксперименте определены оценки качества классификации известных аналогов: Tree - деревья решений, SVM - машина опорных векторов, DA - дискри-минантный анализ, KNN - ^-ближайшие соседи. В указанных классификаторах были использованы параметры, рекомендованные пакетом MATLAB.
На рис. 9 представлены признаки, которые были отобраны при построении нечёткого классификатора и их ансамблей. Суффикс flt в названии классификатора указывает на отбор признаков. Если i-й признак выбран для построения классификатораj-го пользователя, то на соответствующем пересечении i и j отмечен чёрный квадрат. Области признаков, относящихся к амплитудам сигналов, выделены тёмной заливкой большой интенсивности. Признаки-частоты выделены заливкой средней интенсивности, а признаки, относящиеся к фазам сигналов, находятся в областях без заливки.
Номер пользователя
40-1- ; ■ ■ . ■ . ■ ■ ..
зб- 1=; ■ ' '•...•'
32-—--^—J—CJ-lJJ—"-
->у-| ■ -—.—— :' . —И. ' ■■ ■ ■■■■
24 - я яя , , ' яя—— ■
■■■" "" " ■"
20 - ■ ■ ■ -■—■- ■ —
^yJ я я я я ш ■
16-'^— -~--~-"---—
12-—-;--..--' ■ '■И И- '
8- Щ .
4 - ш ' | " ■■и—-— 2 —■—
о Г ''" . , ■. , . ......! . ,
0 6 12 18 24 30 36 42 48 54
Номер признака
Рис. 9. Признаки для построения классификаторов
Время в миллисекундах, затраченное на определение подлинности одной подписи каждым из классификаторов, представлено в табл. 2. Вычисления проводились на процессоре Intel(R) Core(TM) i5-3550 под управлением операционной системы Windows 7.
Дискуссия
Для оценки статистической значимости различий в точности классификаторов использованы довери-
тельные интервалы для разности средних. Проверка гипотез с помощью доверительных интервалов основана на следующем правиле [31]:
«Если 100(1 - а)-процентный доверительный интервал разности средних не содержит нуля, то различия статистически значимы (р < а); напротив, если этот интервал содержит нуль, то различия статистически не значимы (р > а)».
Табл. 2. Время определения подлинности подписи
Классификатор Время, мс Классификатор Время, мс
FC1 4,02 FC5flt 4,87
FC3 5,13 FC7flt 5,19
FC5 5,84 FC9flt 5,62
FC7 6,23 Tree 4,00
FC9 7,12 SVM 4,31
FClflt 3,75 DA 5,04
FC3flt 4,05 KNN 4,98
Анализ результатов сравнения по точности классификации (acc) показывает, что точность ансамблей статистически различима по сравнению с одиночным классификатором (уровень значимости меньше 0,05). Анализ ошибок первого рода (FRR) указывает на статистическую неразличимость классификаторов без отбора признаков. С точки зрения ошибки второго рода (FAR) одиночный классификатор уступает ансамблям классификаторов, которые статистически различимы между собой.
Парное сравнение нечётких классификаторов с отбором признаков указывает на превосходство ансамбля с девятью классификаторами; худшие результаты продемонстрированы ансамблем с тремя классификаторами. Одиночный классификатор показал лучшие результаты по сравнению с ансамблем из трёх классификаторов и статистически неразличимые результаты по сравнению с остальными ансамблями.
Анализ результатов сравнения классификаторов с отбором и без отбора признаков позволил сделать следующие выводы: классификаторы с отбором признаков имеют преимущество на ошибках 1-го рода, неэффективны на ошибках 2-го рода и статистически неразличимы по критерию точности.
Результаты парных сравнений классификаторов-аналогов с ансамблями с девятью нечёткими классификаторами с отбором и без отбора признаков выявили следующее. По критерию точности ансамбли нечётких классификаторов превосходят классификаторы на основе ближайших соседей и машины опорных векторов и статистически неразличимы с деревьями решений и дискриминантным анализом. Ансамбль нечётких классификаторов без отбора признаков превосходит все аналоги по критерию ошибки 2-го рода, по критерию ошибки 1-го рода уступают дискрими-нантному анализу и статистически неразличим с остальными аналогами. В табл. П2 Приложения приведено парное сравнение нечётких классификаторов без отбора признаков и классификаторов-аналогов.
Ансамбль нечётких классификаторов с отбором признаков по критерию ошибки 1-го рода показывает лучшие результаты по сравнению с классификаторами на
основе ближайших соседей и машины опорных векторов, по сравнению с деревьями решений и дискрими-нантным анализом результаты статистически неразличимы. Ансамбль нечётких классификаторов с отбором признаков по критерию ошибки 2-го рода показывает лучшие результаты по сравнению с классификатором на основе ближайших соседей, сравнения с остальными аналогами указывает на статистическую неразличимость.
Время определения подлинности подписи уменьшается в нечётких классификаторах с отбором признаков (табл. 5).
Таким образом, можно сделать следующие выводы. Если приоритетным является определение подлинных подписей (минимальная ошибка первого рода), необходимо применять ансамбли классификаторов с отбором признаков. В случае приоритетности определения поддельных подписей (ошибка второго рода) необходимо применять ансамбли классификаторов без отбора признаков. Если критически важным является время определения подлинности подписи, то необходимо применять одиночные нечёткие классификаторы.
Заключение
Исследования показали, что применение ансамблей нечётких классификаторов с независимо построенными элементами является оправданным для распознавания рукописной подписи субъекта без применения процедуры отбора информативных признаков. Причём эффективность повышается на всех показателях: точность, ошибки первого и второго рода. В случае применения процедуры отбора признаков ансамбли не дают значимого преимущества в точности по отношению к одиночному классификатору. Но ошибка в распознавании поддельных подписей значимо увеличивается, а оригинальных уменьшается с применением данной процедуры. Поэтому в зависимости от приоритетности уменьшения одной из ошибок необходимо применять или не применять процедуру отбора.
Дальнейшие исследования будут направлены на извлечение признаков другого типа и построение ансамблей с помощью метода бустинга. В качестве признаков будут использовать геометрические характеристики подписи, такие как отношения длины подписи к её ширине, количество пиков сигналов и т.д. Отдельное исследование будет посвящено определению критерия эффективности классификатора, который бы включал в себя три вышеприведённых показателя (точность, ошибки первого и второго рода) и соответствовал уровню приоритетности каждого из них в решении конкретной задачи распознавания.
Благодарности
Исследование выполнено в рамках проектной части государственного задания Министерства образования и науки Российской Федерации на 2017-2019 гг. № 2.3583.2017/4.6.
Литература
1. Yang, S. Task sensitivity in EEG biometric recognition /
S. Yang, F. Deravi, S. Hoque // Pattern Analysis and Applica-
tions. - 2018. - Vol. 21. - P. 105-117. - DOI: 10.1007/s10044-016-0569-4.
2. Ortega-Garcia, J. Authentication gets personal with biometrics / J. Ortega-Garcia, J. Bigun, D. Reynolds, J. Gonzalez-Rodriguez // IEEE Signal Processing Magazine.
- 2004. - Vol. 21, Issue 2. - P. 50-62. - DOI: 10.1109/MSP.2004.1276113.
3. Ferrer, M.A. A behavioral handwriting model for static and dynamic signature synthesis / M.A. Ferrer, M. Diaz, C. Carmona-Duarte, A. Morales // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2017. - Vol. 39, Issue 6. - P. 1041-1053. - DOI: 10.1109/TPAMI.2016.2582167.
4. Carmona-Duarte, C. Myoelectronic signal-based methodology for the analysis of handwritten signatures / C. Carmona-Duarte, R. de Torres-Peralta, M. Diaz, M.A. Ferrer, M. Martin-Rincon // Human Movement Science. - 2017. - Vol. 55. -P. 18-30. - DOI: 10.1016/j.humov.2017.07.002.
5. Chang, S.-H. Biomechanical analyses of prolonged handwriting in subjects with and without perceived discomfort / S.-H. Chang, C.-L. Chen, N.-Y. Yu // Human Movement Science. -2015. - Vol. 43. - P. 1-8. - DOI: 10.1016/j.humov.2015.06.008.
6. TenHouten, W.D. Handwriting and creativity // Encyclopedia of Creativity. - 2011. - P. 588-594. - DOI: 10.1016/B978-0-12-375038-9.00112-6.
7. Razzak, M.I. Multilevel fusion for fast online signature recognition using multi-section VQ and time modelling / M.I. Razzak, B. Alhaqbani // Neural Computing and Applications. - 2015. - Vol. 26, Issue 5. - P. 1117-1127. - DOI: 10.1007/s00521-014-1779-6.
8. Maiorana, E. Cancelable Templates for Sequence-Based Biometrics with Application to On-line Signature Recognition /
E. Maiorana, P. Campisi, J. Fierrez, J. Ortega-Garcia, Al. Neri // IEEE Transactions on Systems, Man, and Cybernetics -Part A: Systems and Humans. - 2010. - Vol. 40, Issue 3. -P. 525-538. - DOI: 10.1109/TSMCA.2010.2041653.
9. Sanchez-Reillo, R. Improving presentation attack detection in dynamic handwritten signature biometrics / R. Sanchez-Reillo, H.C. Quiros-Sandoval, I. Goicoechea-Telleria, W. Ponce-Hernandez // IEEE Access. - 2017. - Vol. 5. -P. 20463-20469. - DOI: 10.1109/ACCESS.2017.2755771.
10. Linden, J. Dynamic signatures: A review of dynamic feature variation and forensic methodology / J. Linden, R. Marquis,
F. Taroni // Forensic Science International. - 2018. - Vol. 291.
- P. 216-229. - DOI: 10.1016/j.forsciint.2018.08.021.
11. Baltzakis, H. A new signature verification technique based on a two-stage neural network classifier / H. Baltzakis, N. Papamarkos // Engineering Applications of Artificial Intelligence. - 2001. - Vol. 14. - P. 95-103. - DOI: 10.1016/S0952-1976(00)00064-6.
12. Ivanov, A.I. Evaluation of signature verification reliability based on artificial neural networks, Bayesian multivariate functional and quadratic forms / A.I. Ivanov, P.S. Lozh-nikov, A.E. Sulavko // Computer Optics. - 2017. - Vol. 41, Issue 5. - P. 765-774. - DOI: 10.18287/2412-6179-201741-5-765-774.
13. Hu, X. Fuzzy classifiers with information granules in feature space and logic-based computing / X. Hu, W. Pedrycz, X. Wang // Pattern Recognition. - 2018. - Vol. 80. -P. 156-167. - DOI: 10.1016/j.patcog.2018.03.011.
14. Hodashinsky, I.A. Dynamic-signature-based user authentication using a fuzzy classifier / I.A. Hodashinsky, E.Yu. Kostyuchenko, K.S. Sarin, A.E. Anfilofiev, M.B. Bardamova, S.S. Samsonov, I.V. Filimonenko // Computer Optics. - 2018. - Vol. 42, Issue 4. - P. 657-666. DOI: 10.18287/2412-6179-2018-42-4-657-666.
15. Kuncheva, L. Combining pattern classifiers, Methods and algorithms / L. Kuncheva. - 2nd ed. - New York: Wiley, 2014. - 384 p. - ISBN: 978-1-118-31523-1.
16. Breiman, L. Bagging predictors / L. Breiman // Machine Learning. - 1996. - Vol. 24. - P. 123-140. - DOI: 10.1023/A:1018054314350.
17. Freund, Y. A decision-theoretic generalization of on-line learning and an application to boosting / Y. Freund, R.E. Schapire // Journal of Computer and System Sciences. -1997. - Vol. 55. - P. 119-139. - DOI: 10.1006/jcss.1997.1504.
18. Hu, J. Writer-independent off-line handwritten signature verification based on real adaboost / J. Hu, Y. Chen // 2nd International Conference on Artificial Intelligence, Management Science and Electronic Commerce. - 2011. -P. 6095-6098. - DOI: 10.1109/AIMSEC.2011.6010102.
19. Bertolini, D. Reducing forgeries in writer-independent offline signature verification through ensemble of classifiers / D. Bertolini, L.S. Oliveira, E.J.R. Sabourin // Pattern Recognition. - 2010. - Vol. 43. - P. 387-396. - DOI: 10.1016/j.patcog.2009.05.009.
20. Chandrashekar, G. A survey on feature selection methods / G. Chandrashekar, F. Sahin // Computers and Electrical Engineering. - 2014. - Vol. 40. - P. 16-28. - DOI: 10.1016/j.compeleceng.2013.11.024.
21. Cai, J. Feature selection in machine learning: A new perspective / J. Cai, J. Luo, S. Wang, S. Yang // Neurocomputing. - 2018. - Vol. 300. - P. 70-79. - DOI: 10.1016/j.neucom.2017.11.077.
22. Kumar, R. Writer-independent off-line signature verification using surroundedness feature / R. Kumar, J.D. Sharma, B. Chanda // Pattern Recognition Letters. - 2012. - Vol. 33. - P. 302-308. - DOI: 10.1016/j.patrec.2011.10.009.
23. Cham, F.L. Signature recognition through spectral analysis / F.L. Cham, D. Kamins // Pattern Recognition. - 1989. -Vol. 22, Issue 1. - P. 39-44. - DOI: 10.1016/0031-3203(89)90036-8.
24. Yanikoglu, B. Online signature verification using Fourier descriptors / B. Yanikoglu, A. Kholmatov // EURASIP Journal on Advances in Signal Processing. - 2009. -2009(260516). - DOI: 10.1155/2009/260516.
25. Yu, L. Feature selection for high-dimensional data: A fast correlation-based filter solution / L. Yu, H. Liu // Proceedings of the 12th International Conference on Machine Learning. - 2003. - P. 856-863.
26. Bezdek, J.C. FCM: the fuzzy c-means clustering algorithm / J.C. Bezdek, R. Ehrlih, W. Full // Computers & Geosci-ences. - 1984. - Vol. 10, Issues 2-3. - P. 191-203. - DOI: 10.1016/0098-3004(84)90020-7.
27. Yang, X.-S. Cuckoo search via Levy flights / X.-S. Yang, S. Deb // Proceedings of World Congress on Nature & Biologically Inspired Computing. - 2009. - P. 210-214.
28. Yang, X.-S. Engineering optimisation by cuckoo search / X.-S. Yang, S. Deb // International Journal of Mathematical Modelling and Numerical Optimisation. - 2010. - Vol. 1. -P. 330-343. - DOI: 10.1504/IJMMNO.2010.035430.
29. Yang, X.-S. Cuckoo search: recent advances and applications / X.-S. Yang, S. Deb // Neural Computing and Applications. - 2014. - Vol. 24. - P. 169-174. - DOI: 10.1007/s00521-013-1367-1.
30. Rokach, L. Ensemble-based classifiers // Artificial Intelligence Review. - 2010. - Vol. 33, Issues 1-2. - P. 1-39. DOI: 10.1007/s10462-009-9124-7.
31. Гланц, С. Медико-биологическая статистика / С. Гланц; пер. с англ. - М.: Практика, 1998. - 459 с.
Приложение
Табл. П1. Результаты распознавания рукописной подписи нечёткими классификаторами без отбора признаков
FC i FC3 FC5 FC7 FC9
acc FRR FAR acc FRR FAR acc FRR FAR acc FRR FAR acc FRR FAR
SIGNi S7,42 i i ,50 i 3,67 S7,0S i0,S3 i 5,00 S9,00 S,00 i4,00 S9,25 S,50 i 3,00 SS,00 i2,i7 ii,S3
SIGN2 S7,42 i 6,00 9,i7 S3,i7 24,S3 S,S3 SS,75 i 9,00 3,50 SS,67 i6,33 6,33 SS,5S i7,33 5,50
SIGN3 94,S3 i0,i7 0,i7 92, i 7 i5,i7 0,50 94,50 i0,50 0,50 94,33 ii,33 0,00 92,5S i4,S3 0,00
SIGN4 76,i7 3i,i7 i6,50 75,50 37,50 i i ,50 77,75 3i,67 i2,S3 76,00 3i,S3 i6,i7 77,42 3i,i7 i4,00
SIGN5 Si,25 23,i7 i4,33 S3,33 2i,00 i2,33 S 3,42 20,00 i3,i7 S4,75 i S,50 i2,00 S3,50 2i,i7 ii,S3
SIGN6 S5,00 22,i7 7,S3 S4,50 20,00 i i,00 S6,42 i 9,i7 S,00 S7,75 20,i7 4,33 S7,33 i 9,00 6,33
SIGN7 94,75 4,i7 6,33 92,92 9,33 4,S3 95,0S 4,33 5,50 94,0S 6,S3 5,00 95,i7 5,33 4,33
SIGNS 93,5S i2,S3 0,00 94,67 i 0,67 0,00 94,42 ii,i7 0,00 94,25 i i ,50 0,00 93,75 i2,50 0,00
SIGN9 79,67 27,50 i3,i7 76,33 35,00 i2,33 7S,75 29,S3 i2,67 Si,33 24,67 i2,67 S0,33 2S,i7 ii,i7
SIGNi 0 96,00 2,67 5,33 95,S3 3,67 4,67 94,5S 5,67 5,i7 94,33 6,00 5,33 94,5S 5,00 5,S3
SIGNi i 79,5S 33,50 7,33 75,42 47,50 i,67 79,42 40,33 0,S3 77,S3 42,33 2,00 79,92 3S,S3 i,33
SIGNi2 7i,75 43,S3 i2,67 6S,0S 60,50 3,33 72,33 52,00 3,33 75,67 43,50 5,i7 73,33 4S,67 4,67
SIGNi 3 S 3,42 2i,i7 i2,00 S5,5S 20,50 S,33 S6,42 20,00 7,i7 S6,0S i7,S3 i 0,00 S5,S3 i S,S3 9,50
SIGNi4 S0,00 37,S3 2,i7 77,67 42,33 2,33 Si,0S 36,S3 i,00 Si,5S 35,00 i,S3 S0,33 37,S3 i,50
SIGNi 5 S3,00 29,S3 4,i7 S3,5S 27,50 5,33 S4,50 26,00 5,00 S5,i7 24,50 5,i7 S4,5S 25,S3 5,00
SIGNi 6 90,33 i7,50 i,S3 90, i 7 i7,S3 i,S3 92,0 S i4,67 i,i7 92,33 i4,33 i,00 92,0S i 5,50 0,33
SIGNi 7 S 3,42 i4,i7 i 9,00 Si,50 i7,S3 i9,i7 S4,S3 i 3,00 i7,33 S5,5S i2,S3 i 6,00 S5,67 i i,00 i 7,67
SIGNi S 73,42 37,00 i6,i7 7i,5S 50,00 6,S3 74,0 S 44,00 7,S3 76,92 39,50 6,67 74,75 40,67 9,S3
SIGNi 9 7S,25 6,S3 36,67 77,42 3,33 4i,S3 S0,92 2,50 35,67 79,00 3,50 3S,50 S0,75 2,67 35,S3
SIGN20 S5,S3 i6,33 i2,00 S6,33 i 5,00 i2,33 SS,92 i4,00 S,i7 S7,67 i5,33 9,33 S7,00 i4,33 ii,67
SIGN2i 7S,0S i 5,50 2S,33 7S,5S i 3,00 29,S3 S0,25 S,50 3i,00 Si,25 i0,50 27,00 S0,92 S,67 29,50
SIGN22 S6,33 i 9,i7 S,i7 SS,0S 20,00 3,S3 SS,i7 i7,33 6,33 SS,50 i7,i7 5,S3 S9,S3 i6,i7 4,i7
SIGN23 S6,50 6,i7 20,S3 S4,67 2,33 2S,33 S7,0S 4,i7 2i,67 SS,25 3,67 i9,S3 SS,25 4,i7 i 9,33
SIGN24 93,0S i,33 i2,50 92,67 0,00 i4,67 93,92 i,S3 i0,33 92,67 i,33 i3,33 93,0S i,67 i2,i7
SIGN25 96,67 5,S3 0,S3 97,42 5,00 0,i7 97,67 4,33 0,33 97,0S 5,S3 0,00 97,5S 4,00 0,S3
SIGN26 73,67 45,67 7,00 70,5S 55,i7 3,67 74,67 47,50 3,i7 73,75 49,00 3,50 74,S3 47, i 7 3,i7
SIGN27 S0,33 3i,33 S,00 7S,42 36,50 6,67 S0,0S 35,00 4,S3 S2,25 32,S3 2,67 S0,92 34,S3 3,33
SIGN2S S 5,42 26,33 2,S3 S5,50 24,50 4,50 S6,50 24,00 3,00 S6,S3 23,67 2,67 S7,33 23,i7 2,i7
SIGN29 73,50 37,00 i6,00 77,67 3i,00 i 3,67 75,50 32,S3 i6,i7 75,33 33,S3 i5,50 76,33 3i,S3 i 5,50
Окончание табл. П1. Результаты распознавания рукописной подписи нечёткими классификаторами без отбора признаков
FC1 FC3 FC5 FC7 FC9
acc FRR FAR acc FRR FAR acc FRR FAR acc FRR FAR acc FRR FAR
SIGN30 80,42 12,00 27,17 81,17 17,50 20,17 83,50 15,33 17,67 80,58 14,67 24,17 82,42 13,17 22,00
SIGN31 93,00 11,33 2,67 93,83 10,83 1,50 91,00 13,50 4,50 92,75 10,50 4,00 93,92 10,00 2,17
SIGN32 82,67 19,00 15,67 84,50 14,00 17,00 84,08 18,83 13,00 84,92 19,00 11,17 86,58 18,00 8,83
SIGN33 81,00 33,33 4,67 81,58 35,83 1,00 82,75 32,83 1,67 83,25 31,33 2,17 84,17 29,83 1,83
SIGN34 77,50 35,33 9,67 78,25 37,17 6,33 79,17 36,00 5,67 78,92 35,83 6,33 81,33 31,33 6,00
SIGN35 82,50 23,00 12,00 80,92 23,83 14,33 82,25 21,67 13,83 81,92 23,00 13,17 83,50 19,00 14,00
SIGN36 82,58 27,67 7,17 79,33 30,50 10,83 84,42 23,67 7,50 82,92 24,83 9,33 83,83 24,50 7,83
SIGN37 86,00 26,67 1,33 85,00 29,50 0,50 87,92 22,00 2,17 86,58 25,67 1,17 85,17 28,17 1,50
SIGN38 85,83 23,17 5,17 84,08 27,17 4,67 87,92 18,50 5,67 85,83 23,50 4,83 90,17 15,33 4,33
SIGN39 80,00 28,00 12,00 79,42 30,67 10,50 81,08 28,83 9,00 81,00 29,00 9,00 80,67 31,00 7,67
SIGN40 86,25 22,50 5,00 87,17 23,33 2,33 86,83 23,17 3,17 87,33 22,50 2,83 88,83 20,67 1,67
Табл. П2. Парное сравнение нечётких классификаторов без отбора признаков и классификаторов-аналогов
Классификаторы Число степеней свободы acc FRR FAR
95 % доверит. интервал /-value 95 % доверит. интервал /-value 95 % доверит. интервал /-value
Min Max Min Max Min Max
FC9-Tree 39 -2,251 3,508 0,661 -0,016 10,441 0,051 -10,960 -1,983 0,006
FC9-SVM 39 1,504 7,503 0,004 -3,977 6,152 0,666 -14,390 -5,803 0,000
FC9-KNN 39 3,465 11,542 0,001 -5,809 5,235 0,917 -20,080 -7,363 0,000
FC9-DA 39 -3,933 1,190 0,285 3,860 13,565 0,001 -10,381 -1,561 0,009
Сведения об авторах
Сарин Константин Сергеевич, кандидат технических наук, доцент кафедры комплексной информационной безопасности электронно-вычислительных систем (КИБЭВС) Томского государственного университета систем управления и радиоэлектроники (ТУСУР). Область научных интересов: анализ данных, машинное обучение. E-mail: sks@security.tomsk.ru .
Ходашинский Илья Александрович, доктор технических наук, профессор, профессор кафедры КИБЭВС ТУСУР. Область научных интересов: вычислительный интеллект. E-mail: hodashn@rambler.ru .
ГРНТИ: 28.23.15, 28.19.31, 81.93.29 Поступила в редакцию 4 марта 2019 г. Окончательный вариант - 28 мая 2019 г.
Bagged ensemble of fuzzy classifiers and feature selection for handwritten signature verification
K.S. Sarin1,1.A. Hodashinsky1 1Tomsk State University of Control Systems and Radioelectronics, Tomsk, Russia
Abstract
Handwritten signature verification is an important research area in the field of person authentication and biometric identification. There are two known methods for handwriting signature verification: if it is possible to digitize the speed of pen movement, then verification is said to be online or dynamic; otherwise, when only an image of handwriting is available, verification is said to be off-line or static. It is proved that when using dynamic verification, a greater accuracy is achieved than when using static verification. In the present work, the amplitudes, frequencies, and phases of the harmonics extracted from the signature signals of the X and Y coordinates of the pen movement using a discrete Fourier transform are used as characteristics of the signature. All signals are pre-processed in advance, including the elimination of gaps, the elimination of the angle of inclination, the normalization of position and scaling. A fuzzy classifier is proposed as a signature verification tool based on the features obtained. The work examines the effectiveness of this tool in the ensemble, as well as using a procedure for feature selection. To build an ensemble of classifiers, a well-known bagging method is used, and the feature selection is based on the determination of mutual information between a feature and a class of an object. Experiments on signature verification on the SVC2004 data set with the construction of a fuzzy classifier and ensembles of three, five, seven and nine fuzzy classifiers were conducted. Experiments were carried out both with the use of the feature selection procedure and without selection. The efficiency of the classifi-
ers constructed is compared with each other and with known analogues: decision trees, support vector machines, discriminant analysis and k-nearest neighbors.
Keywords: handwritten signature, fuzzy classifier, ensemble, bagging.
Citation: Sarin KS, Hodashinsky IA. Bagged ensemble of fuzzy classifiers and feature selection for handwritten signature verification. Computer Optics 2019; 43(5): 833-845. DOI: 10.18287/2412-6179-2019-43-5-833-845.
Acknowledgements: The study was financially supported under the government order of the Ministry of Education and Science of the Russian Federation in 2017-2019 No. 2.3583.2017/4.6.
References
[1] Yang S, Yang F, Hoque S. Task sensitivity in EEG bio-metric recognition. Pattern Analysis and Applications 2018; 21: 105-117. DOI: 10.1007/s10044-016-0569-4.
[2] Ortega-Garcia J, Bigun J, Reynolds D, Gonzalez-Rodriguez J. Authentication gets personal with biometrics. IEEE Signal Processing Magazine 2004; 21(2): 50-62. DOI: 10.1109/MSP.2004.1276113.
[3] Ferrer MA, Diaz M, Carmona-Duarte C, Morales A. A behavioral handwriting model for static and dynamic signature synthesis. IEEE Transactions on Pattern Analysis and Machine Intelligence 2017; 39(6): 1041-1053. DOI: 10.1109/TPAMI.2016.2582167.
[4] Carmona-Duarte C, de Torres-Peralta R, Diaz M, Ferrer MA, Martin-Rincon M. Myoelectronic signal-based methodology for the analysis of handwritten. Hum Mov Sci 2017; 55: 18-30. DOI: 10.1016/j.humov.2017.07.002.
[5] Chang SH, Chen NY. Biomechanical analyses of prolonged handwriting in subjects with and without perceived discomfort. Hum Mov Sci 2015; 43: 1-8. DOI: 10.1016/j.humov.2015.06.008.
[6] TenHouten WD. Handwriting and creativity. Encyclopedia of Creativity 2011: 588-594. DOI: 10.1016/B978-0-12-375038-9.00112-6.
[7] Razzak MI, Alhaqbani B. Multilevel fusion for fast online signature recognition using multi-section VQ and time modeling. Neural Computing and Applications 2015; 26(5): 1117-1127. DOI: 10.1007/s00521-014-1779-6.
[8] Maiorana E, Campisi P, Fierrez J, Ortega-Garcia J, Neri Al. Cancelable templates for sequence-based biometrics with application to on-line signature recognition. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans 2010; 40(3): 525-538. DOI: 10.1109/TSMCA.2010.2041653.
[9] Sanchez-Reillo R, Quiros-Sandoval HC, Goicoechea-Telleria I, Ponce-Hernandez W. Improving presentation attack detection in dynamic handwritten signature biometrics. IEEE Access 2017; 5: 20463-20469. DOI: 10.1109/ACCESS.2017.2755771.
[10] Linden J, Marquis R, Taroni F. Dynamic signatures: A review of dynamic feature variation and forensic methodology. Forensic Science International 2018; 291: 216-229. DOI: 10.1016/j.forsciint.2018.08.021.
[11] Baltzakis H, Papamarkos N. A new signature verification technique based on a two-stage neural network classifier. Engineering Applications of Artificial Intelligence 2001; 14: 95-103. DOI: 10.1016/S0952-1976(00)00064-6.
[12] Ivanov AI, Lozhnikov PS, Sulavko AE. Evaluation of signature verification reliability based on artificial neural networks, Bayesian multivariate functional and quadratic forms [In Russian]. Computer Optics 2017; 41(5): 765774. DOI: 10.18287/2412-6179-2017-41-5-765-774.
[13] Hu X, Pedrycz W, Wang X. Fuzzy classifiers with information granules in feature space and logic-based computing. Pattern Recognition 2018; 80: 156-167. DOI: 10.1016/j.patcog.2018.03.011.
[14] Hodashinsky IA, Kostyuchenko EYu, Sarin KS, Anfilofiev AE, Bardamova MB, Samsonov SS, Filimonenko IV. Dynamic-signature-based user authentication using a fuzzy classifier [In Russian]. Computer Optics 2018; 42(4): 657666. DOI: 10.18287/2412-6179-2018-42-4-657-666.
[15] Kuncheva L. Combining pattern classifiers, Methods and algorithms. 2nd ed. New York: Wiley; 2014. ISBN: 978-1118-31523-1.
[16] Breiman L. Bagging predictors. Machine Learning 1996; 24: 123-140. DOI: 10.1023/A:1018054314350.
[17] Freund Y, Schapire RE. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences 1997; 55: 119139. DOI: 10.1006/jcss.1997.1504.
[18] Hu J, Chen Y. Writer-independent off-line handwritten signature verification based on real adaboost. 2nd International Conference on Artificial Intelligence, Management Science and Electronic Commerce 2011: 6095-6098. DOI: 10.1109/AIMSEC.2011.6010102.
[19] Bertolini D, Oliveira LS, Sabourin EJR. Reducing forgeries in writer-independent off-line signature verification through ensemble of classifiers. Pattern Recognition 2010; 43: 387-396. DOI: 10.1016/j.patcog.2009.05.009.
[20] Chandrashekar G, Sahin F. A survey on feature selection methods. Computers and Electrical Engineering 2014; 40: 16-28. DOI: 10.1016/j.compeleceng.2013.11.024.
[21] Cai J, Luo J, Wang S, Yang S. Feature selection in machine learning: A new perspective. Neurocomputing 2018; 300: 70-79. DOI: 10.1016/j.neucom.2017.11.077.
[22] Kumar R, Sharma JD, Chanda B. Writer-independent offline signature verification using surroundedness feature. Pattern Recognition Letters 2012; 33: 302-308. DOI: 10.1016/j.patrec.2011.10.009.
[23] Cham FL, Kamins D. Signature recognition through spectral analysis. Pattern Recognition 1989; 22(1): 39-44. DOI: 10.1016/0031-3203(89)90036-8.
[24] Yanikoglu B, Kholmatov A. Online signature verification using Fourier descriptors. EURASIP Journal on Advances in Signal Processing 2009: 2009(260516). DOI: 10.1155/2009/260516.
[25] Yu L, Liu H. Feature selection for high-dimensional data: A fast correlation-based filter solution. Proceedings of the 12th International Conference on Machine Learning 2003: 856-863.
[26] Bezdek JC, Ehrlih R, Full W. FCM: the fuzzy c-means clustering algorithm. Computers & Geosciences 1984; 10(2-3): 191-203. DOI: 10.1016/0098-3004(84)90020-7.
[27] Yang X-S, Deb S. Cuckoo search via Levy flights. Proceedings of World Congress on Nature & Biologically Inspired Computing (NaBIC 2009) 2009: 210-214.
[28] Yang X-S, Deb S. Engineering optimisation by cuckoo search. International Journal of Mathematical Modelling and Numerical Optimisation 2010; 1: 330-343. DOI: 10.1504/IJMMNO.2010.035430.
[29] Yang X-S, Deb S. Cuckoo search: recent advances and applications. Neural Computing and Applications 2014; 24: 169-174. DOI: 10.1007/s00521-013-1367-1.
[30] Rokach L. Ensemble-based classifiers. Artificial Intelligence Review 2010; 33(1-2): 1-39. DOI: 10.1007/s10462-009-9124-7.
[31] Glantz SA. Primer of Biostatistics. New York: McGraw-Hill Inc; 1997.
Author's information
Konstantin Sergeevich Sarin. Candidate of Engineering Sciences, associate professor of Complex Information Security of Computer Systems department in the Tomsk State University of Control Systems and Radioelectronics. Main research interests include data mining and machine learning. E-mail: sks@security.tomsk.ru .
Ilya Alexandrovich Hodashinsky. Received the Dr. Sc. degree in 2004 from the Tomsk State University of Control Systems and Radioelectronics, Russia. Received the Professor title at the 2011. He is a professor of the Tomsk State University of Control Systems and Radioelectronics. His main research interests include the computational intelligence, pattern recognition, and data mining. E-mail: hodashn@rambler.ru .
Received March 4, 2019. The final version - May 28, 2019.