Научная статья на тему 'Алгоритм построения звукового фрагментатора речи для распознавания голосовых образов с учетом биометрических особенностей диктора'

Алгоритм построения звукового фрагментатора речи для распознавания голосовых образов с учетом биометрических особенностей диктора Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
968
155
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ / ЧИСЛЕННЫЕ МЕТОДЫ / БИОМЕТРИЯ / ПРЕДСКАЗАНИЕ РЕЧИ / ГОЛОСОВАЯ АУТЕНТИФИКАЦИЯ / СИНХРОНИЗАЦИЯ ЗВУКОВЫХ ФРАГМЕНТОВ РЕЧИ / DIGITAL PROCESSING OF SIGNALS / NUMERICAL METHODS / BIOMETRICS / SPEECH PREDICTION / VOICE AUTHENTICATION / SYNCHRONIZATION OF SOUND FRAGMENTS OF SPEECH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бойков Илья Владимирович, Калашников Дмитрий Михайлович

Актуальность и цели. В последнее время остро стоит вопрос об обеспечении информационной безопасности. Голосовая идентификация личности пока не вошла в обиход из-за ряда нерешенных проблем. Одной из важнейших проблем является достоверность аутентификации. В настоящее время вероятность ошибки распознавания диктора по голосу достаточно высока. Требуются алгоритмы для более четкого выявления биометрических параметров диктора из голосового сигнала. Второй проблемой является нестабильная работа аппаратуры в условиях шума. Третью проблему составляет многообразие проявлений голоса одного человека: голос способен изменяться в зависимости от состояния здоровья, возраста, настроения и т.д. В работе предлагаются методы и алгоритмы, направленные на решение данных проблем. Материалы и методы. В работе использованы численные методы обработки непрерывной и дискретной информации, методы гармонического анализа, спектральные методы, методы математической статистики и временных рядов. В основу построения фрагментатора положена континуально-дискретная модель обработки речи, которая в сочетании с узкополосным фильтром позволяет определять среднюю длину звука. Использована линейная предобработка данных голосового сигнала для уточнения периода основного тона. Результаты. В работе предложен метод идентификации личности диктора по результатам анализа фрагментов речи. Предложен новый метод фрагментации речи в целом и отдельных фраз. Внедрение данного метода кластеризации звуковых файлов в систему голосовой аутентификации личности человека позволило снизить вероятность ошибки второго рода (т.е. опознание постороннего человека как своего) до при парольной фразе, содержащей три слова. Построен автомат по выделению и классификации звуковых фрагментов слитной речи. Выводы. Предложен численный алгоритм идентификации речи отдельного диктора, позволяющий производить синхронизацию участков речи. Использование статистического метода позволило уточнять значение выявленных параметров. Проведенное исследование позволило построить автомат по выделению и классификации звуковых фрагментов на различных участках звукового сигнала. Данная процедура была интегрирована в состав имеющейся системы голосовой аутентификации и значительно улучшила качество работы системы при появлении вероятности ошибки второго рода.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бойков Илья Владимирович, Калашников Дмитрий Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AN ALGORITHM FOR CONSTRUCTING A SPEECH SOUND DEFRAGMENTER FOR VOICE RECOGNITION TAKING INTO ACCOUNT BIOMETRIC FEATURES OF SPEAKERS

Background. Recently the question of ensuring information security is particularly acute. Voice identification of personality hasn't become current so far because of a number of unresolved problems. One of the major problems is reliability of authentication. Now the probability of an error of recognition of speaker’s voice is rather high. There is a need for algorithms that more accurately identify biometric parameters of speakers by voice signals. The second problem is unstable operation of the equipment in conditions of noise. The third problem is made by a variety of manifestations of one person’s voice: the voice is capable to change depending on a state of health, age, mood etc. The present work offers methods and algorithms directed to solve these problems. Materials and methods. The authors used numerical methods of continuous and discrete information processing, methods of harmonious analysis, spectral methods, methods of mathematical statistics and temporary ranks. The continual and discrete model of speech processing, in combination with the narrow-band filter, allowing to determine the average length of sound, was taken as the basis for creation of a fragmentator. The researchers used linear predata processing of voice signals for specification of the period of the main tone. Results. The work offers the method of determination of speaker’s identity by the results of the analysis of speech fragments. The new method of speech fragmentation in general and separate phrases is offered. Introduction of this method of sound files clustering into a system of voice authentication of person’s identity has allowed to reduce the probability of a type 2 error (that is identification of a foe as a friend) by during the password phrase containing 3 words. The authors constructed an automatic machine for allocation and classification of sound fragments of conjoint speech. Conclusions. The work offers the numerical algorithm for identification of certain speaker’s speech allowing to synchronize speech segements. The use of the statistical method has allowed to specify the value of the revealed parameters. The conducted research has allowed to construct the automatic machine for allocation and classification of sound fragments on various segements of sound signals. This procedure has been integrated into the structure of the available system of voice authentication and has considerably improved the system’s quality at emergence of the probability of a type 2 error.

Текст научной работы на тему «Алгоритм построения звукового фрагментатора речи для распознавания голосовых образов с учетом биометрических особенностей диктора»

УДК 004; 519.7; 519.6; 519.66; 612.087.1

И. В. Бойков, Д. М. Калашников

АЛГОРИТМ ПОСТРОЕНИЯ ЗВУКОВОГО ФРАГМЕНТАТОРА РЕЧИ ДЛЯ РАСПОЗНАВАНИЯ

ГОЛОСОВЫХ ОБРАЗОВ С УЧЕТОМ БИОМЕТРИЧЕСКИХ ОСОБЕННОСТЕЙ ДИКТОРА1

Аннотация.

Актуальность и цели. В последнее время остро стоит вопрос об обеспечении информационной безопасности. Голосовая идентификация личности пока не вошла в обиход из-за ряда нерешенных проблем. Одной из важнейших проблем является достоверность аутентификации. В настоящее время вероятность ошибки распознавания диктора по голосу достаточно высока. Требуются алгоритмы для более четкого выявления биометрических параметров диктора из голосового сигнала. Второй проблемой является нестабильная работа аппаратуры в условиях шума. Третью проблему составляет многообразие проявлений голоса одного человека: голос способен изменяться в зависимости от состояния здоровья, возраста, настроения и т.д. В работе предлагаются методы и алгоритмы, направленные на решение данных проблем.

Материалы и методы. В работе использованы численные методы обработки непрерывной и дискретной информации, методы гармонического анализа, спектральные методы, методы математической статистики и временных рядов. В основу построения фрагментатора положена континуально-дискретная модель обработки речи, которая в сочетании с узкополосным фильтром позволяет определять среднюю длину звука. Использована линейная предобработка данных голосового сигнала для уточнения периода основного тона.

Результаты. В работе предложен метод идентификации личности диктора по результатам анализа фрагментов речи. Предложен новый метод фрагментации речи в целом и отдельных фраз. Внедрение данного метода кластеризации звуковых файлов в систему голосовой аутентификации личности человека позволило снизить вероятность ошибки второго рода (т.е. опознание постороннего человека как своего) до 10 при парольной фразе, содержащей три слова. Построен автомат по выделению и классификации звуковых фрагментов слитной речи.

Выводы. Предложен численный алгоритм идентификации речи отдельного диктора, позволяющий производить синхронизацию участков речи. Использование статистического метода позволило уточнять значение выявленных параметров. Проведенное исследование позволило построить автомат по выделению и классификации звуковых фрагментов на различных участках звукового сигнала. Данная процедура была интегрирована в состав имеющейся системы голосовой аутентификации и значительно улучшила качество работы системы при появлении вероятности ошибки второго рода.

Ключевые слова: цифровая обработка сигналов, численные методы, биометрия, предсказание речи, голосовая аутентификация, синхронизация звуковых фрагментов речи.

1 Работа выполнена при финансовой поддержке РФФИ (грант 16-01-0594). Работа выполнена в рамках научно-исследовательской работы в соответствии с договором № 8909 ГУ/2015 от 21 декабря 2015 г. о предоставлении гранта Федеральным государственным бюджетным учреждением «Фонд содействия развитию малых форм предприятий в научно-технической сфере».

I. V. Boykov, D. M. Kalashnikov

AN ALGORITHM FOR CONSTRUCTING A SPEECH SOUND DEFRAGMENTER FOR VOICE RECOGNITION TAKING INTO ACCOUNT BIOMETRIC FEATURES OF SPEAKERS

Abstract.

Background. Recently the question of ensuring information security is particularly acute. Voice identification of personality hasn't become current so far because of a number of unresolved problems. One of the major problems is reliability of authentication. Now the probability of an error of recognition of speaker's voice is rather high. There is a need for algorithms that more accurately identify biometric parameters of speakers by voice signals. The second problem is unstable operation of the equipment in conditions of noise. The third problem is made by a variety of manifestations of one person's voice: the voice is capable to change depending on a state of health, age, mood etc. The present work offers methods and algorithms directed to solve these problems.

Materials and methods. The authors used numerical methods of continuous and discrete information processing, methods of harmonious analysis, spectral methods, methods of mathematical statistics and temporary ranks. The continual and discrete model of speech processing, in combination with the narrow-band filter, allowing to determine the average length of sound, was taken as the basis for creation of a frag-mentator. The researchers used linear predata processing of voice signals for specification of the period of the main tone.

Results. The work offers the method of determination of speaker's identity by the results of the analysis of speech fragments. The new method of speech fragmentation in general and separate phrases is offered. Introduction of this method of sound files clustering into a system of voice authentication of person's identity has allowed to reduce the probability of a type 2 error (that is identification of a foe as a

_3

friend) by 10 during the password phrase containing 3 words. The authors constructed an automatic machine for allocation and classification of sound fragments of conjoint speech.

Conclusions. The work offers the numerical algorithm for identification of certain speaker's speech allowing to synchronize speech segements. The use of the statistical method has allowed to specify the value of the revealed parameters. The conducted research has allowed to construct the automatic machine for allocation and classification of sound fragments on various segements of sound signals. This procedure has been integrated into the structure of the available system of voice authentication and has considerably improved the system's quality at emergence of the probability of a type 2 error.

Key words: digital processing of signals, numerical methods, biometrics, speech prediction, voice authentication, synchronization of sound fragments of speech.

Введение

В настоящее время активно идут процессы информатизации современного общества. В России и за рубежом объявлено о создании электронного правительства. Каждая из федеральных служб России (Налоговая инспекция, ГИБДД, Пенсионный фонд РФ и др.) создают на своих сайтах личные кабинеты для взаимодействия с гражданами РФ. Каждый личный кабинет должен быть защищен уникальным логином и длинным паролем из случайных зна-

ков. К сожалению, многие пользователи не могут запомнить множество логинов и множество длинных паролей доступа из 32 случайных знаков.

По мнению экспертов, выход из создавшегося положения состоит в использовании преобразователей личной биометрии человека в его логин и длинный пароль доступа. В США и странах Евросоюза эту проблему решают с помощью «нечетких экстракторов». В России и Казахстане развивается технология использования больших искусственных нейронных сетей. Для преобразования в логин и код пароля доступа может быть использована любая биометрическая технология, однако для доступа в личные кабинеты желательно использовать анализ особенностей голоса, так как микрофон является самым распространенным и самым простым средством ввода биометрии.

Опишем базовую систему распознавания речи, которая лежит в основе многих алгоритмов [1]. Эта система состоит из следующих этапов:

1) оцифровка сигнала;

2) наложение окон;

3) первичная обработка фрейма;

4) поиск начальных и конечных точек фонем и фреймов;

5) анализ свойств выделенных фрагментов;

6) сопоставление результатов обработки с экземплярами, хранящимися в библиотеке шаблонов;

7) выдача результатов.

При первичной обработке сигналов возникает вопрос о частоте оцифровки. Человеческому голосу свойственен диапазон частот от 300-400 Гц. В работе [1] со ссылкой на теорему Котельникова предполагается, что для восстановления голоса без потерь необходимо использовать частоту дискретизации, большую 8 кГц, и предлагается считать оптимальной частоту 12 кГц. В связи с тем что теорема Котельникова применима для класса функций В2 [2], а звуки человеческой речи, по-видимому, не принадлежат данному классу функций, то необходимо более тщательное исследование вопроса о частоте оцифровки. Тем более что по определению алгоритм Котельникова использует счетное множество значений, равномерно распределенных на числовой оси. Вопросы восстановления целых функций, определенных в конечных областях плоскости комплексной переменной, исследовались в [3].

Следующая проблема, возникающая при обработке фреймов, заключается в необходимости их нормировки по амплитуде, так как одна и та же фраза, произнесенная одним и тем же диктором в различных внешних условиях (расстояние от микрофона, положение источника сигнала и т.д.), воспринимается по-разному. Существуют различные способы решения этой проблемы. В частности, в программном обеспечении USBstickezdspvc 5505 присутствует микросхема А1С3204, осуществляющая нормировку аудиосигналов.

Наиболее сложным является четвертый этап - нахождение начала и конца фрейма. Для выделения отдельного слова в реальном масштабе времени многие авторы используют метод определения конечных точек Рабинера -Самбура, основанный на подсчете энергии фрейма и частоты перехода функции, описывающей речь через нуль. Энергия фрейма определяется формулой

(1)

где k - коэффициент нормировки; N - число отсчетов в фрейме; An - величина «-го отсчета.

После того как выделены начало и конец сигнала, начинается следующий этап распознавания - построение числовых характеристик фрейма. Здесь может быть использован метод вычисления мел-кепстральных коэффициентов или вычисления коэффициентов линейных предсказателей.

После вычисления мел-кепстральных коэффициентов, или коэффициентов линейного предсказателя, проводится сравнение с библиотекой эталонов и делается вывод об идентификации диктора.

Описанная выше процедура является базой для большинства разработанных и используемых на практике алгоритмов [4, 5].

В данной работе проведено развитие этой модели, которая позволяет осуществлять аутентификацию диктора при уровне помех, превышающем уровень полезного сигнала.

Определение детерминированных участков речи и вариации частоты основного тона

Первым этапом при проведении распознавания звукового сигнала является определение вокализированных участков речи, т.е. тех участков, на которых определены звуковые сигналы, которые в дальнейшем будут анализироваться. Прежде чем применить алгоритмы, предназначенные для распознавания звукового сигнала, необходимо провести кластеризацию и определить характеристики входных сигналов (исходных образов) на каждом кадре. Это необходимо для отделения участков, на которых наблюдается шум, от участков, на которых сигналы имеют детерминированный характер. Для разбивки сигнала на кадры в работе применяется узкополосной фильтр с заданным значением основного тона.

Остановимся на вопросе построения узкополосного фильтра. Предположим, что нужно выделить часть непрерывного сигнала, спектр которой (части сигнала) заключен в сегменте [П0, П1], П < П1.

Характеристическую функцию сегмента [Пд, П1], П обозначим

через Н(ю):Н(ю) = 1 при юе [П0,П1], П0 <П1, и Н(ю) = 0 при юе (~)\[Ц),П1], П0 <П^ Обратное преобразование функции Н(ю)

равно Ъ(^) =1 (ш(П^)-8т(П00)--(со8(П^)-со8(П00). В случае П = -П 2

имеем И^) =—эт(П^).

Замечание. Здесь сегмент [П0,П1], П <П1, взят для простоты обозначений. Построение узкополосных спектров проводится аналогичным способом на произвольных измеримых множествах.

Пусть фрагмент речи представлен функцией /^), t е [70, 7^]. Обозначим через ^(ю), юе спектр функции /(t), tе [70, 7^]. Полосной спектр функции /(t), t е [70, 7]], в частотной области имеет вид ^П(ю) = Н(ю)^(ю), юе (~).

По теореме о свертке имеем

/о(0 = \ И(Х - т)/(т)Л = \ Л(х)/(X- т)<Л, Xе ). (2)

—^ —^

При практической реализации этой формулы необходимо провести редукцию и перейти к следующей приближенной формуле:

Т т

/о(0 = \ щ-Т)/(т)ёт = | Н(Т)/(X-т)Л, Xе (-Т,Т). (3)

—т -т

Для оценки перехода от формулы (2) к формуле (3) необходимо располагать информацией о классах функций, к которым принадлежат речевые фрагменты. Так как получение такой информации невозможно из-за сложности речеобразования и турбулентных процессов в голосовом тракте, то величина Т выбирается эмпирически.

Пусть ДТ - шаг дискретизации, причем N = 2Т / ДТ - целое число.

Тогда функция /о (X) приближенно вычисляется по формуле

N-1 N-1

/к (%) = ДТ • 2 Мхк - Х1)/(Х1) = ДТ • 2 ¿(Х1)/(<* - Х1), к = 0,1, 2,..., N -1, (4)

1=0 1=0

к =-Т + к ДТ, к = 0,1,2,...,N. 2

Подставляя в (4) значения Н(Хк) = — 81п(0^к), приходим к используе-

Хк

мой в работе формуле узкополосного фильтра:

N-1

/м(Хк) = 2ДТ• 2 8ш(01(<к -Х1))/(X, )/(Хк -Х1) = 1=0

N-1

= 2ДТ • 2 яп(О1(0))/(Хк - Х1) / X,, к = 0,1, 2,..., N -1. (5)

=0

Замечание. Неопределенность раскрывается по правилу Лопиталя. Формулу (5) более удобно использовать в виде

N2-1

^(Хк) = 2ДТ • 2 81п(01(Хк -Х1))/(X,)/(Хк -X,) =

1=N

N 2-1

= 2ДТ • 2 81п(01(Х1))/(Хк - Х1)/ X, =

N 2 -1,

= 2 2 у81п(01 (-Т + 21Т / N)/((к - ,)ДТ), (6)

1=N 1

к = 0,1,2,..., N -1, N = Ы2 - Щ, М = 2Т / N.

Для наиболее эффективного разбиения сигнала на кадры удобно применить узкополосный фильтр, предварительно выбрав начальное приближение периода основного тона (см. (6)). Разность N = N2 - N1 есть значение периода основного тона, иначе говоря - кратность кадра, на котором анализируется сигнал. При первоначальной обработке сигнала берется среднее значение периода основного тона, вычисленное усреднено по базе из 5000 образов. После прохода сигнала через фильтр (6) он принимает синусоидальную форму, имеющую период 2п / Участки, на которых сигнал не имеет синусоидальную форму, заведомо являются шумовыми. Используя данную предобработку, можно исключить участки сигнала, в которых присутствуют шумовые составляющие и паузы, а также можно определить начало и конец звукового сигнала (рис. 1).

б)

Рис. 1. Прохождение исходных сигналов через узкополосный фильтр: a - исходные сигналы; б - сигналы на выходе

Амплитуда основной гармоники в формуле (6) взята равной единице. Изменяя данное значение, можно увеличить амплитуду синуса различных фонем. Точность работы фильтра зависит лишь от правильно выбора значения периода основного тона (Т), который может уточняться после получения первого вектора вариации периодов синусоидальной формы сигнала по формуле (6).

Для определения границ сигнала вычислим мощность выходных сигналов фильтра. Известно, что мощность вокализированных звуков речи сигнала увеличивается при прохождении через узкополосный фильтр, а мощность шума и пауз резко падает. На рис. 2 представлен пример работы функции подсчета мощности выходных сигналов с узкополосного фильтра.

а м п л и т У д

а

О 1000 2090 3000 4000 5ОО0

б)

Рис. 2. Пример преобразования исходного сигнала (а) в массив мощности сигнала (б)

В данной работе мощность вычисляется по формуле

Е (yi) = У г1, г = 0,..., N. (7)

Замечание. Отметим, что обычно вычисляется энергия фрейма по формуле (1).

После вычисления массива мощности сигнала выбирается наибольшая амплитуда для дальнейшего масштабирования (выбирается порог ограничения). На практике данное пороговое ограничение принято равным 5 %. Пусть максимальное значение сигнала в рассматриваемом образе (звуковом пароле) равно Н. Образ описывается функцией у = /(X). Находится два решения

уравнения /(X) = — Н : первое и последнее по времени. Пусть этими значе-

ниями будут Т* и Т . Тогда образ (звуковой пароль) в дальнейшем рассмат-

*

ривается на временном интервале [Т*,Т ], т.е. полагаем

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

^ = |/(X), Т* < X < Т*, [0, (-—х,

Одним из главных достоинств фильтра (6) является хорошая синхронизация выходного сигнала с периодом основного тона сигнала. Соответственно можно составить вариацию периодов основного тона для уточнения начального приближения самого фильтра, усреднив значение вариации. Зная длину периода, можно воспользоваться фильтром линейного предсказателя для уточнения детерминированности кадров сигнала. Взяв значение параметра исходя из эмпирических соображений, пропускаем образ (звуковой пароль) через фильтр (6). В результате получаем почти периодичный сигнал

1 п

с набором периодов Т1,...,Тп . Положим ^ =_2 Тк и строим фильтр (6)

п ^^

к=1

с параметром 0.2. Этот алгоритм позволяет уточнить значение основного тона и тем самым построить более точный линейный предсказатель.

Ниже рассматривается линейный предсказатель с коэффициентами |ак }, который определяется как линейная система, на выходе которой имеем

s(n) =

( 12 ^

2 aks(n - к) v к=1

+e(n), (8)

где ^1^2,°3,. .,°12 - коэффициенты линейного предсказания в пределах обрабатываемого сегмента речевого сигнала; е(п) - ошибка предсказания; s(n) - значение отсчета звука, предсказанное по 12 предыдущим отсчетам; п - текущий номер отсчета обрабатываемого звукового файла.

Для преодоления негативных свойств вычислительных процессов, связанных с плохой обусловленностью матриц линейных предсказателей, в работе [6] предлагаются итерационные методы.

В линейных системах параметры |ак} линейного предсказателя находят, минимизируя ошибку е(п):

12

2 ^ (т -1К (т) = 2 ак 2 8п (т -1К (т - к), ' <' < 12, (9)

т к=1 т

где (т) - сегмент речевого сигнала из 12 отсчетов, выбранный в окрестности текущего п-го отсчета, т. е.

(т) = s(n + т). (10)

Система уравнений (9) является линейной относительно неизвестных коэффициентов {ак}, к = 1,2,...,12, системой алгебраических уравнений.

Введем обозначения: 12

I sn (т - г )s„ (т - k ) = Rnk,

т=1 12

X 5п (т -1К (т ) = К"

I=1

где ЯЦ - коэффициенты автокорреляции. Запишем систему (10) в виде

12

I

к=1

akRik

г = 1,2,

(11)

Замечание. Выше было использовано 12 отчетов, так как эта размерность принята в большинстве технических реализаций линейных предсказателей. Отметим, что результаты, полученные в данной работе, справедливы для произвольного Ь числа отсчетов.

Применяя автокорреляционную функцию на кадре, кратном периоду синуса, добиваемся того, что фильтр линейного предсказателя работает более точно, нежели если его применять к равномерно разбитым кадрам. Итак, проверяя каждый участок, можно полностью избавиться от непериодических сигналов, сравнивая период синуса с периодом сигнала, извлеченного с фильтра линейного предсказателя. На рис. 3 представлен пример обработки сигнала вышеописанной процедурой. Как видно, в сигнале присутствует несколько различных фонем, описывающих главные биометрические составляющие. Дальнейшая задача состоит в распознавании и классификации данных участков речи.

Рис. 3. Результат корректировки синусоидального фильтра совместно с фильтром линейного предсказателя

Произведя фильтрование сигнала, участки, не прошедшие проверку на детерминированность, можно обратить в 0, остальные, соответственно, в 1, тем самым получив классификатор тон/шум (рис. 4).

Рис. 4. Пример синхронизации классификатора тон/шум

Накопив базу обучающих образов и произведя обработку сигналов, имеем векторный набор фонем. Для начала распознавания и классификации данных образов необходимо отмасштабировать участки фонем на постоянную длину. Длина обусловливается средним периодом основного тона так, чтобы для подачи на нейронную сеть было достаточное число параметров. При обработке мужского голоса с частотой 44 кГц обычно берутся участки длиной в три периода основного тона. Все участки сводятся к равному масштабу для дальнейшего корреляционного и нейросетевого анализа.

Имея набор записанных и обработанных фраз, приступаем к сравнительному анализу, поочередно сравнивая между собой образы. На рис. 5 представлен набор из 20 первых фонем каждого образа.

Рис. 5. Нейросетевой и корреляционный поиск похожих образов

Первоначально выбираются образы, чья корреляция максимальна. Согласно формуле

N

rXY

2 (X, - X)(Y - Y)

i=1_

N _ IN _

2 (Xi - x)2 2 (y - Y )2

(12)

i=1

i = 1

определяются элементы корреляционной матрицы размерностью к X к, где к - число образов. Попарное сравнение масштабируемых векторов позволяет определить число похожих образов для данной выборки.

Если среди хотя бы половины образов достигнута корреляция 0,95, данные отправляются на обучение на однослойную нейронную сеть стандарта ГОСТ Р 52633, где проводится проверка на совпадение образов и поиск упущенных (тех образов, которые не прошли корреляционный анализ, но на самом деле принадлежат к данной классификации). Корреляция может ошибаться в определении образов, так как фонема может быть сдвинута по фазе. На этапе идентификации подсчитывается расстояние Хемминга для вычисления принадлежности участка к данной классификации. Вышеописанная процедура повторяется итерационно, декрементируя корреляцию с шагом 0,01 вплоть до значения в 0,75. В качестве проверки рабочая программа выводит рисунки фонем для зрительного сравнения. Суть применения корреляционного и нейросетевого распознавания заключается в инвариантности человеческого голоса. Важную проблему составляет многообразие проявлений голоса одного человека: голос способен изменяться в зависимости от состояния здоровья, возраста, настроения и т.д. Это многообразие представляет серьёзные трудности при выделении отличительных свойств голоса человека. На рис. 6 представлен пример инвариантности двух фонем. Из рисунка видно, что фонема в слове, произносимая одним и тем же диктором, может отличаться, и каждый отсчет в векторе может варьироваться с определенной амплитудой. Для распознавания подобной инвариантности и служит нейросетевое тестирование [7, 8].

б)

Рис. 6. Пример синхронизации двух различных фонем после нейросетевой выборки

После построения нейросетевой выборки необходимо присвоить каждой фонеме её порядковый номер следования в звуковом сигнале для составления временных интервалов. Рисунок фонемы может повторяться в различных участках сигнала у некоторых дикторов, что особенно характерно для случая произношения фразы на «одном дыхании». На рис. 7 представлен пример итоговой кластеризации звуковых фонем. Каждому рисунку фонемы

соответствует свой порядок либо несколько порядков на этапе аутентификации. Для иллюстрации работы кластеризации была озвучена фраза «Невероятно сильный мороз».

"В" "Я" "Л" "М"

"Е" "О" "И" "ЬГ

Рис. 7. Пример итоговой фрагментации звукового сигнала

Для каждой фонемы после осуществления кластеризации формируется отдельная таблица весов и временной интервал. При аутентификации производится подобная процедура шумоподавления, только с уже известным начальным приближением узкополосного фильтра. При заданном временном интервале время обхода всех нейросетевых выборок составляет в среднем

0.3.с, что значительно быстрее, нежели если рассматривать весь звуковой файл.

Внедрение данного метода кластеризации звуковых файлов в систему голосовой аутентификации личности человека позволило снизить ошибку

второго рода до 10 при использовании парольной фразы, состоящей из трех слов.

Список литературы

1. Агашин, О. С. Методы цифровой обработки речевого сигнала в задаче распознавания изолированных слов с применением сигнальных процессоров / О. С. Агашин, О. Н. Корелин // Труды нижегородского государственного технического университета им. Р. Е. Алексеева. - 2012. - № 4 (97). - С. 32-44.

2. Хургин, Я. И. Финитные функции в физике и технике / Я. И. Хургин, В. П. Яковлев. - М. : Наука, 1971. - 408 с.

3. Stenger, F. Numerical Methods Based on Sine and Analytic Functions / F. Stenger // Springer Series in Computational Mathematics. - Springer Verlag, 1993. - 565 р.

4. Dodis, Y. A. Fuzzy Extractors: How to Generate Strong Keys from Biometrics and Other Noisy / Y. Dodis, L. Reyzin // EUROCRYPT. - 2004, April 13. - P. 523-540.

5. Monrose, F. Cryptographic key generation from voice / F. Monrose, M. Reiter, Q. Li, S. Wetzel // Proc. IEEE Symp.on Security and Privacy, 2001. - P. 1-12.

6. Бойков, И. В. Алгоритм построения статистического дискретно-континуального описания длительности звуков потока осмысленной речи диктора / И. В. Бойков, А. И. Иванов, Д. М. Калашников // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2015. -№ 4 (36). - С. 64-78.

7. Язов, Ю. К. Нейросетевая защита персональных биометрических данных / Ю. К. Язов, В. И. Волчихин, А. И. Иванов, В. А. Фунтиков, И. Г. Назаров ; под ред. Ю. К. Язова. - М. : Радиотехника, 2012. - 157 с.

8. Технология использования больших нейронных сетей для преобразования нечетких биометрических данных в код ключа доступа : моногр. / Б. С. Ахметов, А. И. Иванов, В. А. Фунтиков, А. В. Безяев, Е. А. Малыгина. - Алматы, Казахстан : LEM, 2014. -144 c. - URL: http://portal.kazntu.kz/files/publicate/2014-06-27-11940.pdf

References

1. Agashin O. S., Korelin O. N. Trudy nizhegorodskogo gosudarstvennogo tekhni-cheskogo universiteta im. R. E. Alekseeva [Proceedings of Nizhny Novgorod State Technical University named after R.E. Alekseev]. 2012, no. 4 (97), pp. 32-44.

2. Khurgin Ya. I., Yakovlev V. P. Finitnye funktsii v fizike i tekhnike [Finite functions in physics and engineering]. Moscow: Nauka, 1971, 408 p.

3. Stenger F. Springer Series in Computational Mathematics. Springer Verlag, 1993, 565 p.

4. Dodis Y. A., Reyzin L. EUROCRYPT, 2004, April 13, pp. 523-540.

5. Monrose F., Reiter M., Li Q., Wetzel S. Proc. IEEE Symp.on Security and Privacy, 2001, pp. 1-12.

6. Boykov I. V., Ivanov A. I., Kalashnikov D. M. Izvestie vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki [University proceedings. Volga region. Engineering sciences]. 2015, no. 4 (36), pp. 64-78.

7. Yazov Yu. K., Volchikhin V. I., Ivanov A. I., Funtikov V. A., Nazarov I. G. Ney-rosetevaya zashchita personal'nykh biometricheskikh dannykh [Neural-network protection of personal biometric data]. Moscow: Radiotekhnika, 2012, 157 p.

8. Akhmetov B. S., Ivanov A. I., Funtikov V. A., Bezyaev A. V., Malygina E. A. Tekhnologiya ispol'zovaniya bol'shikh neyronnykh setey dlya preobrazovaniya nechetkikh biometricheskikh dannykh v kod klyucha dostupa: monogr. [A technology of large neural networks application for fuzzy biometric data conversion into an access key code: monograph]. Almaty, Kazakhstan: LEM, 2014, 144 p. Available at: http://portal.kazntu.kz/files/publicate/2014-06-27-11940.pdf

Бойков Илья Владимирович

доктор физико-математических наук, профессор, заведующий кафедрой высшей и прикладной математики, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: [email protected]

Boykov Il'ya Vladimirovich Doctor of physical and mathematical sciences, professor, head of sub-department of higher and applied mathematics, Penza State University (40 Krasnaya street, Penza, Russia)

E-mail: [email protected]

УДК 004; 519.7; 519.6; 519.66; 612.087.1 Бойков, И. В.

Алгоритм построения звукового фрагментатора речи для распознавания голосовых образов, с учетом биометрических особенностей диктора / И. В. Бойков, Д. М. Калашников // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2016. - № 1 (37). -

Калашников Дмитрий Михайлович

аспирант, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

Kalashnikov Dmitriy Mikhaylovich Postgraduate student, Penza State University (40 Krasnaya street, Penza, Russia)

С. 78-91.

i Надоели баннеры? Вы всегда можете отключить рекламу.