УДК 004.934.1' 1
О.А. КРИВОДУБСКИЙ, Е.Е. ФЕДОРОВ МОДЕЛИРОВАНИЕ ОСОБЕННОСТЕЙ РЕЧИ ДИКТОРА
Abstract: For creation of a system of verification of the speaker in the article the technique of verification on the basis of unvoiced fricative sounds was offered which uses author's methods executing a generalized classification of sounds by means of discrete and continuous wavelet-transformation. For unvoiced fricative sounds chosen by these methods, the quantitative analysis of systems of indications based on a linear prediction, normalized quantity of pulses of equal length and mel-frequency cepstral coefficients (MFCC) is conducted. The obtained indications are used in a method of verification based on the algorithm DTW.
Key words: verification of the speaker, generalized classification of sounds, wavelet-transformation, linear prediction, normalized quantity of pulses of equal length, mel-frequency cepstral coefficients, algorithm DTW.
Анотація: Для створення системи верифікації диктора у статті була запропонована методика верифікації на підставі шиплячих звуків, що використовує авторські методи, які здійснюють узагальнену класифікацію звуків за допомогою дискретного та безперервного вейвлет-перетворення. Для шиплячих звуків, виділених цими методами, проведений кількісний аналіз систем ознак, заснованих на лінійному пророкуванні, нормованої кількості імпульсів рівної довжини та мел-частотних кепстральних коефіцієнтах (MFCC). Отримані ознаки використовуються в методі верифікації, заснованому на алгоритмі DTW.
Ключові слова: верифікація диктора, узагальнена класифікація звуків, вейвлет-перетворення, лінійне пророкування, нормована кількість імпульсів рівної довжини, мел-частотні кепстральні коефіцієнти, алгоритм DTW.
Аннотация: Для создания системы верификации диктора в статье была предложена методика верификации на основе шипящих звуков, которая использует авторские методы, осуществляющие обобщенную классификацию звуков посредством дискретного и непрерывного вейвлет-преобразования. Для шипящих звуков, выделенных этими методами, проведен количественный анализ систем признаков, основанных на линейном предсказании, нормированном количестве импульсов равной длины и мел-частотных кепстральных коэффициентах (MFCC). Полученные признаки используются в методе верификации, основанном на алгоритме DTW.
Ключевые слова: верификация диктора, обобщенная классификация звуков, вейвлет-преобразование, линейное предсказание, нормированное количество импульсов равной длины, мел-частотные кепстральные коэффициенты, алгоритм DTW.
1. Введение
Постановка проблемы. В настоящее время актуальной является разработка систем, предназначенных для верификации диктора. Эти системы имеют широкую область применения: криминалистика, криптография, охранные системы и др. При разработке подобных систем важную роль играет выбор системы признаков и методов верификации, использующих данные признаки.
Анализ исследований. В работах [1-2] приведены системы верификации, дающие в большинстве случаев вероятность распознавания ниже 90%. Верификация обычно проводится на целых словах, получение которых не всегда возможно.
Цель и задачи исследования. Для повышения надежности верификации необходимо разработать методику верификации диктора на основе шипящих звуков.
2. Методика верификации диктора и методы классификации звуков
В статье рассматриваются:
- методика верификации дикторов;
- авторские методы ФЕОК-ДВП и ФЕОК-НВП, осуществляющие обобщенную классификацию звуков посредством дискретного и непрерывного вейвлет-преобразования;
- проведенный количественный анализ для выбора системы признаков шипящих звуков. Методика верификации диктора на основе шипящих звуков включает три этапа.
На первом этапе с целью выделения шипящих звуков осуществляется обобщенная классификация звуков посредством авторских методов ФЕОК-ДВП и ФЕОК-НВП.
Авторский метод ФЕОК-ДВП
Метод ФЕОК-ДВП осуществляет обобщенную классификацию звуков посредством дискретного вейвлет-преобразования и заключается в следующем.
Производится декомпозиция сигнала х(п) на Р уровней с вычислением высоко- () и низкочастотных (ст) составляющих (субполос) посредством свертки на текущем / -том уровне (I е 1, Р) сигнала с полосовыми фильтрами с коэффициентами ёп , К [3-5]:
N / 2г-1 -1 N /2г-1-1
7 _ 21/2 V-1 с _ 21/2 V-1 с ь
7т _ 2 ^ с1-1,пёп+2т , ст _ 2 ^ с(-1,п"п+2т ,
п_0 п_0
где CQn = s(n) , me О,N/2 1 —1.
Затем сигнал разбивается на фреймы длиной DN . Для s -го фрейма на i -м уровне разложения вычисляется энергия
sDN sDN
DESi = X dim , CEsP = XCPm-
m=(s—1)DN m=( s—1)DN
Для s -го фрейма на i -м уровне разложения вычисляется мера контрастности
Contrsi = DEsij X DEsj .
Тип каждого s -го фрейма определяется следующим образом:
a1g < Contrsg < a2g, шум
n = < a1g > Contrsg, шипящий
a2g < Contr, тональный,
2g Sj
где ag, a2g - пороги, которые автоматически вычисляются в подсистеме адаптации и представляют собой минимальное и максимальное значения контрастности шума на уровне g.
Если n = 2 , то определяются левая l1 и правая l2 границы шипящих звуков.
Достоинством метода ФЕОК-ДВП является малая вычислительная сложность. Недостатком
- сложность проведения классификации в зашумленном сигнале.
Авторский метод ФЕОК-НВП
Метод ФЕОК-НВП осуществляет обобщенную классификацию звуков посредством
аппроксимированного непрерывного вейвлет-преобразования и заключается в следующем.
Производится декомпозиция сигнала x(n) на P уровней с вычислением вейвлет-
коэффициентов (dim) [4-5].
N—1 ________ ____
dil = X x(n)Wa (n)Dt, l e 0, N — 1, i e 1, P,
n=0
где Аt - величина, обратная частоте дискретизации; уа (п) = а0 1 Пу{а0/п - Ь01), -вейвлет, а0 > 1, Ь Ф 0.
Затем сигнал разбивается на фреймы длиной АМ. Для 5 -го фрейма на 1-м уровне разложения вычисляется энергия
хАМ
БЕ = У £ .
51 1т
т=(х-1)АМ
Для 5 -го фрейма по всем уровням разложения вычисляется мера контрастности
С°ПКг = БЕ5^У БЕ5, , 1 е 1 Р.
Тип каждого к -го фрейма определяется следующим образом:
п _ а^ах*^ °У, 0 с {1,._ р},
‘ ІГЄ0
° _ Гі, а1у< Єопїгкг<а2Г
°ку 1 Л ,
[0, иначе
° _ |1, аг> єопїгкг
°ку [0, иначе ,
° _ Г1, СоЩг>а2Г
°3ку ] „ ,
[0, иначе
где а1у, а2у - пороги, которые автоматически вычисляются в подсистеме адаптации и
представляют собой минимальное и максимальное значения контрастности шума на уровне у, 0
- подмножество уровней, получаемое в результате численного исследования.
1, шум п _ <! 2, шипящий .
3, тональный
Если п _ 2 , то определяются левая / и правая 12 границы шипящих звуков.
Достоинством метода ФЕОК-НВП является возможность проведения классификации в зашумленном сигнале. Недостатком - большая вычислительная сложность.
На втором этапе вычисляются значения признаков шипящих звуков. Сигнал я(т) предварительно разбивался на фреймы (участки равной длины). В качестве признаков использовались:
1. Нормированная автокорреляция [6-7], вычисляемая на п -м фрейме сигнала яп(т),
К (т) _ я* (тМт),
2т
где ^(п) _ 0,54 + 0,46 сов----- окно Хемминга,
АЫ
Кп (і) _ Е ^ (т))п (т + І) , п є1, Р ,
т_0
где Р - порядок линейного предсказателя,
К (О _
К (О К (0)
бгП = (|| К (1)||,...,| к(, 1 е1,^(01), п е1, ь,
где ^(О1 ) - количество эталонов шипящих фонем, Ь - количество фреймов.
2. Коэффициенты линейного предсказания, вычисляемые с помощью алгоритма Дарбина
[6-7] на п -м фрейме сигнала:
Е"’ :_ К (0),
к„.
І-1
К (І) - ЕОп-' К (І - і)
]_1
Е-» ,1 £ І £ Р ,
а(-І) :_ к
^пі : кпі ,
а(0:_ а(г 1} - к а 1} ,1 £ і £ і -1,
пі п* пі п,і - і ’ — — ’
^ :_ (1 - к*)Е*;.-1), а_. :_ £ ] £ р ,
пі
где Кп (і) - автокорреляционная функция, а*
(і)
пі
і -й коэффициент линейного
предсказателя порядка , кп
-й коэффициент отражения, Еп( )- среднеквадратичная
погрешность предсказания для линейного предсказателя порядка .
■>2 „ \ • _ і 2
й* _ К — апр ) , ІЄ 1,7(0 ) , П є1,Ь .
3. Коэффициенты отражения КЛП (или РДРООР-коэффициенты) [6-7], определяемые по алгоритму Дарбина на п -м фрейме сигнала:
_ (kno,...,к*р) , Іє1Ж03) , пє1,Ь .
4. Нормированная автокорреляция КЛП [6-7], получаемая по коэффициентам линейного предсказания:
р р-к
гп(0) _ Е а*і , г*(к) _ 2Е аа
П] п, ]+к
]_0
]_0
¥п (і) _
Гп (І) Гп (0)
Огп _ (|| Гп (1)||,...,|\Гп (РЦ) , . Є 1,Л(Я4) , П Є 1 Ь .
5. Кепстр импульсной характеристики системы линейного предсказания [6-7], вычисляемый по коэффициентам линейного предсказания:
- - ]-1 к - —
Кп (0) _ ап0 _ 1 , Кп (]) _ ап] + Е~ ' К (к )ап,]-к , П є 1 Р ,
к _1 ]
Олп = (К ОХ- К (р)) , 1 е1Ж05), п е1, ь.
6. Площади поперечных сечений кусочно-постоянной акустической трубы [6-7], содержащей (р +1) цилиндрическую секцию фиксированной длины, вычисляемые с помощью коэффициентов отражения:
1 - к ________________
А1 = 1, Лп + =------пп- Лт , г е 2, р +1,
п1 п, 1+1 т , т пг ^ ±
1 + к.
бП _ (АП2,..., А,р+1), і є 1,тб), пє1,Ь .
7. Нормированный энергетический спектр КЛП [1]:
Кп (0) - Еа*кЕп (к)
Ж* (к) _-------------------^. , к є 0, N/2 -1,
гп(0) - ЕС гп (я)со^ -Ыэк J
Ж (к)
Ж (к) _ N/2-1 , 0 £ к £ N/2 -1,
Е Ж, (і)
і_0
бП _ (|Ж (0)1,...,IЖп(N/2 -1)||) , і є 1,7(07), пє 1,Ь .
8. Нормированный энергетический спектр, вычисленный на основе энергетического спектра ДПФ [1]:
(т) _ яп (тМт),
2т
где ^(п) _ 0,54 + 0,46 сов--- окно Хемминга.
Ш
ду-1 - ] 2тпк
V (к)_ Е Я(п) е ш , 0 £ к £ДМ/2 -1,
п_0
V (к)
1К (к )|| _ , 0 £ к £ N/2 -1,
Е^П (і)
і_0
б: _ (ІV*(0)1,...,\БЯ(N/2-1)||), іє1,7(08), Пє 1,Ь.
9. Нормированное количество импульсов равной длины.
Для каждого п -го фрейма вычисляется йш - количество импульсов длины г [8], ге 1,1вп , которое далее нормируется
!!А" ^
пг II /еп
я_1
Оли = (Кі|,-,|К&п||) - І Є 1,7(09) - П Є 11 ■
10. Мел-частотные кепстральные коэффициенты (МРОС) [9], вычисляемые с использованием обратного дискретного косинусного преобразования на п -м фрейме сигнала:
р _______________________________
МРССЛ = 2 Ещ со${к(і - 0.5)р/Р), к є 1, Р,
і=і
где En, = lg( |(Sn(k))2w(k-(kll +ДKl/2))
. к =k1i
логарифмированная энергия l -той мел-
частотной полосы. Для ее вычисления использовалась треугольная оконная функция Бартлета:
w(k) =
О,
1 + -
1 -
2k
Д"
2k
к <-дк,/2
-ДК/2 < к < О
О < к <ДК/2
ДК
О, к > ДК/2
где = к2/ -к^ - четное число, £1г,к2/ - границы частотных диапазонов /-той
полосы.
= (МЩ*,...,М¥ССпР) , / е 1,7(01и) , пе 1,1.
На основе каждой 5 -й системы признаков формируются эталоны шипящих звуков.
QS = ((ЙП,-, QL),...,QV.., Q;,..., QijK QL ,..., QSk )), s ^ 1,10, i e1,h(Qs),
где h(Qs) - количество эталонов шипящих фонем для s -й системы признаков;
L - количество участков равной длины (фреймов), на которые разбивается сигнал;
K - количество признаков, описывающих один фрейм.
На третьем этапе верификации диктора, используя полученные векторы признаков шипящих звуков, производится собственно верификация. При этом используется алгоритм DTW [10].
В основе алгоритма DTW лежит рекуррентная формула
С-11 = Di11, С, = Dm + min(Ci- m.1 , Chm 1, q m_i 1), m e 1,L, j e 1,L,
где Ст - расстояние между левыми частями фонемы (фреймы от 1 до т) и І -м эталоном (фреймы от 1 до -);
Б- - - расстояние между т -м фреймом фонемы и - -м фреймом І -го эталона.
В качестве Dsim. выбрана евклидова метрика
DS
, I (am, - Qjk )2.
V к=1
где Qsmk - к -й признак m -го фрейма фонемы;
Qjk - к -й признак j -го фрейма i -го эталона;
s - тип системы признаков.
Количественная оценка сопоставления шипящего звука верифицируемого диктора Qs с эталонами Q- для s -й системы признаков вычислялась в соответствии с функционалом ошибки
3 = min CsiLL ® min . i
Результат верификации диктора определялся в соответствии с правилом
("свой", ne N1
result = \ , n = arg min C'*LL .
["'чужой", ne N2 i
Для выбора системы признаков было проведено численное исследование, в котором участвовало 100 дикторов (50 «своих», 50 «чужих»): мужчины и женщины с разными голосовыми данными. В табл.1 приведены результаты верификации диктора по шипящему звуку («ш»). Численное исследование позволяет сделать вывод, что наиболее перспективными являются признаки MFCC и коэффициенты отражения КЛП.
Таблица 1. Результаты численного исследования систем признаков
Система признаков Вероятность верификации
Нормированная автокорреляция 0,44
Коэффициенты КЛП 0,78
Коэффициенты отражения КЛП 0,96
Нормированная автокорреляция КЛП 0,78
Кепстр КЛП 0,68
Площади поперечных сечений акустической трубы КЛП 0,42
Нормированный энергетический спектр КЛП 0,4
Нормированный энергетический спектр ДПФ 0,32
Нормированное количество импульсов равной длины 0,56
МРОО 0,96
3. Выводы
Новизна. В статье предложены методика верификации диктора на основе шипящих звуков, авторские методы ФЕОК-ДВП и ФЕОК-НВП, осуществляющие обобщенную классификацию звуков в дискретном сигнале с целью выделения шипящих. Было проведено численное исследование систем признаков шипящих звуков, при этом в качестве метода распознавания был выбран алгоритм DTW. Преимуществом предлагаемого подхода является то, что для верификации диктора вместо всего слова достаточно использовать входящий в него шипящий звук, что расширяет область применения системы верификации.
Практическое значение. Основные положения работы были использованы при разработке системы верификации диктора, которая может использоваться в криминалистике и охранных системах.
1. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь,1981. - 496 с.
2. Атал Б.С. Автоматическое опознавание дикторов по голосам // ТИИЭР. - 1976. - Т. 64, № 4. - С. 48-66.
3. Чуи К. Введение в вэйвлеты. - М.: Мир, 2001. - 412 с.
4. Малла С. Вэйвлеты в обработке сигналов. - М.: Мир, 2005. - 671 с.
5. Добеши И. Десять лекций по вейвлетам. - М.: РХД, 2004. - 464 с.
6. Rabiner L.R., Jang B.H. Fundamentals of speech recognition // New Jersey: Prentice Hall PTR, Englewood Cliffs, 1993. - P. 507.
7. Маркел Д.Д., Г рэй А.Х. Линейное предсказание речи. - М.: Связь,1980. - 308 с.
8. Молдокулова Н.В., Трунин-Донской В.Н. Лингво-акустические проблемы создания системы распознавания слитной речи на ЭВМ / Под ред. Ю.Й. Журавлева; АН КиргССР, Вычислительный центр АН СССР. - Фрунзе: Илим, 1989. - 136 с.
9. Davis S.B., Mermelstein P. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences // IEEE Trans. on Acoustic, Speech and Signal Proc. - 1980. - Vol. 28, N 4. -Р. 357-366.
10. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. - К.: Наукова думка, 1987. - 261 с.
Стаття надійшла до редакції 30.08.2007