УДК 621.391.534.80
СРАВНИТЕЛЬНОЕ ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ РАЗЛИЧНЫХ МЕТОДОВ КЕПСТРАЛЬНОГО ОПИСАНИЯ РЕЧЕВЫХ СИГНАЛОВ В ЗАДАЧАХ РАСПОЗНАВАНИЯ
Х.М. Ахмад
Кафедра вычислительной техники,
Владимирский государственный университет
Представлена профессором В.Н. Ланцовым и членом редколлегии профессором В.И. Коноваловым
Ключевые слова и фразы: методы анализа кепстра; речевой сигнал.
Аннотация: Рассматриваются различные методы кепстрального описания речевых сигналов и их эффективности в задачах распознавания.
Как известно, речевой сигнал может быть описан с использованием следующих систем признакового описания:
- спектральные методы;
- использование коэффициентов линейного предсказания (КЛП);
- методы анализа кепстра.
Из перечисленных рассмотрим методы анализа кепстра.
Речевой сигнал может моделироваться путем свертки трех компонент: последовательности импульсов, составляющих основной тон р (п), импульса возбуждения е (п) и импульсной характеристики голосового тракта и (п). Пусть V (п) - весовая функция (окно) конечной длительности, служащая для выделения участков речевого сигнала. Тогда
х(п) = [р (п) е(п) и (п)] V (п). (1)
Поскольку V (п) обычно меняется медленно, то соотношение можно приближенно записать как
х (п)» [ р ( п) V (п) е (п) и (п)] = р (п) е (п) и (п), (2)
то есть выразить х (п) в виде свертки трех последовательностей. Свертка легко
сводится к суммированию, если воспользоваться быстрым преобразованием Фурье (БПФ) и прологарифмировать результат.
Для обработки речи в задаче идентификации можно оценивать параметры передаточной функции голосового тракта и функции возбуждения. При этом сигналом возбуждения является свертка р (п) е (п), а импульсной характеристикой
голосового тракта и (п) . Таким образом, х(п) является просто дискретной сверткой
х(п) = и (п) 5(п) (3)
где 5(п) - сигнал возбуждения [4]. Переходя в спектральную область, получаем
X(ег“) = и(ег“)£(егш) . (4)
Пользуясь определением комплексного логарифма ^г = (^ + іІиИ), по-
^ 2
лучаем (с учетом значимости для приложения только амплитудного спектра)
lg
X (е'” ) = lg U (е'” ) + lg S (е'” )
(5)
Изменяя компоненты lg
X ( е'
( е'” )
можно получить представление о различ-
ных частотах.
Выполняя обратное преобразование Фурье, получаем
p
' ' "J™d®.
с(n) = 2- I lg x(е'”)
е
(6)
-p
Величина c (n) получила название кепстр (кепстральные коэффициенты (КК)) и
обозначает обратное преобразование Фурье логарифма спектра мощности сигнала [3]. Диаграмма вычисления кепстра изображена на рис. 1.
В данной работе рассмотрена эффективность применения трех видов вычисления кепстра : Mel кепстр БПФ, кепстр КЛП и Mel кепстр КЛП, где Mel означает использование нелинейной частотной Mel-шкалы, соответствующей логарифмическому mel(f ) = 2595-lg(1 + f/700) сжатию частотного диапазона, где f - частота в спектре, Гц, а mel (f) - частота в новом пространстве, Mel [1, 2].
Ниже приведены формулы вычисления этих трех кепстров.
1. Mel кепстр БПФ.
с ( n )=Z lg (S ( к ))cos [ и (к -
n = 0,1,..., X,
(7)
где £ (к) - средняя спектральная мощность фильтра к ; и - общее количество фильтров; N - количество кепстральных коэффициентов.
1 M (к )+N (к )
S (к ) = Nm X w ( k, ' )X (' )l
N ( к ) '=M (к)
(8)
где к - номер фильтра (от 1 до 20); М (к) - начальная частота фильтра к; N (к) - ширина фильтра к ; V (к, і) - весовая функция (треугольной формы); X (і) - амплитуда дискретного преобразования Фурье.
Речевой
сигнал Окно ДПФ log| | ОДПФ
Кепстр
Рис. 1. Вычисление кепстра
2. Кепстр импульсной характеристики системы линейного предсказания вычислялся по следующей рекурсивной формуле
1 п 1
:( п ) = ап + - £ кс ( к )
гп-к,
п = 1,..., Ж,
(9)
' к=1
где an - n -й коэффициент линейного предсказания, а вместо нулевого кепст-рального коэффициента используется логарифм энергии
с (0) = lg (E). (10)
3. Mel кепстр KJIII. Хотя существуют различные модификации предыдущего алгоритма, в данной работе будет использоваться вычисление кепстра по формулам (7), (8) от спектра полученного с помощью КЛП
H ( eiffl) =
G
(11)
1 -1 “к е-“ к=1
где ак - к-й коэффициент линейного предсказания; О - коэффициент усиления модели.
Тогда формула (8) примет вид
М (к)+N (к)
1 1V1 WTiV ynj
S ( к ) = ( к,И) H ( e'“ )
N (к ) a=M (к )
(12)
Процесс извлечения характеристик из речевых фрагментов представлен на рис. 2.
Рис. 2. Схема извлечения трех типов кепстральных коэффициентов
Поступающий речевой сигнал подвергался предыскажению
s (n) = s (n)- as (n -1),
где a = 0,98 - коэффициент предыскажения. Сегментация производилась окном Хемминга
w(n) = 0,54-0,46cos(j2^, 0 < n < N , (13)
длиной 25 мс с шагом в 10 мс.
Исследования проводились с помощью пакета программ MATLAB и результаты показывали:
- при использовании линейного предсказания наилучшие результаты были получены для модели 20 порядка;
- значительное преимущество Mel шкалы;
- добавление производных несколько уменьшает вероятность появления ошибок для Mel БПФ КК и почти не влияет на результаты КЛП КК.
Данные подходы к кепстральному описанию речевого сигнала хорошо пригодны и применяются в системах распознавания дикторов.
Список литературы
1. Tony Robinson. Speech Analysis. Lent Term 1998, http://mi.eng.cam.ac.uk/~ajr/ SA95/SpeechAnalysis.
2. Ахмад, Х.М. Параметрическое представление речевого сигнала для задачи распознавания спикера. Применение Mel-частотных кепстральных коэффициентов / Х.М. Ахмад // Сборник трудов ММТТ-20. - Ярославль. - 2007. - Т. 6. -С. 66.
3. Рабинер, Л.Р. Теория и применение цифровой обработки сигналов : пер. с англ. / Л.Р. Рабинер, Б. Гоулд ; под ред. Ю.А. Александрова. - М. : Мир, 1978. -17 с.
4. Рабинер, Л.Р. Цифровая обработка речевых сигналов : пер. с англ. / Л.Р. Рабинер, Р.В. Шафер ; под ред. М.В. Назарова и Ю.Н. Прохорова. - М. : Радио и связь, 1981. - 496 с.
Comparative Research into Efficiency of Various Methods of Cepstral Description of Speech Signals in Tasks of Recognition
Kh.M. Akhmad
Department of Computing, Vladimir State University
Key words and phrases: methods of cepster analysis; speech signal.
Abstract: Various methods of cepster analysis of speech signals and their efficiency for recognition tasks are considered.
Vergleichforschung der Effektivität verschiedener Methoden der Kepstralbeschreibung der Sprechsignale in den Aufgaben der Erkennung
Zusammenfassung: Es werden verschiedene Methoden der Kepstralbeschreibung der Sprechsignale und ihrer Effektivität in den Aufgaben der Erkennung betrachtet.
Etude comparative de l’efficacité de différentes méthodes de la description cepstrale des signaux de la parole dans les problèmes de diagnose
Résumé: Sont examinées les différentes méthodes de la description cepstrale des signaux de la parole et de leur efficacité dans les problèmes de diagnose.