Распознавание речевых сигналов на основе метода спектрального оценивания
Бочаров И.В. (ааш [email protected]), Акатьев Д.Ю.
Нижегородский государственный лингвистический университет
Рассмотрена задача распознавания речевых сигналов на основе метода спектрального оценивания по критерию минимума информационного рассогласования с учётом фонемной структуры слов. Приведены практические результаты моделирования на реальных речевых сигналах. Произведено сравнение с кепстральным методом. Даны рекомендации по выбору параметров модели.
Введение
Распознаванию речевых сигналов как научной задаче уже достаточно много лет, и до сих пор она остаётся одной из актуальных задач теоретической и прикладной информатики. Один из самых первых и хорошо зарекомендовавших себя способов речевого распознавания основан на спектральном анализе [1], представленный в виде набора алгоритмов. Особый интерес вызывает универсальный теоретико-информационный подход, сводящийся к критерию минимума информационного рассогласования (МИР) и реализуемый в частотной области с использованием спектральных оценок [2]. Дальнейшим развитием этого метода применительно к задаче распознавания речи является переход к анализу фонемной структуры слова. Цель работы состоит в экспериментальном исследовании спектрального подхода к критерию МИР с учётом фонемной структуры слова и оптимизации параметров используемого алгоритма.
Спектральный подход
Исходным пунктом при обосновании метода ОФ является авторегрессионая (АР) модель речевого сигнала. Такая аппроксимация прочно утвердилась в области анализа и синтеза речи как модель, хорошо описывающая поведение речевого тракта при его описании в виде динамической трубы [3]. Разностное уравнение, описывающее АР процесс, определяется следующей формулой:
Р
(1)
I=1
где:
х(п) - массив данных размером п;
а(1) - АР коэффициенты процесса;
Р - порядок процесса;
п) - порождающий процесс типа гауссовского белого шума (ГБШ).
Вычисление параметров АР модели речевого сигнала, а именно её вектор АР коэффициентов а(г) 1=1 ...Р, производится в расчете на минимизацию ошибки линейного
предсказания по ее дисперсии. В частности высокими динамическими характеристиками получаемых оценок отличается метод Берга [4], при этом выбор порядка модели представляет собой оптимизационную задачу, исходя из требуемых качественных характеристик алгоритма и доступного объёма данных.
Решение задачи различения для семейства сигналов, полученных путём линейной фильтрации «белого» гауссовского шума определяется в предположении об АР природе анализируемых сигналов с применением принципа информационного рассогласования. Используя предельный переход от формулировки критерия минимума информационного рассогласования в метрике Кульбака-Лейблера во временной области через матрицы ковариации, определим асимптотически оптимальный алгоритм для различения сигналов в частотной области через их оценки спектра [2]:
д 1 ^ ^ / ^ ^ / /-чЛ
Ух,г ~ ^ ^
Рх (/) + 1п в/
¥/=Д вг (/) вх (/)
^ шт
г = ТЯ ■ (2)
здесь:
вх(/ - выборочная оценка спектральной плотности мощности распознаваемого сигнала х;
вг(/ - выборочная оценка спектральной плотности мощности сигнала г из словаря;
¥ - половина частоты дискретизации;
Я - размер словаря.
Алгоритм реализуется в виде набора из Я параллельных каналов вычисления решающей статистики (2). База данных словаря содержит Я, по числу распознаваемых слов, оценок спектральной плотности мощности сигналов. В каждом канале производится вычисление статистики на основе оценки спектра анализируемого сигнала и оценки спектра одного сигнала из словаря. Решение принимается в решающем устройстве по критерию минимума решающей статистики у=шт на выходах вычислителей статистики в каждом из Я каналов.
При анализе речи часто используется подход, определяющий любой ограниченный во времени нестационарный сигнал как частную реализацию бесконечно длинного стационарного сигнала. Однако непосредственное применение к речевым сигналам результата (2) не позволяет достичь максимальной эффективности алгоритма в связи с сильной нестационарностью речевых сигналов [5]. На практике можно говорить лишь о кусочно-временной стационарности речевых сигналов при произнесении слов, что обусловлено самой физической природой речеобразования и невозможностью мгновенной физиологической артикуляции голосового аппарата человека. Теория и практика речевого анализа показывают, что период стационарности речевого тракта имеет длительность порядка 20 мсек. [6].
С учётом сказанного решающая статистика (2) требует видоизменения, а именно учёта кусочно-временной структуры стационарности слов, т. е. переходу к фонемному анализу. Разделение слов на фонемы как часть фонетического анализа является отдельной сложной задачей практической лингвистики. Эффективным способом реализации фонемного подхода является метод сегментного анализа, который заключается в раздельном анализе участков слова с определённой длинной и расчёт характеристик с учётом результатов, получаемых на каждом из этих участков. Наиболее простым алгоритмом является разделение слова на неперекрывающиеся смежные сегменты фиксированной длинны. При этом априорная база данных словаря будет содержать не один, а несколько векторов спектральных коэффициентов каждого слова, вычисленных по
соответствующим сегментам, а вычисление решающей статистики будет производиться путём усреднения решающих статистик, вычисленных по сегментам.
Окончательно с учётом фонемной структуры модифицированная решающая статистика преобразуется к виду:
К
х,г
1 L 1 F =Ь§1 ^ §
FгОХ'(л., _3°с/)
+ 1п
V
0°ся 0°(У)
^ шт
г = 1, R
(3)
здесь:
- выборочная оценка спектральной плотности мощности сегмента г распознаваемого сигнала х;
0(1)гф - выборочная оценка спектральной плотности мощности сегмента г сигнала г из словаря;
F - половина частоты дискретизации сигнала;
Я - размер словаря.
Ь - число сегментов обработки;
После такой модификации мы получаем возможность применять метод как целиком к слову, устанавливая количество сегментов обработки Ь равное единице, так и к фонемной структуре слова, усредняя информационное рассогласование сегментов сигналов по всей его длине Ь>>1. В соответствии с решающей статистикой (3) синтезируем алгоритм обработки сигналов.
Синтез алгоритма
В соответствии с критерием (3) алгоритм принятия решения по выборке данных х длиной N отсчетов может быть записан в виде следующей последовательности операций.
Сегментирование производится путём деления сигнала на смежные сегменты одинаковой длины. Оценка спектральной плотности мощности каждого сегмента производится процедурой быстрого преобразования Фурье (Ф{}) с предварительным взвешиванием отсчётов сигнала в окне обработки. Для спектрального анализа речевых сигналов традиционно применяется взвешивание окном Хэмминга [7]:
г 2пк ^ , —
" " (4)
w(k) = 0.54 - 0.46 • со?
V
п — 1
к = 1, п
J
где:
к - номер отсчёта окна; п - длина окна;
Алгоритм скользящего окна БПФ для получения оценки спектра мощности сегмента сигнала записывается как:
1 ™ г _-1
о (/)=-X фк (к); к = й, й+1}
™ г=1
(5)
здесь:
хм,(к) - отсчёты данных сегмента сигнала длинной I, взвешенных окном Хэмминга (4);
w
- число окон, убирающихся в длину сегмента, w=n/l;
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 1 540 http://zhurnal.ape.relarn.ru/articles/2003/130.pdf
I - длина окна БПФ в отсчётах.
Решающая статистика для каждого сегмента вычисляется на основе оценок спектральной плотности мощности сегмента анализируемого слова и образца из словаря:
&=1 £ г вт+1п втл
гх,г е £вV) вХ)(/),
(6)
здесь:
в(К/ - выборочная оценка спектральной плотности мощности сегмента г
распознаваемого сигнала х; в(г)(/ - выборочная оценка спектральной плотности мощности сегмента г сигнала
г из словаря; Е - половина частоты дискретизации.
Суммарная решающая статистика для слова целиком вычисляется как среднее значение статистик вычисленных для каждого из сегментов в отдельности: Ь
1 ь
у = 1 Уу(0 ^
I Х,Г Г ¿^ I х,г , (7)
Ь г=1
ух Г(г) - информационное рассогласование между сегментом г сигнала х и
сегментом г сигнала г из словаря; Ь - количество сегментов;
Решающее правило в пользу одного из сигналов словаря определяется по критерию минимума итогового информационного рассогласования между анализируемым сигналом и сигналом из словаря.
Гх.г ^ min
г = 1, Я
(8)
Таким образом, для вычисления результирующей статистики (8) производится вычисление информационного рассогласования (7) между сегментами сравниваемых слов. Оценка плотности мощности спектра для вычисления статистик производится методом скользящего окна с применением БПФ (5). Результат распознавания определяется минимумом (8) среднего значения статистик, вычисленным по сегментам распознаваемого слова.
Реализация системы распознавания с предварительным обучением разделяется на две независимых во времени части: создание словаря и собственно распознавание. Во время этапа создания словаря производится формирование базы априорных данных о распознаваемых сигналов в виде набора из Ь векторов спектральных коэффициентов размера Р для каждого слова. На этапе распознавания производится вычисление решающей статистики используя спектральные коэффициенты из предварительно созданной базы данных для каждого слова словаря. Принятие решения осуществляется по критерию минимума модифицированной решающей статистики (3) в каналах обработки. При распознавании производится нормировка по времени распознаваемого сигнала и сигнала из словаря. Если распознаваемый сигнал короче сигнала из словаря, то производится добавление шумового фрагмента в конец входного слова с дисперсией шума равной 1 /1 0 дисперсии этого сигнала до взаимного выравнивая размеров. Если распознаваемое слово длиннее слова из словаря, то в базу данных искусственно добавляется несколько спектральных оценок белого гауссовского шума. Таким образом, длина сравниваемых сигналов всегда одинаковая.
Результаты экспериментальных исследований
В качестве анализируемых использовались речевые сигналы содержащие слова русского языка. Словарь состоял из десяти слов - числительных от нуля до девяти включительно. Задача такого типа в области распознавания речи, когда словарь имеет малое число хорошо различимых слов, носит название задачи голосового управления автоматическими системами, и является актуальной для практического применения. Частота дискретизации 8КГц и квантование 8бит были выбраны из соображения минимизации потока звуковых данных для соответствия принятым в большинстве стандартов параметров для передачи и хранения речи. Для максимального приближения эксперимента к практической ситуации были использованы стандартный канал встроенного звукового процессора бытового персонального компьютера и обычный микрофон, результатом чего маскирование сигнала аддитивным нестационарным шумом от блоков ЭВМ на уровне -18Дб и аддитивным акустическим фоном с уровнем -16Дб. Для создания словаря были записаны одним диктором 10 слов - числительных от «нуля» до «девяти» включительно. Для создания экспериментальной базы данных были записаны одним диктором с одной интонацией по 100 слов каждого из 10 числительных.
Интересом практических исследований являлось измерение вероятности правильного распознавания слов н в зависимости от параметров модели. Параметрами модели являлись длина сегмента анализа и длина окна БПФ. Результаты исследования иллюстрируются следующим набором графиков.
На рисунке 1 показана зависимость вероятности (относительной частоты) н правильного распознавания слова «пять» от длины окна БПФ для вариантов с учётом фонемной структуры слова (с применением сегментации, дина сегмента 50мсек.) и без учёта (без сегментации). Вероятность правильного распознавания вычисляется в результате серии испытаний по следующей формуле:
Кправ.
н = —-—, Кобщ.
где:
Кправ - количество верных распознаваний слов из серии испытаний;
Кобщ - общее количество испытаний.
Рисунок 1 Вероятность правильного распознавания слов в зависимости от размера окна БПФ для обработки слова целиком и для пофонемной обработки
На графике наблюдается рост вероятности правильного распознавания в зависимости от увеличения длины окна, причём график имеет максимум при длине окна равной 64 отсчёта, что позволяет говорить об оптимальном для данного конкретного слова значении этого параметра. Учёт фонемной структуры слова путём использования процедуры сегментации позволяет увеличить вероятность правильного распознавания слов при размерах окна БПФ находящихся вне оптимального значения. Таким образом, сегментирование позволяет повысить качество распознавания при выборе компромиссного значения длины окна БПФ при распознавании целиком по словарю.
Уменьшение вероятности правильного распознавания при больших значениях длины окна БПФ объясняется избыточностью данных о спектральных составляющих распознаваемого слова. Известно [8], что для голосовых сигналов характерно наличие не более четырёх-пяти значимых формант. Использование БПФ с большими порядками маскирует основные форманты сигнала ложными спектральными составляющими и приводит к увеличению количества случаев перепутывания.
В качестве подтверждения и расширения полученных результатов дополнительно был проведён эксперимент распознавания слов, произнесённых вторым диктором (тоже мужской голос). Вероятность правильного распознавания на уровне 0.8 говорит о хорошей адаптивности алгоритма к различиям спектра разных дикторов.
Зависимость вероятности правильного распознавания слов «два», «четыре», «пять» и «шесть» от длины окна БПФ показана на рисунке 2.
Рисунок 2 Вероятность правильного распознавания слов в зависимости от размера окна БПФ
На графике видно, что для каждого из слов наблюдается устойчивый максимум вероятности правильного распознавания при выборе длины окна БПФ порядка 64-256 отсчётов (кратность длины окна степени числа два исходит из свойств алгоритма БПФ), однако для каждого конкретного слова этот экстремум соответствует своему значению длины окна. Таким образом, при выборе оптимального значения длины окна БПФ для словаря целиком необходимо эмпирически решить оптимизационную задачу: с одной стороны при уменьшении длины окна качество распознавания падает в связи с ухудшением частотного разрешения БПФ, с другой стороны при увеличении длины окна возрастает влияние изрезанности спектра. Для словаря, состоящего из набора слова «ноль»... «девять» можно рекомендовать размерность БПФ равным 128.
Зависимость вероятности правильного распознавания слова от длины сегмента обработки для слова «четыре» и длине окна БПФ равным 64 показана на рисунке 3.
Рисунок 3 Вероятность правильного распознавания слова в зависимости от размера длины сегмента обработки
На графике видно, что наблюдается устойчивый максимум вероятности правильного распознавания при выборе длины сегмента длинной порядка 50 мсек. При учёте влияния эффективной длинны весового окна Хэмминга, равной половине длины взвешиваемого отрезка, оптимальная длина сегмента 50 мсек. хорошо согласуется с постоянной голосового тракта порядка 20 мсек. Большой уровень перепутывания сигналов для коротких сегментов обуславливаются непопаданием полного количества периодов основного тона сигнала в окно обработки. Снижение результатов при больших длинах окна обусловлено попаданием более чем одной фонемы в сегмент обработки и, следовательно, некорректным учётом фонем в составе слова.
Для обоснования значимости полученных результатов проведём эксперимент по распознаванию слов с использованием одного из существующих и хорошо известных способов. Кепстральный метод [9] с вычислением кепстральных коэффициентов из соответствующих авторегрессионных коэффициентов и использованием расстояния в метрике ИегшапБку - .Гипдиа является одной из широко применяющихся разновидностей распознавания на основе модели линейного предсказания. Обобщённая экспоненциальная метрика ИегшапБку и 1ипдиа для кепстральных коэффициентов с вычисляется как:
Р(?2) = Е к26 (- С2* )2
к
где:
Q - эмпирический весовой коэффициент, составляет несколько десятых долей единицы,
к - номер коэффициента кепстра.
В таблице 1 показан результат распознавания слова «девять» спектральным и кепстральным методами в зависимости от длины окна БПФ и порядка кепстра соответственно.
Длина окна БПФ Спектральный метод Кепстральный метод Порядок кепстра
8 0.733 0.346 5
16 0.841 0.458 10
32 0.880 0.704 15
64 0.931 0.813 20
128 0.910 0.832 25
256 0.851 0.86 50
Таблица 1 Вероятность правильного распознавания для спектрального и кепстрального методов
Из таблицы видно, что предложенный метод распознавания речи на основе спектрального оценивания обладает более высоким качеством распознавания на всём оптимальном диапазоне длины окна БПФ.
Заключение
Таким образом, предложена реализация спектрального подхода к задаче распознавания речевых сигналов на основе критерия минимума информационного рассогласования и проведено её экспериментальное исследование. В результате работы был реализован алгоритм распознавания и получены данные, количественно характеризующие метод. Определили, что вероятность правильного распознавания в области коротких длин окон БПФ возрастает при учёте фонемной структуры слов методом сегментации. Дан ряд рекомендаций и предложений по методике выбора длины сегмента обработки при сегментации, длины окна БПФ и влияния этих параметров на процесс распознавания. Был произведён сравнительный анализ между спектральным и кепстральным методами распознавания речи с в результате которого спектральный метод показал большую вероятность правильного распознавания. Дополнительным подтверждением эффективности предложенного алгоритма может служить хороший результат распознавания речи второго диктора.
Литература
1. Oscar Mayora Ibarra, Francesco Curatelli A Brief Introduction to Speech Analysis and Recognition Université degli Studi di Genova Dipartimento di Ingegneria Biofisica ed Elettronica, 2000
2. Савченко В.В. Различение случайных сигналов в частотной области
// Радиотехника и электроника, 1997, Т.42, №4, с.426-429
3. Joseph P. Campbell Speaker Recognition: A Tutorial, IEEE Invited Paper, Cambrige press, 2000
4. Марпл С.Л. Цифровой спектральный анализ и его приложения М:Мир, 1990
5. Потапова Р.К. Речь: коммуникация, информатика, кибернетика М.:Радио и связь - 1997
6. Greenberg S. Understanding Speech Understanding: Towards a Unified Theory of Speech Perception. - Department of Linguistics International Computer Science Institute University of California, Berkeley, CA 94720 USA.
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 1 546 http://zhurnal.ape.relarn.ru/articles/2003/130.pdf
7. Joseph Picone Signal Modeling Techniques In Speech Recognition Texas Instruments Systems and Information Sciences Laboratory Tsukuba Research and Development Center Tsukuba, Japan, 1993
8. Stylianou Ioannis Harmonic plus Noise Models for Speech, combined with Statistical Methods, for Speech and Speaker Modication PhD Thesis Ecole Nationale Supérieure des Télécommunications - 1996
9. Hermansky H., Junqua J. C. Optimization of perceptually based ASR front-end, in
Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing 88, paper S5.10, pp. 219-222.