Распознавание речевых сигналов на основе метода обеляющего фильтра
Бочаров И.В.(еаш [email protected]), Акатьев Д.Ю
Нижегородский государственный лингвистический университет
Рассмотрена проблема распознавания речевых сигналов на основе метода обеляющего фильтра по критерию минимума информационного рассогласования с учётом фонемной структуры слова. Приведены практические результаты моделирования на реальных речевых сигналах. Даны рекомендации по выбору параметров модели.
Введение
Задача распознавания речевых сигналов является одной из важнейших научных и практических задач, решением которой занимаются многие научные и коммерческие организации. На протяжении последних лет был сделан значительный скачок в этой области, связанный с появлением мощных электронных вычислительных машин (ЭВМ), на которых возможно реализовывать в ограниченные сроки разнообразные алгоритмы распознавания сигналов [1]. Однако сложность структуры реальных речевых сигналов пока не даёт возможности с большой уверенностью утверждать, что задача решена. Одним из наиболее эффективных методов распознавания сигналов является метод обеляющего фильтра (ОФ) [2], который основан на реализации критерия минимума информационного рассогласования в метрике Кульбака-Лейблера. Обнадёживающие результаты при применении данного метода к распознаванию речи [3] позволяют предположить значительное улучшение количественных характеристик метода при его применении с позиции учёта фонемной структуры слов. Целью работы является экспериментальное исследование метода ОФ с учётом фонемной структуры слова и оптимизация параметров используемого алгоритма.
Метод обеляющего фильтра
Исходным пунктом при обосновании метода ОФ является авторегрессионая (АР) модель речевого сигнала. Такая аппроксимация прочно утвердилась в области синтеза речи как модель, хорошо описывающая поведение речевого тракта при его абстракции в виде динамической трубы [4]. Разностное уравнение, описывающее АР процесс, определяется следующей формулой:
Р
I=1
где:
х(п)
- массив данных АР сигнала размером п;
а(г) - АР коэффициенты процесса;
Р - порядок процесса; п) - порождающий процесс типа гауссовского белого шума (ГБШ).
Вычисление параметров АР модели речевого сигнала, а именно её вектор АР коэффициентов а(г) 1=1 ...Р, производится в расчете на минимизацию ошибки линейного предсказания по ее дисперсии. В частности высокими динамическими характеристиками получаемых оценок отличается метод Берга [5], при этом выбор порядка модели представляет собой оптимизационную задачу, исходя из требуемых качественных характеристик алгоритма и доступного объёма данных.
Решение задачи различения для семейства сигналов, полученных путём линейной фильтрации «белого» гауссовского шума определяем в предположении об АР природе анализируемых сигналов с применением принципа информационного рассогласования Кульбака-Лейблера. Решающая статистика для сигналов, нормированных по дисперсиям порождающего шума, формулируется в виде:
Yx
lnal
2
z ,r
lna
^ min
r = 1, R
(2)
здесь:
о
z,r
2
О r
R
- дисперсия нескомпенсированного остатка сигнала x на выходе ОФ, настроенного по r-му сигналу ;
- дисперсия возбуждающего ГБШ в АР модели сигнала r ;
- размер словаря.
Выражение (2) с точностью до константы согласовано с величиной информационного рассогласования между сигналом x и сигналом r из словаря в метрике Кульбака-Лейблера [6]. Поэтому выражение (2) сводится по сути к критерию минимума информационного рассогласования (МИР).
Алгоритм реализуется в виде набора параллельных обеляющих фильтров ОФ1_я. В каждом канале используется ОФ, обратный формирующему, настроенный на одно из слов словаря. Решение принимается в решающем устройстве РУ по критерию минимума решающей статистики Yxr = min на выходах вычислителей статистики ВС1_я.
v -о
Рисунок 1 Блок схема алгоритма распознавания сигналов методом ОФ
При применении метода ОФ к задаче распознавания речи используется подход, определяющий любой ограниченный во времени нестационарный сигнал как частную реализацию бесконечно длинного стационарного сигнала. Однако непосредственное применение к речевым сигналам результата (2) не позволяет достичь максимальной эффективности алгоритма, в связи с сильной нестационарностью речевых сигналов [7]. На практике можно говорить лишь о кусочно-временной стационарности речевых сигналов при произнесении слов, что обусловлено самой физической природой речеобразования и невозможностью мгновенной физиологической артикуляции голосового аппарата человека. Теория и практика показывают, что период стационарности речевого тракта имеет длительность порядка 20 мсек. [8].
С учётом сказанного решающая статистика (2) требует модификации, а именно учёта кусочно-временной структуры стационарности слов, т.е. переходу к фонемному анализу. Разделение слов на фонемы как часть фонетического анализа является отдельной сложной задачей практической лингвистики. Эффективным способом учёта фонемной структуры слова является метод сегментного анализа, который заключается в раздельном анализе участков слова с определённой длинной и расчёт характеристик с учётом результатов, получаемых на каждом из этих участков. Наиболее простым способом является разделение слова на неперекрывающиеся смежные сегменты фиксированной длинны. При этом априорная база данных словаря будет содержать не один, а несколько векторов коэффициентов авторегрессии для каждого слова, вычисленных по соответствующим сегментам, а ОФ приобретёт динамические во времени свойства, а именно, при переходе к следующему сегменту анализа скачком будут изменяться и коэффициенты фильтра, взятые из базы словаря. Результирующей статистикой по всему слову целиком будет среднее из статистик (2) вычисленных по каждому сегменту распознаваемого слова.
Окончательно с учётом фонемной структуры модифицированная решающая статистика преобразуется к виду:
7 ь
ух
'г т
■ЛГх
X, г
г = 1, Я
^ тш. (3)
ьп
Здесь:
Ь - число сегментов обработки;
ух г(г) - статистика (2) вычисленная для '-го сегмента обработки.
После такой модификации мы получаем возможность применять метод ОФ как целиком к слову, устанавливая количество сегментов обработки Ь равное единице, так и к фонемной структуре слова, усредняя информационное рассогласование сегментов сигналов по всей его длине Ь>>1. В соответствии с решающей статистикой (3) синтезируем алгоритм обработки сигналов.
Синтез алгоритма
В соответствии с критерием (3) алгоритм принятия решения по выборке х длиной п отсчетов может быть записан в виде следующей последовательности операций.
Решающая статистика для каждого из сегментов распознаваемого слова равна:
А (Г2 1П (Г2
(i ) z (i ),r (i ) + ш ° r (i )
/x,r ^2^*2 , (4)
( ) 1( ), r (i )
здесь:
o2z (i) ,r (i) - дисперсия нескомпенсированного остатка i-го сегмента сигнала x на выходе ОФ, настроенного по i-му сегменту r-го сигнала;
о r (i) - дисперсия порождающего ГБШ в АР модели сигнала r для i-го сегмента;
Дисперсия нескомпенсированного остатка i-го сегмента сигнала x на выходе ОФ, настроенного по i-му сегменту r-го сигнала равна:
N
(z(i),r (i) _ N Z zf(t),
i _1
здесь:
N - длинна сегмента в отсчётах;
Z2j (t )- сигнал на выходе обеляющего фильтра настроенного по сигналу r;
Обеляющий фильтр представляет собой трансверсальный фильтр, коэффициентами которого служат коэффициенты авторегрессии вычисленные для АР сигнала, взятые с обратным знаком:
z (i),r (i )- NN Z (5)
P
z(t ) _ x(t )-Z a (i ) • x (i )(t - j )
t _ 1, N - P
(6)
}=1
где:
N - длинна сегмента сигнала х в отсчётах;
Р - порядок АР процесса;
а) (г) - вектор АР коэффициентов размерностью Р для /'-го сегмента сигнала г;
72) - сигнал на выходе обеляющего фильтра настроенного по сигналу г;
Авторегрессионные коэффициенты в [6] определяются рекуррентной процедурой
Берга
2 1 n -1 S ! _-1- Z
m -1 2(n - m) t _ т
П2 ,(t) + v2 .(t -1) т -1 т -1
1 n -1
p = ^— Z n i(t)v At -1);
т 2 т -1 т -1
S л t _ m т-1
a (i) _ a Ai) + p a Am - i), i _ 1, m ; (7)
mw m - 1W m m -1 ' y '
( _ (1 -p2)a2 15 (0 _ S?; m v ^m' m -1 0 0
П (t) _n л (t) -p v л (t -1); -1 -1
v (t) _v At -1)-p n At), t _ 0,1,..., n -1, m _ 1P ; -1 -1
при инициализации ^ (^) = п^ (^) = х' (7) .
Таким образом, для вычисления результирующей статистики (3) производится посегментное обеление сигнала х обеляющим фильтром порядка Р, настроенным по векторам АР коэффициентов сегментов сигнала г. Дисперсия нескомпенсированного остатка для каждого из сегментов входного сигнала на выходе соответствующего ОФ подставляется в формулу [4] для вычисления решающей статистики по каждому сегменту. Решающее правило определяется средним значением статистик (3), вычисленным по всем сегментам распознаваемого слова.
Реализация системы распознавания с предварительным обучением разделяется на две независимых во времени части: создание (обучение) словаря и собственно распознавание (принятие решения). Во время этапа создания словаря производится формирование базы априорных данных о распознаваемых сигналов в виде набора из Ь векторов авторегрессии порядка Р для каждого слова, причём каждое слово делится на блоки по М отсчётов. На этапе распознавания производится обеление входного сигнала группой ОФ с переменными во времени коэффициентами, скачком изменяющиеся при переходе к следующему окну обработки входного слова, взятыми из предварительно созданной базы данных. Принятие решения осуществляется по критерию минимума модифицированной решающей статистики (3) в соответствующем фильтре согласно рисунку 2. При распознавании производится нормировка по времени действия распознаваемого сигнала и сигнала из словаря. Если распознаваемый сигнал короче сигнала из словаря, то производится добавление шумового фрагмента в конец входного слова с дисперсией шума равной 1/10 дисперсии этого сигнала до взаимного выравнивая размеров. Если распознаваемое слово длиннее слова из словаря, то в набор фильтров искусственно добавляется несколько ОФ с нулевыми векторами АР коэффициентов.
Результаты экспериментальных исследований
В качестве анализируемых использовались речевые сигналы, содержащие слова русского языка. Словарь состоял из десяти слов - числительных: от нуля до девяти включительно. Задачи такого типа в области распознавания речи, когда словарь имеет малое число хорошо различимых слов, относятся к задачам голосового управления автоматическими системами, и являются актуальными для практического применения. Частота дискретизации 8КГц и квантование 8бит были выбраны из соображения минимизации потока звуковых данных для соответствия принятым в большинстве стандартов параметров для передачи и хранения речи. Для максимального приближения эксперимента к практической ситуации были использованы стандартный канал встроенного звукового процессора бытового персонального компьютера и обычный микрофон, результатом чего маскирование сигнала аддитивным нестационарным шумом от блоков ЭВМ на уровне -18Дб и аддитивным акустическим фоном с уровнем -16Дб. Для создания словаря были записаны одним диктором 10 слов - числительных от «нуля» до «девяти» включительно. Для создания экспериментальной базы данных были записаны одним диктором с одной интонацией по 100 слов каждого из 10 числительных.
Интересом практических исследований являлось измерение вероятности (относительно частоты) правильного распознавания слов н в зависимости от параметров модели. Параметрами модели являлись длина окна анализа М и порядок АР модели Р. Результаты исследования иллюстрируются следующим набором графиков.
На рисунке 2 показана зависимость вероятности правильного распознавания слова «четыре» от порядка модели для трёх вариантов длины окна обработки 15, 50 и 100 мсек.
Вероятность правильного распознавания вычисляется в результате серии испытаний по следующей формуле:
Кправ.
=---
Кобщ.
где:
К„рав - количество верных распознаваний слов из серии испытаний; Кобщ - общее количество испытаний.
Рисунок 2 Вероятность правильного распознавания слов в зависимости от порядка модели для трёх вариантов длины окна обработки
На графике наблюдается рост вероятности правильного распознавания в зависимости от увеличения порядка модели, причём рост начинает замедляется при порядках больших 20 при выборе длинны сегмента длинной 50мс и в дальнейшем приходит к своему установившемуся значению. По формам кривых графика можно сказать, что оптимальное значение порядка АР модели по соотношению качество распознавания к вычислительным затратам находится в пределах 20-40.
Выбор длинны сегмента равным 40 мсек. показало наилучшие результаты, что связано с сопоставимой с постоянной стационарности голосового тракта величиной. Сегментация с длинной сегмента 15 мсек. показало наихудшие результаты, т.к. ОФ не успевал качественно настроится на малом объёме данных (120 отчетов). Худшие результаты при длинных сегментах обуславливаются возрастанием значения ошибок попадания фильтра из словаря в соответствующую фонему распознаваемого слова при сильном отличии длинны последнего от эталона в словаре.
В качестве подтверждения и расширения полученных результатов дополнительно был проведён эксперимент распознавания слов, произнесённых вторым диктором (тоже мужской голос). Вероятность правильного распознавания на уровне 0.8 говорит о хорошей адаптивности алгоритма к тонким различиям спектра разных дикторов.
Зависимость вероятности правильного распознавания слова «три» от длины сегмента для двух вариантов порядка модели равных 20 и 40 показана на рисунке 3.
Рисунок 3 Вероятность правильного распознавания слов в зависимости от длины окна обработки для двух вариантов порядка модели
На графике видно, что наблюдается устойчивый максимум вероятности правильного распознавания при выборе длины сегмента длинной порядка 50 мсек., что хорошо согласуется с эмпирическими значениями постоянной голосового тракта порядка 20 мсек.. Худшие результаты для коротких окон обуславливаются с одной стороны, как было сказано выше, плохой настраиваемостью фильтра по коротким участкам данных, а с другой стороны из за сильного влияния непопадания полного количества периодов основного тона сигнала в окно обработки. Снижение результатов при больших длинах окна обусловлено разной длинной реализации варианта одного и того же распознаваемого слова по сравнению с эталонным в словаре и, как следствие, частая рассинхронизация групп фонемных фильтров при нормировке по длительности, когда в словаре содержится на несколько фильтров больше или меньше, чем окон в распознаваемом слове. Следует заметить, что при распознавании слов без учёта их фонемной структуры слов и порядке модели большим 40 можно говорить о примерно одинаковых результатах работы алгоритма, что подтверждают результаты произведённых ранее экспериментов [3].
График, характеризующий чувствительность метода к вариативности длинны реализации распознаваемого слова, имеющему место при практическом речевом анализе показан на рисунке 4. Кривые информационного рассогласования слова «четыре» в зависимости от разброса длинны реализации распознаваемого слова показаны для вариантов длины сегмента обработки в 40 и 80 мсек. Значимость этого графика определяется требованием вычисления допустимых границ сдвига распознаваемой длины реализации слова от его эталона в словаре т.к. например различные реализации слова «четыре» имеют разброс по длине от 500 до 700 мсек. Слово «четыре» выбрано как наиболее фонетически сложное из группы числительных, имеющее в своём составе шесть фонем.
Рисунок 4 Информационное рассогласование слова «четыре» в зависимости от разброса длинны распознаваемого слова
Как видно из поведения кривых на графике, влияние вариативности длинны слов существенное что приводит к выводу о необходимости применения более эффективных чем простое сегментирование средств для учёта временной вариативности реализация звуковых сигналов. Асимметрия графика связана с тем, что более длинные сегменты обработки сильнее нивелируют ошибки, связанные с различием в длине слова эталона из словаря и анализируемого слова, и, как следствие, необходимости нормировки, связанной с временным искажением сигналов.
Заключение
Таким образом, предложена фонемная модификация метода ОФ в задаче распознавания речевых сигналов на основе критерия минимума информационного рассогласования и проведено её экспериментальное исследование. В результате исследования был реализован алгоритм распознавания и получены результаты, количественно характеризующие метод. Определили, что вероятность правильного распознавания в области малых порядков модели значительно возросла по сравнению с методом ОФ, игнорирующим фонемную структуру слов. Дан ряд рекомендаций и предложений по методике выбора длины сегмента обработки при сегментации и влияния этого параметра на процесс распознавания. Дополнительным подтверждением эффективности предложенного алгоритма может служить хороший результат распознавания речи второго диктора.
Литература
1. Tony Robinson Speech Analysis, London, Lent Term - 1995
2. Савченко В.В. Различение случайных сигналов в частотной области
// Радиотехника и электроника, 1997, Т.42, №4, с.426-429
3. Igor V. Bocharov, Dmitry Y. Akatjev The recognition of voice signals according to the
method of the whitening filter Six International Workshop on New Approaches to High-Tech: Nondestructive Testing and Computer Simulations in Science and Engineering The International Society for Optical Engineering, Canada - 2002
4. Joseph P. Campbell Speaker Recognition: A Tutorial IEEE Invited Paper, Cambrige press - 2000
5. Марпл С Л. Цифровой спектральный анализ и его приложения М:Мир - 1990
6. Кульбак С. Теория информации и статистика: Пер. с англ./ Под ред. АН. Колмогорова. - М.: Наука, 1967.
7. Stylianou Ioannis Harmonic plus Noise Models for Speech, combined with Statistical Methods, for Speech and Speaker Modication PhD Thesis Ecole Nationale Supérieure des Télécommunications - 1996
8. Потапова Р.К. Речь: коммуникация, информатика, кибернетика М.:Радио и связь - 1997