Автоматическое распознавание речи в каналах передачи

Пресняков Игорь Николаевич; Омельченко Анатолий Васильевич; Омельченко Сергей Васильевич

УДК 621.391

АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ В КАНАЛАХ ПЕРЕДАЧИ

ПРЕСНЯКОВ И.Н., ОМЕЛЬЧЕНКО А.В., ОМЕЛЬЧЕНКО С.В.

Разрабатываются устойчивые к воздействию помехи алгоритмы распознавания слов. Синтез этих алгоритмов выполняется в пространстве формантных признаков с применением различных мер близости. Проводятся исследования устойчивости алгоритмов распознавания к воздействию аддитивного гауссова белого шума для выборок звуковых сигналов, введенных с микрофона.

B настоящее время актуальными являются прикладные задачи создания технических систем с возможностью управления голосом. К таким задачам относятся сервисная система справок по телефону, информационные системы управления воздушным полетом по голосу, защита информации в банковских системах, включающих систему для распознавания последовательности цифр по голосу, справочные системы, работающие на основе распознавания простых высказываний типа да — нет. Одной из основных задач обработки речи является распознавание отдельных слов слитной речи. Существует множество алгоритмов распознавания речи, каждый из которых обладает определенными достоинствами и недостатками [1, 2]. Несмотря на большое количество работ по данной проблеме, отыскание эффективных ее решений требует дальнейших исследований. При этом на практике для разработки конкретных автоматических систем распознавания технической информации достаточен ограниченный объем словаря. Большое значение для практики имеют исследования в области распознавания цифр. Это обусловлено, во-первых, небольшим объемом словаря (10 цифр от нуля до девяти) для ряда задач и, во-вторых, его распространенностью (он используется для ввода данных, набора телефонных номеров, идентификации кодов и т.д.).

Системы речевого ввода имеют преимущество по сравнению с клавиатурным, а именно удобство для пользователя. При этом такая система ввода должна иметь достаточно высокую точность. В противном случае пользователь потеряет к ней доверие. В настоящее время отсутствуют специальные компьютерные средствадля дистанционного ввода информации, удовлетворяющие этому требованию.

Настоящая статья посвящена статистическому синтезу алгоритмов распознавания слов по оцифрованным речевым сигналам, введенным с микрофона. Задача решается в два этапа: на первом этапе оцениваются моменты начала и конца слов (задача сегментации), а на втором — принимается решение об определенном слове или цифре.

Разработка помехоустойчивых алгоритмов автоматического распознавания слов речи — цель данной работы.

Модель речевого сигнала. Опишем модель речевых сигналов, выбранную для решения задачи распознавания слитной речи.

В основе большинства методов обработки речи лежит модель речеобразующей системы в виде совокупности генератора возбуждения и голосового тракта (линейной системы с переменными параметрами), которые рассматриваются независимо друг от друга.

Генератор формирует возбуждающий сигнал либо в форме шумоподобного процесса для невокализованных звуков, либо в виде последовательности импульсов для вокализованных звуков, частота следования которых называется частотой основного тона.

Голосовой тракт рассматривается как линейная динамическая система. Его передаточная функция характеризуется резонансными (формантными) частотами при излучении звуковой волны через губы, а также антирезонансами или нулями передаточной функции тракта речеобразования при излучении носовых звуков. В процессе речи все формантные частоты непрерывно изменяются в соответствии с особенностями произносимых звуков. Экспериментальные исследования показали, что для формирования звуков основную роль играют первые четыре форманты, которые лежат в диапазоне от 200 до 4000 Гц.

Постановка задачи и метод ее решения. Рассмотрим математическую постановку задачи распознавания слов в слитной речи и основные особенности решения задачи распознавания служебной информации.

Предполагается, что на вход системы распознавания поступает временная последовательность речевого сигнала Д/), l = 0, N-1, взятых с интервалом дискретизации At, и для последовательности отсчетов сигнала s{l) справедлива модель, задаваемая выражением

^0 = ZakSl -к)+u(l), l = 0,N-1 , (1)

k=1

где u(l) — сигнал возбуждения; ak , к = 1,p — коэффициенты фильтра.

Эталоны цифр для каждого из дикторов заданы в виде классифицированных обучающих выборок.

Считается, что время предъявления слова в слитном речевом сигнале априори неизвестно. Априорные вероятности предъявления для всех слов одинаковы.

Качество алгоритма распознавания s будем оценивать совокупностью показателей эффективности распознавания сигналов Рпр (s) и устойчивости алгоритмов к воздействию аддитивной помехи куст (s):

К(s) — (Рпр (s), куст (s)) .

В качестве показателя эффективности Рпр (s) используется средняя вероятность правильного распознавания слов при низком уровне аддитивной помехи (без учета влияния помех в канале переда-

26

РИ, 2002, № 1

чи). Под показателем устойчивости алгоритмов kуст (s) понимается средняя вероятность правильного распознавания слов при воздействии аддитивной помехи в канале с заданным соотношением сигнал/шум.

Необходимо построить оптимальный S0 алгоритм, который по предъявленной реализации речи выносил бы решение о принадлежности произнесенных слов к заданным классам и обеспечивал максимум в классе робастных алгоритмов, т.е.

рпр (S 0 ) = max рпр (S )>

K уст (S 0 ) - K уст (S )• •

Алгоритм распознавания слов. Поставленная задача распознавания разбивается на две отдельные подзадачи - сегментацию речи и распознавание слов. Поэтому вначале выполняется предварительная сегментация слов, по результатам которой выполняется непосредственно распознавание слов.

Сегментация. Сегментация включает решение подзадачи оценивания начала и конца каждого из слов речи. Перед сегментацией проводится нормировка всего сигнала по его энергии, которая позволяет снизить чувствительность алгоритмов сегментации к громкости речи, типу микрофона и ослабить влияние различий в количестве уровней квантования, акустоэлектрических настроек устройств предварительной обработки сигнала и т.д. Трудность решения подзадачи сегментации связана с необходимостью компромисса между точностью и устойчивостью . Поэтому подзадача сегментации может решаться как многоэтапная. На первых этапах производятся грубые (но устойчивые) оценки положения отдельных слов, а на последующих уточняются их границы.

Рассмотрим алгоритм предварительной сегментации при двухэтапной процедуре решения подзадачи сегментации произносимых диктором слов. В этом алгоритме сначала вычисляются сглаженные оценки локальных максимумов мощности сигнала, которые используют для задания диапазона поиска начала и конца каждого неизвестного слова высказывания.

На рис. 1 показана зависимость локальной энергии речевого сигнала (нормированной средней энергии в заданном интервале усреднения длительности Тн) от дискретного временного сдвига n для последовательности цифр.

Для защиты от импульсной помехи возможна предварительная нерекурсивная НЧ фильтрация. На следующем этапе в заданных доверительных интервалах при движении от краев интервала к локальным максимумам по порогу находят соответственно начало и конец слова или цифры.

Распознавание слов. После выполнения сегментации слов необходимо принять решение о классе каждого из предъявляемых слов. Алгоритмы распознавания строятся на основе различных мер близости.

Задача распознавания слов может быть решена с использованием алгоритмов оценивания формантных признаков. Выполненные нами исследования показали, что оценки формантных признаков существенно изменяются при сдвиге всего сегмента лишь на один отсчет. Это требует особой точности сегментации либо поиска алгоритмов, устойчивых к подобным ошибкам.

Существенно повысить устойчивость оценок удается за счет предварительной фильтрации речевого сигнала в соответствии с разностным уравнением

Xj = Sj -a- Sj_!, (2)

где а — коэффициент фильтра.

Экспериментально установлено, что значения а должны выбираться из диапазона 0,8 - 1,0.

В целях получения динамических признаков распознаваемого цифрового сигнала производится разбиение слов на сегменты одинаковой длительности, которая обычно составляет 10-30 мс. Далее для каждого сегмента используется взвешивание с применением временного окна, например, окна Хем-минга.

Для оценивания значений формантных частот могут быть использованы алгоритмы кепстрального оценивания, классические методы спектрального оценивания и алгоритмы линейного предсказания речевых сигналов.

В рамках первого подхода оценивание формант может быть осуществлено по положению максимумов в сглаженном кепстре сигнала.

Вычисление сглаженного кепстра сигнала осуществляется с использованием следующих преобразований сигнала:

, V 2 M ~ ( 2п )

xAn) = — Е Xp,v(k)exp| J—kn І,

N k=0 V N )

Xp,v (k) = log

s Ж) expf-j 4?kn

n=0

N

(3)

где xv (n) - n-й отсчет для v -й выборки речевого сигнала; X p,v (k) —логарифм модуля БПФ речевого

сигнала; Xv(n) — сглаженный кепстр, n = 0,M ;

M = Z

N—і . 2

> Z[y] — функция округления к ближайшему целому числу.

Такие сглаженные спектры отражают резонансную структуру речевого сигнала:

РИ, 2002, № 1

27

- Fd

fv = — arg loc max{

E x v{u) І ^ ku

u=0

N

(4)

k = 0, M},

здесь вектор оценок f(v) ={ f (v), i = 0, L }, L -количество локальных максимумов в спектре; Fr) = 1/ At — частота дискретизации сигнала; At —

Г N "

период его дискретизации; M =Z —1 ; arg loc max(x) — векторная функция, ставящая в

соответствие последовательности отсчетов xi,x2,.. .,Xn упорядоченное множество, которое состоит из индексов, удовлетворяющих условию локального максимума:

здесь а — коэффициент, близкий к единице (например а = 0,99 ).

Такие оценки обладают более выраженными (подчеркнутыми) формантами из-за проецирования корней характеристического уравнения на единичный круг комплексной плоскости [1,2].

Значение формант можно оценить с использованием спектральных оценок по методу минимума дисперсии [3]. Такой метод оценивания с точки зрения разрешающей способности занимает промежуточное место между авторегрессионой и классической спектральной оценкой.

Вектор оценок резонансных частот с использованием спектральных оценок по методу минимума дисперсии находится следующим образом:

fi > fi_!, fi > fi+i.

Второй вид оценок такой:

^ Fd

fv = N arg loc max{ k = 0M},

У Кv(u)expf і — ku

U=0 4 N

где К v(u) — оценки корреляционной функции речевого сигнала в рамках модели стационарных

процессов; M = Z

N

2

-1.

Третий подход к оцениванию формантных частот строится на основе модели линейного предсказания речевых сигналов. Соответствующий алгоритм предполагает такую последовательность шагов.

Вначале оценивается корреляционная функция и методом Левинсона вычисляются оценки коэффициентов авторегрессии. Затем определяется авто-регрессионая спектральная оценка формантных частот в соответствии с выражением

^ Fd

fv = N arg loc max{|1 +

+ ^ a[n_I exp(-i 2nnk )| 1, k = 0, M },

n=1

(6)

где вектор оценок fv ={ fiv , i = 0, L }, L— количество локальных максимумов в спектре; Fr) = 1/ At — частота дискретизации сигнала, At — период его

дискретизации; M = Z

N

2

-1.

Для распознавания возможно использование псевдоформантных (модифицированных АР) оценок, которые вычисляются в соответствии с выражением

fv = — arg loc max{|1 + E a[n]exp(-i2mk)

p-1

N

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

n=1

^ Fd

f(v) = N arg loc max {

E Vмд [A exp(-І2nnk)

n=— p

-1

(7)

k = 0, M},

где

m = Z

N _1 . 2

коэффициенты у мд [n] вычисляются по корреляционным коэффициентам АР — параметров по формуле

-1- £ (р +1 - k - 2i)a p\k + ф *p^ ],

D p i

0 < k < p , (8)

у мд [- k\-1 > k >-p ,

здесь Dp — дисперсия белого шума.

Таким образом, приведенные методы выделения формантных частот основаны на параметрическом либо непараметрическом оценивании спектра и отборе локальных максимумов спектра.

В качестве информативных параметров для распознавания могут быть использованы различные характеристики речевых сигналов. К таким параметрам относятся частота основного тона, формантные частоты, признак вокализованности, мощность сигнала в разных полосах частот сигнала, длительности произносимых слов.

Проведенные экспериментальные исследования показали, что наиболее высокой различающей способностью обладают первые четыре формантные частоты. Они несут информацию об артикуляции гласных и согласных при их произношении и их можно использовать для распознавания звуков.

Решающую статистику распознавания рационально строить в виде суммы двух статистик Rlnp и R06p , использующих фиксированное количество сегментов с прямым и обратным считыванием данных (соответствует линейному предсказанию вперед и назад):

У мд И -•

+ а exp(-І 2npk )| 1, k = 0, M },

і = argmin(unp RnP + иобр Ro6P) l=0,M ’

(9)

28

РИ, 2002, № 1

где иПр , ио6р — весовые коэффициенты; Rlnp и R бр — прямая и обратная статистики, построенные на основе метрик в пространстве Li или L2;

, N L(n)

R - 2 2 min min a i j \ f. (n) -n=1 i=l je[-J,J] he[-H ,H ] .

-, (10)

- fl (n + h)Iq,

.+j

а также на основе логарифмической меры:

, N L(n) 1 ^

R I min min a j log d \ f.(n) ~

n=1 i=1 je[-J, J ] he[-H ,H ] .

-/ (11)

- fl (n + h) I,.

.+ j

Здесь f (n) — оценки частот i-й форманты n-го

i

сегмента; fl (n) — оценки частот i-й форманты n-

i

го сегмента доя l-го эталона; a i, j , i = - J, J ; j = - J, J ;

h = -H,H — весовые коэффициенты, q — тип пространства Lq, d-основание логарифма (например d=2).

Экспериментальные исследования алгоритмов распознавания слов. На основе приведенных алгоритмов создан многофункциональный исследовательский пакет для распознавания звуковых сигналов с использованием среды визуального программирования “Delphi 4”. С применением этого пакета выполнены статистические испытания алгоритмов распознавания слов. Испытания проводились на основе данных, веденных в ЭВМ с микрофона через звуковой интерфейс с частотой дискретизации 8 кГц.

Оценки траекторий формантных признаков были получены с использованием различных алгоритмов их оценивания (3-8) .

На рис. 2 показана динамика изменений формант сигналов, оцененных различными методами.

Траектории формант (рис. 2,а) с использованием кепстрального сглаживания приведены для порядка модели р=12. На рис.2,б показаны траектории формант, полученных с использованием метода оценивания псевдоформант. Оценки на рис.2,в соответствуют максимумам энергетического спектра, вычисленного как БПФ от стационарной оценки корреляционной функции (вектора). При этом наилучшее качество наблюдается при временном окне в 12 отсчетов. На рис 2, г показаны оценки формантных признаков, построенные с использованием оценок авторегрессионых спектров.

Из рис.2 видно, что наилучшее сглаживание траекторий формантных частот характерно для случая псевдоформантных оценок. А наибольшей временной вариабельностью обладают оценки формант, полученных на основе модели авторегрессии. Из графиков видно, что в полосе частот, ниже 4 кГц, характерным является наличие 5 формант.

100 120 140 160 180 200

в

Рис. 2

Оценки авторегрессионого спектра для модели порядка 12 получены на выборках длиной 256 отсчетов, 12 сегментов, с использованием статистик (9)-(11). Наибольшая эффективность алгоритмов распознавания была для статистик, построенных в пространстве L1 (формула (10) при q=1), а также статистик с логарифмической мерой (11). На рис.3 показаны зависимости вероятности правильного распознавания для случаев: 1 — статистик с логарифмической мерой (11); 2 — статистик, построенных в пространстве L1; 3 — статистик, построенных в пространстве L2.

При этом средняя вероятность правильного автоматического распознавания 10 цифр, произносимых определенным диктором при обучении по однократному предъявлению цифр, составила 0,95

РИ, 2002, № 1

29

р

3 2

Рис. 3

P

Рис.4

и 0,90 для оценки формант с использованием спектральных оценок минимума дисперсии. Экспериментальные исследования показали, что использование нормировок оценок формантных частот и логарифмический масштаб для статистик, построенных в пространстве Li (формула (10) при q= 1), а также статистик с логарифмом (11) приво -дит к снижению качества распознавания, а для алгоритма, построенного в пространстве L2 (формула (10) при q=2), такие нормировки не целесообразны. Установлено, что наилучшее качество распознавания речи соответствует авторегрессионому оцениванию формант 12-го порядка.

На рис. 5 показана зависимость вероятности правильно распознанных слов от порядка авторегрес-сионой модели.

Результаты исследования других алгоритмов, использующих параметры вокализованности, длительности слов, оценки логарифмов мощности сигнала в заданных полосах частот, полосы которых изменяются в логарифмическом масштабе, частоту основного тона, характеризуются более низким качеством распознавания (0,50-0,8) и поэтому не приводятся.

Экспериментально исследована зависимость вероятности правильного распознавания речевого сигнала

от отношения средней мощности наблюдаемого сигнала на фоне естественного шума к дополнительно сгенерированной аддитивной помехи типа гауссов белый шум для случаев: 1 — энергетического метода оценивания формант, 2 — авторегрессионого (порядок модели 12), 3 — псевдоформантного (порядок модели 13), 4 и 5—кепстрального с порядком модели 12 и 20 (рис.6). Наиболее устойчивы к воздействию аддитивных помех авторегрессионый и псевдоформантный алгоритмы оценивания.

Р 1

0,5

0

5 10 15 20 25q

Рис.6

Исследования показали, что использование каждой из первых четырех формант в отдельности на 5-10% снижает эффективность, однако при воздействии помех типа гауссов белый шум наиболее устойчивым является распознавание по 1-й форманте (кривая 1, рис.4), далее следует 4-я форманта (кривая 4, рис.4). Наименее помехозащищенным оказывается распознавание по 2 и 3 формантам (кривые 2,3, рис.4 соответственно).

Наилучшее качество распознавания характерно для авторегессионного алгоритма (рис. 7, 8) для параметров значения границ диапазона поиска по сегментам Н=2 и по максимумам J=1, задающим границы диапазона поиска по сегментам и номерам формант. Экспериментально полученные результаты подтвердили высокую эффективность совместного авторегессионного алгоритма распознавания (9),(11) для параметров ипр =0,8; иобр=1, где средняя вероятность правильного распознавания составила 0,95.

Ш'.'. к

“Ч \ \ \ \ \ \ '''< »

0 1 2 3 4 5 Н

Рис. 7

P

1,0

0,8

0,6

w- 1 1 1 1 1 1 / / 1 1 Л Т ! » і і І 1 І

і

0 1 2 3 J

Рис. 8

30

РИ, 2002, № 1

В таблице приведены результаты исследования 8 вариантов устройств распознавания слов, отличающихся либо типом алгоритма оценивания формантных признаков, либо типом решающих статистик. Из таблицы видно, что тип устройства в смысле критерия максимума вероятности правильного распознавания слов зависит от требований устойчивости. Если задать допустимое значение показателя устойчивости 0,75, то наилучшим показателем Рправ.ср. будет устройство Sb

Тип устройства Алгоритм вычисления формант Особенности решающих статистик P 1 прав. ср. при с/ш = = 14 P 1 прав. ср.

Si По предсказанию Логариф- мическая мера 0,78 0,95

S2 По предсказанию Линейная мера 0,8 0,9

S3 По предсказанию Квадратичная мера 0,6 0,75

S4 Псевдоформан- тный для порядка модели 12 Логариф- мическая мера 0,8 0,91

S5 При кепстральном сглаживании для порядка модели 20 Логариф- мическая мера 0,3 0,9

S6 При кепстральном сглаживании для порядка модели 12 Логариф- мическая мера 0,5 0,85

S7 Энергетическо -го (по методу периодограмм) Логариф- мическая мера 0,3 0,87

S8 Спектральных оценок минимума дисперсии Логариф- мическая мера 0,7 0,9

Выводы. Разработаны устойчивые к воздействию помехи алгоритмы распознавания слов по формантным признакам на основе модели речевого сигнала. По найденным рабочим характеристикам проведены сравнительные исследования алгоритмов распознавания слов слитной речи в телекоммуникации для различных видов решающих статистик и разных оценок формантных частот.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Получено решение задачи оптимизации алгоритмов распознавания речевых сигналов при их описании моделью линейного предсказания. Оптимизация выполнена с учетом совокупности показателей качества распознавания слов: вероятности правильного распознавания и устойчивости распознавания. Проведено сравнение алгоритмов распознавания при выборе разных алгоритмов оценивания формантных частот, которые характеризуют голосовой тракт. Проведены экспериментальные исследования устойчивости алгоритмов распознавания к воздействию дополнительного аддитивного гауссова белого шума на заданных выборках звуковых сигналов.

Литература: 1. Рабинер Л. Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М. В. Назарова и Ю. Н. Прохорова. М.: Радио и связь, 1981. 496 с. 2. Методы автоматического распознавания речи: В двух книгах. Пер. с англ. /Под ред. У. Ли. М.: Мир, 1983. Кн. 1. 328с. 3. Марпл.-мл. С.Л. Цифровой спектральный анализ и его приложения: Пер. с англ. М.: Мир, 1990. 584 с. 4. Гуткин Л.С. Проектирование радиосистем и радиоустройств. М.: Сов. радио, 1986. 288 с.

Поступила в редколлегию 14.12.2001 Рецензент: д-р техн. наук, проф. Хаханов В.И.

Пресняков Игорь Николаевич, д-р техн. наук, проф., зав. каф. “Сети связи” ХНУРЭ, Адрес: Украина, 61000, Харьков, пр. Победы, 54-б, кв. 44, тел. 40-94-29.

Омельченко Анатолий Васильевич, канд. техн. наук, доцент каф. “Сети связи” ХНУРЭ. Научные интересы: методы обработки сигналов и распознавание образов. Адрес: Украина, 61000, Харьков, ул. 17 Партсъезда, 8, кв. 33, тел. 40-94-29.

Омельченко Сергей Васильевич, ассистент кафедры “Сети связи” ХНУРЭ. Адрес: Украина, 61000, Харьков, ул. Кузнецкая, кв. 102а, тел. 40-94-29.

РИ, 2002, № 1

31

Автоматическое распознавание речи в каналах передачи Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

Statistics synthesis of algoritms that evaluate the period of the main tone of the voise signals

Текст научной работы на тему «Автоматическое распознавание речи в каналах передачи»