Научная статья на тему 'Автоматическое распознавание раздельных слов и фонем речи'

Автоматическое распознавание раздельных слов и фонем речи Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
467
72
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Пресняков Игорь Николаевич, Омельченко Сергей Васильевич

Исследуются алгоритмы распознавания фонем и слов речи. Синтез алгоритмов распознавания выполняется с применением различных алгоритмов оценивания признаков и различных мер близости. Исследуется устойчивость алгоритмов распознавания звуковых сигналов к воздействию аддитивного гауссова белого шума и аддитивной гауссовской узкополосной помехи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Пресняков Игорь Николаевич, Омельченко Сергей Васильевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic recognition of separate words and phoneme speech

The new algorithms of recognition of words and phonemes of speech are generated. The comparative analysis of algorithms of recognition to indications of formants with application of diverse algorithms of an estimation of indications and diverse measures of proximity on parameters of middle probability correct recognition, and also stability of algorithms to an operation of an additive Gaussian white noise and narrow-band hindrances.

Текст научной работы на тему «Автоматическое распознавание раздельных слов и фонем речи»

ТЕЛ

Е

КОММУНИКАЦИИ

УДК 621.391, 681.327.12

АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РАЗДЕЛЬНЫХ СЛОВ И ФОНЕМ РЕЧИ

ПРЕСНЯКОВ И.Н, ОМЕЛЬЧЕНКО С.В. * 1

Исследуются алгоритмы распознавания фонем и слов речи. Синтез алгоритмов распознавания выполняется с применением различных алгоритмов оценивания признаков и различных мер близости. Исследуется устойчивость алгоритмов распознавания звуковых сигналов к воздействию аддитивного гауссова белого шума и аддитивной гауссовской узкополосной помехи.

Введение

Опираясь на достижения современной лингвистики, вычислительной техники и математической статистики, проводят работу по усовершенствованию алгоритмов распознавания речи, необходимых для решения прикладных задач. Так, для предоставления пользователю мобильной связи дополнительных услуг рационально перейти от клавишного к простому вводу путем побуквенного произнесения слов. Поэтому актуальными являются разработки алгоритмов распознавания речи, которые обеспечивают наилучшее соответствие результатов распознавания произнесенным словам и буквам. Система должна быть способна автоматически выявлять и корректировать азбучные (т. е. однобуквенные) аномалии при побуквенном произнесении слов.

Целью исследования является разработка алгоритмов автоматического распознавания слов и фонем речи.

1. Математическая постановка задачи распознавания отдельных слов и фонем речи

Полагается, что на вход системы распознавания поступает временная последовательность отсчетов

речевого сигнала s(n), n = 0, N -1, взятых с интервалом дискретизации At.

Для создания алгоритмов распознавания важны априорные сведения о вводимых словах и буквах.

Эталоны структурных речевых единиц, включая слова, слоги, буквы (фонемы), для каждого из дикторов заданы в виде классифицированных обучающих выборок.

Считается, что время предъявления речевых единиц в речевом сигнале априори неизвестно. Положим, что априорные вероятности предъявления для

всех структурных речевых единиц одного типа одинаковы.

Необходимо построить алгоритм, который по предъявленной реализации речи выносил бы решения о принадлежности текущих структурных речевых единиц к заданным типам, классам и обеспечивал минимум средней вероятности ошибки распознавания слов, фонем Рош при воздействии аддитивной помехи в канале связи с заданным отношением сигнал-шум q, а также удовлетворял ограничениям на среднюю вероятность ошибки распознавания определенного символа речи.

Вначале для составления хранимых эталонов речевых единиц диктора выполняется сегментация слов, фонем. Подобная сегментация на этапе распознавания речевых единиц позволяет исключить избыточные процедуры принятия решений по сигналам, не несущим речевую информацию либо не являющимся целостными речевыми единицами. Задача сегментации состоит в членении речи на структурные единицы и оценивании их временных границ. Алгоритмы сегментации подробно рассмотрены в [1-5].

2. Алгоритмы распознавания речи

Рассмотрим работу распознавателя изолированных слов и фонем (букв), где выносится решение об определенном слове или фонеме.

Для распознавания речи возможно использование ряда оценок параметров, включая спектральные оценки, измеряемые с помощью набора полосовых фильтров, соответствующих формантным частотам, а также характеристики кодирования на основе линейного предсказания (ЛПК). Такой ряд оценок параметров образован совокупностью измерений в разные моменты времени.

Каждый из приведенных выше наборов признаков обеспечивает хорошее кодирование свойств речи на коротких интервалах времени (отрезках речи), и временные изменения этих характеристик можно, как правило, использовать для описания образа, предназначенного для сравнения с хранимыми эталонами.

Для измерения меры близости образов используется алгоритм, который сравнивает оценки неизвестного испытуемого сигнала с хранящимся эталоном. Выбор меры близости обычно связан с решением следующих двух задач: как выровнять во времени два сигнала разной длительности и как измерить расстояние двух записанных сигналов. Для временного выравнивания известны как простые методы, вроде линейной нормализации во времени, так и сложные, например, динамическое изменение масштаба времени. Для вычисления расстояния используются различные метрики, включая евклидову норму между наборами характеристик, ковариацию взвешенных расстояний, различные спектральные и кепстральные меры и логарифмическое расстояние подобия, определяемое с помощью метода ЛПК. Выбор методов временного

РИ, 2003, № 2

41

выравнивания и вычисления расстояния зависит также от используемого набора характеристик и допустимого в данной реализации объема вычислений.

N-1 N-1

d = ( Z k(H(k))r)/(N £ (H(k))r) - 0,5 — корректи-

k=0 k=0

рующий параметр;

После выполнения сегментации слов необходимо принять решение о классе каждого из предъявляемых слов. Алгоритмы распознавания строятся на основе различных мер близости.

_1/2N-1

S(m) =|N 2 X К(т) ехр(- ^2лтт/2N))| - оценка

т=0

энергетического спектра;

Задача распознавания слов и фонем может быть решена с использованием алгоритмов оценивания формантных признаков.

В речевом сигнале, как правило, даже в паузах речи существенно преобладает низкочастотный сигнал, поэтому для увеличения отношения сигнал-шум необходима их коррекция. Кроме того, при блочных алгоритмах обработки наибольший вклад в ошибку оценивания формант будут вносить ее низкочастотные составляющие. Поэтому рационально использовать синхронные методы обработки речи. Значительно повысить устойчивость оценок удается путем предварительной фильтрации речевого сигнала в соответствии с разностным уравнением

xj = sj sJ-1, (1)

где а — коэффициент фильтра.

Экспериментально установлено, что значения а должны выбираться из диапазона 0,8 - 1,0.

В целях получения динамических признаков распознаваемого цифрового сигнала производится разбиение слов на отрезки одинаковой длительности, которая обычно составляет 10-30 мс. При синхронных алгоритмах обработки для вокализованных фрагментов речи длительность отрезков равна периоду основного тона, который несет просодическую информацию и может служить для разметки границ сегментов.

Рассмотрим особенности альтернативной предварительной обработки в условиях действия узкополосных помех.

Полагая, что в пределах выборки речевой сигнал стационарен в широком смысле, алгоритм его выбеливания в частотной области имеет вид

1/2 N-1

x(t) = Re((N) 1/ £ C(m)H кор (m) exp(i(2^t / N)m)), m=0

_1/22N-1 •

Cm= (2N) £ yt exp(-i(2mm/2N)) (ia)

x=0

j Isi, i = 0,1,...,(N -1)

где y i =i i ' ' — входные от-

i (0, i = N,(N + 1),...,(2N -1)

счеты; H(m) = A / ^ W(l) (S(m + l) )q —предваритель-

leZ

ная оценка амплитудно-частотной характеристики выбеливающего фильтра;

Hkop (m) = H(m) (| d | N - (d - a) m + c) — амплитудночастотная характеристика выбеливающего фильтра;

К(т) =

1

____t Vдо до

(N-1 -АДА, s

і+т i — оценка корреляционной функции речевого сигнала.

Экспериментальные исследования речевых сигналов показали, что одномерный в пространстве параметров частот энергетический спектр сигнала в паузе, полученный усреднением 20 выборок по 256 отсчетам, существенно отличается от равномерного, т.е. шум не является белым.

Как показали исследования, использование такого фильтра позволяет существенно повысить отношение сигнал-шум, что обусловливает более высокое качество распознавания речи для ряда рассматриваемых ниже алгоритмов распознавания в условиях действия узкополосных помех.

Далее каждый временной блок (выборка) обрабатывается с использованием временного окна, например, окна Хемминга, в результате чего получается взвешенный отрезок данных x(n):

X(n) = x(n)w(n), (2)

где 0 < n < N -1;

W(n) = 0,54 - 0,46cos(2rcn/(N -1)) . (3)

Для распознавания возможно использование спектральных авторегрессионных оценок [1]. Вначале оценивается корреляционная функция и методом Левинсона вычисляются оценки коэффициентов авторегрессии. Затем определяется авторегрессионная спектральная оценка формантных частот в соответствии с выражением

fv = (Бд / N) arg loc max(| 1 +

+ 2 a[n]exp(-j2:rcnk) |_1,k = 0,M), (4)

n=1

здесь M = Z(N /2 -1), Z( ) — функция округления числа к целому; arglocmax(x) — векторная функция, ставящая в соответствие последовательности отсчетов x1,x2,...,xn упорядоченное множество, которое состоит из индексов f1, f 2 ,..., f L , удовлетворяющих условию локального максимума:

xfi > xfi_1, xfi ^ xfi+1.

Рассмотрим особенности формирования формантнополосных признаков. Согласно этому методу вычисляют спектрально-полосные сигналы, соответствующие вероятному расположению формант, полосы которых

Таблица 1

m fH(m), Гц fB(m), Гц

1 200 850

2 850 2200

3 2200 3000

4 3000 4000

42

РИ, 2003, № 2

приведены в табл. 1. Граничные частоты fB (m), fH(m) соответствуют m-м формантам при частоте дискретизации 8 кГц .

При этом оценки формантных частот как средних в выделенных полосах вычисляются по формуле

f (m) f (m)

f(m) = £ i|Si|2/ £ | Si |2 (5)

i=fH (m) i f(m) ’ ^ '

где (f B (m), f H (m)) — диапазон частот для m-й форманты; Si — оценка i-й частоты дискретного спектра речевого сигнала.

Аналогично, оценки формантных частот могут вычисляться путем подсчета количества нуль-пересечений речевого сигнала с соответствующего выхода полосового фильтра с заданными граничными частотами fB (m)

и fH (m)

, указанными в табл. 1 для каждого из блоков (отрезков) речи, которые берутся с 2-х, 3-кратным перекрытием или без него.

Улучшить точность первичного оценивания траектории формант можно путем выполнения операции

сглаживания fCp(m) = 2 f(m_r)*Wr , где 2 Wr = 1.

r=-v r=-v

Процедура вычисления формант может быть повторена, но при этом в качестве граничных полос частот используют fB (m) = f(m) + д, fH(m) = f(m) -Д, где f (m) — форманты, вычисленные на предыдущем этапе; Д — границы диапазона поиска формант. Простейшей среди рекуррентных процедур является двухэтапная.

Относительные амплитуды формант определяют как

-(m) f(m) +Af» 4 f(m)+4f"

'A(m| = z !S, |/ s E |Si|. (5а)

i=f(m)-Afa m=1i=f(m)

Относительные среднеэффективные амплитуды формант вычисляют как

A(m)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

f(m) +Afa

( е

i=f(m) -f

i

1/2

4 f(m) +Ma

( E E

m=1i=f(m)-Afa

i

1/2

(5б)

Определим расстояние как минимальное при всех возможных временных сдвигах тп :

2,u

Е D„(h,j)

Dv u = min

j=V u

v,u

(6)

h=-J,...,J t,u -\u

+1

где локальное расстояние может вычисляться как

Dv,„(h,j>- ^ lfj+h-!u, , (7)

m=1

либо логарифмическая мера Dv>j) =

= loga( I | jh-t, +t, <m) -

, J 1,u 1,v J

m=1

1,v

(8)

Для меры в пространстве оценок нормированных амплитуд формант

Dv,,(h,j) = S |A.

m=1

j+h _t1u +t1,v

(m)

Aob(m)

j

,r

| . (8а)

Для меры, построенной в пространстве оценок амплитуд и частот формант,

D (h,j) =

v 11 \

(m) _JA<jb(m) |r1 +

= PnSi|^j+h-'-.u A

+ y|f (m) _ fob(m)|r

+ j+h-V +f1,v 'j |

(8б)

где r, r1 — параметры меры (экспериментально получено, что наименьшая вероятность в смысле минимума средней вероятности ошибки Рош распознавания гласных фонем r и 1/2 ); ^ u, ^ u — оценки временных границ начала и концаи сегмента обучающей выборки; ,v, f2 ,v — оценки временных границ начала и конца v-сегмента предъявляемого сигнала.

Номер типа сигнала (вид фонемы, слога или слова) находят в виде

i(v) = argmin(Dv,u,u = 0,L), (9)

где arg min(f (j), j = 0, L) — функция вычисления номера j, при котором функция f(j) минимальна на множестве j = 0, L .

Поиск осуществляется по всем возможным эталонам структурных единиц речи для всех обученных дикторов. С целью улучшить качество распознавания для одной фонемы или слова формируется ряд эталонов для нескольких дикторов.

При структурном распознавании результаты фонемного распознавания используются для принятия решения о конкретном слове.

Расстояние между совокупностью эталонов слова и результатом принятий решений имеет вид

L

S = £f(ei,Pi) > Р , (10)

i=1

где f(.) — функция сопоставления (при совпадении элемента двоичного слова из заданного алфавита и элемента с двоичным словом, являющимся результатом фонемного распознавания, выносится решение, соответствующее логической единице, в противном случае — логическому нулю).

При этом необходимо обеспечить устойчивость к ошибкам типа пропуск, вставка, перепутывание символа. Поэтому возможно использование мно-

РИ, 2003, № 2

43

жества искаженных эталонов, а также динамические методы сопоставления на уровне перехода от фонем к словам.

3. Экспериментальные исследования алгоритмов распознавания структурных единиц речи

Испытания приведенных выше алгоритмов распознавания слов проводились на основе данных, введенных в ЭВМ с микрофона через звуковой интерфейс с частотой дискретизации Гд=8 кГц.

Оценки траекторий формантных признаков были получены с использованием различных алгоритмов их оценивания (4), (5, б).

Из сравнений рис. 1, а и б видно, что траектории оценок формантных частот буквы “ю” по подсчету числа нуль-пересечений сигналов с выходов фильтров (а) соответствуют результатам, полученным по методу периодограмм (б).

Гц

300

0

200

0

Рис. 1. Траектории оценки формант буквы «ю»

На рис. 2 показана динамика изменений оценок формант сигналов для слов, вычисленных в соответствии с алгоритмом (7) для r=1.

Рис. 2. Траектории оценки формант четырех слов

Качество распознавания сигналов оценивалось средней вероятностью правильного распознавания,

которая получалась на контрольных выборках реализаций методом статистических испытаний.

В оценочных тестах система распознавания правильно находила слово в среднем в 95-98 % попыток, несмотря на то, что акустический распознаватель правильно опознавал буквы приблизительно в 60-92 % случаев. В табл.2 приведены результаты исследования вариантов устройств распознавания слов, отличающихся либо типом алгоритма оценивания признаков, либо типом решающих функций.

Варианты алгоритмов вычисления признаков для распознавания слов: AR — по предсказанию; ЧАНСП2 — 2-этапное определение количества нулей в полосах формантных частот и нормированных амплитуд формант; АНСП2 — 2-этапное определение нормированных амплитуд формант; ЧНСП2 — 2-этапное определение количества нулей в полосах формантных частот; ЧНСП — количество нулей в полосах формантных частот.

Варианты решающих правил (РП) — мер близости признаков: ЛМ — линейная мера; М1/2 — мера степени 1/2; КМ — квадратичная мера; ЛОМ — логарифмическая мера.

В табл .3 приведены результаты исследования вероятности принятия решений о наличии в выделен-

Таблица 2

Признак РП гправ.ср.

AR ЛМ 0,95

ЧАНСП2 М1/2 0,98

АНСП2 М1/2 0,6

ЧНСП2 М1/2 0,97

ЧНСП М1/2 0,9

ЧНСП ЛОМ 0,82

ЧНСП ЛМ 0,95

ЧНСП КМ 0,82

Таблица 3

Р и ы о ю я е ё у а э ї

и 0,82 0,36 0 0 0 0,09 0 0 0 0 0

ы 0 0,64 0 0 0 0,09 0 0 0 0,09 0

о 0 0 1 0 0 0 0 0 0 0 0

ю 0 0 0 0,91 0 0 0,09 0 0 0 0

я 0 0 0 0 1 0 0 0 0 0 0

е 0 0 0 0 0 0,82 0 0 0 0 0,18

ё 0 0 0 0,09 0 0 0,91 0 0 0 0

у 0 0 0 0 0 0 0 1 0 0 0

а 0 0 0 0 0 0 0 0 1 0 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

э 0 0 0 0 0 0 0 0 0 0,91 0

ї 0,18 0 0 0 0 0 0 0 0 0 0,82

Таблица 4

Р и ы о ю я е ё у а э ї

и 0,82 0,64 0 0 0 0 0 0 0 0,18 0

ы 0 0,36 0 0 0 0,09 0 0 0 0 0

о 0 0 1 0 0 0 0 0 0 0 0

ю 0 0 0 1 0 0 0,09 0 0 0 0

я 0 0 0 0 1 0 0 0 0 0 0

е 0 0 0 0 0 0,82 0 0 0 0 0,09

ё 0 0 0 0 0 0 0,91 0 0 0 0

у 0 0 0 0 0 0 0 1 0 0 0

а 0 0 0 0 0 0 0 0 1 0 0

э 0 0 0 0 0 0 0 0 0 0,82 0

ї 0,18 0 0 0 0 0,09 0 0 0 0 0,91

44

РИ, 2003, № 2

ных сегментах русско-украинских гласных букв “и, ы, о, ю, я, е, ё, у, а, э, Ї” для алгоритма с одноэтапным определением формантных частот по нуль-пересечениям сигнала и растоянием (6), (7) с параметром г=х, а в табл.4 — для растояния (6), (8) с логарифмической мерой. Буквы ю, я, е, ё, Ї являются дифтонгами, которые начинаются с й и затем постепенно переходят в у, а, э, о, и.

Из полученных результатов экспериментальных исследований при фонемном (побуквенном) распознавании можно сделать вывод, что наилучшими в смысле минимума средней вероятности ошибки по всем символам при низком уровне аддитивных помех являются алгоритмы с двухэтапным определением формантных частот по нуль-пересечениям сигнала для расстояния (6), (7) с г= 1/2 и расстояния (6), (8) с логарифмической мерой. Однако не все символы распознаются с равным качеством. Так, для алгоритма (8) максимальная ошибка на один символ для буквы ы будет 0,64, а для алгоритма (7) c параметром г=1/2 — 0,36.

При ограничении допустимой максимальной ошибки, приходящейся на один символ «ы», оптимальным будет алгоритм с г=1/2.

Рис.3. Зависимость правильного распознавания слов от отношения среднеквадратического значения наблюдаемого сигнала к среднеквадратическому отклонению аддитивной помехи

Методом статистических испытаний получены зависимости оценки вероятностей правильного распознавания слов от отношения сигнал-шум q. Испытания проводились на реальных выборках звуковых сигналов, введенных в ЭВМ с выхода микрофона.

На рис.3 приведены зависимости вероятности правильного распознавания слов от отношения среднеквадратического значения наблюдаемого сигнала на фоне естественного шума к среднеквадратическому отклонению дополнительно сгенерированной на ЭВМ аддитивной помехи типа гауссов белый шум при одноэтапном оценивании формантных частот путем счета числа нуль-пересечений с выходов полосовых фильтров для: 1 — решающей функции (7) с линейной мерой; 2 — решающей

функции (8) с логарифмической мерой; 3 — решающей функции (7) с квадратичной мерой; 4 — решающей функции (7) при параметре г=1/2.

Экспериментальные исследования спектрально-полосных алгоритмов распознавания слов речи с одноэтапным определением количества нулей в полосах формант проводились методом статистических испытаний на выборках 10 -и сигналов для каждого из 3-х различных дикторов. По выборкам оценивались параметры решающего правила, а контрольные выборки реальных сигналов использовались для оценивания качества распознавания сигналов.

Наибольшая вероятность правильного распознавания слов получена для алгоритма с оценкой формант по количеству нуль-пересечений в полосах формантных частот и с линейной мерой при отношении сигнал-шум q>20. Сравнивая кривые рис.4 и результаты, полученные в [1], можно сделать вывод, что вероятности правильного принятия решения для алгоритма с оценкой формант по количеству нуль-пересечений в полосах формантных частот и с мерой (6), (7) при г= 1/2 в условиях отсутствия дополнительных белых шумов не хуже, чем для алгоритмов, построенных в пространстве авторегрессионных (АР) спектральных оценок, а в условиях действия белого гауссова шума более устойчив алгоритм АР спектральных оценок.

В табл. 5 приведены средние вероятности правильного распознавания P п. ср. гласных фонем (букв) для алгоритмов вычисления признаков (Пр):

AR — по предсказанию; ЧАНСП2 — 2-этапное определение количества нулей в полосах формантных частот и нормированных амплитуд формант для Д = 10 ; ЧНСП2 — 2-этапное определение количества нулей в полосах формантных частот для д = 10 ; ЧНСП — количество нулей в полосах формантных частот; ЧССП — средняя частота в полосах формантных частот, а также для различных РП - мер близости признаков: Л М—линейная мера; М1/2 — мера степени 1/2; КМ — квадратичная мера; ЛОМ- логарифмическая мера.

В целях изучения совместного вклада четырех оценок формантных частот на результат правильного принятия решений в эксперименте из алгоритмов удалялся ряд формант. Исследовались средние вероятности правильного распознавания десяти слов Pправ. ср. от номеров используемых формант для алгоритмов с двухэтапным опре -делением количества нулей в полосах формантных частот и с параметром меры (6),

(7) г=1/2. Экспериментально получено, что наибольший вклад в процесс распознавания вносит 2-я форманта, при этом вероятность правильного распознавания

Таблица 5

Пр РП гп.ср.

AR ЛМ 0,6

ЧНСП2 М1/2 0,91

ЧНСП2 ЛОМ 0,92

ЧНСП2 ЛМ 0,89

ЧНСП М1/2 0,87

ЧНСП ЛОМ 0,87

ЧНСП ЛМ 0,81

ЧНСП КМ 0,73

ЧССП ЛОМ 0,73

ЧССП М1/2 0,73

ЧССП ЛМ 0,73

РИ, 2003, № 2

45

P правср. =0,8. В случае применения в алгоритме второй форманты наибольший вклад в процесс правильного принятия решения дает третья форманта, при этом Рправ.ср. =0,9. При использовании второй и третьей форманты качество распознавания улучшается при дополнительном использовании первой форманты — Рправ.ср. =0,95. Средняя вероятность правильного распознавания тем же методом по частотам первой форманты ?прав.ср. =0,5; третей форманты — Рправ.ср. =0,4; четвертой форманты — Рправ.ср. =0,1. В то же время их совместное использование наиболее эффективно для повышения средней вероятности правильного распознавания в случае первой, третьей формант — Рправ.ср. =0,6, а в случае третьей и четвертой формант — Рправ.ср. =0,5.

В целях определения характеристик и проверки работоспособности алгоритма предварительной обработки в условиях действия узкополосных случайных процессов проводилось математическое моделирование помех на ЭВМ следующим образом. Сигналы помех генерировались в виде амплитудно модулированных сигналов

nj = A(1 + §j)cos(2TCjF/^), (11)

где Бд — частота дискретизации.

Модулирующий сигнал £, j удовлетворяет уравнению авторегрессии первого порядка

\j =< j-1 +(1 -а)йj. (12)

В эксперименте для моделируемых узкополосных помех задавался коэффициент авторегрессии а = 0,99 .

Порождающий процесс ц является гауссовским c математическим ожиданием m=0 и среднеквадратическим отклонением а = 4 . Длительность наблюдаемых реализаций модельных сигналов принималась равной длительности распознаваемого речевого сигнала. При проведении статистического эксперимента задавалась центральная частота узкополосной помехи Б=560Гц.

Распознавание по наблюдаемой аддитивной смеси сигнала Sj и помехи nj производилось в соответствии с алгоритмом (6) 2-этапного определения количества нулей в полосах формантных частот д = 10 с параметром меры (6), (7) r= 1/2. Для второго этапа параметр д = 10 соответствует оценкам нижних граничных частот формантно-полосных фильтров в виде fH = fj -156 Гц , а оценкам верхних граничных частот - fB = fi +156 Гц , где fi — оценка і-й формантной частоты на первом этапе.

Для заданных условий эксперимента и отношений сигнал-шум по мощности q2 получены значения оценок средних вероятностей правильного распоз-

навания слов Рп j алгоритмов с первым (1) и Рп 1а вторым (1a) видом предварительной обработки, которые приведены в табл. 6.

Результаты экспериментальных оценок средней вероятности правильного распознавания слов Рп j алгоритмов предварительной обработки (1) и вероятности правильного распознавания слов Рп 1а алгоритмов предварительной обработки (1a) для ряда значений центральной частоты F узкополосной помехи приведены в табл. 7. Из полученных результатов видно, что без предварительной обработки (1а) алгоритм наиболее чувствителен к воздействию узкополосной случайной помехи в частотных полосах 2-й и 1-й формант.

Таблица 6 Таблица 7

чт Pп.1 Pп.1а

0.21 0.4 0.8

1 0,7 0,9

2,4 0,7 0,9

21,2 0.8 0,9

F, Гц Pп.1 ^пЛа

560 0,7 0,9

1500 0,5 0,9

2700 0,8 0,9

3500 0,8 0,95

На рис.4, а приведена усредненная по 20 выборкам корреляционная функция аддитивной смеси речевого сигнала и узкополосной помехи с центральной частотой 1500 Гц и соотношением сигнал-шум по мощности q2=1 до фильтрации, а на рис.4,б — корреляционная функция речевого сигнала в паузе после выбеливания аддитивной смеси речевого сигнала и помехи алгоритмом предварительной обработки (1а).

Рис.4. Усредненная оценка корреляционной функции: а — для речевого сигнала со случайной узкополосной помехой с центральной частотой F=1,5 кГц; б — после выбеливания с алгоритмом (1а)

На рис. 5 приведена оценка амплитудно-частотной характеристики выбеливающего фильтра с передаточной характеристикой H(m).

46

РИ, 2003, № 2

Рис.5. Оценка амплитудно-частотной характеристики выбеливающего фильтра (1а)

На рис.6,а приведен энергетический спектр сигнала с помехой в паузе, а на рис. 6, б — энергетический спектр речевого сигнала в паузе, полученный в результате выбеливания сигнала фильтром (1а).

Рис.6. Энергетический спектр: а — для речевого сигнала со случайной узкополосной помехой с центральной частотой F=1,5 кГц; б — для результата выбеливания алгоритмом (1а)

Траектории оценок формантных частот четырех слов при действии узкополосной помехи с соотношением сигнал-шум по мощности q2 = 1 и частотой 1500 Гц приведена на рис. 7, а после обработки алгоритмом (1а) с параметрами с=0, a=0,25 — на рис. 8. Из рис. 7 видно, что оценка траектории второй формантной частоты ухудшается из-за подавления речевого сигнала помехой, а на рис. 8 после обработки (1а) — восстановлена и подобна оценке траектории второй формантной частоты сигнала без помех, показанной на рис. 2.

Проведенные исследования подтверждают эффективность алгоритма предварительной обработки (1а) в условиях действия узкополосных случайных помех.

Рис. 7. Траектории оценки формант четырех слов

(узкополосная помеха с частотой 1500 Гц)

Рис.8. Траектории оценки формант четырех слов после фильтрации

Выводы

Таким образом, в настоящем исследовании разработаны алгоритмы распознавания слов и фонем (букв) речи для разных мер близости. По найденным рабочим характеристикам проведены сравнительные исследования алгоритмов распознавания букв и слов речи в телекоммуникации для различных видов решающих функций и разных оценок формантных частот. Проведенные исследования алгоритмов распознавания подтверждают возможность получения приемлемого качества распознавания речевых сигналов по формантным признакам в условиях действия гаусова белого шума и узкополосных помех.

Литература: 1. ПресняковИ.Н., ОмельченкоА.В., Омельченко С.В. Автоматическое распознавание речи в каналах передачи // Радиоэлектроника и информатика. 2002. № 1. С. 26-31. 2. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М. В. Назарова и Ю. Н. Прохорова. М.: Радио и связь, 1981. 496с. 3. Методы автоматического распознавания речи: В двух книгах. Пер. с англ. /Под ред. У. Ли. М.: Мир, 1983. Кн. 1. 328с. 4. Март.-мл. С.Л. Цифровой спектральный анализ и его приложения: Пер. с англ. М.: Мир, 1990. 584с. 5. Маркел Дж. Д., Грей А X. Линейное предсказание речи. М.: Связь, 1980. 308с.

Поступила в редколлегию 04.04.2003

Рецензент: д-р техн. наук, проф. Руденко О.Г.

Пресняков Игорь Николаевич, д-р техн. наук, профессор, зав. кафедрой “Сети связи” ХНУРЭ. Адрес: Украина, 61000, Харьков, пр. Победы, 54-б, кв. 44, тел. 70214-29.

Омельченко Сергей Васильевич, ассистент кафедры “Сети связи” ХНУРЭ. Адрес: Украина, 61000, Харьков, ул. Кузнецкая, 102а, тел. 702-14-29.

РИ, 2003, № 2

47

i Надоели баннеры? Вы всегда можете отключить рекламу.