Научная статья на тему 'Оптимизация параметров эвристической модели речевых сигналов с целью улучшения качества их распознавания'

Оптимизация параметров эвристической модели речевых сигналов с целью улучшения качества их распознавания Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
181
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛЬ РЕЧЕВОГО СИГНАЛА / РАСПОЗНАВАНИЕ РЕЧИ / ОПТИМИЗАЦИЯ ПАРАМЕТРОВ / SPEEАH SIGNAL MODEL / SPEEАH REAOGNITION / PARAMETERS OPTIMIZATION

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Нгуен Чи Тхиен

Рассмотрена параметрическая модель речевого сигнала в виде последовательность кратковременных амплитудных спектров. Предложена процедура оптимизации параметров модели речевых сигналов для улучшения качества их распознавания. Также предложен алгоритм подбора единственного набора параметров модели для разных условий применения системы распознавания. Приведены результаты экспериментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PARAMETER OPTIMIZATION OF HEURISTIC MODEL OF SPEECH SIGNALS TO IMPROVE THE RECOGNITION QUALITY

The parametric model of the speech signal as a sequence of short-term amplitude spectra is studied. A procedure for optimizing the parameters of the model of speech signals to improve the quality of their recognition is proposed. The algorithm for selecting a single set of model parameters for different conditions of application of the system of recognition is also proposed. The results of experiments are reported.

Текст научной работы на тему «Оптимизация параметров эвристической модели речевых сигналов с целью улучшения качества их распознавания»

УДК 004.934

ОПТИМИЗАЦИЯ ПАРАМЕТРОВ ЭВРИСТИЧЕСКОЙ МОДЕЛИ РЕЧЕВЫХ СИГНАЛОВ С ЦЕЛЬЮ УЛУЧШЕНИЯ КАЧЕСТВА

ИХ РАСПОЗНАВАНИЯ

Ч.Т. Нгуен

Рассмотрена параметрическая модель речевого сигнала в виде последовательность кратковременных амплитудных спектров. Предложена процедура оптимизации параметров модели речевых сигналов для улучшения качества их распознавания. Также предложен алгоритм подбора единственного набора параметров модели для разных условий применения системы распознавания. Приведены результаты экспериментов.

Ключевые слова: модель речевого сигнала, распознавание речи, оптимизация параметров .

В работе [1] было предложено решение задачи распознавания речевых команд на фоне шумов. Предложенный подход к распознаванию речевых сигналов основан на параметрической модели речевого сигнала, где модель речевого сигнала У = {У1,...,Ут} длины Т представляет собой последовательность кратковременных амплитудных спектров А = {А1, А2,А3,...}, где, в свою очередь, I -й амплитудный спектр представлен своими отсчетами А; = {Ак ,1 £ к £ N /2}, N — длина окна для вычисления амплитудного спектра А^.

Дискретные отсчеты речевого сигнала обрабатываются фрагментами, которые сдвигаются на величину Ь. Для разделения речевого сигнала на фрагменты используется окно Хэмминга, где значения отсчетов в окне определяются по формуле: wn = 0.54 — 0.46соб(2р(п —1)/(N +1)), 1 £ п £ N . Таким образом, i -й фрагмент сигнала представлен следующим описанием:

У!■ +N—1 ={Уti + п—^п ;1 £ п £ N Ь 1 £ Ц£ т — N + Ь Ь = *1+1— . Пусть из

речевого сигнала выделены М фрагментов, где М = |_(Т — N)/ Ь\. Если Ь = N / 2, то сумма перекрытых со сдвигом Ь фрагментов почти отождествляет исходный речевой сигнал за исключением первых и последних отсчетов [2]. Это объясняется тем, что сумма значений отсчетов wn в перекрытых со сдвигом Ь фрагментах окон Хэмминга приближенно равна единице в большинстве случаев. На рис. 1 представлен пример окон Хэмминга длины 64, перекрытых со сдвигом, и их сумма.

Для каждого фрагмента У1.1 +N 1 речевого сигнала строится его кратковременный амплитудный спектр. Отсчеты i -го амплитудного спек-

тра определяются дискретным преобразованием Фурье , -го фрагмента речевого сигнала:

Ак =

N

I

П=1

I Л,+„-1V -- 2р("-1)(к-1)/N

к = 1 N/2.

1 п ?

Рис. 1. Перекрытые окна Хэмминга и их сумма

Для вычисления дискретного преобразования Фурье применяется алгоритм быстрого преобразования Фурье, имеющий максимальную производительность, когда длина последовательности входных данных является степенью двух, поэтому число N выбрано как степень двух.

Для уменьшения влияния шума на качество распознавания значения отсчетов кратковременных амплитудных спектров эталонных и распознаваемых речевых сигналов увеличиваются на константу с > 0. После такого «усиления» кратковременного амплитудного спектра на величину с > 0 получается новая последовательность амплитудных спектров

А = {А1, А2, Аз,...}, где А, = {Ак,1 <к < N/2}, Агк = Ак + с (рис. 2).

Напомним что, в [1] был рассмотрен эффект «усиления» амплитудного спектра при добавлении константы с > 0. Он заключается в следующем. При неограниченном росте величины с > 0 степень связи любых двух амплитудных спектров Ар и Ац стремится к единице. Поэтому величину

с > 0 не следует делать слишком большой, т.е. при этом устраняется различие в степени связи между похожими и непохожими амплитудными спектрами. Тем не менее, при небольшом с > 0 можно подобрать такое его

значение, что увеличение степени связи Грд похожих спектров Ар и Ац позволяет улучшить качество их распознавания. В этих же условиях уве-

личение степени связи rpq непохожих спектров на качество их распознавания не как не влияет.

Рис. 2. Эффект «усиления» кратковременных амплитудных спектров на величину с > 0, где степень связи (косинус угла) грд > грц

для спектров Ар и А ц

Таким образом, эвристическая модель речевого сигнала содержит в себе три параметра Ь, N, с, где Ь = N / 2, N - степень двух, и с > 0.

Эксперименты в работе [1] показали, что результат распознавания сильно зависит от значений параметров такой модели. В данной работе предлагается решать задачу оптимизации параметров для улучшения качества распознавания. Необходимо максимизировать частоту правильного

2 - 2

распознавания V =---- егг , где 2 - общее число произнесенных речевых

команд, 2егг - число ошибочно распознанных. Частота правильного распознавания V зависит от выбора параметров Ь, N, с. Параметр с принимает значение в диапазоне от 0 до 10 [1]. Для задачи распознавания речевых сигналов рекомендуется выбрать длину фрагментов N = 128, 256, 512

[3]. В работе [3] была рассмотрена задача распознавания речевых сигналов при отсутствии помех, а в данной работе рассматривается задача распознавания речевых сигналов на фоне шумов, поэтому необходимо тестировать более широкое множество возможных длин фрагментов N є {32, 64,128,256,512,1024}.

Алгоритм 1. Подбор длины фрагментов N, периода L и константы с:

1. Возьмем очередное значение длины фрагментов N из множества Nе {32, 64,128, 256, 512,1024}. Определим сдвиг L = N/2.

2. Шаг варьирования константы с. Варьируется значение с в диапазоне 0 £ с £ 10 с некоторым шагом (вопрос выбора длины шага представляет собой отдельную задачу [4-5], которая здесь не будет рассматриваться). Каждое пробное варьирование проверяется распознаванием речевых команд с подсчетом частоты правильного распознавания v(N,L,с). Для заданной пары параметров N и L определим частоту правильного распознавания и значение с:

* *

Vn = max v(N,L,с) и CN = argmaxv(N,L,с).

0<с<10 0<с<10

3. Повторим шаги 1-2 для всех Nе {32, 64,128, 256, 512,1024}.

* * * *

4. Среди всех наборов (N,L,CN) найдем набор (N ,L ,с ),

N = argmaxVn, с = сА *, L = N /2, обеспечивший наибольшую часто-

N

ту правильного распознавания.

Были проведены эксперименты на 11 речевых командах из базы данных TIDigits 1.0 [6]. Были использованы 528 речевых сигналов (48 сигналов для каждой команды) для построения система распознавания речи с решающим правилом классификации 11 речевых команд на основе скрытых марковских моделей [7]. Были использованы 528 других речевых сигналов из той же базы данных (48 сигналов для каждой команды) для составления распознаваемой выборки. К этим речевым сигналам был искусственно добавлен аддитивный белый гауссовский шум с отношением сигнал/шум Rsn в децибелах (дБ).

Аддитивный белый гауссовский шум х = {£,1,£2,. .,£т} представлен как последовательность длины T , элементами которой являются случайные величины Xt, распределенные по нормальному закону с матожидани-ем 0 и среднеквадратическим отклонением 1.

Для заданного речевого сигнала Y = {У1,...,Ут} и значения Rsn зашумленный речевой сигнал ¥ = {У1,..., Ут} образован по формуле [8]:

Rsn т / т

yt = у, +10"^°Ху?/XX2, t=1,...,т.

Ь=1 / i=1

Эксперименты были проведены с распознаваемыми выборками, содержащими речевые сигналы с разными отношениями сигнал/шум Rsn = 3, 6, 9,12 дБ. Для каждой распознаваемой выборки были подобраны параметры L, N, с алгоритмом 1, которые доставляют максимальную час-

тоту правильного распознавания. Оказалось, что для разных отношений сигнал/шум оптимальными являются длина фрагментов N = 512 и сдвиг Ь = 256 (рис. 3). Но оптимальная константа с > 0 уникальна для каждого отношения сигнал/шум с = 3.95,2.6,1.0167,1.0167, соответственно для

= 3, 6, 9,12 дБ (рис. 4).

Рис. 3. Подбор длины N

Отношение сигнал/шум

Рис. 4. Зависимость оптимальной константы с от отношения сигнал/ шум при разных значениях длины N

Рис. 4 показывает, что при повышении отношения сигнал/шум оптимальная константа с уменьшается для всех рассмотренных значений

48

длины фрагментов N.

Иногда удобно использовать единственный набор параметров Ь, N, с для разных условий применения системы распознавания (например, для разных отношений сигнал/шум).

Пусть известен набор К^ разных условий ^7, 7 = 1,...,К^ применения системы распознавания. Задав длину фрагментов N и период Ь, необходимо найти константу с > 0, с которой частота правильного распознавания V 7 для каждого условия применения ^ 7 не меньше принятого порога р, а сумма частот правильного распознавания ^К=1п7 максимальна

по всем условиям.

Алгоритм 2. Подбор константы с для разных условий применения системы распознавания:

1. Шаг варьирования константы с. Варьируется значение с в диапазоне 0 < с < 10. Каждое пробное варьирование проверяется распознаванием речевых команд для каждого из условий ^ 7, 7 = 1,..., К ^ применения

системы распознавания с подсчетом частоты правильного распознавания

с 1К

V7 = п(], с). Определим сумму частот Ху=1п7 .

2. Если Vс > р для всех 7 = 1,. .,КQ, то перейдем к шагу 3. В противном случае вернемся к шагу 1 с другим значением с .

3. Если значение суммы частот правильного распознавания ^ К=^п 7

не увеличивается по сравнению со значением этой суммы на предыдущих итерациях, то алгоритм заканчивается. В противном случае, вернемся к шагу 1. Выбранное значение с - это значение на последней итерации.

Легко увидеть, что при невыполнении условия Vс > р , 7 = 1,.. ., К^ на шаге 2 данный алгоритм может зациклиться при неизменном р . В этом случае порог р необходимо уменьшать. Очевидно, что при уменьшении р до нуля такой алгоритм остановится всегда. При этом возникает вопрос качества распознавания, так как слишком малое значение порога р является неудовлетворительным. Тем не менее, оказалось, что в экспериментах достаточно было выбрать р = 0.88 для речевых сигналов из [6].

Данный алгоритм был применен для определения единственной константы с > 0 для условий применения с разными отношениями = 3, 6, 9,12 дБ при пороге р = 0.88, длине фрагментов N = 512, сдвиге Ь = 256. В результате было получено значение с = 2.8796. Частоты правильного распознавания равны 0.8845, 0.9167, 0.9375, 0.9432 для = 3, 6, 9,12 дБ.

Список литературы

49

1. Нгуен Ч.Т. Решение задачи распознавания речевых команд на фоне шумов // Известия ТулГУ. Технические науки. Вып. 11. Тула: Изд-во ТулГУ, 2013. С.241-250.

2. Gotzen A., Bernardini N., Arfib D. Traditional implementations of a phase-vocoder: the tricks of the trade // Proceedings of the COST G-6 Conference on Digital Audio Effects , Verona, Italy, December 7-9, 2000.

3. Paliwal K., Lyons J., Wojcicki K. Preference for 20-40 ms window duration in speech analysis // 4th International Conference Signal Processing and Communication Systems (ICSPCS), 13-15 Dec. 2010.

4. Аттетков А.В., Галкин С.В., Зарубин В.С. Методы оптимизации. М.: Изд-во МГТУ им. Н.Э. Баумана, 2003. 440 с.

5. Жиглявский А. А., Жилинкас А. Г. Методы поиска глобального экстремума. — М.: Наука, Физматлит, 1991. 247c.

6. Leonard G., Doddington G. TIDigits [Электронный ресурс] // Linguistic Data Consortium, Philadelphia, 1993. URL: isip.piconepress.com/ pro-jects/speech/software/tutorials/production/fundamentals/v1.0/section_02/s02_04 _p01.html (дата обращения: 23.03.2013).

7. Аграновский А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М: «Радио с связь», 2004. 162 с.

8. Wojcicki K. Add noise to a signal at a prescribed SNR level [Электронный ресурс] // URL: http://www.mathworks.com/matlabcentral/ (дата обращения: 10.10.2013)

Нгуен Чи Тхиен, асп., chithien55@tsu. tula.ru, Россия, Тула, Тульский государственный университет

PARAMETER OPTIMIZA TION OF HEURISTIC MODEL OF SPEECH SIGNALS TO IMPROVE THE RECOGNITION QUALITY

C. T. Nguyen

The parametric model of the speeoh signal as a sequence of short-term amplitude spectra is studied. A procedure for optimizing the parameters of the model of speech signals to improve the quality of their recognition is proposed. The algorithm for selecting a single set of model parameters for different conditions of application of the system of recognition is also proposed. The results of experiments are reported.

Key words: speeah signal model, speech recognition, parameters optimization.

Nguyen Chi Thien, postgraduate, chithien55@,tsu. tula. ru, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.