УДК 004.934
АЛГОРИТМ РАСПОЗНАВАНИЯ ЗАШУМЛЕННЫХ РЕЧЕВЫХ
КОМАНД НА ОСНОВЕ ПРОБНЫХ СПЕКТРАЛЬНЫХ ПРЕОБРАЗОВАНИЙ ВХОДНОГО СИГНАЛА
Ч.Т. Нгуен
Рассмотрено решение задачи распознавания речевых команд на фоне шумов. Исследован разработанный численный алгоритм распознавания. Приведены результаты экспериментов.
Ключевые слова: распознавание речевых команд, шум, многократный алгоритм.
Распознавание команд на фоне шумов. На практике результат распознавания сигналов ухудшается шумом. Обучающие речевые сигналы обычно являются незашумленными, а тестирующие речевые сигналы оказываются зашумленными. Присутствие шума приводит к сильному отклонению спектров тестирующих речевых сигналов от спектров их эталонов в обучающей выборке. Поэтому качество результата распознавания на фоне шумов резко падает [1].
В работе [1] для решения задачи распознавания речевых команд на фоне шумов предлагается усилить спектр сигналов на константу. Это означает, что значения отсчетов амплитудных спектров сигналов увеличиваются на константу. В работе [2] были предложены алгоритмы определения оптимальных констант усиления для каждого условия применения и единственной константы усиления для разных условий применения. Положительные результаты этих работ подтверждают улучшение качества распознавания с помощью усиления спектра сигналов.
При этом возникает важный вопрос о том, что надо сделать, если в нашем распоряжении нет никакой априорной информации о шуме (тип шума, уровень шума).
В этом случае предлагается пробное усиление спектра речевого сигнала в процессе распознавания.
При выполнении алгоритма распознавания речевых команд на фоне шумов в [1] речевой сигнал преобразуется с фиксированным значением константы усиления с. Такой алгоритм назовём однократным алгоритмом распознавания. Если учитывается пробное преобразование речевого сигнала в процессе распознавания, т.е. константа с может меняться, то алгоритм распознавания речевых команд на фоне шумов становится многократным. Ниже приведены шаги многократного алгоритма распознавания речевых команд на фоне шумов (МАРРКШ):
1. Построить последовательность А = (а1,а2,аз,...) кратковремен-
ных спектров [3] ai = (ak,1 £ k £ N/2) из речевого сигнала Y = (y\,...,yT).
2. Взять одно значение константы усиления c из заранее определенного диапазона [0, 0.1,..., 1.9]. Увеличить значения отсчетов амплитудных спектров на очередное значение константы c. После «усиления» кратковременного амплитудного спектра на величину c > 0 получается новая
последовательность амплитудных спектров A = {51,52,53,...}, где
ai = {~k,1 £ k £ N/2}, ak = ak + c.
3. Получить последовательность X = (xi,x2,x3,...) векторов мел-
частотныхкепстральных коэффициентов [3] xt = (xf1,1 £ m £ M) из последовательности A = {~1, a2, S3,...} кратковременных амплитудных спектров.
4. Вычислить вероятность p(X(c) 11v (c)) , последовательности X векторов мел-частотных кепстральных коэффициентов относительно каждого класса сигналов v = 1,2,..., V, где параметр 1v (c) описывает v -й класс сигналов после усиления их спектра на константу c. В базе каждый класс сигналов v = 1,..., V описывает совокупность эталонов 1v (c) с разными уровнями усиления спектров сигналов c е [0, 0.1,..., 1.9].
5. Повторить шаги 2-4 для всех значений константы c.
* *
6. Среди всех наборов (c, v) найти набор (c , v ), обеспечивающий максимальную вероятность p(X(c) 11v (c)).
*
Таким образом, соответствующим номером v класса сигналов является:
v* = arg max max p(X(c)| 1v (c)), v = 1,2,..., V.
c l
Таким образом, при выполнении алгоритма МАРРКШ подбирается некоторое значение константы усиления c из диапазона [0, 0.1,... , 1.9]. В общем случае применение какого-то значения константы усиления c из этого диапазона вовсе не означает, что мел-частотноекепстральное представление входного сигнала становится ближе к мел-частотному кепст-ральному представлению эталонных сигналов. Но, в итоге, будет выбрано такое оптимальное значение константы усиления c , которое все-таки улучшит качество распознавания входного сигнала, что и означает приближение к мел-частотномукепстральному представлению эталонных сигналов.
Исследование алгоритма распознавания команд на фоне шумов. Выполняется сравнение многократного алгоритма распознавания команд на фоне шумов МАРРКШ с однократным алгоритмом распознавания речевых команд (ОАРРК). Алгоритм ОАРРК - это вариант алгоритма
227
МАРРКШ с константой усиления с = 0.
Были проведены эксперименты на 11 речевых командах из набора данных ТЮ1§11в [4]. Набор 440 речевых сигналов из 40 дикторов случайным образом делится на две выборки (каждая выборка содержит сигналы 20 дикторов, которые произносили каждую команду один раз). Одна выборка играет роль обучающей, другая используется как тестовая выборка. Обучающая выборка используется для обучения алгоритмов МАРРКШ и ОАРРК. К тестовым речевым сигналам был искусственно добавлен шум с отношением сигнал/шум ЯЗП (дБ).
Для заданного речевого сигнала ¥ = {у1,..., Ут} и шума х = {^1,.., Хт} со значением ЯЗП зашумленный речевой сигнал У = {>!,..., Ут } образован по формуле [5]
и
ЗП 1~Т / т
у, =У, +10~ 20 Х, £ У2 £ Х2 , I = 1,..., т.
V/=1 / /=1
Рассматривается распознавание речевых сигналов, зашумленных аддитивным белым гауссовским шумом. На рис. 1 показаны аддитивный белый гауссовский шум и его амплитудный спектр.
Например, для аддитивного белого гауссовского шума с уровнем шума ЯЗП = 6,9,12,15 дБ для модели классов сигналов как двухкомпонентных случайных процессов выполняется распознавание алгоритмами МАРРКШ и ОАРРК с подсчетом числа ошибок распознавания. На рис. 2 показан результат распознавания.
Оказалось, что для аддитивного белого гауссовского шума с уровнем шума Яш = 6,9,12,15 дБ в среднем применение алгоритма МАРРКШ приводит к уменьшению числа ошибок распознавания по сравнению с применением алгоритма ОАРРК на 51.59%.
Рассматривается распознавание речевых сигналов, зашумленных реальным шумом окружения из выставочного зала [6]. На рис. 3 показаны шум окружения из выставочного зала и его амплитудный спектр.
Например, для шума окружения из выставочного зала с уровнем шума Яш = 6,9,12,15 дБ для модели классов сигналов как двухкомпонентных случайных процессов выполняется распознавание алгоритмами МАРРКШ и ОАРРК с подсчетом числа ошибок распознавания. На рис. 4 показан результат распознавания.
Оказалось, что для шума окружения из выставочного зала с уровнем шума Яш = 6,9,12,15 дБ в среднем применение алгоритма МАРРКШ приводит к уменьшению числа ошибок распознавания по сравнению с применением алгоритма ОАРРК на 31.25%.
4 2
а о
-2 -4
О 100 200 300 400 500 600
50 40 30 б 20 10 О
Рис. 1. Аддитивный белый гауссовский шум (а) и его амплитудный спектр (б)
Отношение сигнал/белый шум
Рис. 2. Число ошибок распознавания алгоритмами: 1 - ОАРРК; 2 - МАРРКШ
б
Рис. 3. Шум окружения из выставочного зала (а) и его амплитудный спектр (б)
Рис. 4. Число ошибок распознавания алгоритмами: 1 - ОАРРК; 2 - МАРРКШ
Также рассматривается распознавание речевых сигналов, зашумленных реальным шумом внутри движущегося поезда метро [6]. На рис. 5 показаны шум внутри движущегося поезда метро и его амплитудный спектр.
Рис. 5. Шум внутри движущегося поезда метро (а) и его амплитудный спектр (б)
Отношение сигнал/шум внутри движущегося поезда метро
Рис. 6. Число ошибок распознавания алгоритмами:
1 - ОАРРК; 2 - МАРРКШ
Например, для шума внутри движущегося поезда метро с уровнем шума Яш = 6,9,12,15 дБ для модели классов сигналов как двухкомпонентных случайных процессов выполняется распознавание алгоритмами МАРРКШ и ОАРРК с подсчетом числа ошибок распознавания. На рис. 6 показан результат распознавания.
Оказалось, что для шума внутри движущегося поезда метро с уровнем шума Яш = 6,9,12,15 дБ в среднем применение алгоритма МАРРКШ приводит к уменьшению числа ошибок распознавания по сравнению с
231
применением алгоритма ОАРРК на 20.68%.
Таким образом, эксперименты показывают, что алгоритм МАРРКШ эффективно улучшает качество распознавания речевых команд на фоне шумов.
Список литературы
1. Нгуен Ч.Т. Решение задачи распознавания речевых команд на фоне шумов // Известия ТулГУ. Технические науки. Вып. 11. Тула: Изд-во ТулГУ, 2013. С.241-250.
2. Нгуен Ч.Т. Оптимизация параметров эвристической модели речевых сигналов с целью улучшения качества их распознавания // Известия ТулГУ. Техническиенауки. 2014. Вып. 1. С. 44-50.
3. Benesty J. Handbook of speech processing. / J. Benesty [et al.] // Springer, 2008. 1159 p.
4. Leonard G., Doddington G. TIDigits [Электронныйресурс] // Linguistic Data Consortium, Philadelphia, 1993. URL: isip.piconepress.com/ projects/speech/software/tutorials/production/fundamentals/v1.0/section 02/s02
04 p01.html. (датаобращения: 10.05.2013).
5. Wojcicki K. Add noise to a signal at a prescribed SNR level
[Электронныйресурс] // URL: http://www.mathworks.com/matlabcentral/
(датаобращения: 10.10.2013).
6. http://labrosa.ee.columbia.edu/sounds/noise/ (дата обращения: 15.03.2014).
Нгуен Чи Тхиен, аспирант, chithien55@tsu. tula.ru, Россия, Тула, Тульский государственный университет
ALGORITHM OF RECOGNITION OF NOISY SPEECH COMMANDS BASED ON TRIAL SPECTRAL TRANSFORMATIONS OF INPUT SIGNAL
C. T. Nguyen
The problem of recognition of speech commands on the background noise is reviewed. The developed numerical algorithm of recognition is studied. The results of experiments are reported.
Key words: recognition of speech commands, noise, multiple algorithm.
Nguyen Chi Thien, postgraduate, chithien55@tsu. tula. ru, Russia, Tula, Tula State University