УДК 004.934
РЕШЕНИЕ ЗАДАЧИ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД
Ч.Т. Нгуен
Приведена постановка задачи идентификации моделиречеобразования с целью адекватного восприятия. Исследовано решение задачи распознавания речевых команд как задачи идентификации модели речеобразования с целью адекватного восприятия. Представлены две схемы подстройки под диктора для улучшения распознавания речевых сигналов. Приведены результаты экспериментов с предложенными схемами подстройки.
Ключевые слова: мел-частотные кепстральные коэффициенты, распознавание речи, подстройка под диктора.
Постановка задачи идентификации модели порождения речи с целью адекватного восприятия. Большое разнообразие задач обработки речевого сигнала, а также большая его вариабельность и нестабильность результатов обработки в целом требуют новой постановки задачи обработки в данной области. В данной задаче следует обобщить уже имеющийся опыт обработки речевых сигналов с целью увеличения качества их обработки. Назовём такую задачу задачей идентификации модели порождения речи с целью адекватного восприятия.
Задачу идентификации модели порождения речи с целью адекватного восприятия, по мнению авторов следует решать в три этапа.
Шаг 1 - идентификация. Предполагается, что речевой сигнал порожден в соответствии с некоторой известной моделью речеобразования. Предположив, что эта модель параметрическая, следует оценить значения его параметров для заданного речевого сигнала.
Шаг 2 - генерация. Если модель речевого сигнала идентифицирована, то предполагается, что имеется механизм генерации, позволяющий воспроизвести соответствующий речевой сигнал. В этом случае можно варьировать параметры модели, добиваясь изменения результирующего речевого сигнала.
Шаг 3 - адекватное восприятие. Предполагается, что речевой сигнал воспринимается и интерпретируется. Будем считать, что в роли воспринимающего и интерпретирующего устройства выступает человек или группа лиц (испытуемых). Кроме того, в этой роли может быть использована и соответствующая техническая система. Будем считать, что восприятие речевого сигнала является адекватным, если его смысл распознается испытуемыми (и/или технической системой).
Легко заметить, что задача идентификации модели порождения речи с целью адекватного восприятия обладает многими общими чертами с другими задачами речевой технологии: кодированием речи на первом эта-
пе, параметрическим синтезом речи на втором этапе, распознаванием речи на третьем этапе.
Таким образом, этапы решения данной задачи означают выполнение вполне определенной обобщенной “процедуры” обработки, шаги которой определены рассмотренными выше этапами.
Если сгенерированный речевой сигнал адекватно воспринимается, то процедура заканчивается. В противном случае она возвращается ко второму шагу с другим набором параметров модели.
Решение задачи распознавания речевых команд как задачи идентификации модели речеобразования с целью адекватного восприятия. Автоматические системы распознавания речи по признаку множества дикторов для устойчивого распознавания подразделяют на зависимые от индивидуальности голоса диктора (дикторозависимые) и независимые (дикторонезависимые). Термин «дикторонезависимость» означает, что точность для определенного пользователя близка к средней точности, взятой по всем возможным дикторам. Но создание по-настоящему дикторонезависимой системы - очень трудоемкая задача, так как необходимо большое количество обучающих данных. На текущем этапе развития систем распознавания речи частота появления ошибок в дикторонезависимых системах в 3-5 раз больше, чем в дикторозависимых. При этом дикторозависимая система будет распознавать слова с точностью распознавания слов «своего» пользователя (человека, который обучал эту систему), которая будет выше, чем точность, взятая по «чужим» пользователям. Поэтому для улучшения качества распознавания речевых команд в случае «чужого» пользователя предлагается преобразование речевых сигналов «чужого» пользователя к речевым сигналам «своего» пользователя перед тем, как подать сигнал на вход алгоритма распознавания. Такая идея встречается в
[1], где преобразование и распознавание выполняются с помощью функций расстояния. В данной работе преобразование речевых сигналов и их распознавание реализованы с помощью функций правдоподобия. Ниже представлены две схемы подстройки под диктора для улучшения распознавания их речевых сигналов.
Первая схема. Пусть сигнал У = (У1,У2,...,Ут) означает произношение какой-то речевой команды. Значение Т целое, положительное. Множество разных произношений одной и той же команды назовём классом. Пусть применяются К речевых команд, т.е. К классов сигналов
7 = 1,2,...,К. Пусть речевой сигнал У произносится каким-то «чужим»
пользователем, отличающимся от «своего» пользователя. Необходимо принять решение о том, к какому классу относится речевой сигнал У . Для построения решающего правила задаются речевые сигналы «своего» пользователя с указанием класса.
Таким образом, задача может решаться следующим «алгоритмом»
(схема 1).
Шаг 1 - Идентификация. Речевой сигнал сам по себе характеризуется большой изменчивостью. На практике речевой сигнал представляется более стабильной характеристикой (последовательностью векторов признаков) для улучшения качества его классификации. Признаки бывают разные. Наиболее популярными признаками являются мел-частотные кеп-стральные коэффициенты [2]. Последовательность векторов признаков обозначается X = (xi,x2,...,xt), где x - вектор признаков. В общем случае длина последовательности векторов признаков не равна длине речевого сигнала t Ф T. Будем считать сигнал X моделью речевого сигнала Y «чужого» пользователя.
Шаг 2 - Генерация. Считая модель X параметрической X = X(а), варьируем её, используя параметрическое семейство функций ф(X, а) для
разных значений параметра а е R. Получим новую модель X(a) = ф(X,а).
Шаг 3 - Адекватное восприятие. В роли воспринимающей и интерпретирующей использована система распознавания речевых команд с решающим правилом, которое построено на речевых сигналах «своего» пользователя.
Рассмотрим байесовский классификатор с решающим правилом
вида
Pj = argmaxp(X | j)p(j), j = 1,2,...,K.
j
Пусть априорные вероятности классов p(j) равны для всех j = 1,2,...,K. Тогда решающее правило упрощается:
Pj = argmax p(X | j), j = 1,2,...,K. j
Для оценки плотностей распределения p(X | j) используется речевые сигналы «своего» пользователя с указанием класса [3].
Так как на шагах 1 и 2 (идентификации и генерации) получена модель X~ (а) исходного речевого сигнала Y , то решающее правило принимает следующий вид
pj = argmaxp(X(a) | j), j = 1,2,...,K. j
Для представленной задачи понятие адекватного восприятия конкретизируется следующим образом. Оценим качество восприятия вероятностью maxp(Х(а) | j), j = 1,2,...,K. Восприятие адекватно, когда оценка j
max p(-~<а)|Л j=1,2,...,k достигает максимума для некоторого значения j
а є Я: шахтах р( / = 1,2,..., К, а є Я.
а j
Если речевой сигнал адекватно воспринимается, алгоритм заканчивается. В противном случае он возвращается к шагу 2 с другим параметром
а. Окончательное решение имеет вид
р / = а^шахшах Р(-~<а)ІЛ / = 1,2,...,К, ає Я.
а j
Рассмотрим задачу идентификации модели X как последовательности векторов мел-частотных кепстральных коэффициентов сигнала У. Мел-частотные кепстральные коэффициенты основаны на двух ключевых понятиях: кепстр и мел-шкала. Кепстр (серБІхиш) - это результат дискретного косинусного преобразования от логарифма амплитудного спектра сигнала У в некотором окне. Мел-шкала моделирует частотную чувствительность человеческого слуха. Специалистами по психоакустике было установлено, что изменение частоты в два раза в диапазоне низких и высоких частот человек воспринимает по-разному. В частотной полосе до 1000 Гц субъективное восприятие удвоения частоты совпадает с реальным увеличением частоты в два раза, поэтому до 1000 Г ц мел-шкала близка к линейной. Для частот выше 1000 Гц мел-шкала является логарифмической. Перевод из шкалы герц в мел-шкалу происходит по формуле
fмеі = 11271п(1 + ^н_). Мел-частотные кепстральные коэффициенты х -
это значения кепстра, распределенные по Мел-шкале [2].
Считается, что для характеристики звуков речи достаточно выделения трех формант - БІ, БІІ, БІІІ, которые нумеруются в порядке возрастания их частоты. Форманта является достаточно отчетливо выделяющейся областью усиленных частот, определяемой по усредненной частоте в амплитудном спектре звука (рис.1). Среднее расстояние между формантами зависит от характеристики голоса говорящего (расстояние для женских несколько больше, чем для мужских) [4]. Таким образом, функция преобразования ф(X,а) доступна нам в виде функции ф(А,а), где А -амплитудный спектр, являющийся промежуточным значением в процессе извлечения модели X от исходного сигнала У.
Желательно, чтобы амплитудный спектр расширялся, если а < 1, и сжимался, если а > 1. Напомним, что амплитудный спектр является функцией от угловой частоты А = Х(ш), где нормированная частота шє [0,р]
[2]. Эффект расширения (сжатия) спектра может быть достигнут путём простого искажения оси частот ш~ = аш. Расширенный (сжатый) спектр определяется выражением А = £,(й). Тогда новая частота ш принимает значения в диапазоне от 0 до ар. С целью устранения этого недостатка будем искажать ось частот таким образом:
ю = <
аю, (О< Ь,
, р- аЬ . ,. ,
аЬ +-------(о-Ь), ю > Ь,
р - Ь
где Ь - дополнительный параметр. Параметр Ь должен удовлетворять условиям
0 < Ь < р при а < 1,
0 < Ь < — при а > 1. а
(1)
Рис. 1. Амплитудный спектр для различных значений а
Диапазон значений параметра Ь показан на рис. 2. В данной работе
выберем значение параметра Ь = —, если а < 1, и Ь = —, если а > 1, учи-
8 8а
тывая условие (1). Выбор таких значений параметра Ь обусловлен необходимостью изменить спектр распределения основных формант, не обращая внимания на остальную часть спектра речевого сигнала в диапазоне нормированной частоты ю от 0 до р.
Рис. 2. Функция искажения оси частот с учётом параметра а: Ь1 - значение параметра Ь при а > 1, Ь2 - при а < 1
Учитывая распределение формант голосов людей [5], невозможно расширять (сжимать) амплитудный спектр больше чем в 2 раза. Поэтому можно подобрать значение параметра а в диапазоне от 0,5 до 2.
Вторая схема. В первой схеме требуется при появлении очередного речевого сигнала Yj,i = 1,2,..., определить его принадлежность к одному из
классов j = 1,...,K. Во второй схеме предположим, что наблюдаются N речевых сигналов, произнесенных только одним «чужим» пользователем (не важно каким). Необходимо классифицировать эти сигналы.
Задача может решаться по следующему «алгоритму» (схема 2).
Шаг 1 - Идентификация. Получаем модели Xj,i = 1,2,...,N речевых
сигналов Yj,i = 1,2,...,N «чужого» пользователя.
Шаг 2 - Генерация. Варьируем модели Xj, i = 1,2,..., N, используя параметрическое семейство функций ф(X, а) для разных значений параметра а е R. Получим новые модели Х(а =f(Xi, a), i = 1,2,..., N, а е R.
Шаг 3 - Адекватное восприятие. В роли воспринимающей и интерпретирующей использована система распознавания речевых команд с решающим правилом, которое построено на речевых сигналах «своего» пользователя.
Для представленной задачи понятие адекватного восприятия конкретизируется следующим образом. Оценим качество восприятия суммой
N ~(а)
вероятностей ^maxp(Xiа) | j), j = 1,2,...,K. Восприятие адекватно, когда i=1 j N ~(a)
оценка ^maxp(X(a) | j), j = 1,2,...,K достигает максимума для некоторо-i=1 j
N ~(a)
го значения ае R: max ^maxp(X> ’ | j), j = 1,2,...,K, ае R.
a i=1 j
Если речевые сигналы адекватно воспринимаются, алгоритм заканчивается. В противном случае он возвращается к шагу 2 с другим параметром а. Для оптимизации функции качества восприятия от параметра а используется метод «золотого сечения» [6]:
N )
Pj = argmax ^maxp(X>a) | j), j = 1,2,...,K, ае R. а i=1 j
Окончательное решение имеет вид
pj = argmaxpiX^ | j) j = 1,2,...,K, i = 1,2,...,N. j
Эксперименты. Были проведены сто экспериментов на речевых сигналах из базы данных в публичном доступе TIDigits 1.0 [7]. Сначала был рассмотрен один женский голос как голос «своего» пользователя, на
181
речевых сигналах которого построена дикторозависимая система распознавания речи с решающим правилом классификации 11 речевых команд (будем называть такую систему обработки стандартной схемой). Один «чужой» пользователь произносил 11 речевых команд по 2 раза. Полученные речевые сигналы этого «чужого» пользователя были классифицированы, используя стандартную схему. Далее эти сигналы были преобразованы и классифицированы по схеме 1 и схеме 2. Принятый класс каждого речевого сигнала по каждой схеме сравнивался с его истинным классом. Для каждой схемы была определена частота правильного распознавания
N - МГ м *
V =------—, где N - общее число произнесенных речевых команд;
N
Иг - число ошибочно распознанных.
Такие эксперименты были проведены с другими «чужими» пользователями. Группа из 50 пользователей (25 мужчин, 25 женщин) играет роль чужого пользователя. Результаты экспериментов показаны на рис. 3.
Остальные 50 экспериментов были проведены как первые 50 экспериментов за исключением того, что роль «своего» пользователя играл один мужской голос. Результаты экспериментов показаны на рис. 4.
Проверялось предположение, что предложенные схемы улучшают результат распознавания по сравнению со стандартной схемой. Для проверки был использован критерий среднего арифметического V частот правильного распознавания V по экспериментам.
По результатам 100 экспериментов оказалось:
- для стандартной схемы V = 0,5755;
- для схемы 1 V = 0,6964;
- для схемы 2 V = 0,7510.
Следовательно, можно утверждать, что схемы 1 и 2 улучшают результат распознавания. Было замечено, что качество распознавания зависит от различия или совпадения полов своего и чужого пользователей.
По результатам 50 экспериментов, где пол своего пользователя отличается от пола чужого пользователя, оказалось:
- для стандартной схемы V = 0,5309;
- для схемы 1 V = 0,69;
- для схемы 2 V = 0,7465.
По результатам 50 экспериментов, где пол своего пользователя совпадает с полом чужого пользователя, оказалось:
- для стандартной схемы V = 0,62;
- для схемы 1 V = 0,7027;
- для схемы 2 V = 0,7555.
Для стандартной схемы значение V в случаях совпадения полов значительно лучше, чем в случаях различия полов (0,62- 0,5309 = 0,0891).
В предложенных схемах эти значения приблизительно равны (0,6900»0,7027 и 0,7464»0,7555). Поэтому можно утверждать, что использование предложенных схем устраняет влияние пола на результат распознавания.
15 20 25 30 35
Порядковый номер эксперимента
Рис. 3. Результаты экспериментов, где «свой» пользователь - женщина:
1- по стандартной схеме; 2- по схеме 1; 3- по схеме 2
65 70 75 80 85
Порядковый номер эксперимента
Рис. 4. Результаты экспериментов, где «свой» пользователь - мужчина
Заключение. В работе предложены две схемы подстройки под диктора для улучшения качества распознавания их речевых сигналов. Эксперименты подтверждают улучшение качества распознавания. При этом достигается эффект устранения влияния пола диктора на результат распо-
7578787878757588787878787575757878787878757575787862628888888778876288888878407878888888787878
знавания. Тем не менее, средняя частота правильного распознавания всё ещё далёка от удовлетворительной для практических систем распознавания речевых команд (требуется больше 95 %). Для повышения качества распознавания требуется предложить более сложную функцию преобразования речевого сигнала.
Список литературы
1. Загоруйко Н.Г., Лозовский В.С. Подстройка под диктора при распознавании ограниченного набора устных команд // Сборник трудов Института математики СО АН СССР. № 28. 1967.
2. Benesty J. Handbook of speech processing / J. Benesty [et al.] // Springer. 2008.
3. Аграновский А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М.: Изд-во «Радио и связь», 2004. 162 с.
4. Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М.: Изд-во РГГУ, 2001. 592с.
5. Acoustic characteristics of American English vowels / J. Hillenbrand [et al.] // The Journal of the Acoustical Society of America. 97(5). 1995. P. 3099
- 3111.
6. Мэтьюз Д.Г. Численные методы. Использование MATLAB, 3-е издание / пер. с англ. М.: Изд-во «Вильямс», 2001. 720 с.
7. Leonard G., Doddington G. TIDigits [Электронный ресурс] // Linguistic Data Consortium, Philadelphia, 1993. URL: isip.piconepress.com/ projects/speech/software/tutorials/production/fundamentals/v1.0/section_02/s02 _04_p01.html (дата обращения: 23.03.2013).
Нгуен Чи Тхиен, асп., chithien55@tsu. tula.ru, Россия, Тула, Тульский государственный университет
SOL VING THE PROBLEM OF RECOGNITION OF SPEECH COMMANDS
C. T. Nguyen
The formulation of the problem of identification of the speech generating model for adequate perception is presented. Solving the problem of recognition of speech commands as a problem of identifying the model of speech generating for adequate perception is investigated. Two speaker adjustment schemes to improve the recognition is proposed. The result of the experiments with the proposed adjustment schemes is reported.
Key words: Mel-frequency cepstral coefficients, speech recognition, speaker adjustment.
Nguyen Chi Thien, postgraduate, chithien55@tsu. tula.ru, Russia, Tula, Tula State University