УДК 004.522
И. А. Карпухин1
ВКЛАД ТОЧНОСТИ РАСПОЗНАВАНИЯ ФОНЕМ В КАЧЕСТВО СИСТЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ*
В работе: исследуется зависимость качества системы автоматического распознавания русской речи от точности используемых признаковых описаний и модели их распределения. Приводится список из восьми фоном, точность распознавания которых вносит наибольший вклад в качество распознавания речи.
Ключевые слова: автоматическое распознавание: речи, акустическое моделирование.
1. Введение. На вход системе распознавания речи подается оцифрованный звуковой сигнал, содержащий фрагмент речи диктора. Система должна предоставить один или несколько вариантов произнесенного текста с указанием их вероятностей. Знание системы о распознаваемом языке содержится в речевой модели, которая отражает взаимосвязь сигнала и текста. Речевую модель принято разделять на акустическую и языковую составляющие.
Акустическая модель располагается на нижнем уровне и позволяет построить фонетическую транскрипцию сигнала. Наибольшее распространение получили системы, основанные на скрытых марковских моделях (СММ) [1, 2], которые предварительно преобразуют входной сигнал в последовательность спектральных признаков МРСС [1].
Чтобы восстановить произнесенный текст необходима языковая модель. Она содержит сведения о транскрипциях слов и допустимых грамматических конструкциях языка. Пользуясь этой информацией, система преобразует фонетическую транскрипцию в текст, попутно исправляя некоторые ошибки акустической модели.
Процесс преобразования сигнала в текст схематически представлен на рис. 1.
[ф к л' у ч и т'] -> «...включить...»
Сигнал Векторы признаков Транскрипция Текст
Рис. 1
Важно отметить, что от используемых признаков зависит весь последующий процесс распознавания речи.
Предпринимались различные попытки заменить СММ более общими моделями, например условными случайными полями [3, 4] или рекуррентными нейронными сетями [5]. В обоих случаях было показано улучшение качества классификации фонем. Однако построение соответствующих
1 Факультет ВМК МГУ, асп., e-mail: karpnhmiCSyandex.rn
* Работа поддержана грантом «УМНИК», договор № 3507ГУ1.2014.
моделей для полноценных систем распознавания речи требует значительно большего объема данных и вычислительных ресурсов. По этой причине указанные модели на сегодняшний день редко применяются на практике.
Также исследовались альтернативные признаковые описания аудиосигнала. В качестве замены MFCC рассматривались признаки PLP [6], которые однако не показали сильного прироста качества. Последнее время был получен ряд значительных результатов с применением искусственных нейронных сетей [7, 8]. Данный подход нашел применение в коммерческих разработках [9], однако исследование систем этого типа невозможно без наличия достаточного по объему корпуса речи (сотни часов размеченных аудиоданных). В свободном доступе таких корпусов нет.
В некоторых работах акустическая модель расширяется признаками, полученными из видеоданных [10, 11]. Видеопризнаки описывают движения губ, языка и челюсти диктора. Независимость изображения от аудиошума повышает устойчивость системы, однако высокая вычислительная сложность обработки видео препятствует широкому распространению данного метода.
Другой способ улучшить качество распознавания речи заключается в выборе оптимального фонемного набора [12]. Авторами был предложен способ сократить вычислительные затраты при небольшой потере точности. Также был представлен анализ похожести признаковых описаний фонем, который связан с некоторыми результатами настоящей работы.
2. Вклад точности распознавания фонем в качество распознавания речи. Большинство систем распознавания речи использует или признаки MFCC или признаки, полученные при помощи искусственных нейронных сетей. В обоих случаях выбираются достаточно общие модели, которые не учитывают особенности конкретных фонем. Разработка специальных фонетических аудио-видеопризнаков способна как повысить точность распознавания речи, так и улучшить производительность системы.
При разработке фонетических признаков возникает задача отыскания фонем, точность распознавания которых вносит наибольший вклад в качество распознавания речи.
Чтобы не усложнять дальнейшие рассуждения, рассмотрим задачу распознавания изолированных слов. В данном случае языковая модель — это словарь транскрипций, не учитывающий грамматических особенностей языка. Пусть входной сигнал представлен последовательностью векторов признаков {vj}. При использовании СММ распознавание слова выполняется по следующей формуле:
w = argmax max TT Р^щ-^Р^рг), (1)
где I(w) — все возможные последовательности скрытых состояний, которыми может быть представлена транскрипция слова w, a P{npi\(pi-i) — вероятности переходов, используемые в СММ, причем Р(ир 1, (р0) задает начальное распределение вероятностей состояний. От используемых признаковых описаний зависит величина P(vi\cpi), которая задает соответствие вектора признаков v^ и фонемы (pi. Чем лучше подобран набор признаков, тем больше эта величина для реально звучащей фонемы и меньше для всех остальных. Пусть для каждого вектора признаков v^ известна соответствующая фонема Ii. Тогда изменение точности признакового описания фонемы (р можно задать следующей формулой
= (2)
Зная частоты слов P(w), можно выразить зависимость качества распознавания речи от улучшения точности распознавания фонемы ср:
Pr(cctfi) = P(w)P(w = w) =
w
= VP(ffl)P w = argmax max TT P(vi\vi-i)P(vi\(pi)attVi=li=v) ) . (3) V w' tei(w') J-4-. * J
w 4 <pi et 7
Далее будут получены оценки этой зависимости для различных фонем. Но сначала нужно сделать еще одно замечание.
Величина Рг соответствует 1 — WER, где WER (Word Error Rate) — доля неверно распознанных слов. Функционал 1 — WER получил широкое распространение в англоязычной литературе,
но он плохо оценивает качество распознавания русской речи. Это вызвано особенностями словообразования. Так, слова отличающиеся лишь окончанием, будут признаны совершенно различными. По этой причине вместо Р(го = го) в формуле (3) использовалась величина фонетической близости Е(8(w,w)), задаваемая математическим ожиданием расстояния Левенштейна 8 между фонетическими транскрипциями слов.
3. Описание используемых инструментов и речевых корпусов. Необходимым элементом системы распознавания речи является словарь транскрипций. Для исследований использовался словарь, распространяемый вместе с моделью русского языка CMU Sphinx. Этот словарь использует набор из 50 фонем, в число которых входят ударные и мягкие звуки. Транскрипции недостающих слов были автоматически сгенерированы программой eSpeak.
В качестве системы распознавания речи был выбран инструментарий НТК (Hidden Markov Model Toolkit). К числу основных достоинств НТК можно отнести наличие эффективных реализаций СММ и признаков MFCC, а также подробную документацию.
Для построения модели речи средствами НТК использовались речевые корпуса Isabase и Voxforge. Корпус Isabase [13] был собран в рамках совместного проекта Института системного анализа РАН и филологического факультета МГУ и содержит 5 часов профессионально записанной речи дикторов. Важной особенностью Isabase является наличие фонетической разметки записей, что делает ее незаменимой при исследовании признаковых распределений отдельных фонем. Также Isabase использовалась для первичной настройки параметров речевой модели. Дальнейшая дооценка проводилась с использованием свободно распространяемой базы Voxforge, которая значительно уступает в качестве Isabase, но содержит 17 часов непрерывно звучащей русской речи.
При анализе частот использовался частотный словарь словоформ С. А. Шарова [14].
4. Построение множества фонем, вносящих наибольший вклад в качество распознавания речи.
4.1. Эмпирическая оценка улучшения точности распознавания. Оценим эмпирически вклад точности классификации фонемы в качество распознавания речи. Для этого необходима фонетическая разметка входных данных, пользуясь которой можно искусственно повысить или понизить точность распознавания некоторой фонемы. Соответствующая разметка содержится в речевом корпусе Isabase. Эксперименты проводились на описанной выше эталонной системе, основанной на НТК, которая была дополнена механизмами анализа фонетической разметки и повышения точности распознавания заданных фонем в соответствии с (2).
Инструментарий НТК использует смесь гауссианов Gv для моделирования распределения признаков каждой фонемы. Вес фонемы для заданного вектора признаков задается плотностью распределения. Модифицированный вес по аналогии с (2) вычисляется следующим образом:
P(vi\<P) = »Iviv=li)Gv>(vi), (4)
где I — индикатор совпадения рассматриваемой фонемы с фонемой, представленной вектором признаков. Таким образом, увеличивая параметр а^, мы повышаем точность распознавания фонемы if. Наиболее интересным представляется случай бесконечно большого а^,, когда достигается максимальная точность распознавания фонемы. На рис. 2 представлены величины качества распознавания речи с безошибочной классификацией фонем.
Безошибочная классификация всех фонем дает 95.6% точности. Здесь и далее символами «ъ» и «ь» будем обозначать слабые безударные звуки «а» и «о» (обозначения заимствованы из речевого корпуса Isabase). Полученные результаты являются ответом на поставленный вопрос о вкладе фонем в качество распознавания речи, однако используемый метод оценки сильно зависит от эталонной системы и тестовой базы. Состав словаря и качество модели могут значительно изменяться в приложениях. По этой причине интересно глубже разобраться в составляющих качества распознавания речи. Некоторые результаты по этому вопросу представлены далее.
4.2. Частота. Оценим вероятность произношения фонемы (р в момент времени t. Сначала заметим, что вероятность произношения в момент t слова w пропорциональна его частоте и дли-
Рис. 2
тельности:
, . _ Prcq(io) Dur (го)
Y, Prcq(«;) Dur(io) '
w
Если известно, что в момент t произносится слово го, то вероятность появления фонемы ср равна ее относительной длительности внутри слова. Отсюда можно выразить частоту фонемы:
Y Num,i:(9?) Dur(iyp) Prcq(io) F, = ÇPHP(^) = EPrcq(u;)Dur(u;)-:
w
где Num,i:(9p) число вхождений фонемы ср в транскрипцию слова го. Функционал Fv характеризует число вхождений прибавки точности фонемной модели av в формулу качества (3). Наиболее частотные фонемы представлены на рис. 3.
Рис. 3
Полученное множество фонем на 90% согласуется с результатами безошибочной классификации. Таким образом мы получили близкий к эмпирическому результат, используя только словари частот слов и транскрипций. Примечательно, что функционал частоты не зависит от используемой системы распознавания речи и текущей точности классификации фонем. Аналогичные результаты нетрудно получить для произвольной задачи распознавания речи с заданной языковой граммати-
4.3. Точность классификации. При получении эмпирических результатов мы могли свободно изменять качество фонетической модели. На практике оказывается трудно улучшить модели фонем из некоторых классов. К первому классу относятся редуцированные звуки «ь» и «ъ». Они обладают малой длительностью и сильно зависят от контекста употребления. Большое количество вариантов произношения ведет к низким весам данных фонем при оценке плотности распределения
в генеративных моделях, в том числе СММ. Ко второму классу относятся фонемы, которые уже обладают относительно высокой точностью классификации. В этом случае качество распознавания фонемы значительно зависит от моделей других фонем, т.е. от величины спутывания [12]. Точность классификации рассмотренных ранее фонем представлена на рис. 4.
н —
н — —
ЕГ
cd
§ °-4 г
■е- 1—1
н Я — —
^ —
о cd Ч И
л 0.2
н —
о о и
F
о н
0 -!—1—!—1—!—1—!—1—!—1—!—1—!—1—!—1—!—1—!—1—■
ейаъёратоин
Рис. 4
При разработке новых признаков полезно ориентироваться на фонемы, которые хуже всего распознаются в исходной системе. Помимо редуцированной гласной «ъ» наименьшей точностью классификации обладает фонема «и». Эта фонема имеет наибольший потенциал в смысле улучшения качества модели. С другой стороны фонемы «с», «р» и «а» классифицируются лучше других и, как было отмечено ранее, не представляют особого интереса в задаче улучшения качества модели.
4.4. Перплексия. Точность классификации фонемы зависит как от используемых признаков, так и от возможности приблизить их распределение смесью гауссианов. Для того, чтобы разграничить влияние этих факторов, рассмотрим величину перплексии для различных фонем. Перплексия модели распределения задается формулой
Pxv =2
-iE iog2P(^)
(5)
где Vi последовательно принимает значения векторов признаков фонемы ср из тестовой выборки. Чем меньше значение Pxv , тем лучше смесь гауссианов приближает распределение векторов признаков фонемы (р. Максимум Pxv достигается на фонеме «ф!», ) = 68.4, а минимум на «гц», кщ(Рхщ ) = 52.6. Значения логарифма перплексии относительно медианы med для рассмотренных ранее фонем представлены на рис. 5.
Рис. 5
Видно, что распределение признаков согласных «т» и «н» моделируется не хуже, чем для большинства фонем. Повысить точность распознавания в данном случае можно за счет использования
новых признаковых описаний. Для гласных смеси гауссианов оказывается недостаточно. Улучшить качество распознавания гласных можно как расширением признаковых описаний, так и использованием более сложных моделей распределения, например, основанных на искусственных нейронных сетях.
5. Обобщение результатов и выводы. При использовании систем распознавания слитной речи и систем распознавания со сверхбольшим словарем наибольшего вклада в качество следует ожидать от повышения точности классификации фонем, обладающих наибольшим вкладом в качество эталонной системы:
йаъератоин.
Данное множество зависит от используемой модели и алгоритмов. По этой причине полезно также ориентироваться на фонемы, максимизирующие функционал частоты и обладающие невысокой точностью классификации. К числу таких фонем относятся следующие:
йаеатоин.
Приведенное множество похоже на предыдущее, но не зависит от СММ и языковой модели. Отсюда видно, что большую трудность при распознавании речи составляют ударные гласные. Точность их классификации можно улучшить за счет добавления признаков, учитывающих энергию аудиосигнала. Добавление признаков, объединяющих информацию из нескольких последовательно идущих векторов MFCC может оказаться полезным при распознавании согласных «т» и «н», которые обладают малой длительностью.
Смесь гауссианов моделирует признаки гласных заметно хуже, чем признаки согласных. Для улучшения качества распознавания гласных полезно использовать более сложные модели, такие, как искусственные нейронные сети, либо расширять набор используемых признаков.
Особого внимания заслуживают видеопризнаки. Основные различия артикуляции гласных заключаются в положении губ. Информация о движениях языка и челюсти (расстояние между верхними и нижними зубами) гипотетически способна повысить точность распознавания таких согласных, как «н», «т» и «с».
Точность распознавания эталонной системы составляет 77.6%. При безошибочной классификации всех 50-и фонем эта цифра возрастает до 95.6%, а при безошибочной классификации указанных фонем — до 88.2%. Таким образом, повышение точности распознавания указанных 8-и фонем может сократить потерю точности на 59%.
Результаты работы предполагается использовать при разработке новых признаковых описаний входного аудио-видеосигнала.
СПИСОК ЛИТЕРАТУРЫ
1. Gales М., Young S. The application of hidden Markov models in speech recognition // Foundations and Trends in Signal Processing. 2008. 1. N 3. P. 195-304.
2. Nilsson M., Ejnarsson M. Speech recognition using hidden Markov model. Karlskrona: Kaserntryck-eriet AB, 2002.
3. Gunawardana A., Mahajan M., Acero A., et al. Hidden conditional random fields for phone classification // Proceedings of the 9th European Conference on Speech Communication and Technology. Bonn: ISC A, 2005. P. 1117-1120.
4. Hifny Y., Renals S. Speech recognition using augmented conditional random fields//IEEE Transactions on Audio, Speech, and Language Processing, 2009. 17. N 2. P. 354-365.
5. Graves A., Mohamed A., Hinton G. Speech recognition with deep recurrent neural networks // Proceedings of International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2013. P. 6645-6649.
6. Hermansky H. Perceptual linear predictive (PLP) analysis of speech //J. Acoustical Society of America. 1990. 87. N 4. P. 1738-1752.
7. Hinton G., Deng L, Yu D., et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups // Signal Processing Magazine. 2012. 29. N 6. P. 82-97.
8. Seltzer M. L., YuD., Wang Y. An investigation of deep neural networks for noise robust speech recognition // Proceedings of International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2013. P. 7398-7402.
9. URL: http://habrahabr.ru/company/yandex/blog/198556/
Ю.Карпов А. А., Ронжин А. Л., Ли И.В. и др. Речевые технологии в многомодальных интерфейсах // Труды СПИИРАН. 2004. 1. № 2. С. 183-193.
11. Kolossa D., Zeiler S., Vorwerk A., et al. Audiovisual speech recognition with missing or unreliable data // Proceedings of International Conference on Auditory-Visual Speech Processing. Rocquencourt: Inria, 2009. P. 117-122.
12. Важенина Д. А., Кипяткова И. С., Марков К. П. и др. Методика выбора фонемного набора для автоматического распознавания русской речи // Труды СПИИРАН. 2014. 5. № 36. С. 92-113.
13. Кривнова О.Ф. Речевые корпуса на новом технологическом витке // Речевые Технологии. 2008. № 2. С. 13-23.
14. URL: http://www.artint.ru/projects/frqlist.php
Поступила в редакцию 02.09.15
CONTRIBUTION OF PHONE RECOGNITION PRECISION TO AUTOMATIC SPEECH RECOGNITION QUALITY FOR RUSSIAN LANGUAGE
Karpukhin I. A.
Components of automatic speech recognition quality are examined. Different estimations of phone model contribution to quality are presented and discussed. Phone model include feature set and its probablistic model according to HMM. Set of eight most influential phone models is presented for Russian language.
Keywords: automatic speech recognition, acoustic modeling.