УДК 004.934
метод фонетического декодирования слов в информационной метрике кульбака - лейблера для систем автоматического анализа и распознавания речи с повышенным быстродействием
В. В. Савченко,
доктор техн. наук, профессор
Нижегородский государственный лингвистический университет А. В. Савченко, канд. техн. наук
Национальный исследовательский университет Высшая школа экономики, г. Нижний Новгород
Предложена новая разновидность метода фонетического декодирования слов в расчете на ограниченное множество минимальных звуковых единиц типа отдельных фонем как альтернатива большинству известных методов распознавания речи, основанных на скрытых марковских моделях речевых сигналов. В ее основе используется идея многократного (на порядок и более) сжатия данных за счет того, что слова и фразы из словаря отображаются на последовательность фонетических кодов. Достигаемый эффект, подтвержденный результатами экспериментальных исследований, состоит в увеличении скорости автоматической обработки речевого сигнала при сохранении достаточной точности и надежности распознавания речи.
Ключевые слова — автоматическое распознавание речи, распознавание образов, распознавание с обучением, критерий минимума информационного рассогласования.
Введение
Метод фонетического декодирования слов (МФДС) предложен в работах [1, 2] со ссылкой на новый математический аппарат информационной теории восприятия речи [3] как альтернатива большинству известных методов [4-6] автоматического распознавания речи (АРР) [7] с точки зрения вычислительных затрат на реализацию в режиме реального времени. Канонический подход к АРР основывается, как известно [7-13], на аппарате скрытых марковских моделей речевого сигнала [14] и поэтому неразрывно связан с многозатратной процедурой динамического выравнивания слов по темпу речи диктора. Неудивительно поэтому, что вопросу об увеличении скорости вычислений уделяется в настоящее время все большее внимание. Действительно, в тех случаях, когда объем рабочего словаря составляет несколько тысяч единиц, большинство известных алгоритмов, работающих на основе сегмен-
тирования слов на отдельные фонемы и их последующего выравнивания по динамике, для реализации в режиме реального времени требуют мощности, значительно превосходящей возможности современного персонального компьютера и тем более сотового телефона. В результате точная реализация классического подхода стала возможной лишь в проектах таких крупнейших корпораций, как Microsoft [4], Google [5], Apple [15] и Nuance Comminications [6]. При этом для распознавания в режиме реального времени и малопроизводительного оборудования используются облачные вычисления и технология клиент-сервер. К сожалению, клиент-серверный подход является недостаточно гибким: невозможна настройка системы на конкретную группу дикторов, рабочий словарь жестко фиксируется, работа системы требует подключения клиента к сети Internet, отсутствуют гарантии конфиденциальности.
Метод фонетического декодирования слов в своей первоначальной формулировке [1] также
использовал данную процедуру, хотя и в существенно более сжатом виде, рассчитанном на ограниченный объем R фонетической базы данных национального языка. Принцип действия предложенной ниже новой разновидности МФДС усилил эти различия: динамическое выравнивание слов в данном случае не предусматривается в принципе. В итоге вычислительные затраты на реализацию метода сократились на порядок и более, пропорционально повысилось его быстродействие в режиме реального времени. Исследованиям в этом актуальном направлении АРР и посвящена предлагаемая статья. Полученные результаты и сделанные по ним выводы рассчитаны на широкий круг специалистов в области современных речевых технологий, знакомых с основными положениями и терминологией информационной теории восприятия речи.
Фонетическая транскрипция речи
В большинстве известных методов АРР [7, 16] на первом этапе обычно выполняется автоматическое распознавание минимальных речевых единиц типа отдельных фонем. Пусть задан некоторый фонетический алфавит jx* }, r = 1, R, где R —
количество фонем в алфавите. Задача состоит в том [16], чтобы поступившему на вход речевому сигналу X с частотой дискретизации F (в герцах) поставить в соответствие последовательность содержащихся в нем фонем {хГ }.
Для решения задачи на первом этапе сигнал X разбивается на непересекающиеся сегменты jx(t)}, t = 1, T, длиной т = 0,01 - 0,015 с, где T — общее число сегментов. Далее каждый парциальный сигнал x(t) = ||^1(t) ... xM(t)|| (здесь M = tF) рассматривается в пределах конечного списка фонем
{хГ } и отождествляется с той из них, которая отвечает принципу минимума величины заданной исследователем меры близости между сигналом x(t) и эталоном xr. Для выбора меры близости воспользуемся широко использующейся в автоматической обработке речи [17] авторегрессионной (АР) моделью речевого сигнала на интервалах его квазистационарности т = const. Известно, что в этом случае при предположении о гауссовом распределении сигнала x(t) оптимальное в байесовском смысле решение дает принцип минимума информационного рассогласования (МИР) Куль-бака — Лейблера [18]
F
1 F
v(t) = ai-gmin - y
rejl,..., Rj Ff=1
Gx (f) _ln Gf
Gr (f) Gr (f)
_1
(1)
Здесь Gx(f) — выборочная оценка спектральной плотности мощности (СПМ) сигнала х(£) в функ-
ции дискретной частоты f, а Gr(f) — СПМ эталона г-й фонемы хг. Если воспользоваться АР-моделью речевого сигнала, то отношение СПМ в (1) приобретает вид [19]
2
Р
1+ У аг,т ехР(-/рт//F)
т=1
Gx (f). Gr (f)
(2)
1 + ^ ах, т ехр(-/лт/ / F)
т=1
Здесь ]' = >/—1 — мнимая единица, а {ах, т }, т = 1, р — оценка АР-коэффициентов сигнала х(£).
Важнейшее достоинство АР-модели в задачах АРР [17] — это возможность нормировки речевых сигналов по дисперсии порождающих процессов: ст0 = стХ, где стх — выборочная оценка дисперсии порождающего процесса х(£). В работе [20] показано, что при учете этого асимптотически оптимальное решение (1) эквивалентно адаптивному критерию
v(t) = argmin — rejl,..., Rj 2
s2r (x)
s0
_1
(З)
Здесь стг (х) — выборочная оценка дисперсии отклика г-го обеляющего фильтра
Уг(0 = |уг, 1(0 ... Уг, М -р(#)|1, где р — порядок АР-модели, а
уг, / (^) х/+р (^) У у аг, тх/+р—т (^), / 1, М р. (4)
т=1
Каждый эталон из фонетической базы данных хг задается своим вектором АР-коэффициентов аг = {аг, т }, т = 1, р, полученным, например, с помощью алгоритма Берга и рекурсивной процедуры Левинсона — Дурбина [19].
Фонетическая транскрипция речевого сигнала сводится, как видим, к его АР-анализу. Подобные задачи обычно решаются [17, 19] с применением рекуррентных вычислительных процедур, обладающих высокой скоростью сходимости. При этом обработка речевого сигнала ведется здесь в Я параллельных каналах с использованием набора обеляющих фильтров (3), (4), каждый из которых настроен на соответствующий эталон минимальной звуковой единицы хг. Решение принимается с периодом т в пользу одной из возможных фонем по критерию МИР (1) или (3). В результате исходный речевой сигнал х = х(1), I = = 1, 2, ..., L, где L = Тс/т, на интервале его действия Тс преобразуется системой АРР в последовательность фонетических символов или букв
национального языка х = {х1, Х2,..., хь}, х; е {хГ }. На этом завершается первый этап обработки речевого сигнала.
2
Метод фонетического декодирования слов
После выполнения фонетического транскрибирования задача АРР переходит далее в качественно иную плоскость, а именно фонетического декодирования слов или восстановления исходного речевого сообщения — в виде изолированного слова или целой фразы — по сформированной для него на первом этапе последовательности фонетических символов. При такой формулировке существует тривиальное решение при безошибочном фонетическом кодировании речевого сигнала. Такое решение сводится к многоканальному (по числу слов М из словаря (лексикона) системы АРР {уот}) поэлементному (на L смежных позициях) сравнению фонетического кода анализируемого слова x с аналогичными кодами слов-
эталонов Уп = {УП: -р УПу ^ ..., УПу^ Ут>; е{х*}, т < М, из заданного словаря Y = {уот} объема М. Система отдает предпочтение тому из них, которое совпадает с фонетическим кодом x = ^, x2, ..., XL} слова на входе. Но, к сожалению, это практически недостижимый результат. Ввиду известных особенностей речевого механизма человека рассматриваемая задача принципиально не имеет безошибочного решения. Поэтому упростим ее, отбросив из рассмотрения все наиболее нестабильные (вариативные) фонемы национального языка. Останутся, главным образом, вокализованные фонемы [16], а в самом простом случае — гласные. Это видно, в частности, из следующей
таблицы р(ху /хг) значений величины информационного рассогласования (ВИР) по Кульба-ку — Лейблеру (1) между отдельными фонемами русского языка, полученной по известной [20] методике экспериментальным путем с помощью встроенного аналого-цифрового преобразователя с частотой дискретизации речевого сигнала 8 кГц (табл. 1). При этом порядок АР-модели (3) был установлен р = 20. Серым фоном здесь отмечены
■ Таблица 1. Матрица значений ВИР
r
А З М О Сь У Ф Ц Ш Ы
А 0,00 2933 I—1 О 00 1224 3392 8 00 4242 1543 3154 9 О сл
З 17 со, 6, 6 9,04 5 со, 2, 2 О 74 со ,6 2, 209,9 5 7 2 7 5 8 2 8,06
М 4,86 2 ,9 2, 0, 0 о 18,61 со, 8, 2 10,9 5 ,9 5, 1 23, 6 0 1 2 24,4
О 11,1 18,1 3,22 11,56 287,3 2,47 106 2 О со 5 1 6 2 2,61
Сь 7 ,8 4,27 4,02 2 ,8 2, 1 1 7 5 ,2 00 2,54 5 ,6 5, 1 О со 1,70
У 2 00 8 СО 5 1 1 со о 3,60 8700 0 о 1631 3384 2 2 0 6 2 1
Ф 4 СО 1,37 9 ,2 2, 11,88 2, 3 00 3,75 0,00 6 ,5 0, 1 8 4,34
Ц 5,44 ,70 ©° 3,13 15,10 5 ,9 0, , 3 о 0,41 0, 3 О 7 со 6,12
Ш 29,4 7,14 14,6 6 ,4 1, 6 1,94 48,7 7,54 6 ,6 00 0,00 СО 79,
Ы 30,5 16,3 18,9 72,14 4,29 ,2 ю 6 11 7,11 0,26 74,3
строки с минимальными значениями ВИР. Все они относятся к случаю невокализованной фонемы на входе. Вокализованные и гласные фонемы характеризуются, напротив, существенно более высоким средним уровнем ВИР в пределах заданной фонетической базы данных {х^ }, что говорит
об их устойчивости в реализациях.
Отталкиваясь от множества гласных фонем русского языка (А, О, Е, И, У, Ы, Э) и следуя критерию (3), получим выражение для оптимальной решающей статистики [1, 2]
L
P(X1Уm ) = ^P(xl 1 Ут, l Ь (5)
l=1
определенное на множестве альтернатив ут, т = 1, M, из заданного рабочего словаря Y. Отметим при этом важную деталь: длина каждого слова-эталона в данном случае равна длине L слова на входе и выражается в количестве выделенных из последнего на первом этапе гласных фонем. Иными словами, в вычислениях (5) и, значит, в дальнейшей проверке гипотез по критерию МИР участвует ограниченное количество слов-эталонов K << M из словаря Y большого объема M — только с определенным количеством слогов L, меняющимся от одного слова на входе к другому. Причем наиболее точно распознаются слова большой длины: в словаре Y их меньшинство, а соответствующие им последовательности кодов существенно различаются между собой, поэтому вероятность их перепутывания зачастую оказывается незначительной. Более того, в ней не остается места для выравнивания слов по темпу речи: количество слогов от темпа не зависит, если не приводит к необратимым искажениям слов на входе. Но этот случай явно не актуален для задач АРР. Таким образом, выражения (3)-(5) в совокупности определяют модифицированный МФДС [1, 21] в расчете на сокращенное Д-множество
{хГ фонетических единиц произвольного состава.
Программа и результаты экспериментальных исследований
Для оценивания эффективности МФДС согласно алгоритму (3)-(5) была разработана специальная компьютерная программа Speech Recognizer. Ее интерфейс представлен на рис. 1. Здесь на временной диаграмме слева показана запись речевого сигнала от диктора для слова «анапри-лин». Хорошо видны границы его четырех слогов. Всего в рабочем словаре было задействовано более 2000 слов длиной от двух до десяти слогов, взятых из списка лекарств одной из аптек г. Нижний Новгород весной 2012 г. В окне справа перечислены в качестве примера три наилучшие по критерию МИР альтернативы из словаря этало-
■ Рис. 1. Главное окно программы Speech Recognizer в режиме распознавания
нов. Слово «анаприлин» в этом списке стоит на первом месте как наиболее близкое по критерию МИР (5) к произнесенному диктором слову.
Частота дискретизации речевого сигнала в АЦП была установлена по-прежнему равной 8 кГц, порядок АР-модели минимальной звуковой единицы р = 20, а длина одного сегмента сигнала для его обработки согласно (3), (4) составила п = 80 отсчетов или т = 10 мс по времени. Для ввода в программу речи каждого диктора применялся встроенный в ПК микрофон. При этом фонетическая
база данных программы {х*} варьировалась от диктора к диктору и составлялась в каждом случае из вышеупомянутых семи гласных фонем соответствующего диктора. На них и была настроена система обеляющего фильтра (3). В эксперименте приняла участие группа из десяти дикторов в возрасте от 25 до 57 лет, каждым из которых проговаривалось минимум по сто разных слов, причем в нескольких реализациях. По результатам их обработки согласно алгоритму (3)-(5) были получены оценки вероятности ошибочного распознавания отдельных слов (вероятности пропуска слова в итоговом списке решений (см. рис. 1, окно справа)). Основным требованием к речи дикторов при этом было разделение слов на открытые слоги с четкой паузой между ними. В процессе распознавания слоги выделялись простейшим амплитудным детектором паузы на интервале длительностью не менее 70 мс.
В указанных условиях в среднем по группе дикторов безошибочно было распознано около 97,37 % от суммы проговоренных ими слов (табл. 2, дикторозависимый режим). И это весьма высокий результат, особенно если учесть, что большинство (70 %) отмеченных ошибок в АРР приходится на короткие слова в 2—3 слога, которые могли нечетко проговариваться дикторами ввиду повышенной вариативности звукового строя их речи.
Для сравнения в табл. 2 (дикторонезависимый режим) представлены аналогичные оценки вероятности ошибки в той же системе АРР (см. рис. 1), но при ее настройке на фонемы одного и того же
Ш Таблица 2. Оценки вероятности ошибки распознавания слова
Режим распознавания Диктор
1-й 2-й 3-й 4-й 5-й
Дикторозависимый 0,01 0,05 0,013 0,03 0,04
Дикторонезависимый 0,01 0,065 0,017 0,04 0,09
Режим распознавания Диктор
6-й 7-й 8-й 9-й 10-й
Дикторозависимый 0,01 0,04 0,028 0,03 0,01
Дикторонезависимый 0,09 0,044 0,09 0,07 0,03
(в нашем случае — первого) диктора. Видно, что достоверность АРР если и ухудшилась, то все же осталась в приемлемых для практики пределах, при том, что обучение системы почти не потребовало в данном случае каких-либо существенных временных затрат на организацию и проведение. Продемонстрированные гибкость и малая критичность МФДС по отношению к используемому для настройки (обучения) системы АРР речевому материалу — это еще два ценных качества нового метода с точки зрения перспектив его применения.
В последнем эксперименте сопоставим вычислительную эффективность широко использующегося критерия сопоставления СПМ вида (1) с эквивалентной этому критерию адаптивной реализацией (3). Для ускорения процедуры распознавания в (4) сопоставлялись не все значения СПМ для f = 1, F, а только частоты с шагом Д/ = 10 Гц. Для этого значения параметра скорость АРР в 10 раз превышает скорость распознавания согласно (1), при этом качество распознавания практически не отличается от точности критерия (1). Среднее время распознавания для критериев (1) и (3) в зависимости от числа слогов п во входном словосочетании показано на рис. 2.
■ Рис. 2. Зависимость времени распознавания для программы Speech Recognizer от рассогласования и числа слогов n во входном словосочетании
На этом рисунке хорошо видно, что вычислительная эффективность адаптивного критерия (3) на порядок превышает аналогичный показатель для традиционного сопоставления сигналов по их СПМ (1).
Заключение
Решению проблемы вычислительной сложности алгоритмов АРР для больших словарей в последние годы исследователями уделяется повышенное внимание. В представленной работе для этого предложен новый подход на основе метода фонетического декодирования слов — в терминах слоговой фонетики [22]. Его основное преимущество перед известными методами и подходами состоит в существенном (на порядок и более) сокращении вычислительных затрат на реализацию за счет отказа от трудоемкой процедуры динамического выравнивания слов по темпу речи. При этом, как убедительно показал пример из актуальной области голосовых заказов лекарств по телефону, и точность, и надежность АРР обеспечиваются на высоком уровне. В задачах подобного рода требование к слоговому произношению
слов диктором является более чем приемлемой платой за достигаемые преимущества в скорости, точности и надежности их распознавания.
В области будущего исследования МФДС можно определить следующие задачи.
1. Повышение точности АРР за счет использования дополнительной информации о типе согласных звуков (шумовые, взрывные, модулированные) в слогах. Такая информация, как известно [7, 17], может быть выделена с достаточной степенью надежности.
2. Предварительная сегментация слогов на последовательности стационарных фонем для выделения в речевом сигнале стационарных фрагментов.
3. Автоматическое выделение речевых команд, произнесенных по слогам, в потоке непрерывной речи.
Работа выполнена при финансовой поддержке Минобрнауки РФ по государственному контракту № 07.514.11.4137 ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» и в рамках программы «Научный фонд НИУ ВШЭ» в 2013-2014 гг., проект № 12-01-0003.
Литература
1. Савченко В. В. Метод фонетического декодирования слов в задаче автоматического распознавания речи // Изв. вузов России. Радиоэлектроника. 2009. Вып. 5. С. 41-49.
2. Савченко В. В. Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульба-ка — Лейблера // Изв. вузов России. Радиоэлектроника. 2011. Вып. 3. С. 9-19.
3. Савченко В. В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника.
2007. Вып. 6. С. 3-9.
4. Pat. US 6301560 B1, Int.CI G10L15/22 Discrete speech recognition system with ballooning active grammar / Inventor: Masters S. P. Assignee: Microsoft Corporation. Pub. Date 09.10.2001.
5. Schuster M. Speech Recognition for Mobile Devices at Google: Proc. of the 11th Pacific Rim Intern. Conf. on Trends in Artificial Intelligence // LNCS. 2010. Vol. 6230. Р. 8-10.
6. Pat. US 8175883 B2, Int.CI G10L21/00 (2006.01) Speech recognition system and method / Inventor: Grant. R., Gregor. P. Assignee: Nuance Communications Inc., Pub. Date 08.05.2012.
7. Benesty J., Sondh M., Huang Y. (eds.). Springer Handbook of Speech Recognition. — N. Y.: Springer,
2008. — 1159 p.
8. Савченко В. В., Акатьев Д. Ю. Результаты экспериментальных исследований методики формирования фонетической базы данных диктора из непрерывного потока его разговорной речи // Ин-формационно-управляющие системы. 2012. № 6. С. 38-42.
9. Ронжин А. Л., Глазков С. В. Метод автоматического распознавания голосовых команд и неречевых акустических событий // Информационно-управ-ляющие системы. 2012. № 4. С. 74-77.
10. Кипяткова И. С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-управляющие системы. 2011. № 4. С. 53-59.
11. Кипяткова И. С., Карпов А. А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управля-ющие системы. 2010. № 4. С. 2-8.
12. Ронжин А. Л., Карпов А. А., Кагиров И. А. Особенности дистанционной записи и обработки речи в автоматах самообслуживания // Информацион-но-управляющие системы. 2009. № 5. С. 32-38.
13. Ронжин А. Л. и др. Фонетико-морфологическая разметка речевых корпусов для распознавания и синтеза русской речи // Информационно-управляющие системы. 2006. № 6. С. 24-34.
14. Rabiner L. A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proc. of the IEEE. 1989. Vol. 77. N 2. P. 257-285.
15. Pat. US 0016678 A1, Int.CI G10L21/00 (2006.01) Intelligent automated assistant / Inventor: Gruber T., Cheyer A., Kittlaus D., Guzzoni D., Brigham C., Giuli R., Bastea-Forte M., Saddler H., Assignee: Apple Inc., Pub. Date 19.01.2012.
16. Савченко А. В. Автоматическое построение фонетической транскрипции речи на основе принципа минимума информационного рассогласования // Вестник компьютерных и информационных технологий. 2012. № 8. С. 14-19.
17. Levinson S. C. Mathematical models for speech technology. — Chichester: John Wiley&Sons Ltd, 2005. — 261 p.
18. Kullback S. Information Theory and statistics. — N. Y.: Dover Publications, 1997. — 399 p.
УВАЖАЕМЫЕ АВТОРЫ!
Национальная электронная библиотека (НЭБ) продолжает работу по реализации проекта SCIENCE INDEX. После того как Вы зарегистрируетесь на сайте НЭБ (http://elibrary.ru/ defaultx.asp), будет создана Ваша личная страничка, содержание которой составят не только Ваши персональные данные, но и перечень всех Ваших печатных трудов, имеющихся в базе данных НЭБ, включая диссертации, патенты и тезисы к конференциям, а также сравнительные индексы цитирования: РИНЦ (Российский индекс научного цитирования), h (индекс Хирша) от Web of Science и h от Scopus. После создания базового варианта Вашей персональной страницы Вы получите код доступа, который позволит Вам редактировать информацию, в том числе добавлять публикации, которых нет в базе данных НЭБ, помогая создавать максимально объективную картину Вашей научной активности и цитирования Ваших трудов.