Научная статья на тему 'Методы применения VAD в системах распознавания казахской речи'

Методы применения VAD в системах распознавания казахской речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
319
43
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / ОБНАРУЖЕНИЕ ГОЛОСОВОЙ АКТИВНОСТИ / РЕЧЕВОЙ СИГНАЛ.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Калимолдаев Максат Нурадилович, Мусабаев Рустам Рафикович, Мамырбаев Оркен Жумажанович, Тусупова Белла Борисовна

Рассмотрена возможность применения алгоритма “Voice activity detection” в системе распо­знавания казахской речи. Предложены математическая модель VAD и способы обнаружения речевых данных: пауз между фразами, словами, отдельными звуками. Алгоритм VAD при­способлен к распознаванию казахской речи с учетом ее основных свойств. Впервые проведено исследование обнаружения голосовой активности в казахской речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Калимолдаев Максат Нурадилович, Мусабаев Рустам Рафикович, Мамырбаев Оркен Жумажанович, Тусупова Белла Борисовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методы применения VAD в системах распознавания казахской речи»

МЕТОДЫ ПРИМЕНЕНИЯ УЛБ В СИСТЕМАХ РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ

М. Н. Калимолдаев, О. Ж. Мамырбаев*, Р. Р. Мусабаев, Б. Б. Тусупова*

Институт проблем информатики и управления Министерства образования и науки Республики Казахстан, 050010, Алма-Ата, Казахстан * Казахский национальный технический университет им. К. И. Сатпаева,

005013, Алма-Ата, Казахстан

УДК 519.7

Рассмотрена возможность применения алгоритма “Voice activity detection” в системе распознавания казахской речи. Предложены математическая модель VAD и способы обнаружения речевых данных: пауз между фразами, словами, отдельными звуками. Алгоритм VAD приспособлен к распознаванию казахской речи с учетом ее основных свойств. Впервые проведено исследование обнаружения голосовой активности в казахской речи.

Ключевые слова: распознавание речи, обнаружение голосовой активности, речевой сигнал.

This article considers the algorithm “Voice activity detection” and the using VAD algorithm in the system of kazakh speech recognition. The paper presents a mathematical model VAD and methods for detecting voice data: pauses between sentences, words, individual sounds. VAD algorithm is adapted to the recognition of Kazakh speech counting the basic properties of Kazakh language. Voice activity detection researches in Kazakh speech are being conducted for the first time. The results of the spectral analysis are displayed on the picture.

Key words: speech recognition, voice activity detection, speech signal.

Введение. Исследования в области распознавания речи ведутся достаточно давно. Речь как природный источник информации обладает избыточностью, в ней содержится большое количество данных, не несущих смысловой нагрузки.

В настоящее время для увеличения объемов передаваемой информации применяются различные методы, например частотное и временное уплотнение сигналов. Для выполнения задачи распознавания речи в первую очередь необходимо определить моменты начала и окончания входного слова и пауз внутри него [1].

Постановка задачи. Определение моментов начала и окончания фразы при наличии шума является важной задачей распознавания речи. В частности, при автоматическом распознавании речи важно точно определить моменты начала и окончания слова [2].

Процедура обнаружения моментов начала и окончания фразы существенно уменьшает число арифметических операций, если обрабатывать только те сегменты, в которых имеется речевой сигнал. Вследствие этого скорость обработки будет увеличиваться. Наиболее распространенным способом сжатия речевых данных является удаление пауз между фразами, словами, отдельными звуками. Как показали многочисленные исследования, в речи может содержаться до 50 % пауз, а в диалоге их объем может достигать 70 %. Поэтому были созданы различные алгоритмы, которые устраняют избыточность речи, выделяя только значимые ее параметры [3].

Фонетическое представление PC

Рис. 1. Схема классификации кадров РС

Voice activity detector (VAD) — метод определения активности речи, технология сжатия речевого сигнала за счет поиска речи и пауз и их кодирования. В системах распознавания речи эффективность системы распознавания определяется в первую очередь эффективностью использования VAD [4].

Алгоритм VAD работает в процессе кодирования речевого сигнала перед распознаванием речи. Наличие пауз определяется на основе анализа и синтеза речевых данных, которые содержат отрезки сигнала. Предположим, речь содержит паузу, которую можно предсказать, и данный пакет содержит паузу, а не речь — наиболее сложный элемент алгоритма VAD. В наиболее простой реализации наличие паузы в наборе цифровых отсчетов определяется на основе сравнения суммарной энергии пакета речевых данных с некоторым пороговым значением, которое отделяет паузу от пакета с голосом. В этом случае порог необходимо подобрать таким образом, чтобы не допустить чрезмерно частое устранение ошибочных пауз, так как это может привести к ухудшению качества, потере важных данных и как следствие к снижению эффективности алгоритма VAD. Обычно для определения пауз применяется сложный алгоритм, учитывающий не только энергию пакета, но и энергию спектральных составляющих отрезка сигнала [5, 6].

Алгоритм разделения речевого сигнала на вокализованные и невокализованные участки и участки молчания. Звуки речи, в которых присутствует основной тон, называются вокализованными. При исследовании динамики изменения характеристик речевого сигнала (РС) важной задачей является выбор длительности временных кадров, на которые он разбивается. На рис. 1 представлена схема классификации кадров РС [7].

Длительность кадра РС должна быть достаточно малой, чтобы последовательность кадров более точно отражала кратковременную динамику изменения РС, и достаточно большой, чтобы последовательность кадров более точно отражала долговременную динамику РС.

Согласно условиям регистрации РС, указанным в таблице, длительность его кадра должна быть не меньше периода основного тона Тот = 1000/100 = 10 мс. На рис. 2 приведен график речевого сигнала [8].

Речевой сигнал (/д = 8000 Гц, /от > 100 Гц)

Число Длительность Свойства окна

отсчетов кадра, мс

32 32/8 = 4 Отражает кратковременную динамику РС и не отражает его периодический характер

64 64/8 = 8 Отражает кратковременную динамику РС и не полностью отражает его периодический характер

128 128/8 = 16 Не полностью отражает кратковременную и долговременную динамику РС, полностью отражает его периодический характер

256 256/8 = 32 Не отражает кратковременную динамику РС, отражает долговременную динамику РС, полностью отражает его периодический характер

х

1,0

0,8

0,6

0,4

0,2

0

-0,2

-0,4

-0,6

-0,8

-1,0

т -104

4 6 8

Рис. 2. График речевого сигнала

10

12

На рис. 3 представлена блок-схема алгоритма разделения речевого сигнала на вокализованные и невокализованные участки и участки молчания. Данный алгоритм основан на предположении, что речевой сигнал — это нестационарный процесс со значительными изменениями кратковременной энергии и числа пересечений нуля между смежными окнами [9]. Алгоритм включает 7 блоков.

Блок 1. Исходный речевой сигнал х(т), т = 0, N — 1.

Блок 2. Разделение РС на кадры длительностью 16 мс.

Блок 3. Вычисление значений кратковременной энергии Еп (или кратковременное значение модуля энергии) и числа пересечений нуля Znn-го кадра. Например, кратковременная

п

энергия равна Еп = ^ х2(т), или Еп = ^ [х(т)і^(п — т)] , или Еп =

т=п—М +1 т=—<х

N -1

^2 х2^ — п + т), где п — номер кадра;

т=0

IV (т) =

1, т = 0, N — 1, 0, т = 0^ — 1

0

2

оконная функция кадра; п = 0, Ь; Ь — число кадров; М = ЬН — число отсчетов речевого сигнала.

Рис. 3. Блок-схема алгоритма разделения речевого сигнала на вокализованные и невокализованные участки и участки молчания

Кратковременная функция среднего числа переходов через нуль, или нулевых пересечений, основана на сравнении знаков соседних отсчетов [10, 11]. Например,

гп = ^п(ж(т)) — sgп(ж(m — 1))| т(п — т), Ш= — Ж

1, X(т) > 0,

где

1/2, 0 < т < N — 1

sgn(X (т)) =

0, [ -1, X(т) < 0

знаковая функция.

Блоки 4, 6. Установка пороговых значений Епор и Zпор для Еп и Zn.

Блок 5. Проверка выполнения условия Еп < Епор?: да — п-й кадр относится к участку молчания; нет — к блоку 7.

Блок 7. Проверка выполнения условия Zn < Zпор?: да — п-й кадр относится к вокализованному участку; нет — п-й кадр относится к невокализованному участку.

Недостатком данного алгоритма является высокая чувствительность Еп к большим значениям сигнала. Полученные данные представлены на рис. 4, 5.

Для уменьшения ошибок принятия решения относительно того, является ли участок вокализованным, предлагается использовать соотношение

Кг

Ег

где Ег

______ N

л/х2(т) = \ N ^ х2(т) — квадратный корень среднего квадратов значений РС

т=1

(rootmeansquare), или квадратичное среднее.

1,0

0,8

0,6

0,4

0,2

0

-0,2

-0,4

-0,6

-0,8

-1,0

2

4

6

8

10

Рис. 4. График определения УЛБ в речевом сигнале ___I____________I______I______I_____тиг 1__I____________1

т -104 12

■ т ■ 104 12

10

Е

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

100

50

0

200

400

600

800

1000

1200

1400

Рис. 5. График определения вокализованных (а), невокализованных (б) участков

и энергии (в) в речевом сигнале Вокализованная речь характеризуется большим значением Егтз и малым Zn, а невокализованная речь характеризуется малым значением Егтз и большим Zn, поэтому справедливо условие: Егтз является большим для вокализованного кадра и малым для невокализованного кадра. В данном случае требования к выбору порогового значения Ягтз являются более простыми, что уменьшает возможность ошибочного принятия решения относительно того, является ли кадр вокализованным.

Выводы. Предложенный алгоритм используется для поиска конечной точки различных изолированных слов. В эксперименте получены графики для казахской речи. Алгоритм позволяет получить более точные результаты по сравнению с результатами поиска конечной точки РС вручную. На рис. 4 приведены примеры РС и обнаружения речевой активности. Для программирования использован язык МАТЬАБ.

На рис. 5 показан процесс определения вокализованных и невокализованных участков, энергии РС. Общее число образцов, необходимых для представления речи разными дикторами, варьируется в зависимости от спектральных характеристик речи.

х

0

X

0

2

4

6

8

п

0

Алгоритм показывает хороший результат во многих кадрах сегментированной речи для классификации РС. Он эффективен для обнаружения конечных точек различных РС, позволяет снижать требования к объему памяти компьютера и время, затрачиваемое на вычисления. Алгоритм действует более эффективно, чем сегментация, выполняемая вручную.

Список литературы

1. Дорохин О. А., СтАРУШКО Д. Г. Сегментация речевого сигнала // Искусств. интеллект. 2000. №3. С. 450-478.

2. Шелепов В. Ю., Ниценко А. В. Амплитудная сегментация речевого сигнала, использующая фильтрацию и известный фонетический состав // Искусств. интеллект. 2003. №6. С. 120-123.

3. Lamel L. F., Rabiner L. R., Rosenberg A. E., Wilpon J. G. An improved endpoint detector for isolated word recognition // IEEE Trans. Acoust., Speech, Signal Process. 1981. V. 29, N 4. P. 23-31.

4. Rabiner L. Fundamentals of speech recognition / L. Rabiner, Juang Biing-Hwang. Englewood Cliffs: Prentice Hall, 1993.

5. Deller J. R. (Jr.). Discrete-time processing of speech signals / J. R. Deller (Jr.), J. H. L. Hansen, J. G. Proakis.John Wiley and Sons. IEEE Press.

6. Nilsson M., Ejnarsson M. Speech recognition using hidden Markov model // 2002. Degree of Master of Science in Electrical Engineering. Blekinge Institute of Technology. Karlskrona: Kazerntryckriet AB, 2002.

7. Aida-Zade К. R. Investigation of combined use of MFCC and LPC features in speech recognition systems / К. R. Aida-Zade, C. Ardil, S. S. Rustamov. World Acad. of Sci., Eng. and Technol. 2006.

8. Rabiner L. R., Sambur M. R. An algorithm for determining the endpoints of isolated utterances // Bell System Tech. J. 1975. P. 298-315.

9. Atal B., Rabiner L. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition // IEEE Trans. Acoust., Speech, Signal Process. V. 24. P. 201-212,197.

10. Rabiner L. R. Digital processing of speech signals / L. R. Rabiner, R. W. Schafer. Englewood Cliffs: Prentice Hall, 1978. P. 666-667.

11. Равинер Л. Р. Цифровая обработка речевых сигналов / Л. Р. Рабинер, Р. В. Шафер. М.: Радио и связь, 1981.

Калимолдаев Максат Нурадилович — д-р физ.-мат. наук, проф., директор Института проблем информатики и управления Министерства образования и науки

Республики Казахстан; тел.: 8-727-272-3712;

Мамырбаев Оркен Жумажанович — докторант, PhD Казахского национального технического университета им. К. И. Сатпаева; e-mail: [email protected];

Мусабаев Рустам Рафикович — канд. техн. наук, ст. науч. сотр. Института проблем информатики и управления Министерства образования и науки

Республики Казахстан; тел.: 8-727-272-3712;

Тусупова Белла Борисовна — канд. техн. наук, доц. Казахского национального технического университета им. К. И. Сатпаева; тел.: 8-777-226-3362

Дата поступления — 20.12.12

i Надоели баннеры? Вы всегда можете отключить рекламу.