УДК 621.391
ОБ ЭФФЕКТИВНОСТИ РАЗЛИЧНЫХ ПОДХОДОВ К СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ОБНАРУЖЕНИЯ ПАУЗ1
Е.Г. ЖИЛЯКОВ С.П. БЕЛОВ А.С. БЕЛОВ АА ФИРСОВА А.В. ГЛУШАК
Белгородский
государственный университет e-mail: [email protected]
В статье приведена сравнительная оценка эффективности ряда существующих методов сегментации речевых сигналов на основе обнаружения пауз и метода, основанного на принципе учета отличий распределения энергии речевого сигнала по частотному диапазону, соответствующего звуку, по сравнению с распределением энергии сигнала в паузе.
Ключевые слова: речевой сигнал, анализ речевого сигнала, модель УЛБ, алгоритм обнаружения пауз, частотные представления.
Одним из этапов обработки речевых сигналов в современных информационно-телекоммуникационных системах, широко используемых в различных приложениях, является их сегментация на основе обнаружения пауз [1].
При этом в качестве основного критерия эффективности применяемых методов достаточно часто используется мера достоверности принятия решения о наличии паузы в обрабатываемом речевом сигнале, которая количественно может быть оценена вероятностями «ложной тревоги» или «пропуска цели».
В статье, на основе указанного критерия, проводится сравнительная оценка эффективности ряда существующих методов обнаружения пауз и метода, основанного на принципе учета отличий распределения энергии речевого сигнала по частотному диапазону, соответствующего звуку, по сравнению с распределением энергии сигнала в паузе.
Широкое применение в информационно-телекоммуникационных системах нашли алгоритмы Voice Activity Detector (VAD). Реализация алгоритмов VAD основана на различиях речевого сигнала и шума. При этом основное внимание уделяется следующим особенностям:
1) речь является нестационарным сигналом;
2) фоновый шум стационарен на более длинном отрезке времени по сравнению с речью;
3) уровень речевого сигнала обычно выше уровня фонового шума.
Одной из простейших реализаций VAD является принятие решение о наличии или отсутствии полезного сигнала на основе сравнения уровня энергии фрагмента сигнала с энергетическим порогом. Но такая реализация алгоритма целесообразна лишь в том случае, когда уровень фонового шума низкий по сравнению с уровнем сигнала, порождаемого звуками речи. Уровень фонового шума может меняться в течение времени. В этом случае используются более сложные алгоритмы. В системах GSM и IP-телефонии в алгоритмах VAD обработка сигнала осуществляется в частотной области. При приятии решения о наличии или отсутствии полезного сигнала используются особенности спектральных характеристик речи и шума [2, 3, 4].
В алгоритмах VAD широко используются коэффициенты автокорреляции для определения энергетического уровня сигнала и его стационарности. Решение о нали-
1 Исследования выполнены при финансовой поддержке гранта РФФИ № 10-07-00326-а
Серия История. Политология. Экономика. Информатика. 2010. № 7 (78). Выпуск 14/1
чии речевого сигнала принимается в том случае, если энергия сигнала превышает пороговое значение и сигнал является нестационарным.
Для определения, является ли сигнал стационарным или нет, средний спектр, представленный усредненными автокорреляционными LPC-параметрами А, сравнивается со средними значениями автокорреляции сигнала, вычисленными в текущем фрейме с использованием уравнения:
р г (т\
Б/п = Лп (0)гп (0) + 21 Лп (0 , (1)
1=1 Гп(0) ’ ^
N-I
г (I) = Х х(к) х(к + I), (2)
к=0 р-1
Л(г) = X а(к)а(к + I) (о)
к=0
где Б/п - средние значения автокорреляции сигнала, вычисленные для п-го отрезка; Тп(г) - коэффициенты автокорреляции п-го отрезка входного сигнала;
Ап(г) - коэффициенты автокорреляции средних ЬРС-параметров п-го отрезка; р - порядок модели; г - изменяется от о до р;
N - длина окна анализа; х - анализируемый сигнал;
а - средние ЬРС-параметры, рассчитываемые на основе средних коэффициентов автокорреляции с использованием алгоритма Дурбина.
Если абсолютное значение разности между значениями Щ текущего и предыдущего фреймов больше, чем установка порога, текущий фрейм считается нестационарным, иначе - стационарным [2, 3, 5].
Так как речевой сигнал может быть спектрально стационарным длительное время, для различения речи и фонового шума в качестве индикатора используется периодичность речи. Значения задержек ЬГР сравниваются с наименьшим значением задержки. Если оставшиеся задержки очень близки к минимальной задержке, фрейм считается периодическим, в противном случае - апериодическим [2].
Для определения энергии сигнала возбуждения также могут использоваться коэффициенты автокорреляции:
Е = Л(0)г(0) + 2X Л(г)г(I), (4)
I =1
где Е - остаточная энергия;
г(г) - коэффициенты автокорреляции входного сигнала;
А(г) - коэффициенты автокорреляции средних ЬРС-параметров; р - порядок модели.
Пороговые значения энергии и разницы между значениями Б/ текущего и предыдущего фреймов определялись на основе анализа обучающей выборки сигнала, относящегося к шуму. Для определения пороговых значений отрезок шума разбивался на фрагменты одинаковой длины N (64, 128 отсчетов) со сдвигом 5 отсчетов (всего для анализа использовалось 400 фрагментов). Для каждого фрагмента вычислялись значения остаточной энергии Е (4) и средние значения автокорреляции Б/(1). В качестве энергетического порога выбиралось максимальное значение остаточной энергии среди фрагментов шума, используемых на этапе обучения. В качестве порога для принятия решения о стационарности выбиралось максимальное значение из полученных на этапе обучения абсолютных величин разностей между Б/ соседних фрагментов.
Исследование эффективности работы метода проводилось для различных значений порядка модели предсказания р=2? 30. Решение об отсутствии паузы принимается в том случае, если рассчитанное значение остаточной энергии сигнала Е (4)
и абсолютное значение разности между Ц/ текущего и предыдущего фреймов больше пороговых значений.
Оценка эффективности работы алгоритма осуществлялась на основе определения вероятностей ошибок первого и второго рода. При этом за основную принималась гипотеза о наличии паузы. В этом случае Рл.т. - вероятность ошибки «ложная
тревога» (когда основная гипотеза о наличии паузы ошибочно отвергается), а Рп.ц. -
вероятность ошибки «пропуск цели» (когда основная гипотеза о наличии паузы ошибочно принимается).
Вероятность принятия ошибочного решения определялась в два этапа. На первом этапе анализировался фрагмент сигнала, относящийся к паузе, отличающийся от обучающей выборки. Вероятность ошибки «ложная тревога» определялась как:
Рл.т. = 1 - Ма 1 Nп , (5)
где N а. - количество отрезков, отнесенных к паузе,
Nп - количество отрезков паузы.
На втором этапе анализировался фрагмент сигнала, относящийся к речи. Вероятность ошибки «пропуск цели» определялась как:
Рп.ц. = Ма 1 Мр , (6)
где Ма - количество отрезков, отнесенных к паузе,
Мр - количество отрезков речевого сигнала.
Для определения значения вероятности Рл.т. анализировалось 3992 отрезка.
Для определения значения вероятности Рп.ц. анализировалось 3843 отрезка. В табл. 1 представлены результаты исследования работы алгоритма УЛБ при различных значениях длины окна анализа для значения порядка фильтра равного 8, которое наиболее часто используется в фильтрах линейного предсказания [2].
Таблица 1.
Оценка вероятности принятия ошибочного решения алгоритма УЛБ
Параметры Рл.т. Рп.ц.
N=64 N=128 N=64 N=128
1 2 3 4 5
р=8 0,16 0,15 0,00 0,00
Основную опасность при обработке сигнала представляют ошибки «пропуск цели», поэтому при разработке алгоритма УЛБ главным является, чтобы вероятность Рп.ц. была минимальна, при этом вероятность Рл.т., чаще всего выбирается достаточно большой.
Таким образом, рассмотренный метод имеет достаточно большое значение Рл.т., что не позволяет минимизировать объем передаваемых данных и приводит к тому, что сегментация не является достоверной.
Исследования тонкой структуры энергетического спектра речевого сигнала в частотной области позволили установить, что энергия звуков речи распределена неравномерно и, сосредоточена в достаточно узких частотных интервалах, в то время как энергия отрезка сигнала, принадлежащего паузе, распределена равномерно во всем анализируемом частотном диапазоне. В связи с этим, в работе предлагается в качестве процедуры обнаружения пауз использовать метод, основанный на принципе учета отличий распределения энергии речевого сигнала по частотному диапазону, соответствующего звуку, по сравнению с распределением энергии сигнала в паузе.
Для анализа особенностей речевых сигналов можно использовать метод вычисления точных значений долей энергии, попадающих в заданный частотный интервал [6].
Полный набор долей энергии отрезка сигнала можно определить следующим образом:
Pr = xTArx, (7)
где: x - анализируемый отрезок сигнала;
r - номер частотного интервала, изменяющийся от 1 до R;
Ar - субполосная матрица, рассчитанная для r-го частотного интервала:
Ar = ,
ak = (sin(vr+1 (i - к)) - sin(Vr (i - к))) l{n{i - к)), i,k = 1,.„N, (8)
где Vr, Vr+1 - границы r-ого частотного интервала, причем:
О < vr < Vr+i < п , r=1,...,R, (9)
vr+1 - vr = П 1 R , (10)
где R - количество частотных интервалов, на которые разбивается частотная ось.
Для принятия решения о наличии или отсутствии паузы вычисляется решающая функция для проверки гипотезы о том, что анализируемый отрезок сигнала
соответствует паузе между звуками речи (основная гипотеза) [7]:
wnr = fm 1 r , (11)
где fNR - минимальное количество частотных интервалов (частотная концентрация), в которых сосредоточена заданная доля энергии m звукового отрезка, т.е.:
fNR = min d^R (12)
Здесь выполняется неравенство:
im ,,
R II II2 N 2
z р(к),n ^ щхА = m z xi (13)
к=1 i=i
где xn - анализируемый отрезок сигнала,
m - заданное значение доли энергии сигнала,
р(к),n - упорядоченные по убыванию доли энергий сигнала, попадающих в заданные частотные интервалы, т.е.:
р(к),N G{PrN , r = 1,■■■,R} р(к+1),N < р(к),N , k=1,...,R (14)
где PrN - доли энергий сигнала, попадающих в заданные частотные интервалы, определяемые с помощью (7).
Если выполняется неравенство:
WnR < Шпор, (15)
то основная гипотеза отвергается, в противном случае принимается решение о наличии паузы.
Шпор в (15) - пороговое значение, которое выбирается на основе анализа особенностей распределения долей энергии звуков речи и шума [7]. Анализ особенностей распределения энергии по частотным интервалам звуков русской речи показал, что все звуки речи имеют различное распределение долей энергии по частотным интервалам, при этом основная энергия сигнала сосредоточена в узком частотном диапазоне. В данной работе представлены результаты экспериментов для пороговых значений Шпор=0,4 и Шпор=0,5.
Для оценки эффективности метода анализировались отрезки одинаковой длины N (64, 128 отсчетов). В данной работе проводились эксперименты при различных значениях количества частотных интервалов, на которые разбивается частотная ось R: 16, 32, 64; и значения заданной доли энергии m=o,8o? 0,99.
Оценка вероятностей Рл.т. (когда основная гипотеза о наличии паузы ошибочно отвергается) и Рп.ц. (когда основная гипотеза о наличии паузы ошибочно принимается) осуществлялась, так же как и при исследовании эффективности алгоритма УЛБ (5), (6).
Сравнение результатов работы алгоритма показывает, что при наименьшей вероятности Рп.ц. меньшее значение вероятности Рл.т. достигается при .N=128, ^=32, Шпор=0,5, т=0,9б. В табл. 2 представлены результаты экспериментов при некоторых параметрах модели.
Таблица 2
Оценка вероятности принятия ошибочного решения алгоритма без обучения при N=128 К=32
Параметры Рл.т. Рп.ц.
Шпор =0,4 Шпор =0,5 Шпор =0,4 Шпор =0,5
1 2 3 4 5
т=о.9б 0,02 0,15 0,06 0,00
Сравнение работы рассмотренного метода с работой алгоритма УЛБ показывает, что на различных участках сигнала рассмотренный алгоритм может работать с меньшим значением вероятности ошибки. Но этот метод существенно зависит от типа шума и особенностей речевого аппарата диктора, и на некоторых участках он работает хуже алгоритма УЛБ. Для анализируемого фрагмента вероятность Рл.т. для Шпор =0,5, т=о,9б (Рп.ц. ®0, Рл.т. *0,15) такая же, как и вероятность Рл.т. алгоритма УЛБ (Рп.ц. *0, Рл.т.*0,15).
Другой способ обнаружения пауз заключается в использовании процедуры обучения на основе анализа особенностей распределения долей энергии по частотным интервалам в паузе.
На этапе обучения для отрезков сигнала, заведомо относящихся к шуму, оцениваются характеристики вида [6]:
N у
PrП =1 (^ )П / , (16)
k=1
где Ny - количество отрезков сигнала в паузе, которые используются для усреднения (обучения), что соответствует оцениванию математических ожиданий вычисляемых долей энергий в соответствующих частотных интервалах;
(Pr)П - доли энергий в соответствующих частотных интервалах для Ny отрезков обучающей выборки.
В данном случае решающая функция имеет вид:
S = тах^ / PrП ) У г = 1,..., R , (17)
где Pr - доли энергий, попадающих в заданные частотные интервалы (7);
PfI - результаты предварительного усреднения по достаточно большому количеству отрезков сигнала, заведомо относящихся к паузам, долей энергий, попадающих в заданный частотный интервал (16):
Если выполняется неравенство:
5 > ка, (18)
где ка - порог, обеспечивающий заданный уровень вероятности ложной тревоги а на обучающей выборке,
то основная гипотеза о наличии паузы отвергается, в противном случае принимается решение о наличии паузы.
Для определения значения порога используется обучающая выборка относящихся к паузе данных. При этом после вычислений оценок математических ожида-
Серия История. Политология. Экономика. Информатика. 2010. № 7 (78). Выпуск 1 4/1
ний вида (17) вычисляются оценки математического ожидания и дисперсии решающей функции [6]:
— Ny П
Sп = 1 ^)/ Му , (19)
k=1
Му -
о2п = 1 ^П)2/Му - SП, (20)
к=1
где SП - значение решающей функции на к-ом анализируемом отрезке заведомо относящихся к паузе данных;
Му - количество отрезков сигнала обучающей выборки заведомо относящихся к паузе.
Пороговое значение, обеспечивающее заданный уровень вероятности ложной тревоги а на обучающей выборке, определяется на основе неравенства:
ка < 5п + бп / ат^ , (21)
где а - вероятность ложной тревоги, задаваемая на этапе обучения;
5 П - математическое ожидание решающей функции;
Бп - дисперсия решающей функции;
ат - коэффициент, превышающий значение 2 и определяемый в процессе обучения [7].
В качестве обучающей выборки использовалось 400 отрезков сигнала, соответствующего паузе. Отрезки были получены в результате разбиения сигнала на окна одинаковой длины N (64, 128 отсчетов) с шагом 5 отсчетов.
Для оценки эффективности метода анализировались отрезки одинаковой
длины N (64, 128 отсчетов). В данной работе проводились эксперименты при различ-
ных значениях количества частотных интервалов, на которые разбивается частотная ось Я: 16, 32, 64.
Оценка вероятностей Рл.т. (когда основная гипотеза о наличии паузы ошибочно отвергается) и Рп.ц. (когда основная гипотеза о наличии паузы ошибочно принимается) осуществлялась, так же как и при исследовании эффективности алгоритма УЛБ
(5), (6).
В табл. 3 представлены результаты экспериментальной оценки вероятностей ошибок «ложная тревога» и «пропуск цели».
Таблица 3
Оценка вероятности принятия ошибочного решения алгоритма с обучением N=128 К=32
Параметры Рл.т. Рп.ц.
1 2 3
0=0,00002 0,02 0,00
Сравнение результатов работы алгоритма УЛБ, алгоритма без обучения и алгоритма с обучением показало, алгоритм обнаружения пауз с обучением дает наименьшее значение вероятности Рл.т. при условии, что вероятность Рп.ц. для всех исследованных алгоритмов одинакова. Так для алгоритма с обучением Рл.т.*0,02, а для алгоритма без обучения и алгоритма VAD Рл.т.*0,15. Таким образом, легко видеть, что применение алгоритма обнаружения пауз с обучением позволяет точнее определять участки отсутствия звука в фрагменте сигнала.
Литература
1. Сорокин, В.Н. Сегментация речи на кардинальные элементы [Текст] /
В.Н. Сорокин, А.И. Цыплихин / / Информационные процессы, 2006, Т. 6, № 3, С. 177-207.
2. Шелухин, О.И. Цифровая обработка и передача речи [Текст] /О.И. Шелухин, Н.Ф.Лукьянцев; под ред. О.И. Шелухина. - М.: Радио и связь, 2000. - 456 с.: ил.
3. Герасимов, А.В. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов [Текст] /А.В.Герасимов, О.А. Морозов, В.Р. Фидельман // Радиотехника и Электроника. - 2005. - том 50. №10. -
С. 1287-1292.
4. Рабинер, Л. Теория и применение цифровой обработки сигналов [Текст] / Л. Рабинер, Г. Голд. - М.: Мир, 1988. - 512 с.
5. Коротаев, Г.А. Некоторые аспекты линейного предсказания при анализе речевого сигнала [Текст] /Г.А. Коротаев // Зарубежная радиоэлектроника. - 1991. - № 7. - С.13-31.
6. Жиляков Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко. - Белгород, 2007. - 136 с.
7. Белов, А.С. Разработка математических моделей и алгоритмов анализа и синтеза звуковых сигналов в цифровых слуховых аппаратах: автореферат диссертации на соискание ученой степени кандидата технических наук // Белгород, 2009. - 22 с.
ABOUT EFFECTIVENESS DIFFERENT APPROACHES TO SEGMENTATION OF SPEECH SIGNALS BASED DETECTION OF PAUSE
The article presents a comparative evaluation of the effectiveness of several existing methods for the segmentation of speech signals based on the detection of breaks and a method based on the principle of taking into account differences in the energy distribution of the speech signal in the frequency range corresponding to the sound, as compared with the distribution of signal energy in a pause.
E.G.ZHILYAKOV S.P. BELOV A.S. BELOV A.A. FIRSOVA A.V. GLUSHAK
Belgorod state unm^sity Key words: speech signal, speech signal analysis, a model of VAD,
e-mail: [email protected] pause detection algorithm,the frequency representati°n.