ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
НАУКА. ИННОВАЦИИ ТЕХНОЛОГИИ, №3, 2016
УДК 621.39 Жиляков Е.Г. [Zhilyakov E.G.],
Белов С.П. [Belov S.P.], Медведева А.А. [Medvedeva А.А.]
ИССЛЕДОВАНИЕ ЧУВСТВИТЕЛЬНОСТИ СУБПОЛОСНОГО МЕТОДА ОБНАРУЖЕНИЯ ПАУЗ К ВОЗДЕЙСТВИЮ ШУМА*
Research of sensitivity of detection method subband pause noise impact
В статье представлен метод селекции пауз в речевых сообщениях на основе применения субполосного анализа. Исследование чувствительности проводилось при использовании аддитивного наложения нормально распределенного шума. Были определены вероятности ошибочного принятия решения при различных отношениях шум/сигнал. Результаты свидетельствуют об устойчивости предлагаемого субполосного метода к воздействию аддитивного шума.
Ключевые слова: шум, чувствительность, обнаружение пауз.
The article presents a selection method pauses in speech communications through the use of sub-band analysis, sensitivity study was conducted using an additive blending of normally distributed noise, the probability of wrong decision-making have been identified in various respects noise / signal. The results indicate that the stability of the proposed method of sub-band to the effects of the additive noise.
Keywords: noise, sensibility, pause detection.
Одним из основных этапов обработки речевых сигналов при решении таких задач, как распознавание речи, сжатие речи, очистка речи от шума и т.п., является определение участков отсутствия речи - селекции пауз. Точность определения границ пауз влияет на эффективность дальнейших этапов анализа и обработки. В частности, на вероятность правильного распознавания, качество звучания речи и степень сжатия.
Известно, что различные звуки речи и шумы в паузах имеют разное распределение энергии в частотной области. Учет этих особенностей позволяет определить границы между звуками речи и паузами. Однако, как по-
* Работа подготовлена в рамках II Международной конференции «Параллельная компьютерная алгебра и ее приложения в новых инфоком-муникационных системах»
называют исследования, при реализации методов селекции пауз необходимо учитывать несколько характеристик сравниваемых отрезков сигналов.
Основная проверяемая гипотеза формулируется следующим образом.
ь 7
Нд - анализируемый отрезок РС X = (Х| ) порожден шу-
мами в паузе речи
^ > Т
X = и = (и1,..,им) • (!)
Альтернатива //• заключается в том, что хотя бы часть компонент рассматриваемого вектора зафиксирована в присутствии звуков речи
> > > I т
X = й + Б = (2)
В качестве решающей функции при селекции пауз предлагается использовать статистику [1]:
ри =К(Х )-уи(х), (3)
характеристика, учитывающая различия в значениях энергии,
мера различия в распределение долей энергии по частотной оси сравниваемых отрезков.
Мера различия в значениях энергии предлагается оценивать как отношение энергии анализируемого отрезка сигнала к средней энергии, определенной на основе обучения по фрагменту, соответствующему шуму в паузе:
Жи(х)=\\х\\2/в^ (4)
где Ши(х) -а Уи{х)~
№3, 2016
ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
Исследование чувствительности субполосного метода обнаружения пауз.
19
энергия (квадрат евклидовой нормы) анализируемого вектора;
математическое ожидание квадратов евклидовых норм отрезков шумов в паузах
Ои=М[\й\2] (5)
В свою очередь, меру различия распределения долей энергий по частотным интервалам предлагается определять в соответствии с выражением, в основе которого лежит аналог расстояния Питме-на |2|:
Ги(х)=(Т(№(х))1/2-£»й)2)1/2= ( 2(1-ТЬй(Р4(Х))1/2))1/2, (6)
п=0 п=0
где /'¿/„ (5с) - значение доли энергии, сосредоточенной в п-м частотном интервале:
N12-1
Рйп(х) = Рп(х)/ ЪРк(х),п = 0,..,N12-1, (7)
к=0
- математическое ожидание долей энергий отрезков шумов в паузах
О; =М[Рс1п{й)\п = Ъ,..^12-\, (8)
Ы- длительность отрезка анализа.
На рисунках 1-3 представлены фрагмент РС, порожденного словом «черепаха», и результат оценки характеристик (4) и (6). При
2
этом значение математических ожиданий 1)п и (ти определялось на основе анализа фрагмента шума в паузе в начале фрагмента сигнала длительностью 0,19 сек.
I - I 2
где | X |
<5,, -
Рис. 1. Фрагмент РС, порожденного словом «черепаха» (/¿=16 кГц).
Длительность сигнала, отсчетов
Рис. 2. Результат оценки субполосного расстояния уи(х) фрагмента
РС, порожденного словом «черепаха» 16 кГц, Л/= 256).
Рис. 3.
Результат оценки функции \А/и (х) фрагмента РС, порожденного словом «черепаха» 16 кГц, N = 256).
№3, 2016
ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
Исследование чувствительности субполосного метода обнаружения пауз.
21
Функция Щх) реагирует на изменение энергии по сравнению со средней, тогда как у„(х) реагирует на изменение её распределения по частотным интервалам.
Гипотеза //, отвергается при выполнении неравенства
>К- (9)
где Ъ > 0 - порог, удовлетворяющий условию
РЧК >ка/Н0)<а (Ю)
Здесь 1'К - символ вероятности, а а - желаемый уровень вероятности ошибок первого рода.
Для оценки эффективности разработанного алгоритма были использованы оценки вероятностей ошибок первого и второго рода.
Оценка вероятности ошибки первого рода определена на основе анализа сигнала, соответствующего участку шума в паузах (185000 отсчетов) Величина вероятности определялась как:
~ '' ошиб.речь ' пауз- (Ш
где N г - количество отрезков, ошибочно отнесенных к PC в при-
ошио.речь г - г
сутствии звуков речи; N - количество отрезков PC, порожденных шумами, использованных для анализа (185 000 отрезков).
Для оценки вероятности ошибки второго рода был использован речевой материал с предварительно удаленными участками пауз (230000 отрезков). Вероятность ошибки определялась с использованием отношения вида:
ош ~ ^ошиб.пауз ' ^речи- ' *
ТАБЛ. 1. ЗНАЧЕНИЯ ВЕРОЯТНОСТЕЙ ОШИБОК ПЕРВОГО И ВТОРОГО
РОДА ПРИ РАЗЛИЧНЫХ ПАРАМЕТРАХ (^=16кГц)
N = 128 N = 256
Plotu Р20Ш Р"1ош Р20Ш
без шума 0,0332 <104 0,0791 < 10"4
к = 0,1 0,0374 0,0002 0,0861 < ТО-4
к = 0,2 0,0410 0,0015 0,0902 < ю-4
к = 0,3 0,0462 0,0027 0,0963 0,0002
к = 0,4 0,0507 0,0092 0,1027 0,0006
к = 0,5 0,0537 0,0184 0,1081 0,0029
к = 0,6 0,0559 0,0298 0,1127 0,0057
к = 0,7 0,0573 0,0465 0,1164 0,0075
к = 0,8 0,0582 0,0621 0,1201 0,0109
к = 0,9 0,0584 0,0904 0,1235 0,0187
к = 1 0,0583 0,1161 0,1265 0,0256
где N - количество отрезков, ошибочно отнесенных к шуму в
ошио.пауз 1 J
паузе; W ти - количество отрезков PC в присутствии звуков речи, использованных для анализа (230 ООО отрезков).
В таблице 1 представлены результаты оценки вероятностей ошибок при различных значениях длительностей отрезков анализа и различных отношениях шум/сигнал к.
Полученные результаты показывают, что предлагаемый метод позволяет выделять участки пауз с малой вероятностью ошибочного принятия решений.
Работа выполнена при поддержке гранта РФФИ № 15-0701463 "Разработка методов и алгоритмов автоматического распознавания устной речи с использованием субполосного анализа речевых сигналов".
Библиографический список
1. Жиляков Е.Г Об одном алгоритме кодирования пауз в речевых данных / Е.Г Жиляков, Е.И. Прохоренко, A.A. Фирсова, A.B. Болдышев // Вопросы радиоэлектроники, серия «Электронная вычислительная техника» (ЭВТ), вып. 1, 2013, с. 17-25.
2. Питмен, Э. Основы теории статистических выводов / Э. Пит-мен // Пер. с англ. М.: Мир, 1986. 104 с.