Научная статья на тему 'Об одном способе обнаружения пауз в речевых данных'

Об одном способе обнаружения пауз в речевых данных Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
267
128
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Жиляков Е. Г., Белов С. П., Прохоренко Е. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об одном способе обнаружения пауз в речевых данных»

УДК 621.391

Е.Г. ЖИЛЯКОВ, д-р техн. наук, БелГУ (г. Белгород, Россия),

С.П. БЕЛОВ, канд. техн. наук, БелГУ (г. Белгород, Россия),

Е.И. ПРОХОРЕНКО

ОБ ОДНОМ СПОСОБЕ ОБНАРУЖЕНИЯ ПАУЗ В РЕЧЕВЫХ

ДАННЫХ

У статті пропонується один з шляхів рішення задачі зменшення об'єму бітового представлення мовних даних при їх передачі і зберіганні в інформаційно-телекомунікаційних системах. Це новий спосіб виявлення і кодування пауз, заснований на обліку відмінностей в розподілі енергетичних частотних складових звуків мови і сигналу у паузі.

In article is offered one of the ways of decision a problem of reduction of volume of bit presentation voice data. This is the new method founded on highlighting and coding in input an voice a signal a pause based on the account of differences in distributing power frequency constituents of sounds of speech and signal in a pause.

Постановка задачи. В настоящее время наблюдается непрерывное увеличение объемов речевых данных в общем потоке информации, циркулирующем в информационно-телекоммуникационных системах [1, 2]. В связи с этим возникает необходимость решения задачи обеспечения высокой эффективности их хранения и передачи. Одним из путей решения данной задачи может стать разработка новых методов сжатия (кодирования) речевых данных, применение которых позволит значительно сократить объем их битового представления, и, как следствие, уменьшить скорость их передачи по каналам связи, а также ресурсы памяти при их записи на физические носители. Данная работа посвящена рассмотрению именно этих вопросов.

Анализ литературы. При решении задачи кодирования речевых данных целесообразно учитывать ряд особенностей речевого обмена. Речь, как известно [3, 4], обладает смысловой и сигнальной избыточностью и допускает определенный уровень потерь и искажений при осуществлении преобразований. В зависимости от избыточности цифровых данных и длительности обрабатываемых сегментов речи, допустимый уровень потерь может составлять от 1 до 50% времени активности диктора [5]. Различные методы устранения избыточности в процессе преобразования речевых данных представляют широкий диапазон возможных уменьшений объема их битового представления.

Особенностью речевых сигналов является высокая доля пауз, составляющая в среднем, например, при телефонных переговорах, 56 % от длительности диалога [6]. Речь содержит множество кратких перерывов длительностью от 5 до 200 мс, существующих как внутри слов, так и между

словами в слитной речи. Суммарная продолжительность перерывов в среднем занимает около 15 % от продолжительности слитной речи.

Таким образом, сокращение объема речевых данных может быть достигнуто за счет кодирования пауз, объем которых, исходя из вышесказанного, в речевых данных значителен. Кодирование пауз заключается в определении интервала, на котором отсутствуют звуки речи, фиксации начала этого интервала и его длительности. Для того, чтобы осуществить обнаружение пауз в речи и произвести последующее их кодирование с целью уменьшения объема речевых данных при их хранении и передаче, необходимо проанализировать наличие отличительных признаков сигнала в паузе от звуков речи.

Пауза в речевом сигнале - отрезок, содержащий более или менее нерегулярные случайные изменения, т.е. процесс который можно отнести к классу случайных. Если принять, что вероятностная структура паузы не изменяется со временем, то тогда сигнал можно считать случайным стационарным процессом.

Сигнал, соответствующий звукам, не является стационарным, так как формируется при активном воздействии речевого аппарата. Процедура обнаружения и кодирования пауз, как было рассмотрено в [7], может быть основана на принципе обнаружения отличий характеристик сигналов на данном интервале по сравнению с характеристиками сигнала в паузе.

Другим методом сокращения объема речевых данных за счет обнаружения и кодирования пауз может служить метод, основанный на учете отличий в распределении энергетических частотных составляющих звуков речи и сигнала в паузе.

Цель статьи. В данной работе рассматривается задача уменьшения объема речевых данных при их передаче и хранении в информационнотелекоммуникационных системах. При этом основное внимание уделяется новому способу обнаружения и кодирования пауз, основанному на учете отличий в распределении энергетических частотных составляющих звуков речи и сигнала в паузе.

Основы способа обнаружения пауз. Проведенные исследования тонкой структуры частотных спектров звуков речи и сигнала в паузе показывают, что энергия фрагмента сигнала, соответствующего паузе распределена относительно равномерно по всему диапазону частот, тогда как энергия фрагмента сигнала, соответствующего звуку, сосредоточена в узких полосах частот. Таким образом, процедура обнаружения пауз может быть основана на принципе обнаружения отличий распределения энергии сигнала по частотному диапазону, соответствующего звуку, по сравнению с распределением энергии сигнала в паузе. Предлагается разбить частотный диапазон на Я одинаковых частотных интервалов, для каждого из которых

определять долю энергии сигнала соответствующего паузе, приходящуюся на данный интервал.

Сформулируем следующую гипотезу:

Но: энергия исходного отрезка xt, i = 1,...,N в r-м частотном интервале

(v 2r ~ v1r) обусловлена внешними шумами.

Для точного вычисления доли энергии отрезка сигнала Pr M ¡ в

определенном частотном диапазоне будем использовать новый инструмент частотного анализа, приведенный в [8], а именно представление вида:

Pr = хТA¡x , (1)

где Ar = {armn}, m, n = 1, ...,N,

r sinv2r (m - n) - sin v1r (m - n)

an,m

n(m - n)

v2r - v1r

П

m = n.

Непосредственное применение (1) затруднено, в виду необходимости вычисления квадратичных форм, особенно когда длительности анализируемых отрезков велики. Поэтому в дальнейшем все вычисления целесообразно проводить с использованием выражений вида:

Р (х)=Т ^)2; (3)

к=1

Угк ='[\к гк ,х) , (4)

где г = 1, ...,Я - число частотных интервалов; к = 1, ...,М - число

——

собственных чисел X « 1, - собственный вектор,

тогда для отрезка сигнала соответствующего паузе можно определить

РГП = е[Ргп \; (5)

РП =¿ (уП )2, (6)

к=1

т.е. Р^1 является математическим ожиданием доли энергии паузы в г-м частотном интервале. Здесь уГ1к означает компоненты вектора, полученные

л

на участке паузы. При этом считаем, что R =--------------= const (для всех r

V 2r -V1r

одинаковое), причем целое и имеет место RM = N; N - четное, М - четное,

так что M = 2

N-

,,v2r -v1r

- целая часть, N -2---------------1— целое число.

Математическое ожидание доли энергии паузы в г-ом частотном

интервале РГП (5) получаем путем усреднения значений, определенных для

некоторого количества Жотр отрезков сигнала, соответствующих паузе. Чем

больше таких отрезков вовлечено в анализ, тем меньше погрешность вычисления

рП = — У р г;

Г ^отр У

8П , (7)

NoTp Л i

VN0

где с - некоторая константа.

Введем решающую функцию

л / р

$г = -П , г = 1, 2, ... , Я. (8)

Рг

В случае, когда /-й анализируемый отрезок сигнала X представляет

собой отрезок паузы, правая часть (8) представляет собой случайную величину, распределенную по закону

1 ! \М1-\

XМ : щ ,,, ч &) 2 , (9)

2 2 Г| 2

т.е. можно установить порог ha, который удовлетворяет неравенству

1 ш MI | - у

|у 2 e 2 dy < а , (10)

My

2^ ГІ

где а - так называемая, вероятность ложной тревоги; М\ - число степеней

М

свободы, которое можно приблизительно вычислить как М\ = ухг.

г=\

Для увеличения вероятности правильного обнаружения границы пауза/звук с порогом сравнивается максимальное значение решающей

функции, так как энергия сигнала, соответствующего звуку может быть сосредоточена в сравнительно узком диапазоне частот, что приходится учитывать при разбиении всего частотного диапазона на небольшое

количество интервалов.

Таким образом, если имеет место

шах(^г) > На, (11)

то отвергается нулевая гипотеза Но.

Если же выполняется неравенство

шах(^г) < ка, (12)

то считаем справедливой Но и относим данный отрезок речевого сигнала, как соответствующий паузе.

Выполнение неравенств вида (12) для всех частотных интервалов соответствует случаю, когда весь анализируемый отрезок X является отрезком паузы.

Вычислительные эксперименты. Для проверки работоспособности метода были проведены вычислительные эксперименты, которые состояли из нескольких последовательных этапов:

1. Запись речевых данных: х1 - отрезок сигнала являющийся фрагментом лекции, прочитанной в аудитории. Длительность сигнала 132 с, частота дискретизации 7350 Гц.

2. Определение длительности окна анализа речевого сигнала N и количества частотных интервалов Я.

Длительность окна анализа должна быть достаточно малой, чтобы последовательность окон более точно отражала динамику изменения речевого сигнала и, в частности, появления сравнительно коротких пауз. С другой стороны, длительность окна должна быть достаточно большой, чтобы исследуемые характеристики сигнала для каждого окна отражали характеристики квазистационарного участка речевого сигнала. Таким образом, длительность окна принималась 8 мс, т.е. N = 60 отсчетов, т.к. только окна с длиной не менее 8 мс отражают периодический характер сигнала, связанный с проявлением основного тона. Экспериментально было установлено, что для определения распределения энергии сигнала достаточно Я = 10 частотных диапазонов. При этом М = М/Я, т.е. выполняется неравенство М > 4 и собственные числа в (4) обладают свойством Х\ « X2 ~ Х3 « X4 « 1.

3. Вычисление матрицы А с элементами вида (2), при N = 60, Я = 10.

4. Вычисление матрицы АА с элементами вида

AA =

(г,1)1 М (а2)1

•М (йя )1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где Q1 = (д1,...,(}/), Ь1 = Шав^,...^) получены на основе матрицы А.

5. Выделение отрезков х2, соответствующих паузе речевого сигнала и вычисление в каждом из частотных диапазонов подвекторов вида

(т.1 Л

Уі

Уі

.У1

= ААх.

и доли энергии сигнала паузы (6)

Рп =

і г

У №)2 ■

к=1

Доля энергии в каждом из частотных диапазонов (6) определялась для 500 отрезков анализа и усреднялась для каждого частотного диапазона

Рп =

Г

1 ^ Л і ---У Р г ■

^отр “

Полученные численные значения приведены в табл. 1.

Таблица 1

Границы частотных диапазонов 01= 0; 02= п/10 01= п/10; 02= 2п/10 01= 2п/10; 02=3п/10 01= 3п/10; 02= 4п/10 01= 4п/10; 02= 5п/10

Среднее значение РгП Х10-5 1,4049 17,4150 3,7250 5,8881 4,3204

Границы частотных диапазонов 01= 5п/10; 02= 6п/10 01= 6п/10; 02= 7п/10 01= 7п/10; 02= 8п/10 01= 8п/10; 02= 9п/10 01= 9п/10; 02= 10п/10

Среднее значение РП х10-5 5,3262 5,4420 10,8220 3,8715 0,1181

6. Установление величины порогового значения решающей функции. Величину порога ка необходимо определять из тех соображений, что наибольшую опасность, с точки зрения разборчивости речи после кодирования пауз и последующего воспроизведения, представляет

«съедание» части отрезка сигнала, соответствующего звуку речи при определении границы пауза/звук (особенно если звук является невокализованным). С другой стороны, если установить небольшую величину порога, то увеличится вероятность ложной тревоги и часть отрезков сигнала, соответствующих паузе, будет определена, как звук, что отрицательно скажется на эффективности сокращения объема данных.

Для установления приемлемой с обеих точек зрения величины порога были проведены эксперименты, в ходе которых было установлено, что при достаточно малой вероятности ложной тревоги и соответствующей величине порога Иа = 2М\, выбранной по таблицам вероятностей распределения

X2 [9] при N = 60, Я = 10, число переходов решающей функции шах(5Т)

через установленный порог на отрезках сигнала, соответствующих паузе, не превышает заданную величину. Наиболее типичные результаты приведены в табл. 2. Здесь вероятность ложной тревоги определялась как

N

а =-----—,

где N1 - длина паузы, ^ер - количество переходов решающей функции через порог.

Таблица 2

Длина паузы, N1 30000 25000 14000 6000 14000 20000

Количество переходов решающей функции через порог, ^ер 1500 1440 0 120 360 600

Вероятность ложной тревоги, а 0,05 0,0576 0 0,02 0,025714 0,03

С другой стороны, на участках соответствующих звукам речи решающая функция превышала установленный порог с вероятностью 90 - 95%. В табл. 3 приведены результаты исследования поведения решающей функции на отрезках сигнала, соответствующих слитной речи.

Таблица 3

Длина фрагмента слитной речи, N 4516 17672 8451

Количество переходов решающей функции через порог, ^ер 4156 16832 7671

Вероятность правильного обнаружения, Рпо 0,92 0,95 0,9077

Причем отрезки сигнала, на которых величина решающей функции не превышала установленный порог, как правило, являлись паузами малой

длительности между фонемами, или слитно произнесенными словами, например, как показано на рис. 2. Здесь приведена фраза "ну, для начала я хочу", произнесенная слитно, и отрезок, определенный как пауза, соответствует паузе между фрагментами фразы "ну" и "для начала я хочу".

Л1Я иачл и и \о*|>

200 «М ОМ 000 1000 ’ЛЮ ««90 ЮОО (М0

Рис. 2. Обнаружение паузы между словами фразы

1 1 IIII1 . ,| | Ш| 1 1

""™

щ11 ' ' | 11

ОЦП1 [ 1 . . .

НО 400 ЮС КО «Ю *00 9СО

Рис. 3. Граница пауза/звук, определенная в начале фразы

В другом случае (рис. 4) анализировалась фраза, содержащая слово "фактически". Здесь отрезки, определенные как паузы соответствуют паузам между звукосочетаниями "фак" - "ти" - "чески".

В состав этого слова входят звуки "к", "т" и "ч", которые принадлежат к невокализованным звукам малой длительности, вероятность пропуска которых наиболее велика, из-за их малого (по сравнению с вокализованными звуками) уровня, и в данном случае отрезки определенные как паузы приходятся на окончание звука "к" и начало звуков "т" и "ч". Срезание начала

звуков в этих случаях особенно нежелательно, так как это может снизить разборчивость речи. Визуально сложно определить, на какой части этих звуков значение решающей функции не превышало установленного порога, но экспертная оценка при воспроизведении сигнала с удаленными паузами показала, что звуки "к", "т" и "ч" в слове "фактически" четко различимы.

Рис. 4. Обнаружение пауз между звукосочетаниями

Определенную роль при обнаружении звуков играет уровень шума, присутствующего в исходном речевом сигнале. Для определения чувствительности метода к отношению сигнал/шум были проведены следующие вычислительные эксперименты.

В речевом сигнале, соответствующему звуку, изменялось отношение сигнал/шум и определялась вероятность правильного обнаружения Рпо звука как

^ПО - '

N

N

где N - длина звука, Мгер - количество переходов решающей функции через порог.

Наиболее типичные результаты приведены в табл. 4 и на рис. 5.

Из данных табл. 4 и рис. 5 можно сделать вывод, что для достижения величины вероятности правильного обнаружения 95% вокализованных звуков, величина отношения сигнал/шум может быть значительно меньшей, чем для достижения той же вероятности правильного обнаружения невокализованных звуков. Но такие звуки, как правило, произносятся слитно с другими, что увеличивает вероятность их обнаружения. Для большей уверенности, что часть сигнала, соответствующего звукам, не будет потеряна, можно ввести ограничение длины паузы, т.е. если длина паузы не превышает определенной величины, то данный отрезок определяется, как соответствующий звуку. Такое же ограничение можно использовать и на отрезках сигнала, соответствующих паузе, для случаев превышения решающей функцией установленного порога на коротких фрагментах паузы, что может быть обусловлено случайными внешними помехами.

7. Вычисление решающей функции.

На всей реализации сигнала х\ рассчитана решающая функция (8). Для сравнения с выбранным порогом Иа = 12 принималось максимальное из

значений решающей функции 5^, определенных для каждого анализируемого частотного интервала. На рис. 6 показаны фрагмент речевого сигнала XI включающего как паузу, так и звук и значения 8'г на всем интервале его анализа. Значения РФ на участках, соответствующих звукам речи значительно превышают пороговое значение.

Таблица 4

№ Звук "а" 213,6 мс Звук"с" 204 мс Звук "р" 149,7 мс Звук "к" 8,2 мс Звук "ч" 108,8 мс

сигнал шум Р по сигнал шум Р по сигнал шум Р по сигнал шум Р по сигнал шум Р по

1 0,04 0,54 0,01 0,71 0,02 0,61 0,07 0,75 0,02 0,60

2 0,22 0,58 0,15 0,71 0,14 0,61 0,60 0,75 0,32 0,73

3 0,48 0,62 0,37 0,79 0,33 0,67 1,40 0,88 0,79 0,77

4 0,66 0,65 0,51 0,82 0,46 0,72 1,93 0,88 1,10 0,83

5 0,83 0,65 0,65 0,87 0,59 0,72 2,46 0,88 1,41 0,87

6 1,01 0,69 0,80 0,89 0,72 0,72 3,00 0,88 1,72 0,90

7 1,18 0,85 0,94 0,89 0,84 0,83 3,53 0,88 2,03 0,90

8 1,36 0,92 1,08 0,89 0,97 0,83 4,06 0,94 2,34 0,90

9 1,53 0,92 1,23 0,92 1,10 0,89 4,60 0,94 2,65 0,93

10 1,71 0,92 1,37 0.92 1,23 0,89 5,13 0,94 2,96 0,93

11 1,88 0,96 1,51 0,92 1,35 0,89 5,66 0,94 3,27 0,93

12 2,06 0,96 1,66 0,92 1,48 0,94 6,19 0,94 3,57 0,93

13 2,23 1 1,80 0,92 1,61 0,94 6,73 0,94 3,88 0,93

14 2,41 1 1,95 0,92 1,74 0,94 7,26 0,94 4,19 0,93

15 2,58 1 2,09 0,95 1,86 0,94 7,79 0,94 4,50 0,93

16 2,76 1 2,23 0,95 1,99 0,94 8,33 0,94 4,81 0,93

17 2,93 1 2,38 0,97 2,12 0,94 8,86 0,94 5,12 0,97

18 3,11 1 2,52 0,97 2,25 0,94 9,39 0,94 5,43 0,97

19 3,28 1 2,66 0,97 2,37 0,94 9,92 1 5,74 0,97

20 3,46 1 2,81 0,97 2,50 1 10,46 1 6,05 0,97

21 3,63 1 2,95 0,97 2,63 1 10,99 1 6,36 0,97

22 3,81 1 3,09 0,97 2,75 1 11,52 1 6,67 0,97

23 3,98 1 3,24 1 2,88 1 12,06 1 6,98 0,97

24 4,16 1 3,38 1 3,01 1 12,59 1 7,29 0,97

25 4,33 1 3,53 1 3,14 1 13,12 1 7,60 0,97

Аналогичные эксперименты были проведены для других сигналов, записанных различными дикторами (табл. 5). Степень сжатия определялась как отношение количества отсчетов исходного сигнала к количеству отсчетов сигнала с удаленными отрезками сигнала - паузами.

8. Оценка качества воспроизведения речи.

Для подтверждения правильности определения границ пауза/звук было оценено качество воспроизведения речи, при удалении и последующем восстановлении обнаруженных пауз. Если значения РФ на 1-м интервале не превышали пороговых значений, то отсчеты речевого сигнала х\ на данном интервале удалялись и кодировались (значения номеров начальных отсчетов пауз и длительность паузы), таким образом формировалась последовательность, представляющая собой "сжатый" речевой сигнал.

а) б)

Рис. 5. Зависимость вероятности правильного обнаружения звукового сигнала от величины отношения сигнал/шум для звуков "а" (а) и "к" (б)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

т

02

О

«2

пауая пауза ЛІЬ .і

ГГИ¥,,?Г|

62 263 2 63 ъл 261 26« гк 2 6» 2 ВБ 2 ОН н

порог II

ІҐ У » ■ 4

2Б2 2Е25 213 2ЕЭ5 2Б4 2 Ы£ 265 26й>

Рис. 6. Отрезок речевого сигнала х и значения решающей функции на всем интервале

его анализа

Таблица 5

Результаты сжатия и оценки качества воспроизведения речи______________

Фрагмент лекции (132,1680 с)

Степень сжатия, Ксж 2,7147

Оценка качества воспроизведения речи 4,4

Слово «аппроксимация» (1,4967 с)

Степень сжатия, Ксж 1,6034

Оценка качества воспроизведения речи 4,5

Слитная речь (161,8750 с)

Степень сжатия, Ксж 1,7152

Оценка качества воспроизведения речи 4,7

Выводы. Результаты экспериментов свидетельствуют о том, что предлагаемый способ позволяет обнаруживать границу пауза/звук на достаточно коротком интервале анализа, что позволяет повысить степень точности обнаружения границы пауза/звук. Таким образом, предложенный новый метод сжатия речевых сигналов за счет обнаружения и кодирования пауз, основанный на учете отличий в распределении энергетических составляющих звуков речи и сигнала в паузе в частотной области, является эффективным и может быть использован в информационно -телекоммуникационных системах для хранения или передачи речевых сигналов по цифровым каналам связи.

Список литературы: 1. Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония. - М.: Радио и связь, 2003. - 144 с. 2. Росляков А.В., Самсонов М.Ю., Шибаева И.В. IP-телефония. - М.: Эко-Тредз, 2001. - 250 с. 3. КалинцевЮ.К. Разборчивость речи в цифровых вокодерах. - М.: Радио и связь, 1991. - 220 с. 4. Сжатие данных в системах сбора и передачи информации / В.И.Орищенко, В.Г. Саннико, В.А. Свириденко. Под ред. В.А. Свириденко. - М.: Радио и связь, 1985. - 184 с. 5. Шелухин О.И., ЛукьянцевН.Ф. Цифровая обработка и передача речи / Под ред. О.И. Шелухина.-М.: Радио и связь, 2000. - 456 с. 6. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи / Под ред. М.А. Сапожкова. - М.: Радио и связь, 1987. - 168 с. 7. Жиляков Е.Г, Белов С.П., Прохоренко Е.И. О сжатии речевых сигналов // Вестник Национального технического университета "ХПИ". - Харьков: Изд-во НТУ "ХПИ". - 2005. - Вып. 56. - С. 32 - 41. 8. Жиляков Е.Г., Белов С.П., Прохоренко Е.И. Вариационные методы частотного анализа звуковых сигналов // Труды учебных заведений связи / СПб.: СПбГУТ, 2006. - № 174. - С. 163 - 170. 9.Таблицы математической статистики / Л.Н. Большев, Н.В. Смирнов. - М.: Наука. Гл. ред. ф-м. лит., 1983. -416 с. 10. Гонтмахер Ф.Р. Теория матриц. - М.: Физматлит, 2004. - 560 с.

Поступила в редакцию 20.10.2006

i Надоели баннеры? Вы всегда можете отключить рекламу.