Об анализе и синтезе речевых сигналов в ip‑телефонии

Жиляков Е.Г.; Фирсова А.А.

УДК 621.391

Е.Г. ЖИЛЯКОВ, д-р техн. наук, проф., зав. каф. БелГУ (Белгород,

Россия),

А.А. ФИРСОВА, аспирант БелГУ (Белгород, Россия)

ОБ АНАЛИЗЕ И СИНТЕЗЕ РЕЧЕВЫХ СИГНАЛОВ В

ТР-ТЕЛЕФОНИИ

Рассмотрены методы анализа и синтеза речевых сигналов. Исследованы особенности распределения энергии звуков русской речи, соответствующих различным дикторам. Проведены исследования зависимости качества звучания синтезированного сигнала от порядка модели линейного предсказания. Рассмотрены существующие методы обнаружения и кодирования пауз в 1Р-телефонии. Ил.: 1. Табл.: 2. Библиогр.: 10 назв.

Ключевые слова: речевой сигнал, синтез речевого сигнала, распределение энергии звуков русской речи, линейное предсказание, обнаружение и кодирование пауз, 1Р-телефония.

Постановка проблемы. В настоящее время 1Р-телефония является одним из наиболее интересных методов передачи речевой информации в режиме реального времени. Эта технология позволяет использовать 1Р-каналы для осуществления телефонной связи. Быстрое развитие и распространение 1Р-телефонии обусловлено широким распространением 1Р-сетей, а также богатым спектром предоставляемых услуг. Тем не менее, вопрос снижения загруженности каналов связи не может не интересовать специалистов в области передачи информации. Одним из несомненных преимуществ 1Р-телефонии является возможность использования в качестве оконечного оборудования персональных компьютеров, обладающих большими возможностями для преобразования информации в форму, позволяющую снизить объем битовых представлений, передаваемых в канал связи. Уменьшения объема передаваемых данных можно добиться несколькими способами: уменьшением частоты дискретизации, уменьшением разрядности при кодировании значений сигнала, обнаружением и кодированием пауз в речевых данных. Наиболее интересным остается последний способ уменьшения объема битовых представлений передаваемых данных. Любой алгоритм обнаружения и кодирования пауз основывается на результатах анализа речевого сигнала. Существующие алгоритмы не позволяют обеспечить стопроцентное обнаружение пауз в сигнале. Таким образом, вопрос поиска методов и алгоритмов для обнаружения пауз, несомненно, является актуальным.

Анализ литературы. Вопросам, связанным с 1Р-телефонией посвящено большое количество публикаций [1 - 3]. Эта технология позволяет осуществить связь компьютер - компьютер, компьютер - телефон или телефон

- телефон, используя при этом каналы 1Р-сети. Речевой сигнал по каналам

такой сети передается в цифровом виде, закодированном определенным образом. В 1Р-телефонии алгоритм преобразование сигнала в определенный код и обратно называется кодеком. Этот же термин применяется и к устройству, реализующему эти преобразования. Обычно выделяют 3 типа кодеков:

1. Кодеки с импульсно-кодовой модуляцией (ИКМ) и адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ).

2. Кодеки с вокодерным преобразованием речевого сигнала.

3. Комбинированные (гибридные) кодеки.

Наилучшее качество обеспечивают кодеки первого типа, но при этом они наиболее требовательны к полосе канала, поэтому они применяются лишь в тех случаях, когда требуется обеспечить максимальное качество кодирования речевой информации при небольшом числе одновременных разговоров. Наиболее распространенными являются кодеки третьего типа, позволяющие обеспечить приемлемое качество звучания при достаточно высокой компрессии сигнала.

Большинство существующих кодеков используют дополнительно алгоритмы обнаружения и кодирования пауз. Эти алгоритмы основаны на анализе сигнала и выявлении различий между информационным фрагментом и паузой.

Анализ - одна из основных составляющих обработки сигналов, основной целью которой является сравнение сигналов друг с другом для определения сходства и различия между ними. В [4] выделяют три основные составляющие анализа сигналов:

- измерение числовых параметров сигналов: энергия, средняя мощность и среднеквадратическое значение;

- разложение сигнала на элементарные составляющие для их рассмотрения по отдельности либо для сравнения свойств различных сигналов с использованием рядов и интегральных преобразований (ряд Фурье, преобразование Фурье);

- количественное измерение степени "похожести" различных сигналов с применением аппарата корреляционного анализа.

Одним из основных способов анализа речевых сигналов является использование преобразования Фурье для дискретных значений [4 - 6].

В кодеках 1Р-телефонии часто используется анализ особенностей речевых сигналов, основанный на модели авторегрессии. Распределение спектральной плотности модели авторегрессии дает наглядное представление о местоположении максимумов при различных значениях частот для разных звуков. Модель авторегрессии широко используется различными кодеками в алгоритмах УЛО для обнаружения активности речи, а также в алгоритмах синтеза речи. Это позволяет значительно снизить объемы передаваемой информации.

В современных системах ГР-телефонии применяются алгоритмы синтеза речи, основанные на линейном предсказании [7, 8].

Цель статьи: оценка методов анализа и синтеза речевых сигналов, сравнение методов обнаружения пауз в ГР-телефонии.

Алгоритмы анализа речевых сигналов и методы обнаружения пауз.

Согласно акустической теории речеобразования восприятие звуков определяется областями максимальной концентрации энергии - формантами.

Каждому звуку речи соответствует своя форма акустического речевого тракта с присущей ему структурой формант. Форманта характеризуется амплитудой и частотой для гласных - добротностью или шириной полосы пропускания Д-. Частоты формант изменяются в достаточно широких пределах как для звуков, произносимых различными дикторами, так и для звуков, произносимых одним и тем же диктором, но в различных звукосочетаниях. Однако, области, в которых располагаются соответствующие формантные частоты, более или менее одинаковы даже для различных языков.

Другой важной особенностью речевых сигналов является коррелированность его значений. На основе этой особенности возможно осуществление анализа сигнала на обнаружение пауз, а также синтез речевого сигнала по некоторому количеству отсчетов. Было проведено исследование синтеза речевого сигнала для различных длин окна анализа при изменении порядка модели от 1 до 30 с использованием метода линейного предсказания. Синтез проводился по р первым отсчетам и р коэффициентам предсказания. Суть метода заключается в том, что сигнал разбивается на окна одинаковой длины, затем для каждого окна рассчитывается р коэффициентов авторегрессии:

N-I

г(Г) = ^ х(к) х(к + Г), (1)

к=0

где I = 0, ..., р; р - порядок модели; N - длина окна анализа; х - анализируемый сигнал.

Для восстановления сигнала используются рассчитанные коэффициенты авторегрессии и первые р отсчетов:

хс () = ^а(к)х(г - к) , (2)

к=1

где I = 1, 2, ..., N р - порядок модели; N - длина окна анализа; х -

анализируемый сигнал; а - коэффициенты предсказания, рассчитанные с

использованием алгоритма Дурбина и коэффициентов авторегрессии г.

Использование этого метода позволяет уменьшить объем передаваемых данных, но при этом значительно влияет на качество звучания речи, добавляя "металлический оттенок". Качество звучания улучшается с увеличением порядка модели предсказания. При этом разборчивость хорошая даже при малых порядках модели.

Другим методом, используемым в кодеках ІР-телефонии и основанном на автокорреляционном анализе, является метод определения активности речи УЛО. Он основан на оценке значения усредненного автокорреляционного ЬРС-параметра А и сравнении со средними значениями автокорреляции сигнала г, вычисленными в текущем фрейме [7]:

Р у (А

Б/, = Лк (0)г, (0) + 2Х Ак (І) , (3)

,=г гн(0)

где - средний спектр, вычисленный для к-го отрезка; гк(І) - коэффициенты автокорреляции к-го отрезка входного сигнала; Ак(і) - коэффициенты автокорреляции средних ЬРС-параметров к-го отрезка; р - порядок модели.

На рис. 1 представлена структурная схема УЛО с обработкой в частотной области.

Рис. Структурная схема VAD с обработкой в частотной области, применяемая в системах GSM и IP-телефонии

Для оценки качества работы этого алгоритма были проведены исследования работы алгоритма VAD для различных значений порядка модели p. Вероятность ошибки "ложная тревога" рассчитывалась по формуле:

N

р _ пр_пауз ...

л.т. N ’ V ’

сигн

где N пауз - количество отсчетов, принятых за паузу в заведомо известном полезном сигнале; NCHrH - количество отсчетов в заведомо известном полезном сигнале.

Вероятность ошибки "пропуск цели" можно рассчитать как:

N

р пр_сигн ... пц. N ’

пауз

где Nпр сигн - количество отсчетов, принятых за полезный сигнал в заведомо известном фрагменте пауз; N з - количество отсчетов в заведомо известном фрагменте пауз.

В табл. 1 представлены результаты оценки вероятности принятия ошибочных решений при использовании алгоритма УЛО для различных значений порядка модели. При этом за нулевую принималась гипотеза о наличии паузы. В этом случае Рлт. - вероятность ошибки "ложная тревога" (когда речевой сигнал принимается за паузу), а Рпц - вероятность ошибки "пропуск цели" (когда пауза принимается за речевой сигнал). Как видно, линейной зависимости значения вероятности принятия ошибочного решения от значения порядка модели нет. Обычно этот алгоритм используется совместно с алгоритмом линейного предсказания и значение порядка выбирается, основываясь на критерии Акаике для значений ошибки синтеза сигнала.

Таблица 1

Оценка вероятности принятия ошибочного решения при различных параметрах

модели УЛО

Параметры Р 1 л.т. Р 1 п.ц

Р = 2 0,006 0,014

Р = 3 0,006 0,129

р = 4 0 0,257

Р = 5 0 0,257

р = 10 0 0,357

р = 15 0 0,257

р = 20 0 0,171

р = 25 0 0,186

р = 30 0 0,229

Использование этого алгоритма позволяет значительно снизить объем передаваемых данных. Это связано с тем, что в диалоге до 60% пауз. Фрагменты сигнала, принятые за паузу, не передаются, передается только информация о начале и длительности (или конце) паузы.

Как видно, описанные методы не являются идеальными. Для обнаружения пауз в речевом сигнале можно использовать метод оценки, основанный на вариационном методе анализа речевых сигналов [9, 10]. Этот метод позволяет осуществить частотный анализ энергетических характеристик исследуемой функции. Полный набор долей энергии отрезка сигнала можно определить в этом случае следующим образом

р * р =|| у1г |р = 2 Су2 >1, (6)

к=1

причем,

у? = СС)Г = ^ , (7)

где АА - блочная матрица, состоящая из собственных значений собственных векторов субполосной матрицы Аг [9, 10]; х - анализируемый отрезок;

аг=к }>

Яд = Сз1п(уг+1(/ - г)) - 8ш(ут (г - к)))/(п(г - к)), г,к = 1,2,...,N. (8)

Субполосная матрица является симметричной и неотрицательно определённой. Поэтому она обладает полной системой ортонормальных собственных векторов.

С использованием формулы (6) были проведены исследования всех звуков русского алфавита для 10 различных дикторов (5 мужчин, 5 женщин). Результаты исследований показали, что распределение долей энергии различно и зависит от самого звука, положения звука в слове, интонации и тембра голоса диктора. Выбор длины окна анализа порядка основан на стремлении минимизировать ошибку захвата других звуков. Изменение распределения энергии в зависимости от начала, середины или конца звука вызвано тем, что речевой аппарата человека не может перестраиваться мгновенно.

Распределение долей энергии по частотным интервалам может быть использовано для обнаружения пауз в речевом сигнале [9, 10]. Решающая функция для проверки гипотезы о том, что анализируемый отрезок сигнала соответствует паузе между звуковыми данными (нулевая гипотеза) имеет вид

5 = тах(Рт/РТП), Ут = 1,2,...,Л, (9)

где в знаменателе стоят результаты предварительного усреднения по достаточно большому количеству отрезков сигнала, заведомо относящихся к паузам, долей энергий, попадающих в заданный частотный интервал [9, 10]:

РтП = £ (Рт) П / NУ. (10)

к=1

Здесь N - количество отрезков сигнала в паузе, которые используются

для усреднения, что соответствует оцениванию математических ожиданий

вычисляемых долей энергий в соответствующих частотных интервалах.

Если выполняется неравенство

5 > Иа , (11)

то нулевая гипотеза отвергается, иначе принимается решение о паузе [9, 10].

Символ ка в правой части неравенства (11) означает порог, обеспечивающий заданный уровень вероятности ложной тревоги, то есть выполнение неравенства

Р& > ка } <а<< 1. (12)

Значение порога можно получить из основанного на неравенстве Чебышева выражения

ка< £П + БП / ё4а , (13)

где £П - результат оценки математического ожидания решающей функции, _Оп - результат оценки дисперсии решающей функции [9, 10].

В табл. 2 представлены результаты оценки вероятности принятия ошибочного решения при использовании различных параметров модели, основанной на предложенном методе. При этом за нулевую принималась гипотеза о наличии паузы. В этом случае Рлт. - вероятность ошибки "ложная тревога" (когда речевой сигнал принимается за паузу), а Рпц - вероятность ошибки "пропуск цели" (когда пауза принимается за речевой сигнал). Как видно, значение вероятности принятия ошибочного решения невелико и значительно меньше, чем при использовании алгоритма УЛО.

Таблица 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Оценка вероятности принятия ошибочного решения при различных параметрах модели, основанной на новом методе

Параметры Р 1 л.т. Р 1 п.ц.

N = 64, Я = 16 0 0

N = 64, Я = 32 0 0

N - 128, Я = 16 0 0

N = 128, Я = 32 0 0,028

N = 128, Я = 64 0 0,057

Выводы. Результаты исследования влияния порядка модели на величину вероятности ошибочного принятия решения в алгоритме УЛО не выявило линейной зависимости между этими параметрами. Величина погрешности между синтезированным и исходным сигналом при реализации алгоритма линейного предсказания обратно пропорциональна значению порядка модели авторегрессии. Важно отметить, что чем выше порядок модели, тем выше качество звучания синтезированного сигнала, но разборчивость сохраняется даже при малых значениях порядка модели. Исследования на базе вариационного анализа позволили сравнить распределение долей энергии по частотным интервалам для всех звуков русской речи для различных дикторов. Исследования показали, что все звуки имеют свое особенное распределение, но при этом можно выделить некоторую схожесть для одного и того же звука разных дикторов. Выбор малой длительности окна анализа позволил выявить различие распределения энергии одного звука для начального, среднего и

последнего фрагментов. Это вызвано тем, что речевой аппарат человека не может мгновенное перестроиться и захватывает соседние звуки. Сравнение результатов оценки вероятностей принятия ошибочного решения при различных параметрах алгоритма, использующего вариационный метод анализа, с алгоритмом VAD показало, что новый алгоритм имеет меньшую вероятность принятия ошибочного решения. Таким образом, можно сказать, что использование нового метода обнаружения пауз позволит сократить вероятность принятия ошибочного решения, а значит, точнее определять паузы в речевых данных.

Список литературы: 1. Росляков А.В. IP-телефония I А.В. Росляков, М.Ю. Самсонов,

И.В. Шибаева. - М.: Радио и связь, 2003. - 252 с. 2. ГольдштейнБ.С. IP-телефония I Б.С. Гольдштейн, А.В. Пинчук, А.Л. Суховицкий. - М.: Эко-Трендз, 2001. - 336 с. 3. Варламова Е. IP-телефония в России I Е. Варламова II Connect! Мир связи, 1999. - № 9. 4. Сергиенко А.Б. Цифровая обработка сигналов IА.Б. Сергиенко. - СПб.: Питер, 2003. - 604 с. 5. Назаров М.В. Методы цифровой обработки и передачи речевых сигналов IМ.В. Назаров, Ю.Н. Прохоров. - М.: Радио и связь, 1985. - 176 с. б. Гольденберг Л.М. Цифровая об работка сигналов. I Л.М. Гольденберг. - М.: Радио и связь, 1985. - 312 с. 7. Шелухин О.И. Цифровая обработка и передача речи / О.И. Шелухин, Н.Ф. Лукьянцев; под ред. О.И. Шелухина. - М.: Радио и связь, 2000. - 456 с. S. Рабинер Л.Р. Цифровая обработка речевых сигналов / Л.Р. Рабинер, Р.В. Шафер; под ред. М.В. Назарова, Ю.Н. Прохорова. - М.: Радио и связь, 1981. - 495 с. 9. Жиляков Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений I Е.Г. Жиляков, С.П.Белов, Е.И. Прохоренко. - Белгород: БелГУ, 2007. - 136 с. 10. Белов С.П. Об уменьшении объема трафика при пакетной передаче речевых сообщений за счет кодирования пауз

I С.П. Белов, Е.И. Прохоренко // Научные ведомости Белгородского государственного университета. Серия: Информатика и прикладная математика. - Белгород, 2006. - № 1 (21). -Вып. 2. - С. 141-148.

УДК 621.391

Про аналіз і синтез мовних сигналів в IP-телефонії / Жиляков Є.Г., Фірсова А.А.

II Вісник НТУ "ХПІ". Тематичний випуск: Інформатика і моделювання. - Харків: НТУ "ХПІ". -2009. - № 43. - С. 84 - 91.

Розглянуті методи аналізу і синтезу мовних сигналів. Досліджені особливості розподілу енергії звуків російської мови, відповідних різним дикторам. Проведено дослідження залежності якості звучання синтезованого сигналу від порядку моделі лінійного прогнозу. Розглянуті існуючі методи виявлення і кодування пауз в IP-телефони. Іл.: 1. Табл. 2. Бібліогр.: 10 назв.

Ключові слова: мовний сигнал, синтез мовного сигналу, розподіл енергії звуків російської мови, лінійний прогноз, виявлення і кодування пауз, IP-телефошя.

UDK 621.391

About an analysis and synthesis of vocal signals in IF-telephony / Zhilyakov E.G., Firsova A.A. II Herald of the National Technical University "KhPI". Subject issue: Information Science and Modelling. - Kharkov: NTU "KhPI". - 2009. - №. 43. - P. 84 - 91.

The methods of analysis and synthesis of vocal signals are considered. The features of distributing of energy of sounds of Russian speech, proper different announcers are probed. Researches of dependence of quality of sounding of the synthesized signal are conducted from the order of model of linear prediction. The existent methods of discovery and encoding of pauses are considered in IP-telephony. Figs: 1. Tabl.: 2. Refs: 10 titles.

Keywords: vocal signal, synthesis of vocal signal, distributing of energy of sounds of Russian speech, linear prediction, discovery and encoding of pauses, IP-telephony.

Поступила в редакцию 20.10.2009.

Об анализе и синтезе речевых сигналов в ip‑телефонии Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жиляков Е. Г., Фирсова А. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жиляков Е. Г., Фирсова А. А.

About an analysis and synthesis of vocal signals in IP-telephony

Текст научной работы на тему «Об анализе и синтезе речевых сигналов в ip‑телефонии»