Научная статья на тему 'Непрерывное и дискретное гармонические преобразования для декомпозиции речевого сигнала на периодическую и шумовую компоненты'

Непрерывное и дискретное гармонические преобразования для декомпозиции речевого сигнала на периодическую и шумовую компоненты Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
224
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
речевой сигнал / анализ и синтез речевого сигнала / сепарация сигнала на шумовую и периодическую составляющие

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — И С. Азаров, А А. Петровский

Показываются особенности сепарации речевого сигнала на периодическую и шумовую компоненты, предлагается точный способ сепарации. Вводится понятие гармонического преобразования и рассматриваются его основные свойства. Описывается алгоритм нахождения дискретного гармонического преобразования, связанный с оценкой изменений во времени частоты основного тона. Приводится пример работы алгоритма для фрагмента речи и демонстрируются преимущества кратковременного гармонического преобразования над кратковременным преобразованием Фурье для нахождения гармонических составляющих речевого сигнала.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONTINUOUS AND DISCRETE HARMONIC TRANSFORM FOR PERIODIC / NOISE DECOMPOSITION OF SPEECH SIGNAL

An accurate method for signal harmonic/noise separation is proposed. Some peculiarities of the signal separation are shown. The definition of harmonic transform along with its basic features is introduced. The algorithm for harmonic transform evaluating, involving pitch track estimation is described. The example of harmonic estimation is given and advantages of the harmonic transform over Fourier transform are demonstrated.

Текст научной работы на тему «Непрерывное и дискретное гармонические преобразования для декомпозиции речевого сигнала на периодическую и шумовую компоненты»

Доклады БГУИР

2008

№ 4 (34)

ИНФОРМАТИКА

УДК 621.382

НЕПРЕРЫВНОЕ И ДИСКРЕТНОЕ ГАРМОНИЧЕСКИЕ ПРЕОБРАЗОВАНИЯ ДЛЯ ДЕКОМПОЗИЦИИ РЕЧЕВОГО СИГНАЛА НА ПЕРИОДИЧЕСКУЮ И

ШУМОВУЮ КОМПОНЕНТЫ

Показываются особенности сепарации речевого сигнала на периодическую и шумовую компоненты, предлагается точный способ сепарации. Вводится понятие гармонического преобразования и рассматриваются его основные свойства. Описывается алгоритм нахождения дискретного гармонического преобразования, связанный с оценкой изменений во времени частоты основного тона. Приводится пример работы алгоритма для фрагмента речи и демонстрируются преимущества кратковременного гармонического преобразования над кратковременным преобразованием Фурье для нахождения гармонических составляющих речевого сигнала.

Ключевые слова: речевой сигнал, анализ и синтез речевого сигнала, сепарация сигнала на шумовую и периодическую составляющие.

С задачами декомпозиции сигнала часто сталкиваются при создании систем сжатия и трансформации речи. Речевой сигнал может быть представлен в виде суммы трех основных составляющих: 8-1Ч-Т синусоидальной (гармонической), шумовой и переходной (от английского Зтез-Т^^зе-ТгагшегЛэ) [1]. Такая модель позволяет использовать специфику каждой из составляющих и применять соответствующие методы анализа и сжатия для каждой из них. Синусоидальная часть описывает сигнал, который можно описать в виде суммы конечного числа периодических функций (синус и косинус), шумовая — нерегулярный сигнал, который на слух воспринимается как шум, а переходная — непериодические (часто непродолжительные) фрагменты с резким изменением формы сигнала. В общем, можно рассматривать речь как комбинацию двух основных компонент: периодической и непериодической. Данная работа направлена на определение эффективности и точности выделения периодической части сигнала при помощи дискретного гармонического преобразования.

Широко используются модели, различающие только периодическую и шумовую компоненты. В таком случае сигнал обычно представляется в виде [2]

И.С. АЗАРОВ, А.А. ПЕТРОВСКИЙ

Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь

Поступила в редакцию 7 июля 2008

Введение

к

где Ак — мгновенная амплитуда к -й гармоники; К — число гармоник, присутствующих в сигнале; г(п) —шумовая компонента; (рд. —мгновенная фаза к -й гармоники определенная как

;=0 ^

где /к — мгновенная частота к -й гармоники, I' х — частота дискретизации и фА. (О) —

начальная фаза к -й гармоники.

Если для моделирования периодической составляющей используются лишь синусоиды с частотами, кратными частоте основного тона, т.е. /к — к/0, где /() —частота основного тона,

то такая модель называется гармонической. Большинство моделей предполагают, что речь может быть вокализованной либо невокализованной. Вокализованная речь может быть представлена при помощи периодических функций, тогда как невокализованная моделируется как белый шум, проходящий через соответствующий фильтр, параметры которого определяются, например, при помощи линейного предсказания [3].

Гармонические модели эффективно используются для кодирования речевых сигналов и обеспечивают высокий коэффициент сжатия [3, 4]. В [5] была представлена модель, которая рассматривает вокализованную речь как сумму гармонически связанных синусоид с амплитудами и фазами, вычисляемыми непосредственно из спектра кратковременного преобразования Фурье (КВПФ), а невокализованная речь рассматривалась как сумма случайно распределенных синусоид со случайными начальными фазами. Позже данная модель была значительно усовершенствована [6].

Однако КВПФ имеет определенные ограничения и не может быть эффективно использовано для нахождения параметров гармонических компонентов в случае частотно-модулированного сигнала. Для более точного определения этих параметров используется гармоническое преобразование (ГП) [7].

1. Гармоническое преобразование

Как известно, преобразование Фурье (ПФ), представляющее сигнал / (г) в виде синусоид различной частоты, определяется следующим образом:

^(ю)= Г/(г.

(1)

Исходный сигнал может быть восстановлен при помощи обратного преобразования Фурье (ОПФ):

/ ( г) = -Ц У (и>уш асо.

2 я

(2)

ПФ может быть легко использовано для гармонического анализа сигналов, состоящих из фиксированных частотных компонент. Однако ПФ сложно применить в случае, когда частота сигнала изменяется во времени.

Одним из способов локализации гармонических компонентов в частотно-модулированном сигнале является преобразование Фурье с масштабированием. Сигнал из временной оси г отображается на масштабную ось и при помощи некоторой масштабной функции р(г) . При этом

исходный сигнал растягивается или сжимается во времени для того, чтобы перед вычислением ПФ обеспечить стаци-

Рис. 1. Временное масштабирование сигнала

онарность частоты [8] рис. 1. Для речевого сигнала это означает стационарность частоты основного тона.

Другой реализацией данной операции может быть интеграция масштабирующей функции в само преобразование Фурье. Такое преобразование называется гармоническим преобразованием (ГП).

Изменяющийся во времени гармонический сигнал содержит гармоники, чьи мгновенные частоты можно описать следующим образом [9]:

где с0 (/ ) — частота основного тона и ск (I) — частота к -й гармоники. Вокализованная речь

является одним из типичных примеров изменяющегося во времени гармонического сигнала, который может быть синтезирован при помощи линейной фильтрации периодической последовательности импульсов. Мгновенная частота основного тона может быть определена как мгновенная частота последовательности импульсов, которая изменяется во времени. ГП функции / ) определяется как [10]

где ф (^) является фазовой функцией основного тона, деленной на ее мгновенную частоту; ф';( (!) — первая производная от (рц (/). (рц (/) должна быть дифференцируема и обратима на интервале (—оо;+оо) . Обратное гармоническое преобразование (ОГП) это:

Следует отметить, что ГП превращается в ПФ при фм (/) = I .

На рис. 2 показан пример преобразования сигнала из временной области в частотную при помощи преобразования Фурье и гармонического преобразования.

На рис. 3 схематично показано как соотносятся преобразование Фурье и гармоническое преобразование. Нестационарный гармонический сигнал (рис. 3, Ь) с использованием ГП выглядит в форме четких импульсов в частотной области (рис. 3, а), тогда как при применении ПФ в частотной области не наблюдается каких-либо пиков и все гармоники смешаны (рис. 3, с).

Рассмотрим условия существования ГП. Пусть (р"1^) является обратной функцией фи(0 • Обозначим г = фм(0 = ф~!(г) . Подстановка I = ф'Ч-г) и г = фм(0 в (1) дает

с*(0 = (* + 1)со(0, ¿ = 1,2,3...,

(3)

(4)

с)(»)= [У (<^"")аФи«)=£/2))е.

•СО

-СО

(5)

Подставляя / = фц' (г) и г — (рг/(!) в (4), получим:

(6)

Рис. 2. Преобразование Фурье и гармоническое преобразование: а — вокализованный сегмент речи; Ь —преобразование Фурье; с — гармоническое преобразование

Сравнивая (5) и (6) с (1) и (2) соответственно, можно установить, что (5) и (6) являются ПФ и ОПФ ,/(ф„' (г)) соответственно. Существование ПФ и ОПФ ,/(ф„' (г)) гарантирует существование ГП и ОГП соответственно.

Рис. 3. Гармоническое преобразование и преобразование Фурье: а — гармоническое преобразование; Ь — частотно-временное представление; с — преобразование Фурье

Следует отметить, что фи (г) должна быть известна перед вычислением ГП. Очевидно, что для данного сигнала функция фи (г) единственна. Действенным методом поиска данной функции может быть поиск при помощи перебора. Весь сигнал делится на набор перекрывающихся сегментов. Для каждого сегмента выражение фи (г) определяется как набор некоторых

неизвестных коэффициентов. Внутри допустимого диапазона значений каждого из коэффициентов ГП сегмента вычисляется для всех возможных комбинаций. Теоретически наилучшая концентрация спектра в частотно-временной области определит наиболее желаемый набор. Та-

95

ким образом, набор коэффициентов, который позволяет достичь наилучшей концентрации, должен использоваться в функции фи (г), которая в свою очередь может быть найдена путем

сравнения концентрации всех гармонических преобразований. фи (г) может быть найдена для

каждого сегмента одним и тем же способом.

Поиск перебором ведет к большой вычислительной сложности, тем не менее существуют некоторые способы, для того чтобы упростить данный процесс, используя знания о сигнале. Вообще говоря, значение фи (г) в определенный момент времени сильно зависит от одного локального текущего сегмента и не зависит от всего сигнала в целом. Если все сегменты являются достаточно короткими, справедливо предположить, что фи (г) для каждого из них линейна. Это

допущение ведет к существенному снижению вычислительной сложности. Так же знание частотной полосы основной или другой гармоники может помочь сузить область поиска и упростить вычисления.

Результат гармонического преобразования и функция фи (г) должны быть сопоставлены с данными, имеющимися о сигнале, для того чтобы исключить возможные ошибки, связанные с неправильным использованием гармоники в качестве основной или потере алгоритмом основного тона в невокализованных сегментах или при наличии пауз в сигнале.

2. Свойства гармонического преобразования

Несколько свойств ГП перечислено в табл. 1, последняя колонка приводит условия, которым должна удовлетворять фи (г) . Большинство этих свойств, за исключением некоторых,

аналогичны свойствам преобразования Фурье. Свойство линейности может быть легко получено из определения данного в (3) и (4). Для выполнения доказательств можно использовать взаимосвязь между ПФ и ГП, описанную в (5) и (6). Ниже приведены некоторые из них [7].

Таблица 1. Основные свойства гармонического преобразования

Свойство Временная область Частотная область Фи (г)

Линейность ах(/) + ¿>Х0 Х (г)М + Ъ¥фи (г)(Ш)

Декомпозиция Хе (г К Хо (г) , где Хе (г ) = 1 Х(г) + х(-г Х е М + Ха (Ю) , где X е (ш) = Яе[ X^ (г )(Ш)] Хо (ш) = } 1т[ X ^ (г )(ю)] Нечетн.

Временная инверсия Х Фи (г)(" ю) Нечетн.

Объединение X (г) Х Фи (г )(Ю)

Свертка Х Фи (г )(ю)7Фи (г )(Ю)

х(г) у(г) ХФи (г)(ю)* 7Фи (г)(Ю)

Симметрия ХФи (г )(г ) Ф' и (г) Х(-ю)

Дельта функция 5(г-г0) еПФп (г) ф'и (Ое^ и (г0) )

Энергия (•№>, |2 | х(г)ф'и (г) ёг •>-00 1 1 2 И\ХФи (гИ

2.1. Условие существования. Условие существования ГП:

[> а )ф и (г )| Л<м< + 00,

где М — положительная константа. Свойство может быть доказано через условие существования ПФ:

(г )| йг<м< + оо.

Применение этого условия существования к (5) дает условие существования ГП:

НУ (Ф~и(* ))| аг= [У (г )Ф С )| Ж<м< + со.

2.2. Свертка во временной области. Свойство ПФ — свертка во временной области справедливо и для ГП. Таким образом, гармоническое преобразование свертки двух сигналов х(г) и у(Х) является произведением их гармонических преобразований: Хф (^(ю) и ^Дш) .

Поскольку ^ = фи:(г) и г = фи (г), имеем:

•>-00 СО

= Г хСф:1 Г у(ф:1 {£)У*"сЬ = Г х(0ф'и Г Х0ф'в (ЯГ'^Л

•»—00 •'—00 •>—СО 00

^=ф:ЧФв(0)

= ХФи(о(ю)7Фи(о(С0)-

2.3. Свойство энергии. ГП не сохраняет энергию сигнала. Для того чтобы это продемонстрировать, можно использовать теорему Парсеваля, справедливую для ПФ:

£|х(0|2 (ш)|2 ёю,

где Х(ш) — ПФ сигнала х(1). Применяя теорему Парсеваля к (5), получим:

(г)(ю)2ёю=[У(фи_1(г))2(фи1(фи(0))|2ёфи(0 = []/2(0ф1(0|Л .

Таким образом, ГП не удовлетворяет теореме Парсеваля и не сохраняет энергию сигна-

ла.

3. Способ вычисления гармонического преобразования вокализованного речевого сигнала при помощи его декомпозиции в частотной области

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Как указывалось, ГП можно вычислить, при помощи ПФ, предварительно выполнив

масштабирование речевого сигнала во временной области, обеспечивая стационарность частоты основного тона [8]. Для сохранения динамического диапазона при вычислении масштабиро-

ванного сигнала можно использовать интерполирующий фильтр в области гармоник основного тона. Фильтр пропускает ограниченное число гармоник основного тона, необходимое для анализа, и отбрасывает гармоники более высоких порядков, находящихся вне интересующей обла-

сти. Такой фильтр (фильтр низких порядков) [9] имеет в области гармоник основного тона постоянную частотную характеристику, во временной же области его частотная характеристика изменяется для каждого вычисляемого отсчета. Таким образом, каждый отсчет масштабированного сигнала может быть вычислен как сумма взвешенных импульсной характеристикой

отсчетов исходного сигнала. С помощью этого метода можно получить динамический диапазон более 100 дБ [9].

На основе данного подхода можно предложить способ вычисления гармонического преобразования при помощи декомпозиции сигнала в частотной области. Сигнал рассматривается как сумма спектральных компонентов, которые можно получить, используя дискретное преобразование Фурье (ДПФ). С помощью ДПФ сигнал представим в виде

N/— —knn

s(n) = ^ MAG[S (k )]cos(—kn—i- 9[S(k)]), (7)

где MAG — амплитуда; к — частота; (p — начальная фаза, вычисляемые при помощи соответствующих соотношений:

N-1 — nnk

S(k) = -Is(n)e N ,

N n=0

MAG[S(k)] = д/Re S(k)2 + Im S(k)2 , TmS(k)

= -arctan

Re S (k)

Выражение (7) можно записать в виде суммы сверток сигнала с функциями косинуса соответствующих частот f:

N12

,2л

s(n) = ■ cos(— nfk),

где Fs — частота дискретизации сигнала.

Если заменить фиксированную частоту f частотным диапазоном (от F до F), то получим следующее выражение для одного компонента:

F\ 2к

sPi,f2 (и) = s(n) • Jcos(—nf)df . (8)

F¡ s

Имея произвольный вектор разбиения частотного диапазона F — (Fl,F2,..., F¿), удовлетворяющий условию Fl < /'2 < ... < Fl, где 1'\ — 0. FL — частота Найквиста и L — 1 — число компонент, можно представить исходный сигнал в виде

i-1

sW = l SFt,Fk_ 1(П) •

Ь1

Рассмотрим более подробно выражение (8). Вычислим соответствующий интеграл: jcos (2^rnf)df = -

F2-Fx , n = 0

2 л

nJW=\

nn VF„ 2 VF

F nn nn

Fcos(— (F2 + F1))sin(—(F2 -Fj)), n * 0.

Таким образом, частотный компонент, выделенный из сигнала в диапазоне (^, ) можно представить в аналитической форме:

i—0

(п — í)% Fs Fs

F

что можно записать следующим образом: 2тг 2 tí

SFC ,F4 (я) = Дя) cos(— /|FC) + В{п) sin(—/|FC), (9)

s s

где

A*) = Z-^^sinC^F. (и -/))cos(^Fc/) i=0 (и-/)л F,

. ^ • ... ..гл^..

= -^sin(—FA («-/)) sin(—Fj)

и-/) л

/7 -1-77 J7 — J7

T? _ г г"1"-*! г _

2 ' A~ 2 '

Выражение (9) представляет собой синусоиду с частотной и амплитудной модуляцией: 2п

s(n)Fe,F4 = C(/i)cos(—iyi + a(/i)),

где C(n) = ■s¡A2(n) + B2(n) ; a(n) = arctan(-^^.

A(n)

Из последнего выражения вычислим значения мгновенной частоты F, амплитуды MAG и фазы ф синусоиды для любого отсчета n :

Fp (и) - a(/7+f |"a(/7) + Fc, M4GFfA(и) = C(n), (и) = 2*iyz + о(и).

Таким образом, определив произвольный частотный диапазон (F, F ), можно представить часть сигнала, находящуюся в этом диапазоне, в виде синусоиды с определенными мгновенными параметрами (частотой, амплитудой и фазой). Выбирая вектор разбиения частотного

диапазона F соответствующим образом, исходя из характеристик анализируемого сигнала, легко получить мгновенные параметры гармоник основного тона.

Выражение (9) позволяет учесть операцию временного масштабирования. Для этого следует согласовать центр частотного диапазона с частотой основного тона:

и N12

где фА.(и) = (^F0(n) — ~^Fn(ti))k; F0(n) —мгновенная частота основного тона;

7=0 7=0

tl'Лп-г)ж Fs Fs

Bin) = £Fa (л - /)) sm(^cp, (/)).

Соответствующие выражения для частоты F, амплитуды MAG и фазы ф будут выглядеть следующим образом:

а{п + М)-а{п)

МАСРс р&(п) = С(п), фр (п) = 2%Р0кп + а(п),

где С(н) = л/л2(п) + В2(п) , а(п) = arctan(-В(п)).

А(п)

Полученные выражения для определения мгновенных гармонических параметров являются непрерывными функциями и позволяют определять гармонические параметры сигнала в произвольные моменты времени, не ограничиваясь моментами, которые соответствуют дискретным отсчетам сигнала.

4. Дискретное гармоническое преобразование

Определение и способ вычисления дискретного гармонического преобразования (ДГ11) были предложены в [10]. Поскольку в речевом сигнале частота основного тона изменяется достаточно медленно, целесообразно допустить, что внутри небольшого временного интервала зависимость частоты основного тона от времени линейна. Мгновенная фаза ) синусоиды с линейным изменением частоты определяется известной формулой (для простоты начальная фаза опущена):

ф(Г) = 2п

2 Л

Л" т

(10)

где /0 — начальная частота и в = / 7 ) — изменение частоты основного тона, деленное на длину сегмента (т.е. на время, за которое происходит данное изменение). Переходя к дискретным сигналам, для сегмента длиной в N отсчетов (Т — N / ), где !' х — частота дискретизации, формула (10) может быть переписана в виде

ф(и) = 2п

{ Г А Г 2 \

Ло^+¥оп К 2Ш„

V

(11)

Начальная частота основного тона внутри данного сегмента может быть выражена как

2 Лс

(12)

где /с — среднее значение частоты основного тона в данном сегменте длиной N . Подставляя /0 и Л/"0 в (11), из формул (12) получим

2л/

Ф(п) = —рг-ьа(п), аа(п) = п

^ а апЛ

1 — +-

2 2 N у

V

(13)

Рассмотрим дискретное гармоническое преобразование для сигналов с линейным изменением частоты основного тона. Частоты спектральных линий дискретного преобразования Фурье (ДПФ) определяются следующим образом:

•/с N

(14)

В ГП средние частоты спектральных линий приравняем к частотам спектральных линий ДПФ. Используя (14) и (13), получим

ф И = ^га<>)

Таким образом, мы можем определить ДГП для сигналов с линейным изменением частоты основного тона [10]:

^ а („)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5{к) = ^{п)а:(п)е м

»=о 5 (15)

где .ч(п) —дискретный сигнал, а а '(п) определяется как

,, . , а ап

а(п)-1---1--

2 N _

Тогда обратным ДГП будет

i N-1 2 пк

1 N-1 ]-а(")

*(п) = -Ы,S(к)e N

. (16)

Nk=0

Основные свойства ДГП приведены в табл. 2.

Таблица 2. Основные свойства дискретного гармонического преобразования

Свойство Временная область Частотная область

Линейность ах(п) + Ъу{п) aXод (к) + bY^ (к)

Свертка х(п) * у(п) Xa(n) (к )Ya(„) (k)

x(n) y(n) Xa(n) (к)* Ya(n)(k)

Энергия N-1 ZX(n)a' (n)2 n=0 N-l 2 Z|Xa(n) (к)| Ы 0

5. Декомпозиция речевого сигнала на периодическую и шумовую компоненты

5.1. Определение частоты основного тона. Преобразования, данные в (15) и (16), позволяют анализировать сигнал в гармонической области в случае, когда известна зависимость частоты основного тона от времени. Однако при анализе речи и средняя частота основного тона и его приращение неизвестны. Блок-схема алгоритма определения частоты основного тона показана на рис. 4 [10].

Прежде всего, алгоритм находит приращение частоты основного тона, путем анализа КДГП для различных фазовых функций, т.е. фазовых функций с различным параметром а . Оптимальное значение определяется как минимум меры пологости спектра:

J7|sr#r (a, к )|

к=0

N

arg min SFM (a) = 1 ,

a 1 x—^ i i

\STHT (a, к )|

где STHT(a, к) — гармонический спектр данного сегмента речи, полученный для определенного коэффициента a . Минимальная пологость спектра означает наивысшую его концентрацию, что в рассматриваемом случае обеспечивает максимальное приближение к существующему изменению частоты основного тона. После нахождения изменения определяется сама частота основного тона.

На первом шаге алгоритм определяет "кандидатов" — возможные значения частоты основного тона путем определения пиков (значений локальных максимумов) КДГП

на основании алгоритма, предложенного в [10], учитывая, что средняя частота основного тона должна находиться между 50 и 450 Гц. Для каждой возможной частоты основного тона алгоритм ищет ее гармоники. В случае, когда это не удается, данный "кандидат" отбрасывается. Для того чтобы избежать ошибочного выбора и не принять в качестве частоты основного тона одну из ее гармоник, рассчитывается следующая характеристика:

Рис. 4. Алгоритм определения частоты основного тона

г =

^Атах

II

И=1

\ci„

n

h max

2

2

где ап — амплитуда л -й гармоники частоты основного тона; пи <т:. — максимально возможный номер гармоники для выбранного "кандидата". Таким образом, в качестве частоты основного тона выбирается "кандидат" с максимальным значением г .

Окончательно частота основного тона уточняется при помощи следующей формулы:

'Ьптх -f

if

у _ И=1 "

'' "йшах '

где /, —частота п -й гармоники выбранного "кандидата".

Описанная процедура определяет среднюю частоту основного тона для одного сегмента. В дальнейшем, для того чтобы обеспечить верный выбор, используется буфер для хранения значений частоты основного тона соседних сегментов сигнала. Окончательная оценка частоты основного тона выполняется для сегмента, находящегося в центре буфера. Таким образом, вычисление частоты основного тона происходит с задержкой на несколько сегментов. В качестве следящего алгоритма используется медианная фильтрация, которая достаточно проста в использовании и обеспечивает устойчивость алгоритма против грубых ошибок.

5.2. Вычисление периодической и шумовой компоненты. Декомпозиция сигнала выполняется во временной области. Периодическая компонента вычисляется при помощи КДГП,

а шумовая находится как результат вычитания из исходного сигнала полученной периодической компоненты.

Периодическую часть сигнала можно записать следующим образом:

к(п) = ^ Ак ы^к^и^ ф^ (0)) :

(17)

к=1

где Ак — амплитуда к -й гармоники; ф(/7 ) — мгновенная фаза к -й гармоники, определенная в (13) со средней частотой основного тона /с; фА.(О) — начальная фаза к -й гармоники.

Для получения всех гармонических параметров (амплитуды, частоты и начальной фазы) непосредственно из спектрального представления используется специальный случай ГП [11]. Вариант ДГП, дающий спектр, масштабированный в соответствии с частотой основного тона, определяется как

$(к) = (п)е

■2жк% , N р

где /г — уточненная частота основного тона, к — 1.. К, а К — число гармоник основного тона. Амплитуды и фазы могут быть вычислены непосредственно из коэффициентов S(к) :

А, = ^ Я (к )2+^ £ (к )2,

Ф,д0) = -агс1ап-,

А ЯеЭД

где Re и Im означают действительную и мнимую части £ (к) соответственно. Периодическая компонента генерируется при помощи формулы (17), а шумовая компонента вычисляется следующим образом:

г(п) =5(и)—.

Пример сепарации сигнала показан на рис. 5.

Рис. 5. Пример сепарации речевого сигнала

п=0

5.3. Экспериментальные результаты. Как было сказано, использование гармонического преобразования позволяет с большей точностью выделять параметры частотно-модулированных сигналов. Это можно наглядно продемонстрировать при помощи сравнительных спектрограмм (рис. 6).

Спектрограмма, построенная при помощи КДГП (рис. 6,6) позволяет проследить частотную траекторию гармоник более высоких порядков, по сравнению со спектрограммой, построенной при помощи КВПФ (рис. 6,а).

а Время Ь Время

Рис. 6. Сравнительные спектрограммы вокализованного сегмента речи: а — спектрограмма, построенная при помощи КВПФ; Ь — спектрограмма, построенная при помощи КДГП

Для оценки описанного алгоритма нахождения КДГП проводился ряд экспериментов на синтетических сигналах. Процедура тестирования заключается в следующем: было создано два речевых набора (один для мужского голоса со средней частотой 120 Гц, другой для женского со средней частотой 200 Гц). Для того чтобы проверить работу КДГП, были использованы различные изменения частоты основного тона в обоих случаях. Приращение частоты основного тона выбирались случайным образом, однако оно составляло не более 30% от средней частоты основного тона в заданном сегменте. Тестирование проводилось для сигналов с разными соотношениями гармоники/шум путем различного зашумления сигнала. Результаты эксперимента приведены в табл. 3.

Таблица 3. Результат сепарации синтезированных сигналов

Средняя частота основного тона Исходное отношение гармоники/шум, дБ Полученное отношение гармоники/шум, дБ Сепарированная периодическая часть сигнала сигнал/шум, дБ

120 00 59,6 59,6

120 30 29,2 33,9

120 10 10,6 20,9

120 5 5,7 16,1

120 0 1,05 11,3

200 00 68,3 68,3

200 30 30,3 38,9

200 10 10,6 21,5

200 5 5,54 16,3

200 0 1,06 11,2

В колонке "Исходное отношение" приведено отношение в исходном сигнале. После определения периодической и шумовой части сигнала вычислялось отношение гармоники/шум. Среднее значение этого измерения показано в колонке "Полученное отношение". Затем качество полученной периодической части определялось вычислением отношения сигнал/шум, которое определено как отношение энергии сигнала к энергии сигнала ошибки. Сигнал ошибки определялся как разность между исходной и полученной периодическими компонентами.

6. Выводы

Предложен новый способ сепарации речевого сигнала, основанный на гармоническом преобразовании. Гармоническое преобразование трансформирует исходный сигнал, рассматриваемый как сумму частоты основного тона и его гармоник, в спектр, позволяющий с большой точностью выделить параметры гармонической части исходного сигнала. Введено понятие гармонического преобразования и приведены его основные свойства. Введено понятие дискретного гармонического преобразование для сигналов с линейным изменением частоты основного тона.

Основные преимущества использования КДГП заключаются в следующем: данное преобразование позволяет определить изменения частоты основного тона, причем сама частота основного тона может быть неизвестна, а также спектр сигнала в таком виде, что каждая из гармоник (в том числе и гармоники высоких порядков) имеет четкую форму, даже если частота основного тона не является стационарной.

CONTINUOUS AND DISCRETE HARMONIC TRANSFORM FOR PERIODIC / NOISE DECOMPOSITION OF SPEECH SIGNAL

IS. AZAROV, A.A. PETROVSKY

Abstract

An accurate method for signal harmonic/noise separation is proposed. Some peculiarities of the signal separation are shown. The definition of harmonic transform along with its basic features is introduced. The algorithm for harmonic transform evaluating, involving pitch track estimation is described. The example of harmonic estimation is given and advantages of the harmonic transform over Fourier transform are demonstrated.

Литература

1. Levine S., Verma T. and Smith J. O. // Proc. of the International Conference on Acoustic, Speech, and Signal Processing. Seattle, 1998.

2. KondozA.M. // Digital speech: coding for low bit rate communication systems. New York, 1996.

3. Маркел Д., Грей А. Линейное предсказание речи. М., 1980.

4. SpaniasA.S. // Proc. IEEE. 1994. Vol. 82, No 10. P. 1541-1582.

5. McAulayR.J., Quatieri T.F. // "Sinusoidal Coding" in Speech Coding and Synthesis (W. Klein and K. Palival, eds.). Amsterdam: Elsevier Science Publishers, 1995.

6. George E.B., Smith M.J. T. // IEEE Trans. on Speech and Audio Processing. 1997. Vol. 5, No. 5. P. 389-406.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. ZhangF., Bi G., Chen Y.Q. // IEEE Trans. on Vis. Image Signal Processing. August 2004. Vol. 151, No. 4. P. 257-264.

8. Abe T., HondaM. // IEEE Trans. on Audio, Speech, and Language processing. July 2006. Vol. 14, No. 4. P. 12921300.

9. PetrovskyA., Stankevich A., Balunowski J. // Proc. of the 6th Intern. congress "On sound and vibration", ICSV'99. Copenhagen, Denmark, 1999. P. 2985-2992.

10. Zubrycki P., Petrovsky A. // Proc. of the 15th European Signal Process. Conf., (EUSIPC0-2007). Poznan, 2007. P. 2336-2340.

11. Sercov V., Petrovsky A. // Proc. of the 9th European Signal processing conference, EUSIPCO '98, Vol. II, Sep. 8-11, 1998. Rhodes, Greece. P. 1137-1140.

12. Sercov V., Petrovsky A. // Proc. of the 6th European Conf. on Speech Communication and Technology EUROSPEECH '99, Budapest, Hungary, 1999. P. 1479-1482.

i Надоели баннеры? Вы всегда можете отключить рекламу.