Доклады БГУИР
2009
№ 4 (42)
ЭЛЕКТРОНИКА
УДК 004.383.3
НЕРАВНОПОЛОСНЫИ КОСИНУСНО-МОДУЛИРОВАННЫИ БАНК ФИЛЬТРОВ ДЛЯ АППРОКСИМАЦИИ ШКАЛЫ БАРКОВ
М.И. ВАШКЕВИЧ, А.А. ПЕТРОВСКИЙ
Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь
Поступила в редакцию 27 февраля 2009
Рассматриваются практические аспекты использования неравнополосных косинусно-модулированных банков фильтров (НКМБФ) для аппроксимации шкалы барков. Особое внимание уделяется минимизации ошибки аппроксимации шкалы барков за счет точного определения коэффициента фазового преобразования.
Ключевые слова: неравнополосный банк фильтров, психоакустика, шкала барков.
В настоящее время при построении систем обработки речевых сигналов и звука широко применяются методы, основанные на принципах психоакустики [1-5]. В частности, используется такой результат исследований в области психоакустики, как критические частотные полосы [2]. Критической частотной полосой называется диапазон частот, внутри которого маскирующее отношение сигнал/шум остается постоянным. Использование критических частотных полос позволяет проектировать системы обработки речи, согласованные со слуховой системой человека. Как правило, в таких системах анализ и обработка спектра сигнала проводится в частотной шкале барков [1]. Эта шкала определена так, что критические частотные полосы слуховой системы человека имеют ширину в один барк. В работе [6] было показано, что НКМБФ позволяет с большой точностью аппроксимировать психоакустические шкалы. В данной статье рассматриваются вопросы, связанные с применением НКМБФ для аппроксимации шкалы барков. Кроме того в работе производится минимизация ошибки аппроксимации шкалы барков с использованием различных критериев оптимизации.
Общая структура банка фильтра приведена на рис. 1,а. Через Я0(г), Я1(г)_Ям-1(г) обозначен банк фильтров анализа, а через К0(г), банк фильтров синтеза. В данной статье рассматривается банк фильтров, получаемый путем косинусной модуляции импульсной характеристики фильтра-прототипа Н(п). Фильтр-прототип является фильтром с конечной импульсной характеристикой (КИХ) и линейной фазово-частотной характеристикой (ФЧХ) — в этом случае система анализ/синтез также обладает линейной ФЧХ.
Как было показано в [7], в случае М-канального косинусно-модулированного банка фильтров (КМБФ) импульсные характеристики банков анализа и синтеза записываются следующим образом (к=0...М-1')\
Введение
Косинусно-модулированный банк фильтров
Л* (и) = Ж")' сое (2£ + 1)-|-
(1)
тг ~\Т_1 тг
Л(И) = 2Л(И)-со8 {2к + \) — {п--_)-(-1)*_), (2)
где N — порядок фильтра прототипа. Так же на порядок фильтра прототипа накладывается ограничение N=2mM, где т — это произвольное положительное целое число, а М — это число каналов в банке фильтров.
Рис. 1. Общая структура банка фильтров (а); эффективная реализация КМБФ (б)
В работе [7] рассматривается эффективная реализация КМБФ, в основе которой лежит полифазное представление фильтра-прототипа:
2А/-1 т-1 2А/-1
Н(2) = ^Кп)-2- = X I>(<7 + 2pM)z-^2"M) = X z-<G(z™). (3)
п=О <7=0 р=О q=0
Введем следующее обозначение:
си = 2cos^(2Zr +1)(/"+ ("I)" f ) • (4)
Далее, используя периодичность функции косинус, получаем следующее тождество:
Ck,ll+2pM) = СкЛ ■
Выражение для эффективной реализации косинусно-модулированного банка фильтра получается путем подстановки выражения (1) в (3):
N-l 2mA/—1 2А/-1 т-1
п=О <7=0 <7=0 р= О
После чего, применяя упрощение (5) к (6), получаем:
Hk{z)= X ^Ч,31(-1)?% + 2рМК2г" = I ckqz-<Gq{-z'M). (7)
<7=0 р=О <7=0
Формула (7) лежит в основе эффективной реализации КМБФ, изображенной на рис. 1,6. Через С=[си] здесь обозначен блок косинусной модуляции (4).
Неравнополосный косинусно-модулированный банк фильтров
В основе неравнополосных банков фильтров лежит идея фазового преобразования (allpass transform) [8], которое используется для получения неравномерного частотного разрешения дискретных сигналов. Неравнополосный банк фильтров, получаемый путем простой замены элементов задержки в полифазных компонентах на фазовые фильтры, был предложен в работе [9].
Рассмотрим передаточную функцию A(z) стабильного каузального фазового звена:
М-1
2М -1
А(2) =
г 1 - а
1 - С!!'1
а < 1.
(8)
Ограничимся рассмотрением случаев, когда параметр а принимает действительные значения. Амплитудно-частотная характеристика (АЧХ) фазового звена равна
А(е'а) = е где
ср (со) = -со + 2аг
а эт со а сое со-1
(9)
(10)
Таким образом, замена элемента ъ 1 на фазовое звено приводит к отображению частотной оси со —» срр (со). Производя замену г4 —> А(2) в выражении (7) получаем передаточную функцию неравнополосного косинусно-модулированного фильтров (НКМБФ):
<7=0
Подставляя выражение (9) в (7), получаем АЧХ НКМБФ:
Н"к(еП=Т
с, е
к,д
-ЗЧфЛю)
"Г; (-е
]2Мф (со)
(11)
(12)
<7=0
Суть фазового преобразования в получении НКМБФ поясняется на рис. 2,а.
Рис. 2. Суть фазового преобразования (а); структура НКМБФ анализа (б)
На основании выражения (11) структура неравнополосного косинусно-модулированного банка фильтров анализа выглядит следующим образом (рис. 2,б).
Впервые неравнополосный вариант косинусно-модулированного банка фильтров был предложен в [6] для того, чтобы избежать комплексных канальных сигналов, которые получаются при использовании неравнополосных ДПФ-модулированных банков фильтров [10].
Использование НКМБФ для аппроксимации шкалы барков
В таблице приведено соответствие шкалы барков и частотных полос в герцах. Шкала барков отражает тот факт, что частотная избирательность слуховой системы человека намного лучше в области низких частот и ухудшается с увеличением частоты. Как упо-
миналось ранее, в настоящее время принципы психоакустики находят большое применение в обработке речевых сигналов и звука. Поэтому важной задачей является построение систем, позволяющих производить декомпозицию входного сигнала в соответствии со шкалой барков. Одним из возможных вариантов решения этой задачи является использование НКМБФ.
В работе [11] была исследована возможность отображения шкалы герц в шкалу барков при помощи фазового преобразования. При этом есть всего лишь один параметр, который дает возможность управлять данным отображением — это коэффициент а в выражении (8). Для того, чтобы получить отображение в шкалу барков, необходимо правильно выбрать параметр а. В [11] предлагается следующая формула для вычисления параметра а в зависимости от частоты дискретизации сигнала
■'Bark
(/J = 0,1957 -1,048
2 f — arctg(0,07212 —) ж 1000
(13)
1/2
Шкала барков
Номер барков Частотный диапазон, Гц Номер барка Частотный диапазон, Гц
1 0-100 13 1720-2000
2 100-200 14 2000-2320
3 200-300 15 2320-2700
4 300-400 16 2700-3150
5 400-510 17 3150-3700
6 510-630 18 3700-4400
7 630-770 19 4400-5300
8 770-920 20 5300-6400
9 920-1080 21 6400-7700
10 1080-1270 22 7700-9500
11 1270-1480 23 9500-12000
12 1480-1720 24 12000-15500
Как известно, в современных сетях телекоммуникаций при передаче речевых сигналов используется частота дискретизации f=8 кГц. Такая частота дискретизации соответствует ширине полосы 0-4000 Гц, в которую укладывается 18 критических полос (таблица), поэтому рассмотрим вопрос построения 18-канального банка фильтров. Подставляя значение f=8 кГц в (13), получаем значение aBark=0,4092.
Введем следующее выражение для вычисления ошибки аппроксимации k-й критической частотной полосы:
l^i ~ с, , I + IЬ, - с, I
Е{к) = 1 1 *-— , £=1,2... 18, (14)
\bk-bk-i\
где bk-1 и bk - это границы k-й критической частотной полосы (в герцах) и ck-1 и ск — это значения границ полос банка фильтров, получаемого при заданном значении параметра aBark. Выражение (14) позволяет оценить относительную погрешность аппроксимации ¿-ой критической частотной полосы. В (14) \bk_x — с| — это ошибка аппроксимации нижней границы к-й полосы, a \bk ~ск\ — погрешность аппроксимации верхней границы к-й полосы барков. Эти ошибки
суммируются, и берется их отношение к ширине k-й полосы. Для случая aBark=0,4092 график ошибки приведен на рис. 3,а.
Критерий минимизации ошибки аппроксимации шкалы барков в чебышевском смысле представляется как
фс = max Е(к) , (15)
aBark
а в среднеквадратичном смысле
ф5 =
1 18 -
-1(ВД-£)2
Е =
1 18 1«/.■ 1
(16)
Единственный параметр, который может изменяться — это коэффициент аВагк- Для нахождения оптимального значения коэффициента аВагк е [0; 1] может быть использован любой метод одномерного поиска (метод чисел Фибоначчи, метод золотого сечения и др.). Минимальное значение функции фс соответствует значению параметра с1Ва,-к=0,3659; график ошибки, который получается в этом случае, приведен на рис. 3,6. Минимальное значение функции ф8 соответствует значению параметра аВагк=0,3751 (рис. 3,в).
Рис. 3. График ошибки аппроксимации шкалы барков:
а — аВагк=0,4092; б — аВагк=0,3659; в — аВагк=0,3751
На рис. 4 показан график АЧХ 18-канального НКМБФ (аВагк=0,3659). Данный банк фильтров пригоден для использования в различных мультимедиа приложениях, таких как кодирование и распознавание речи, эхо- и шумоподавление и т.д.
Рис. 4 АЧХ НКБФ анализа, аппроксимирующего шкалу барков
Приведенный метод минимизации ошибки аппроксимации шкалы барков может быть применен для произвольной частоты дискретизации входного сигнала (£). Оптимальное значение коэффициента фазового преобразования аВагк в чебышевском или среднеквадратичном смысле находится путем минимизации выражений (15) и (16) соответственно.
Заключение
В статье даются сведения из теории проектирования неравнополосных банков фильтров, и рассматривается способ аппроксимации шкалы барков при помощи неравнополосного косинусно-модулированного банка фильтров. Приводится метод минимизации ошибки аппроксимации критических частотных полос в чебышевском или среднеквадратичном смысле за счет точного выбора коэффициента aBark фазового преобразования. Показан пример расчета 18-канального НКМБФ, для частоты дискретизацииf=8 кГц.
NONUNIFORM COSINE-MODULATED FILTER BANK FOR BARK SCALE
APPROXIMATION
M.I. VASHKEVICH, A.A. PETROVSKY
Abstract
Practical aspects of using nonuniform cosine-modulated filter banks (NCMFB) for bark scale approximation are considered. Particular attention to minimization error of bark scale approximation by careful evaluation coefficient of allpass transform is given.
Литература
1. Zwicker E., Fastl H. Psychoacoustics: Facts and Models. New York: Springer, 1990.
2. Johnston J.D. // IEEE J. Selected Area in Comm. 1988. Vol. 6. P. 314-323.
3. ParfieniukM., PetrovskyA. // Proc. ICASSP. Vol. 4. May 2004, Montreal, Canada. P. 185-188.
4. Лившиц М.З., ПарфенюкМ., Петровский А.А. // VII Междунар. конф. "Цифровая обработка сигналов и ее применение". Тр. РНТОРЭС им. А.С. Попова. М., 2005. С. 187-191.
5. ЛихачевД.С. // Изв. Белорусской инженерной акад. 2005. № 1(19)/2. С. 177-180.
6. Parfieniuk M., Petrovsky A. // Automatic Control and Computer Sciences, 2004. Vol. 38, N 4, P. 44-52.
7. Koipillai D. Vaidyanathan P.P. // IEEE Trans. on Signal Processing. 1992. Vol. 40, N 40, P. 770-783.
8. Oppenheim A., Johnson D., Streiglitz K. // Proc. of IEEE. 1971. Vol. 59, N 2. P. 299-301.
9. Vary P. // Proc. European Signal Processing Conf. 1980. P. 41-42.
10. Galijasevic E .,Kliewer J. // The Proc. of IEEE Digital Signal Processing Workshop'2000, Hunt, TX, USA, 2000. P. 1-6.
11. Smith III, Abel J.S. // IEEE Trans. On Speech and Audio Processing. 1999. Vol. 7, N 40. P. 697-708.