Перцептуальное кодирование аудио и речевых сигналов

А. А. Петровский; К. Белявский; Ал. А. Петровский

2004

Доклады БГУИР

январь- март

№ 1

УДК 681.3.01:621.391:517.988

ПЕРЦЕПТУАЛЬНОЕ КОДИРОВАНИЕ АУДИО И РЕЧЕВЫХ СИГНАЛОВ

А.А. ПЕТРОВСКИЙ, К. БЕЛЯВСКИЙ, АЛ А. ПЕТРОВСКИЙ

Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь

Белостокский технический университет, кафедра систем реального времени

Поступила в редакцию 15 декабря 2003

В статье предлагается новое решение в построении перцептуальных аудио и речевых кодеров на основе пакета дискретного вэйвлет преобразования (ПДВП), а также комбинированная система редактирования слышимых шумов и кодирования речевых сигналов на основе ПДВП, согласованного с психоакустической шкалой барков и перцептуального взвешивания.

Ключевые слова: кодирование, пакет дискретного вэйвлет-преобразования, психоакустика.

Введение

Непрерывное увеличение передач в системах мультимедиа через Интернет обусловливает поиск новых решений эффективной обработки в реальном масштабе времени аудио и речевых данных (их компрессию и декомпрессию) [1, 2]. Запись в память компьютера и передача высокого качества музыки (аудиосигналов) требует изучения и разработки новых, соответствующих особенностям данного сигнала методов компрессии-кодирования и архитектурных решений процессоров [1]. Компрессия речевых сигналов традиционно базируется на определенных моделях речеобразования [3], в то время как в методах компрессии высококачественно -го аудиосигнала пытаются использовать свойства шумового маскирования человеческого слуха

[4].

Общая философия перцептуального кодера взаимосвязана с выбором метода частотно-временного анализа [5]. В настоящей статье исследуется построение перцептуальных кодеров сигналов как на основе адаптированного под сигнал и заданный вычислительный ресурс пакета дискретного вэйвлет преобразования (ПДВП) (аудио кодеры), так и на фиксированной структуре дерева ПДВП, согласованной со шкалой критических частот восприятия акустической информации человеком (широкополосные кодеры речи). Структура кодера базируется на подходе динамической трансформации алгоритма, вычислении перцептуальной энтропии в области вэйвлет-коэффициентов, эффективном распределении битов кодирования, учитывающего неидеальность преобразования.

Статистическая и перцептуальная избыточность

Основной идеей кодеров является разделение сигнала на частотные компоненты с помощью некого банка фильтров. Далее компоненты сигнала квантуются в частотной области и общее количество бит динамически распределяется в зависимости от энергии каждого спектрального компонента и его значимости. Пусть в какой-то момент времени спектральные ком-

поненты сигнала обладают одинаковой энергией и занимают весь спектр, а также предполагается отсутствие модуля психоакустического анализа информации. Таким образом, все действия сконцентрированы на устранении статистической избыточности (далее просто избыточности). В данном случае увеличение степени компрессии за счет перераспределения общего количества бит между всеми спектральными компонентами не осуществится в силу того, что для кодирования каждого компонента потребуется одно и тоже количество бит. С другой стороны, если допустить, что спектр сигнала "окрашенный", например, основные спектральные компоненты сконцентрированы в области нижних частот, то произойдет перераспределение общего количества бит между всеми спектральными компонентами и значение степени компрессии увеличится. Здесь сигнал содержит избыточность и соответственно в большей или в меньшей степени ее можно устранить. Эффективность этой операции зависит от характеристик применяемого банка фильтров.

Пусть хк — к-я спектральная компонента сигнала, а Q(xk) — ее Як битный квантованный аналог, Q - операция квантования, тогда ошибка реконструкции к-й компоненты равна Чк = хк - Q"1(Q(xk)). Другими словами, чк - внесенное искажение в сигнал в результате его кодирования. Среднее число бит на одну спектральную компоненту равно:

Я =

1 N-1

N Е Як

N

(1)

к=0

где N — количество спектральных компонент (каналов в банке фильтров). Принимая во внимание, что шум квантователя является белым [6], дисперсия внесенных искажений в сигнал в результате кодирования для ИКМ квантователя равна [6]:

ч2 =

1 N-1

- Е

N

к=0

Хи

Л

3 • 2

2 Як

(2)

Целью оптимизации является минимизация дисперсии ошибок реконструкции Ч при ограничении на общее распределение бит. Число уровней реконструкции для квантования компоненты к-го канала банка фильтров Ьк = 2Як, тогда

1 N-1 1 N-1

Я = ^ Е 1°82 Ак = ^ 1082 П Ак .

к=0

N£00 °2 к N Далее

(3)

N-1

(N-1 Л

2Я =П А = ^, где А = П А

к=0

И^к

V к=0

N

(4)

является средним геометрическим значением уровней реконструкции квантователя. Минимизация дисперсии внесенных искажений при кодировании сигнала основывается на методе множителей Лагранжа Л:

й I 1

^ х2

N-1

N Етгт+ ЛП Ак ■ =

йАк [N к=03 • к=0

(5)

После дифференцирования и некоторых преобразований формула оптимального распределения бит по каналам банка фильтров примет вид

1 / \ 1 (N -1

Як = Я + -1082 Х)-тг1°§2 П

2 2 V к=0

1

( N-1 Л N

х2

V к=0 У

1

Из выражения (6) следует, что минимальное число бит в каждом k-м канале определяется распределением спектральной энергии в сигнале и выигрыш в количестве бит по сравнению с однополосным банком фильтров будет только в том случае, когда среднегеометрическое значение спектральной плотности мощности сигнала будет много меньше ее среднеарифметического значения. Отношение среднегеометрического значения спектральной плотности мощности сигнала к ее среднеарифметическому значению есть мера пологости спектра сигнала (Spectral Flatness Measure — SFM) [5]:

С N-1

п

SFM =

1

Л N

x,r

V k=0 у

1 N -1

- Y xl

N

(7)

k=0

Из формулы (7) видно, что значения БЕМ варьируются от 0 до 1. Если БЕМ = 1, то подразумевается, что входной сигнал с пологим спектром и соответственно никакого увеличения компрессии нельзя получить. Пусть БМЕ = 1, тогда, согласно (6), получается, что Rк=R. Следует отметить, что БЕМ зависит не только от распределения спектральной энергии сигнала, но также и от разрешающей способности банка фильтров, т.е. от общего числа N каналов в банке фильтров.

Таким образом, мерой избыточности в сигнале является мера пологости спектра БЕМ [5]: чем более пологий спектр сигнала, тем меньше избыточности в сигнале. Малое значение БЕМ подразумевает потенциально высокую степень компрессии сигнала, которую естественно можно оценить числом бит, необходимых для кодирования сигнала без артефактов. Из приведенных выше формул может быть получено выражение, показывающее уменьшение энтропии входного сигнала за счет его разбиения банком фильтров.

В перцептуальном кодере сигналов цель не только устранения информационной избыточности, но и изоляции перцептуальной избыточности акустической информации в сигнале. Это желание расположить в спектре сигнала внесенные искажения в реконструированный сигнал в результате кодирования ниже порога маскирования, т.е. порога восприятия акустической информации слушателем. Соотношение сигнал шум БNR для квантования компонент каналов банка фильтров равно:

x

SNR = 10log —,

q

(8)

а соотношение сигнал к порогу маскирования Т БMR определяется следующим образом: ,2

(9)

x

SMR = 10 log TT.

Далее для компонент сигнала к-го канала, значения которых больше порога маскирования Тк, хотелось бы максимизировать разность БNR-БMR или что эквивалентно, минимизировать разность БMR-БNR. Для соотношения БMR-БNR с учетом дисперсии q2 (2) дисперсия внесенных искажений кодированием, взвешенная маскирующим фактором, равна:

q 2 1 n-1

1г=-Y

T2 N 1=0

(10)

где Тк — уровень порога маскирования в к-м канале банка фильтров. Минимизация данной взвешенной ошибки (10), аналогично варианту минимизации дисперсии ошибки реконструкции

q2 (2), приводит к следующей формуле оптимального распределения бит по каналам банка фильтров:

^ = R + 210§2 [^ V 21о§2 [и ХУТ2

2 V/ 1k У 2 ^ k=o/ 1k

1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

^ N

У

(11)

Из формулы (11) следует, что мера перцептуальной избыточности [7] определяется как отношение:

PSFM =

С N-1 2 /

п %

V k=о / J■k У

1

1 N -1

- Е

N k~o

N-1 х 2 л,

(12)

Как видно из (12), PSFM зависит от распределения по частотному диапазону спектральной энергии взвешенной энергией порога маскирования. В данном случае необходимо построить частотно-временное преобразование, характеристики которого зависят от временных изменений сигнала, т.е. обеспечивается требуемое разрешение как по частоте, так по времени, а не только по частоте. Характеристика информационной емкости сигнала в частотной области и область его эффективного кодирования схематически показаны на рис. 1.

у нет перцептуальной избыточности статистическая избыточность -

перцептуальная

избыточность

Область

эффективного

кодирования

нет статистической

избыточности

Рис. 1 Характеристика информационной емкости аудиосигнала в частотной области и область его эффективного кодирования (стрелками показаны направления уменьшения избыточности соответсвенно статистической и перцептуальной)

Общая структура перцептуального кодера

Ключевая концепция кодирования аудиосигналов на основе восприятия акустической информации человеком (перцептуальное кодирование [8, 9]) базируется на так называемом пороге едва различимых искажений, который является функцией спектра входного сигнала и параметров психоакустической модели [4], а минимальное число бит, необходимое для кодирования аудиосигнала, оценивается "перцептуальной энтропией" (PE) [10]:

1 л ( PE = — Е тах 0,1о§2

N f=л V

^¡Япа/(у )

threshold (у )

Л

где N — число частотных компонент в частотном диапазоне f и fh; f — нижняя частота (например, f = 0 Гц) диапазона; fh — верхняя частота (например, fh = 22050 Гц) диапазона; | signalf) | — амплитуда частотной компоненты f; thresholdf) — оценка порога маскирования на частоте f. На практике PE часто называют функцией Джонстона (Johnston, 1988) и вычисляют на основе полосового анализа аудиосигнала [7]:

25 Ыц

PE = £Zlog2

i=1 a)=bli

2

n int

Re(a)

,76m

Л

+1

+ log;

2

n int

Im(y)

Л

+1

(14)

где 7 — индекс критической полосы; Ъ17 и Ък7 — нижнее и верхнее значение частоты 7-й критической полосы; к7 — количество компонентов преобразования в 7-й критической полосе; Т7 — значение порога маскирования в критической полосе 7; птХ — операция округления до ближайшего целого значения. Следовательно, та часть сигнала, которая может быть изменена (в общем случае отброшена) и при этом не вносится дополнительных искажений при его восстановлении, является перцептуально избыточной, а часть сигнала, отражающая слышимую акустическую информацию человеком, измеряется и кодируется.

Структуры большинства кодеров сигналов на основе психоакустики сходны и могут быть представлены обобщенной схемой [8] (рис. 2).

x(n) Частотно-временной Параметры Квантование и е и н Параметры

анализ кодирование е о н M U X В канал

J L ч о а в

Маскирующий т ы ор и

Психоакустический порог Распределение б з д ко

анализ бит

Рис. 2. Общая структура перцептуального аудиокодера

Входной аудиосигнал разбивается на квазистационарные фреймы длительностью от 2 до 50 мс в зависимости от алгоритмов обработки и методов кодирования. Блок частотно -временного анализа аппроксимирует временные и спектральные параметры аудиосигнала для каждого анализируемого фрейма с учетом шкалы критических частотных полос. В блоке психоакустического анализа оценивается энергия маскирующего сигнала (уровни маскирующих порогов) на базе психоакустической модели. При этом определяются максимальные искажения, возникающие в каждой точке частотно-временной плоскости в процессе квантования и кодирования частотно-временных оценок без введения искусственного артефакта слышимости при восстановлении сигнала. Следовательно, психоакустический анализатор вычисляет частотно-временной параметр не восприятия акустической информации слушателем, который затем передается в блок квантования и кодирования. Таким образом, в процессе психоакустического кодирования необходимо, во-первых, установить вид маскирующего сигнала, во-вторых, вычислить соответствующие пороги. Затем полученную информацию использовать для того, чтобы расположить спектр шума кодирования ниже так называемого порога едва различимых искажений JND (just noticeable distortion) [4].

ПДВП-кодеры с адаптивной структурой дерева преобразования

ПДВП есть обобщение диадического вэйвлет-преобразования, которое позволяет получить множество структур путем его соответствующих декомпозиций [11]. ПДВП впервые было предложено в [12] для обработки нестационарных сигналов. Структура ПДВП больше согласуется с сигналом, чем вэйвлет-преобразование [11], и характеризуется следующими свойствами: малая вычислительная сложность процедуры декомпозиции аудиосигнала в выбранном базисе (процедура анализа); малая вычислительная сложность процедуры суперпозиции в выбранном базисе (структура реконструкции сигнала (синтеза)); конвейерность вычислительного процесса процедур анализа и синтеза, что способствует организации поточных и параллельно-поточных структур процессоров реального времени; гибкое изменение временного разрешения, что по-

зволяет выбирать определенной длины фреймы сигнала; гибкое изменение частотного разрешения, обеспечивающее локализацию нестационарностей в сигнале; единственность преобразования, т.е. в ограниченном числе структур ПДВП имеется одна, идентифицирующая соответствующие компоненты сигнала.

Структуру перцептуальных аудио кодеров на основе адаптивного ПДВП [13] укрупнен-но можно представить в виде следующей схемы (рис. 3).

Рис. 3 Структура перцептуального ПДВП-кодера с адаптивным деревом преобразования

На основе перцептуальной энтропии дерево преобразования адаптируется к сигналу, т.е. структура дерева — сигналозависимая, банк анализирующих фильтров инвариантный во времени и базируется на семействе биортогональных сплайн вэйвлет-функций. Основная задача процесса адаптации структуры дерева ПДВП заключается в построении такой декомпозиции полос, которая обеспечивает минимальную скорость передачи при максимизации минимального порога маскирования в каждой полосе. Ширина полос, определяемая текущей структурой дерева ПДВП, может совпадать или нет с частотным разбиением порогов. Для каждой конкретной структуры дерева ПДВП скорость передачи определяется следующим образом: ищутся минимальные значения порогов маскирования в каждой полосе, далее выполняется размещение необходимого количества бит таким образом, чтобы шум квантователя не превышал значения минимального порога маскирования в полосе. Таким образом, "точная" психоакустическая модель, вычисленная в частотной области, на первых уровнях анализа ПДВП сильно загрубляет-ся. Это обусловленно тем, что частотные полосы, "нарезанные" ПДВП на данных уровнях, значительно шире, чем в психоакустической модели. Другой подход адаптации ПДВП предложен в [13]. Здесь используется инвариантная во времени структура дерева преобразования, но адаптируется к сигналу вэйвлет-базис, в частности число коэффициентов фильтра. Схема "глобальной адаптации" рассматривается в [14]. Эффективность перцептуального кодера здесь ассоциируется с оптимизацией анализирующих фильтров для каждого узла дерева ПДВП, а также на основе перцептуальной энтропии оптимизируется структура дерева преобразования: разбиение частотного диапазона на полосы как можно ближе к критической шкале частот.

Основные недостатки данных подходов следующие: во-первых, большая алгоритмическая задержка, обусловленная вычислением на всем фрейме сигнала психоакустической модели и оптимизации структуры дерева преобразования на основе вычисления полного дерева; во-вторых, невозможность организации поточного режима вычисления в кодере из-за того, что психоакустическая модель вычисляется в частотной области на основе дискретного преобразования Фурье; в-третьих, как следствие первого и второго недостатков, кодер работает не в реальном масштабе времени.

Декомпозиция пакета дискретного вэйвлет преобразования

Пусть {(рп ((): п е Z} определяет множество структур деревьев ПДВП и пусть

Е с {(1,п): 0 < I < Ь, 0 < п < 21} представляет собой узлы дерева ПДВП, тогда отрезок [0,1) разделяется на диадические интервалы:

= [п24, (п+1)2-1], (15)

которые соответствуют специфическому множеству узлов E. В частности, { ((): ((,n)E, k е Z}, (16)

где

'Pink(/)=2'n(2 't-k) является базовой формой в пространстве сигнала

span{р0(t -k): k е Z}. Узел (l,n) е E дерева ПДВП ассоциируется с частотной полосой, у которой центральная частота и полоса пропускания приблизительно задаются следующими соот-

ношениями:

fhn = 2-' (GC-1 (n) + 0,5) fj 2,

f ,n = 2-i • fj2,

(17)

(18)

где GC1 — обратный код перестановок Грея; f — частота дискретизации сигнала.

Аппроксимация критической шкалы частот на основе ПДВП осуществляется таким образом, чтобы расстояние между центральными частотами zf) полос пропускания было размером в один барк [15]. На рис. 4 показано дерево ПДВП (Critical Band Wavelet Packet Decomposition (CB-WPD)), полученное эмпирически, которое осуществляет разделение частотного интервала аудиосигнала на полосы согласно критической шкале частот [16]:

CB-WPD: (l,n) е Ecb, ' = 0,8 ,

где ECB обозначает множество узлов дерева ПДВП, соответствующего CB-WPD.

(0,0)9

(l, n) = (0,0) -L

(19)

(7,0)

Гц

ho t 2

_

h1 t 2

Рис. 4. Дерево ПДВП (1,п) е Есв

Дерево СВ-ЖРО делит частотный диапазон, например аудиосигнала [0 - 22,05 кГц], на 25 неравномерных полос СВЖ(/), т.е. на 25 барков. Корневой узел (1,п) = (0,0) данного дерева соответствует всему частотному диапазону сигнала. Каждый внутренний узел дерева (1,п) е Е, названный узлом предка, делится на два потомка: 1-й потомок и 2-й потомок, ассоциируемые соответственно с высокочастотной и низкочастотной фильтрацией, выходные сигналы (вэйв-лет-коэффициенты) которых децимируются в соотношении 2:1:

X'n,k (t) = (x(t), 'ink (t)), (l,n) е Ecb, k е Z.

(20)

Следовательно, банк вэйвлет-фильтров (СВ-ШРО: (1,п) е Есв), согласованный с критической шкалой частот восприятия акустической информации человеком [15], является предельной структурой для метода перцептуального кодирования аудиосигнала. Процедура расчета

порогов маскирования в вэйвлет-области для аудиокодера на базе ПДВП, согласованного с критической шкалой частот, приведена в приложении 1 [16].

Поиск структур деревьев ПДВП базируется на известном утверждении [11]: любая комбинация целых индексов (l,n,k) е Z, для которых вэйвлеты сконцентрированы на двоичных интервалах [n24, (n+1)2-1] из диапазона [0, да) соответствует ортогональным базисам i//lnk (t),

(ßink (t) из пространства L2(k). Утверждение доказывает существование множества структур

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ПДВП. Следовательно, стоит задача поиска такой структуры дерева преобразования из библиотеки, при которой обеспечивается максимальная компрессия без воспринимаемых на слух вносимых искажений в реконструированный сигнал при заданном временном разрешении. Таким образом, оптимизация — это итеративный процесс, и декомпозиция "лучшего" дерева преобразования выбирается как можно ближе к шкале барков [14, 17].

Предположим, что необходимый вычислительный ресурс, под которым понимается производительность процессора и емкость его памяти на фрейме входных данных, есть Cj. Предположим также, что имеющийся в распоряжении вычислительный ресурс равен C. Таким образом, проблема заключается в адаптивном построении структуры дерева ПДВП (l,n) е Ej, j = 1,2,3,... , при которой достигается минимум стоимостной функции

min J(x,,n,k (t), ((, n) е E}, k е Z) для Cj < C. (21)

Ее величина ограничивается перцептуальной энтропией PE (13)) для заданного вычислительного ресурса C и временного сегмента сигнала длинной кратной степени двух. В перцеп-туальном кодировании по мере обработки входного фрейма сигнала решение задачи (21) предлагается разбить на два этапа: на основании стоимостных функций для каждого узла дерева преобразования (l,n) е E, определяемых перцептуальной энтропией, осуществляется декомпозиция данных узлов, при которой будет минимизировано требуемое количество бит кодирования вэйвлет-коэффициентов Xln, а шумы квантования не воспринимаются слухом человека. Таким образом, осуществляется рост дерева преобразования; оценивается информативность новой структуры дерева преобразования, т.е. как точно новое частотно-временное разрешение банка фильтров анализа локализовало нестационарности сигнала, а также требуемый вычислительный ресурс.

Стоимостная функция декомпозиции узлов (l,n) е E дерева ПДВП выбирается следующим образом:

Ji,n = Zlog2([int(SRM, nk)]+ 1),(l,n) е E, k е Z, (22)

n, k

где SMRl n k — отношение сигнала к порогу маскирования в полосе узла (l n) дерева E. Другими словами, отношение (22) вычисляется для каждой частотной полосы (узла дерева ПДВП) и представляет собой отношение среднеквадратического значения сигнала в узле (l,n) к средне-квадратическому значению шума квантования, который будет внесен в реконструированный сигнал. Максимально возможный уровень шума, не воспринимаемый на слух человеком, очевидно, является значением порога маскирования. Таким образом, весовая функция Ji,n есть индикатор необходимого числа битов для кодирования аудиосигнала.

Итак, отношение среднеквадратического значения вэйвлет-коэффициентов Xi,n,k в полосе узла (l,n) дерева Ej к соответствующему маскирующему порогу n, равномерно распределенному между К,,п коэффициентами Xi,n,k, k = 1, к, n , узла (l,n), определяется следующим образом [18]:

SMR

X,,

l ,n,k

T 12 >

(23)

k

где знаменатель .^12 Т1п!К1 п — максимальный шаг квантователя Аг „ вэйвлет-коэффициентов

в узле (I,п) е Е,, а величина БМЯ^пк задает минимальное количество уровней квантования. Следовательно, стоимостная функция ^ п (22) декомпозиции узлов (I, п) е Е, дерева ПДВП (роста структуры ПДВП) определяется как перцептуальная энтропия узла (I ,п) е Е, и показывает требуемое число двоичных разрядов для кодирования аудиосигнала в частотной полосе, определяемой узлом (I, п):

К п —1

РЕ1п = £ 1СВ2(2[пЦжМ.п,,)]+ 1),[бит/(/,п)], (I,п) е Е, к е 2. (24)

к=1

Функция РЕт,п (1,п) е Е, представляет собой функцию перцептуальной энтропии Джон-стона (13), однако вычисляемую для действительных коэффициентов и в вэйвлет-области для текущего дерева Е, ПДВП.

В качестве меры информативности дерева ПДВП может быть выбрана энтропия [11]:

Н (и ) = £ Я«)108-Ц, (25)

к Р(п)

где р(к) = |и(и)2/||и||2 — нормализованная энергия к-го элемента вектора и = {и(п)},

п = 1,2,3,..., представленная функцией распределения вероятности р, причем р^(1/р) = 0 для р = 0. Исходя из свойств энтропии [11], в частности, характеризующего среднюю неопределенность выбора, применительно в ПДВП-кодеру предлагается конструировать меру количества информативности ПДВП (неопределенности) некой структуры дерева преобразования из множества структур в виде следующей стоимостной функции:

ж—I I |2 1

Лп = £ К-,к| 108:-¡г, т е Е, к е 2. (26)

И \Х1,п,к\

С учетом определения энтропии (25) не сложно показать, что

Н) = + ЧХ,п,к||2, (1,п) е Е, к е 2, (27)

т.е. минимизация стоимостной функции ведет к минимизации энтропии Н(Х1лк), (1,п) е Е{. Меру информативности структуры дерева ПДВП в соответствии с (26) и (27) предлагается конструировать следующим образом [19]:

( \

wteEi = £ £ Йу Iln

Дл® ч к £ \l,n,k\

V(l n >-Щ для 1 1

V(( ,n )Ei

у

l ,n,k\

£l X

/ ! l,n,k для

V V(l ,n )-Ei J

(l,n) e Ei, k e Z, i = 1,8 , (28)

где Xlnk e (l, n) — коэффициенты узла (l, n) дерева E,. Данная стоимостная функция характеризует энтропию вэйвлет-коэффициентов Xltnk в узлах (l, n) дерева E, и отражает изменение во времени информативности ПДВП, отсюда и название — временная энтропия вэйвлет-коэффициентов (WTE — wavelet time entropy).

Декомпозиция ПДВП, т.е. "рост" дерева преобразования, может осуществляться на основании следующего алгоритма [20].

Алгоритм. Рост дерева ПДВП

Пусть решение о декомпозиции узла (l,n) дерева Ej ПДВП будет обозначаться как split(l,n), где l - уровень декомпозиции, т.е. масштабный уровень преобразования, а n есть n-й узел на уровне l. Пусть текущий узел (предок) будет (l,n), а его потомки определяются как (l+1,2n) и (l+1,2n+1), где l = 0,1,2,3,... , n = 0,1,2,3,...

Шаг 1. Пусть l = 0, split(l,n) = YES, т.е. задан корневой узел (0,0) дерева преобразования E0 - входной фрейм аудиосигнала, перцептуальная энтропия которого равна PE0,0.

Шаг 2. Осуществляется декомпозиция входного сигнала на основе ячейки - банка из двух ортонормальных вэйвлет-фильтров.

Шаг 3. Вычисляется перцептуальная энтропия в узлах декомпозиции.

Шаг 4. l = l+1.

ЕСЛИ l-1 > максимального масштабного уровня предельного дерева CB-WPD, ТОГДА STOP - конец роста дерева ПДВП.

Шаг 5. Для каждого узла n уровня l рост дерева El ПДВП осуществляется следующим образом:

выполняется декомпозиция узла предка (l,n);

вычисляется перцептуальная энтропия в узлах потомках: PEl+1,2n и PEl+1,2n+1. ЕСЛИ PEin > PE+h2n + PEm ТОГДА split(l,n) = YES. ИНАЧЕ split(l,n) = NO.

Шаг 6. Переход к шагу 4.

Таким образом, для каждого входного фрейма сигнала каждый узел-предок (l,n) дерева Ej разделяется на два узла-потомка (l+1,2n) и (l+1,2n+1) тогда и только тогда, когда сумма пер-цептуальной энтропии в узлах-потомках (l+1,2n) и (l+1,2n+1) меньше, чем значение перцепту-альной энтропии в узле-предке (l,n). Данный алгоритм роста дерева ПДВП позволяет определить субоптимальную структуру декомпозиции ПДВП при минимальном числе бит на отсчет аудиосигнала без воспринимаемых на слух искажений, вносимых в процессе кодирования входного сигнала. Достоинством данного алгоритма является то, что рост дерева осуществляется сверху вниз, без возвратов на меньшие масштабные уровни преобразования и необходимости построения полного дерева ПДВП. Применительно к ПДВП-кодеру рост дерева преобразования в большей мере будет наблюдаться в области низких частот. Поэтому "грубая" оценка порогов маскирования Tl¡n в узлах (l,n) е Ej по мере построения структуры дерева ПДВП, т.е. с увеличением разрешающей способности по частоте, будет уточняться.

Структура перцептуального кодер-декодера на основе ПДВП

Методы динамической декомпозиции ПДВП, расчет психоакустической модели в вэйв-лет-области позволяют построить новую структуру перцептуального ПДВП-кодера аудиосигналов, ориентированную на обработку сигналов только в вэйвлет-области и работу в реальном времени [22]. На рис. 5 показана новая структура перцептуального ПДВП-кодера, ядром которой является адаптивный пакет дискретного вэйвлет-преобразования "адаптивный ПДВП".

Для каждого текущего дерева Е в темпе обработки сигналов в блоке "адаптивный ПДВП" вычисляются пороги маскирования Тт,п в соответствии с процедурой (см. приложение 1); значения перцептуальной энтропии РЕп; энтропия структуры дерева Е ПДВП ЦТЕЕ .

На основании данной информации в блоке "Формирователь структуры дерева ПДВП" рассчитываются параметры реконфигурации дерева ПДВП. Данный процесс осуществляется поступательно, без возвратов на меньшие масштабные уровни преобразования. Следовательно, весь вычислительный процесс идеально ложится на архитектуру параллельно-поточных процессоров [22]. Обработка аудиосигнала выполняется фреймами. Ввиду того что ПДВП осуществляется над каждым последующим фреймом с новой структурой дерева преобразования, то для устранения фазовых разрывов обработка аудиосигнала выполняется с перекрывающимися фреймами, предварительно взвешенными временным окном Хеннинга. Следующим этапом работы кодера является квантование и кодирование коэффициентов оптимального дерева ПДВП

Х1,п,к, (1,п) е Е, к е Z. Управление данным процессом осуществляется алгоритмом размещения бит на основе кодовых книг Хаффмана. Наконец, необходимо неким образом закодировать структуру дерева ПДВП Е. Принимая во внимание факт, что рост дерева осуществляется поступательно и изменчивость сигнала во времени более инерционна, чем время обработки, то кодируются только изменения в структуре дерева от фрейма к фрейму.

г-

Буфер

Цифровой аудио сигнал (РСМ) 705,6 Кбит/с. Вход

Адаптивный ПДВП

Энтропия структуры дерева ПДВП

1_

Пороги маскирования

Формирователь структуры дерева ПДВП

Перцептуальная энтропия

Квантование и кодирование

Алгоритм размещения бит

мих

Кодирование структуры дерева ПДВП

Выход в канал

Рис. 5. Структура перцептуального кодера аудиосигналов на базе адаптивного ПДВП Структура декодера ПДВП-кодера аудиосигналов схематически показана на рис. 6.

Рис. 6. Структура декодера аудиосигналов

Работа декодера выполняется в следующем порядке: разделяется входная информация на два потока данных: один содержит кодированные вэйвлет-коэффициенты, а второй — код структуры дерева ПДВП; формируется новая структура дерева ПДВП путем суммирования кодовой последовательности, описывающей изменение структуры дерева ПДВП, с текущей кодовой последовательностью структуры дерева ПДВП; выполняется реконструкция аудиосигнала синтезирующим банком цифровых фильтров, реализованным как обратное адаптивное ПДВП.

На рис. 7 приводится сравнение реконструированных аудиосигналов предложенного кодера с известным стандартом МРЕО-1, уровень III. Объективные оценки ПДВП-кодера аудиосигналов показывают, что реконфигурированный сигнал имеет достаточно хорошее качество, соответствующее требованиям стандарта 1Ти-Я PEAQ при высокой степени компрессии в 15 раз и более, или, что соответственно, при минимальной скорости передачи от 36 до 45 кбит/с. Восстановленный сигнал не содержит никаких артефактов при оценке отношения шума к порогу восприятия ЫМКШс,1« -9 дБ (рис. 8), в то время как у МРЕО-1: ЫМКШс,1« 3 дБ, скорость передачи — 64 кбит/с.

Время, [сек) Время, [сек)

в г

Рис. 7. Аудиосигнал "ABBA "Take a chance on me": а — оригинальный сигнал; б — его спектрограмма; в — спектрограмма реконструированного сигнала (ПДВП-кодер); г — спектрограмма реконструированного сигнала (MPEG-1 уровень III)

Частота, [кГц]

Рис. 8. Спектральная плотность мощности входного сигнала (1), порог маскирования (2) и шум квантователя (3)

Комбинированная система редактирования шумов и кодирования речи

Предлагается комбинированная система редактирования шумов и кодирования речевого сигнала без специального процессора повышения качества речи на основе критического дерева ПДВП СВ-№РБ: (I,п) е ЕСВ, I = 0,6 (рис. 9) и вычисления порога восприятия речевого сигнала человеком. Разработка ориентирована на частоту дискретизации 16 кГц, и обработка введется в 24 барках.

(1,п) = (0,0)

(0,0),

<о Гц

Гц

т- N (Ч

ю Гц (м ч

ю о ю о ю о ю о _

От-СЧСОЮЮГ^-СОт- 4

Рис. 9. Дерево ПДВП СВ—РБ (I, п) е ЕСв

Пусть РУт т(к), Р^т(к), РПтт(к) - оценки мощности вэйвлет коэффициентов речевого сигнала с аддитивным шумом, чистой речи и шума в обрабатываемом фрейме длинны W т-ветви (частотной полосы) дерева ПДВП:

1 —-1

Ру,т (к ) = - £ Кт (кЬ№ + /),

— 1=0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(29)

где кь — индекс обрабатываемого блока, тогда как оценка мощности рассчитывается на основе экспоненциального усреднения

Р'тт (к) = аУт (к )2 + (1 - а)Р'Ут (к -1). (30)

Различимые на слух фрагменты сигнала по частотным полосам могут быть определены

как

С (к ч/Рт (кь) апёе рт (къ )> Тт (къ)

^Н Тт(кь) апёё Рт(кЬ )< Tm(kь),

0 < т < М -1.

С (к )= \РУ,т (кь )' апёё РУ,т (кь )> Тт (кЬ ) 0 < т < М - 1

^ (кь )=| Тт (кь) апёё Ру,т (кь )< Тт (к, ) " " '

(31)

(32)

где порог едва заметных искажений (порог восприятия) Тт(кь) частотной полосы т блока кь вычисляется в соответствии с процедурой расчета порогов маскирования в вэйвлет области (см. приложение 1). Слышимый шум рассчитывается согласно формуле

Сп,т (кь ) = т (кь ) т (кь ) .

(33)

На основании выражений (31)-(33) слышимый шум для полос 0 < т < М -1 равен

Sn, m (kb ) -

Pym(kb)-P,m(h ) âftëè PyM{kb )> Tm(kb) è Ps,m(kb)> Tm{kb) (()

Pym(kb)-^fe) ânëè Pym(kb)> Tm(kb) è PSM(kb) < Tn(kb) (II)

Tm (kb )-Ps,m (kb ) ânëè Py,m k )< T, (kb ) è P.,m (k )> ^ k ) (lii)

ëè Py,m (kb )< Tm (kb ) è P,m (kb )< Tn(kb ) (IF)

(34)

0,

ânëè

Как видно из (34), компоненты слышимого шума зависят от энергий сигнала чистой речи Р,, т(кь), зашумленного сигнала Ру, т(кь) и порога восприятия Тт(кь) для чистой речи, оценки которых вычисляются для блока къ. Базируясь на концепции правила редактирования шума работы [23, 24], уровень подавления слышимых шумов определяется неравенством

SnM (kb )< 0, 0 < m < M -1,

а правило взвешивания имеет следующий вид: Sm (kb )- Gm (kb )■ Уп (kb ), 0 < П < M ~~ 1,

(35)

(36)

где 8т (къ) — отредактированный речевой сигнал. Коэффициент взвешивания для каждого блока обработки къ рассчитывается по формуле

Gm (k )-

1

a.

,(h )

kb < k < kb + W и 0 < m < M -1

(37)

V Py , m (kb )

+1

где переменные ат(к) и Ут е < 1 зависят от времени и определяют степень подавления

слышимого шума. Коэффициент ат(къ) определяет порог, выше которого все компоненты шума подавляются, а параметр \т показывает степень подавления и зависит от соотношения

Ру ,т (къ )

a.

)

a„ k )-[ k )+ Pn,m k )

Pn,m (kb )

_Tm (kb ),

(38)

В приложении 2 приводится вывод данного утверждения.

На рис. 10 показана схема обработки речевого сигнала в одной из ветвей СБ-ЖРО: (I,п) е ЕСБ, I = 0,6 (соответствующей ей частотной полосе (см. рис. 9)) комбинированной системы редактирования шума и кодирования речевого сигнала.

v

п

л

Рис. 10. Структура кодера-редактора шумов речевого сигнала на базе ПДВП

Представленное выше правило (36) повышения качества речи (модификация вэйвлет-коэффициентов в соответствующей полосе) базируется на оценке порога восприятия для чистой речи, в то время как в системе имеется только зашумленный сигнал (одномикрофонный

вариант системы). Грубая оценка Р,,т(к) осуществляется на основе метода спектрального вычитания (блок "Подавление шума)"). Тем не менее, повышение качества речи строго зависит от слежения за оценками мощности шума Рп, т(к) и порога маскирования Тт(кь). После удаления из входного речевого сигнала слышимого шума, аналогично как в кодере аудиосигналов (см. рис. 5), осуществляется квантование и кодирование модифицированных вэйвлет-коэффициентов. Структура блока декодера соответствует рис. 6, за исключением блока реконструкции дерева ПДВП, так как здесь дерево фиксировано.

Результаты, представленные на рис. 11, позволяют судить о достаточно хорошем качестве восстановленного речевого сигнала для скорости передачи 17-25 кбит/с. Еше одним достоинством данного широкополосного кодера является то, что как аудио, так и речевые сигналы могут кодироваться.

Типе [яес] Типе [>ес]

Рис. 11. Результаты обработки речевого сигнала в кодере-редакторе шумов: а — чистый речевой сигнал, ь — зашумленный речевой сигнал, с — отредактированный речевой сигнал от шума, ё — реконструированный речевой сигнал декодером

Приложение 1

Процедура. Расчет порогов маскирования в вэйвлет-области. Дано: дерево ПДВП, согласованное с критической шкалой частот (I,п) е ЕСВ; карта частотно-временного разрешения дерева ПДВП; коэффициенты ПДВП Х[т п, к. Вычислить спектральную энергию барка:

Асв (2 ) = Е К к , (П .1.1)

к=0

где 2 = 1,25 — номер критической полосы; К — количество вэйвлет-коэффициентов преобразования в каждой критической полосе 2.

Оценить тональность сигнала в каждой критической полосе и значения индексов атп(2) и аптп(2) уменьшения спектральной энергии барка соответственно для тоновых и шумовых мас-керов:

индекс ат„(г), который оценивает отношение маскирования тоном шума, задается так:

a

(z) = -0,275z -15,025, дБ, z = 1, 25 ;

индекс маскирования шумом шума а„т„ оценивается как константа

а = -25 , дБ,

„т„ '^ '

(П.1.2) (П.1.3)

так как ПДВП уже внесло некоторое спектральное перекрытие;

среднее значение тональности маскеров в каждой критической полосе определяется маскирующим индексом:

acB (z) = natmn (z) + (1 - п)аптп (z), дБ, z = 1,25 , где г/ — тональный коэффициент:

П = mi^SFM^/SFM^, 1),

(П.1.4)

(П.1.5)

где SFMdB — мера спектральной пологости [11]; SFMdEmax — максимальное значение меры пологости спектра. Для заданного фильтра прототипа SFMdBmax = -25 дБ;

Спектральная энергия барка с учетом тональности сигнала равна:

r aCB (z ) ^

Dcb(z) = 10• log Acb(z)• 10 10

, дБ, z = 1,25 .

(П.1.6)

Вычислить разброс энергии барка ССВ(г) как свертку ВСВ(г) с функцией разброса В(г) в каждой критической полосе г (значение параметров для функции В(г) определены в первой строке таблицы):

Ccb (z) = 10log — ^10

I K k=1

f 1 25 Dcb (k) B(z-k) ^

1 I0 • 10 10

, дБ, z = 1,25 .

(П.1.7)

J

Найти временные маскирующие пороги:

аналогично, как и в частотном маскировании, во временном маскировании уже присутствуют некоторые элементы перекрытия, обусловленные ПДВП;

предполагается, что временное маскирование аддитивно сигналу;

временное маскирование определяется через коэффициенты ПДВП в каждой критической полосе г (на рис. одна строка) с учетом временной функции разброса В(к):

B(k) = a + U(k + с)-( + (k + с)2), дБ;

(П.1.8)

максимальное временное разрешение для ПДВП имеет место в критических полосах верхних частот с минимальной протяженностью по времени Ет„ = 2 отсчета или 0.0454 мс;

Таблица.

Функция разброса V и d с a

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Барк шкала 30 дБ/барк -25 дБ/барк 0,3 0,05 15

Временная шкала 0,0825 дБ/Fmin -0,0412 дБ/Fmin 0,3 0,157 0,032/Fmin

Примечание. Гт„ — минимальная длина анализируемого фрейма.

параметры функции разброса вдоль оси времени определяются как V = 40 дБ/мс = 0,0825 дБ/¥т„ и и = -20 дБ/мс = -0,0412 дБ/¥т„ (см. таблицу, строка 2); вычислить энергию вэйвлет-коэффициента в каждой критической полосе г :

Ez (k ) = X\M, k = 0, K -1, z = 1,25; 88

(П.1.9)

определить временную функцию разброса энергии в каждой критической полосе г как свертку Ег(к) и функции разброса Б(к):

1 К —1 Б(К—к) _

Р (т) = - £ Ег (к)-10 10 , т = 0, К — 1; К

(П.1.10)

к=0

временной фактор маскирования в полосе г находится как результат сравнения величин: Г2 (к) > Ег(к), к = 0,К — 1, г = 1,25 . (П.1.11)

Если данное соотношение выполняется, то в соответствующей критической полосе имеет место временное маскирование, в противном случае нет.

Оценить частотно-временной маскирующий порогМСБ(г) в каждой критической полосе:

(Р'(к) Л

МСБ (г) = ССБ (г )тах —Ф4, 1 :

V Ег (к )'

, дБ, к = 0, К — 1, г = 1,25.

(П.1.12)

Результирующее значение маскирующего порога ТСБ(г) в соответствующей критической полосе частот получается из сравнения временно-частотного маскирующего порога МСБ(г) с минимальным значением абсолютного порога слышимости АТН(г) (см. приложение 2):

Тсб (г) = тах(АТН(г), Мсб (г)), дБ. Конец процедуры.

(П.1.13)

Приложение 2

В системе с одним микрофоном в наличии имеется только зашумленный сигнал. Следовательно, все оценки энергии должны быть вычислены базируясь на данном сигнале, а редактирование шума базируется на переходах I и II выражения (34). Пусть

Ру,т (къ ) = Р,т (къ ) + Рп,т (къ ), (П.2.1)

а оценка мощности "чистой речи" равна Р,,т (къ )= ^т (к)Рутт (къ ) (П.2.2)

После подстановки (П.2.1) и (П.2.2) в (34) получается, что ^т (къ )Ру,т (къ )— Р,т (къ )< 0, ЯПёё Рум (къ )> Тп (кь ) ё Р^п (къ )> Тп (къ ) (()

^т (къ )Ру,т (къ )— Тт (къ )< 0, ЯЙёё Рум (къ )> ^ (къ ) ё Р,т (къ )< ^ (къ ) (II)

ат(къ):

(П.2.3))

у т

у т ъ т ъ у т

И правило повышения качества речи формулируется при решении (П.2.3) относительно

ат (к )> Ру,т (къ)

Ру , т (къ ) — 1 Р, , т (къ )

Ру , т (къ )

Тт (къ )

1

апёё

ёё Рум(къ )> Тт (къ ) ё Рт (къ )> Тт(къ ) (I)

(П2.4))

— 1

апёё

ёё Рум(къ )> Тт (къ ) ё Р,т (къ )< Тт(къ ) (II)

Если принять во внимание (П2.1) и положить в (П.2.4 I) равенство, а также сделать замену Р,, т(къ) на Тт(къ), причем Р, т (къ ) > Тт (къ ) для 0 < \т < 1, получается, что

V

п

V

п

[ (b ) + P„m (kb )

Pn,m (kb ) Ps,m (kb )

- 1

>

[m (kb )+ Pnm (kb )

Pn,m (kb ) Ps,m (kb )

-1

(П.2.5)

Следовательно, переход I (П.2.4) выполняется при переходе от оценки чистой речи к порогу восприятия речевого сигнала. Из условия II (П.2.4) следует, что ат(къ) пропорциональна Р,,т(къ). Следовательно, замена Тт(къ) на Р,, т(къ) также будет справедлива.

PERCEPTUAL CODING OF AUDIO AND SPEECH SIGNALS

A.A. PETROVSKY, K. BIELAWSKI, ALA. PETROVSKY

Abstract

This paper introduce the new approach to design of perceptual audio and speech coders based on the psychoacoustically wavelet packet decomposition. The combined noise reduction and speech coding system is proposed also. The system based on the critical band wavelet packet decomposition (CB-WPD) and psychoacoustic weighting rule of input signal.

Литература

1. Application of digital signal processing to audio and acoustics / edited by Mark Kahrs, Karl-heinz Brande-nurg. // Kluwer Academic Publishers, Boston, 1998. 545 p.

2. Multimedia System, Standards, and Networks / edited by Atul Puri, Tsuhan Chen // Marcel Dekker, Inc., New York, 2000. 636 p.

3. Kondoz A.M. Digital Speech: coding for low bit rate communication systems // John Wiley & Sons, New York, 1994. 442 p.

4. Jayant N.S., Chen E.Y. Audio compression: technology and applications // AT&T technical journal. 1995. Vol. 74, №2. P. 23-34.

5. Bosi M. Filter banks in perceptual audio coding // The Proc. of the AES 17th International Conference "High-Quality Audio Coding". Florence, Italy. 1999. P. 125-136.

6. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. М.: Мир, 1978. 848 с.

7. Johnston J. "Audio coding with filter banks," in Subband and Wavelet Transforms / A. Akansu and M. J. T. Smith // Eds: Kluwer Academic, 1996. P. 287-307.

8. Painter T., Spanias A. Perceptual Coding of Digital Audio // Proceedings of the IEEE. April 2000. Vol. 88, № 4. P. 451-513.

9. Петровский Ал.А. Компрессия аудиосигналов на базе психоакустики: подходы и структуры // Республ. межвед. сб. научн. тр. "Радиотехника и электроника". Мн.: БГУИР, 1999. Вып. 24. C. 140-149.

10. Brandenburg K. Perceptual coding of high quality digital audio // Applications of Digital Signal Processing to Audio and Acoustics / M. Kahrs, K. Brandenburg, Eds. - Boston. MA: Kluwer Academic, 1998. P. 39-83.

11. Wickerhauser M.V. Adaptive Wavelet Analysis from Theory to Software. A.K. Peters Ltd., Massachusetts, 1994. 486 p.

12. Coifnam R., Meyer Y., Quake S., Wickerhauser V. Signal Processing and compression with wavelet packet // Numerical Algorithms Research Group. New Haven, CT: Yale University, 1990. 196 p.

13. Sinha D., TewfikA. Low bit rate transparent audio compression using adapted wavelets // IEEE Trans. Signal Processing. Dec. 1993. Vol. 41. P. 3463-3479.

14. Philippe P., Saint-Martin F. M., Lever M. Wavelet packet filterbanks for low time delay audio coding // IEEE Trans. Speech Audio Processing. 1999. Vol. 7, № 3. P. 310-322.

15. Zwicker E., Fastl H. Psychoacoustics: Facts and Models. Berlin, Germany: Springer-Verlag, 1990. 380 p.

16. Петровский Ал.А. Расчет маскирующих порогов для аудио кодеров на базе пакетного дискретного вэйвлетного преобразования // Республ. межвед. сб. научн. тр. "Радиотехника и электроника". Мн.: БГУИР, 2000. Вып. 25. C. 44-57.

17. Cohen I. Enhancement of speech using bark-scaled wavelet packet decomposition // The Proc of EUROSPEECH. Aalborg, Denmark, 3-7 Sep. 2001. P. 1933-1936.

18. Петровский Ал. А. Динамическая реконфигурация пакетного вэйвлетного преобразования на основе вычисления перцептуальной энтропии // Идентификация образов. Мн.: ИТК НАН Беларуси, 2001. С. 4552.

19. Petrovsky Al. Perceptually optimized time-varying wavelet packet decomposition and its ap-plications in acoustic signal processing // 17th International Congress of Acoustics (ICA'2001). Rome, Italy, 2-7 Sept. 2001.

20. Petrovsky Al. A., Petrovsky A. Dynamic algorithm transforms for reconfigurable real-time audio coding processor // Proc. "Parallel computing in electrical engineering". IEEE Computer Soc. Press, NJ, 2002. P. 231-234.

21. Audio coding with a masking threshold adapted wavelet packet based on run-time reconfigur-able processor architecture / Al. Petrovsky, A.A. Petrovsky. Amsterdam, Netherlands, May 2001. 8 p.

22. Petrovsky Al., Krahe D., Petrovsky A.A. Real-Time Wavelet Packet-based Low Bit Rate Audio Coding on a Dynamic Reconfigurable System // Proc. of the 114th AES Convention. Amsterdam, Netherlands, 22-25 May, 2003. 22 p.

23. Bielawski K., Petrovsky A.A. Proposition of minimum bands multirate noise reduction system which exploits properties of human auditory system and all-pass transformed filter bank // IEEE Workshop SIGNAL PROCESSING' 2001. Poznan, 2001. P. 65-70.

24. Tsoukalas D.E., Mourjopolous J.N., Kokkinakis G. Improving the intelligibility of noise speech using an audible noise suppression technique // Proc. of 5th European Conference on Speech Communication and Technology. 1997. P. 1415-1418.

Перцептуальное кодирование аудио и речевых сигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А А. Петровский, К Белявский, Ал А. Петровский

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А А. Петровский, К Белявский, Ал А. Петровский

PERCEPTUAL CODING OF AUDIO AND SPEECH SIGNALS

Текст научной работы на тему «Перцептуальное кодирование аудио и речевых сигналов»