УДК 621.391.037.372
С. В. Алейник, М. Б. Столбов
ПОДАВЛЕНИЕ АКУСТИЧЕСКИХ ПОМЕХ АУДИОУСТРОЙСТВ С ИСПОЛЬЗОВАНИЕМ АСИНХРОННОГО ОПОРНОГО СИГНАЛА
Предложен метод двухканального шумоподавления для случая записи помехи, взятой из стороннего источника. Рассмотрены детали реализации разработанного метода, приведено сравнение его эффективности с эффективностью методов адаптивной компенсации помех.
Ключевые слова: шумоподавление, акустические помехи, адаптивная обработка сигналов.
Введение. Подавление помех в фонограммах является важной задачей для многих областей речевых технологий: идентификация диктора, восстановление старых фонограмм и т.п. Такая задача становится особенно актуальной, когда уровень помехи сопоставим с уровнем полезного речевого сигнала. Для ее решения предложено большое число различных алгоритмов шумоподавления [1—4].
Если помеха создается аудиоустройством и является нестационарной (пение, музыка и т.п.), эффективность одноканальных алгоритмов подавления шума уменьшается. В этом случае могут применяться двухканальные схемы адаптивной компенсации помех. В таких схемах сигнал в основном канале (основной сигнал) содержит смесь полезного речевого сигнала и помехи, а сигнал в опорном канале (опорный сигнал) содержит только помеху. Совместная обработка этих двух сигналов позволяет, при определенных условиях, эффективно подавлять помехи в основном сигнале.
Схема двухканального подавления помех представлена на рис. 1.
Рис. 1
Рассмотрим ситуацию записи фонограммы в помещении, когда речь s(t) произносится человеком (1) на фоне акустической помехи п(1), создаваемой работающим аудиоустройством (2). Речь и помеха принимаются микрофоном основного канала (3), формирующим основной сигнал х^). Целью обработки является подавление помехи и выделение речевого сигнала.
Процесс шумоподавления в двухканальных схемах (рис. 1) можно представить следующим образом. В дискретном случае сигналы основного и опорного каналов, х(г) и г(г) соответственно, описываются выражениями:
х(г) = К* + Ихп*п(г), г (г) = Игп*п(г) ,
где г — временной индекс; я(г) — речевой сигнал; п(г) — помеха; * — символ свертки; И^, Ихп и Ит — импульсные характеристики среды распространения для сигналов опорного и основного каналов.
Компенсация помехи (шумоподавление) в основном канале базируется на преобразовании опорного сигнала:
у(г) = х(г) + Н[г (г)],
где у(г) — сигнал на выходе шумоподавителя; Н — оператор преобразования опорного сигнала (рис. 1, блок 4).
В зависимости от источника опорного сигнала возможна реализация различных алгоритмов обработки. В первом случае опорный сигнал снимается непосредственно с электрической цепи перед акустическим аудиоустройством (вход „А" на рис. 1). В этом случае задача подавления помехи формулируется как задача эхоподавления [1, 2], в которой применяются алгоритмы адаптивной компенсации помех [2].
Во втором случае подавление помехи осуществляется с использованием опорного сигнала от микрофона, расположенного вблизи акустического источника помехи (микрофон 5, вход „В", рис. 1).
Наконец, особым случаем является ситуация, когда запись синхронного опорного сигнала отсутствует. Однако, если известно, какой звукоряд является помехой, то в качестве опорного сигнала может быть использована фонограмма, взятая из стороннего источника: например, музыкальная запись на компакт-диске (вход „С" на рис. 1). В этом случае опорный сигнал является „асинхронным", так как записан в другое время, на другой аппаратуре и в иных условиях [3].
Целью предлагаемой работы является описание практической реализации метода шумоподавления с использованием асинхронного опорного сигнала для случая акустических помех, создаваемых аудиоустройствами в помещениях.
Постановка задачи асинхронного шумоподавления. Эффективность шумоподавления зависит от целого ряда факторов: тип аудиосистемы, условия распространения звука в помещении, особенности практической реализации алгоритма шумоподавления и т.п. Из физических соображений ясно, что в асинхронном случае характеристики помех в опорном и основном каналах будут существенно различаться. Поэтому непосредственное использование асинхронной записи помехи оказывается неэффективным вследствие двух групп факторов.
1. Отсутствие синхронизации основного и опорного сигналов:
— несовпадение начала и конца помех в основном и опорном каналах;
— несовпадение частот дискретизации сигналов основного и опорного каналов.
2. Различие характеристик каналов записи сигналов основного и опорного каналов:
— различны условия записи музыки (например, запись оркестра на высококачественный СБ и микрофонная запись сигнала тракта воспроизведения ТВ-приемника);
— записи выполнены в различных помещениях — различны характеристики среды (параметры реверберации и т.п.);
— различны частотные характеристики трактов записи.
Отсутствие синхронизации требует пояснения. Несовпадение начала помех в каналах связано с тем, что в асинхронном опорном сигнале помеха представляет собой полный звуко-
ряд, например, студийную запись музыкального произведения. Помеха в основном канале является только участком данного звукоряда, на который наложен полезный речевой сигнал. Начало данного участка может соответствовать любому месту музыкального произведения. Непростым является случай, когда короткий речевой сигнал начинается и заканчивается на участке, соответствующем припеву (или иному повторяющемуся фрагменту) в песне, что вызывает трудности в конкретной локализации участка помехи.
Несовпадение частот дискретизации опорного и основного сигналов также является общей проблемой для асинхронного случая. Обычно взятый с CD опорный сигнал представляет собой высококачественную запись, выполненную с частотой дискретизации 44 100 Гц. При этом основной сигнал дискретизирован с другой частотой, например, 11 025 Гц. В этом случае частота дискретизации опорного сигнала приводится к частоте основного с помощью известных алгоритмов. Однако даже после данной процедуры возможно незначительное различие в частотах дискретизации.
Такое различие приводит к тому, что в дискретизированных опорном и основном сигналах на одинаковый временной интервал приходится различное количество отсчетов. Например, в одном из случаев при анализе фонограмм частота дискретизации основного и опорного сигналов оказалась равна 16 и 16,0941 кГц соответственно, т.е. уже на десятой секунде разница в количестве отсчетов между опорным и основным сигналами составляла 941. Поскольку обработка велась покадрово, а размер кадра был выбран равным 512 отсчетам, то текущий и все последующие кадры уже не соответствовали друг другу, что привело к полной потере эффективности шумоподавления.
Различие условий записи основного и опорного сигналов в асинхронном случае также является важным фактором. Известно [2, 3], что эффективность шумоподавления адаптивных компенсаторов помех зависит от когерентности сигналов в опорном и основном каналах. Различие условий записи сигналов значительно снижает их когерентность, вследствие чего адаптивные компенсаторы оказываются малоэффективными.
Однако физические предпосылки для подавления шума в асинхронном случае все же существуют, поскольку помеха в основном и опорном каналах представляет собой различные реализации одного и того же звукоряда.
Для решения поставленной задачи нами был разработан полуавтоматический метод асинхронного шумоподавления, состоящий из двух основных шагов:
1) синхронизация основного и опорного сигналов;
2) подавление помехи в основном канале с использованием сигнала опорного канала.
Синхронизация основного и опорного сигналов представляет собой выполнение следующей последовательности действий:
— грубая синхронизация основного и опорного сигналов;
— точное совмещение начала помехи в основном и опорном сигналах;
— синхронизация частот дискретизации основного и опорного сигналов.
Грубая синхронизация выполняется оператором и включает в себя:
— приведение сигналов к единой частоте дискретизации (обычно это частота дискретизации сигнала основного канала);
— приведение средних спектров мощности сигналов к единому виду;
— приближенное определение (на слух, по спектрограмме и/или осциллограмме) начала и конца соответствующих друг другу участков помехи в опорном и основном каналах и рас-ставление меток начала и конца участков помехи;
— приближенное совмещение участков начала помехи в опорном и основном сигналах.
Точное совмещение начала фрагментов с помехой в опорном и основном сигналах
выполняется автоматически с использованием метода определения задержки сигнала по взаимокорреляционной функции [5]. Однако поскольку помехи в опорном и основном
каналах практически некоррелированы, то оценка по максимуму взаимокорреляционной функции сигналов неэффективна (максимум слабо выражен или отсутствует).
С другой стороны, кратковременные огибающие спектра мощности основного и опорного сигналов Рх ^) и Рг ^) на участках помехи оказываются в значительной степени коррелированными [6], так как кратковременные огибающие спектра мощности менее подвержены влиянию среды распространения и акустических трактов устройств записи—воспроизведения. Поэтому синхронизация осуществлялась по максимуму взаимной корреляции огибающих мощности опорного и основного сигналов Рх (I) и Рг (I) :
Рх (I) = (х2(/)) и Рг (I) = (Г2(/)),
где ( ) — символ сглаживания по времени; I — временной индекс.
С целью снижения временных затрат для оценки огибающих использовался алгоритм экспоненциального сглаживания:
Рх(I) = аРх(I -1) + (1 -а)х2(0,
где 0 < а < 1 — постоянная сглаживания, задаваемая таким образом, чтобы соответствовать темпу музыки, т.е. чтобы сигнал усреднялся без потери информации о колебаниях огибающей.
Далее, на начальных участках помехи в основном и опорном каналах (5—10 с) вычисляется взаимокорреляционная функция огибающих мощности С(т):
С(т) = £ (Рх (I) - Рх )(Рг (I - т) -Р),
I
где Рх и Рг — средние значения для Рх (I) и Рг (I) соответственно.
После этого для синхронизации начала помехи осуществляется сдвиг опорного сигнала на число отсчетов, соответствующих максимуму функции С (т).
Точная синхронизация частот дискретизации также выполняется по максимуму взаимной корреляционной функции С (т), вычисленной на участках, помеченных как окончание помехи в опорном и основном каналах. Если максимум С(т) не соответствует нулевому сдвигу, то частоты дискретизации основного и опорного сигналов различаются. Тогда вычисляется относительный коэффициент сжатия/растяжения опорного сигнала:
5 = (Ыг + а^шах (С(т))/Ыг,
где Ыг — число отсчетов между метками начала и конца помехи в опорном сигнале. Если
5 > 1, то выполняется сжатие опорного сигнала, если 5 < 1 — то растяжение. Сжатие (растяжение) в экспериментах выполнялось на основе поотсчетной интерполяции, при этом линейная и квадратичная интерполяция давала практически одинаковые результаты.
Шумоподавление на основе метода спектрального вычитания. Опорный сигнал, полученный в результате точной синхронизации, может быть использован для компенсации помехи в основном канале. Однако применение линейных адаптивных компенсаторов в данном случае оказалось малоэффективным, что объясняется существенным уменьшением когерентности помехи в основном и опорном каналах вследствие различия условий записи и проведенных преобразований. Для этих условий наиболее подходит использование алгоритмов спектрального вычитания (АСВ) [7—9], поскольку АСВ не учитывают фазовых соотношений и позволяют подавлять помехи в случае их слабой когерентности в опорном и основном каналах.
Двухканальный АСВ организован следующим образом [1]. Мгновенный спектр Фурье на кадре основного сигнала может быть представлен в виде суммы спектров полезного речевого сигнала и спектра помехи:
X (/, к) = 5 (I, к) + N (I, к),
где / — частота и k — временной индекс кадра. Спектральное вычитание определяется как [1]:
\у(I, k)| = X(/, k)| - N(/, k),
где У (/, k) — оценка спектра выходного сигнала; N (/, k) — оценка амплитудного спектра помехи.
В этом случае |У (/, k)| может быть записан как:
У (/, k) = а /, k )| х (/, k
где О (/, k) — целевая функция фильтра шумоподавления вида:
а (/, k) = 1 - N(/, k VIX(/, k
В более общем виде целевая функция определяется как [1]:
О (/, k ) = тах [й, 1 - aN (/, k )/\X (/, k )| ],
где а и Ь — параметры алгоритма „коэффициент вычитания" и „глубина подавления шума" соответственно.
Спектр сигнала после шумоподавления рассчитывается с применением целевой функции фильтра к исходному комплексному спектру сигнала:
У (/, k) = О (/, k) X (/, k).
Временной сигнал у (г) на выходе шумоподавителя вычисляется путем обратного преобразования Фурье последовательности спектров У(/, k) .
Поскольку спектр мощности шума в основном канале неизвестен, то в вычислениях используется его оценка, определяемая следующим образом. В реверберирующем помещении оценка комплексного спектра помехи может быть представлена как сумма спектров ранней и поздней реверберации [7]:
N(/, k) = А (I)(/, k) + 2 (/)Яа (/, к - т),
т
где А (/) — фильтр, описывающий эффекты ранней реверберации; Ат (/) — передаточные
функции, соответствующие задержке на т кадров; Яа (/, k) — комплексные спектры помехи.
Предполагая, что фазы спектров для отдельных кадров некоррелированы, мгновенный спектр мощности помехи аппроксимируем как:
N(I, k)|2 = |А (I)|2 Яа (I, k)|2 +21 Ат (I)|2 Яа (/, к - т)|2 .
т
В рамках предлагаемого алгоритма нами учитывался только шум, порожденный ранней реверберацией, т.е.
N (I, к) = АэС/") Яа (I, к ).
В случае использования фонограммы в качестве опорного сигнала мгновенные спектры опорного сигнала Я(/, к) преобразуются в спектры акустической помехи путем умножения на частотный отклик В( /) аудиосистемы:
Яа (/, к ) = В(/) Я(/, к).
Тогда спектр помехи в основном канале может быть представлен следующим соотношением:
N (/, к) = А (/) В(/) Я( /, к) = Ж (/, к) Я( /, к),
где Ж(/, к) — передаточная функция преобразования опорного сигнала. Передаточная функция может изменяться в зависимости от положения диктора и акустической обстановки в помещении, поэтому необходим адаптивный алгоритм ее оценки. В работе [9] предложен алгоритм адаптивной оценки передаточной функции в моменты присутствия акустической помехи в опорном канале и отсутствия речи диктора в основном канале. „Музыкальная" помеха, как правило, присутствует непрерывно. При этом детектировать паузы в речи диктора представляется затруднительным ввиду нестационарного характера помехи, особенно при ее высоком уровне. Для подобного случая нами предложен следующий алгоритм оценки передаточной функции Ж(/, к) :
#(/, к) = #(/, к -1) + (X(/, к)| - #(/, к -1) |Я(/, к)|)/(|X(/, к)|2 + \Я(/, к)|2 ),
где | < 1 — скорость адаптации.
Экспериментальные исследования подтвердили работоспособность алгоритма оценки передаточной функции на разных типах тестовых и модельных сигналов.
С учетом оценки передаточной функции результирующий АСВ описывается следующим выражением:
О(/, к) = шах[Ь, 1 - а#(/, к)|Я(/, к)|/|X(/, к)|].
Экспериментальная оценка эффективности разработанного алгоритма. Работоспособность предложенного метода проиллюстрируем результатами следующего эксперимента. В помещении (6x5x3 м, время реверберации 480 мс) располагалась акустическая колонка. Через колонку проигрывались записанные в компьютере с частотой 16 кГц тестовые моносигналы длительностью 1,5 мин каждый: музыка, речь и розовый шум. Принятый через микрофон акустический сигнал основного канала записывался на цифровой диктофон. Микрофон основного канала в первой сессии располагался на расстоянии 1 м от акустической колонки; в последующих сессиях — на расстоянии й=2, 3 и 4 м соответственно. Одновременно тот же диктофон синхронно записывал акустический сигнал опорного канала, микрофон которого находился на расстоянии 1 м от акустической колонки. Сигналы микрофонов дискретизиро-вались с частотой 16 кГц.
Обработка заключалась в шумоочистке сигнала основного канала с использованием различных алгоритмов шумоподавления. В качестве опорного брались как сигнал, записанный с микрофона, расположенного около колонки, так и оцифрованные исходные тестовые моносигналы (таким способом моделировалась асинхронная запись сигнала из другого источника). Для количественной характеристики уровня подавления помех использовалась характеристика „уровень подавления шума" NЯ (дБ) [3]:
NЯ (дБ) = 1/К £ К=1101с81о( Як ), где Як = £ М1 х| (г)! £ ^ у\(г) — уровень подавления шума на к-м кадре; К — общее количество кадров; М — размер кадра в отсчетах; хк (I) и Ук (I) — входной сигнал основного ка-
нала и выходной (очищенный от шума) сигнал на к-м кадре соответственно. Усредненные результаты по всем трем видам помех (музыка, речь, шум) приведены на рис. 2.
II дБ х -
40 ---------о ,,
30
20
10
0
1 1,5 2 2,5 3 3,5 d, м
Рис. 2
Отметим, что без процедуры синхронизации как адаптивный линейный компенсатор, так и АСВ дают неудовлетворительные результаты — уровень подавления в обоих случаях практически равен нулю.
Кривая 1 подтверждает, что после синхронизации основного и опорного сигналов АСВ показывает высокую эффективность подавления помехи. С увеличением расстояния между микрофоном и излучателем степень подавления помехи при использовании АСВ снижается незначительно. Кривая 2 иллюстрирует то, что эффективность линейного компенсатора даже в случае синхронной записи помехи оказывается хуже, чем у АСВ, и значительно снижается при удалении микрофона основного канала вследствие уменьшения когерентности помех в опорном и основном каналах. Кривая 3 показывает, что применение адаптивного линейного компенсатора неэффективно в асинхронном случае.
Заключение. Предложен метод шумоподавления для записанных в помещении фонограмм, которые содержат речь, искаженную акустическими помехами, создаваемыми аудио-устройствами. Метод основан на использовании асинхронной аудиозаписи помехи, взятой из стороннего источника — CD, магнитной ленты и т.п. Метод реализуется с использованием действий, требующих участия оператора. Опыт практического применения разработанного метода для шумоочистки реальных фонограмм, поступавших от заказчиков, подтвердил его эффективность.
Центральными моментами метода являются синхронизация сигналов помехи в основном и опорном каналах и алгоритм двухканального спектрального вычитания.
В настоящее время метод встраивается в новую версию редактора Sound Cleaner, продукта ООО „ЦРТ".
список литературы
1. Aalburg S., Beaugeant C., Stan S., Fingscheidt T., Balan R., Rosea J. Single-and two-channel noise reduction for robust speech recognition in car // Siemens Corporate Research Report. Siemens AG, ICM Mobile Phones, Multimedia and Video technology, 2002.
2. Уидроу Б., Стирнз С. Адаптивная обработка сигналов / Пер. с англ., под ред. В. В. Шахгильдяна. М.: Радио и связь, 1981. 440 с.
3. Bitzer J., Brandt M. Speech Enhancement by Adaptive Noise Cancellation: Problems, Algorithms and Limits // AES 39th Intern. Conf. Hillerad/Danemark, 2010. P. 106—113.
4. Haykin S. Adaptive Filter Theory. NY: Prentice Hall, 1996. 989 p.
5. Benesty J., Chen J., Huang Y. Time Delay Estimation via Linear Interpolation and Cross Correlation // IEEE Transactions on Speech and Audio Processing. 2004. Vol. 12, N 5.
6. Ignatov P., Stolbov M., Aleinik S. Semi-Automated Technique for Noisy Recording Enhancement Using an Independent Reference Recording // AES 46th Intern. Conf. Denver, USA, 2012.
4 --_
1 -
^
2
3
1 1,5 2 2,5 3 3,5 d, м
Рис. 2
7. Wang L., Nakagava S., Kitaoka N. Blind Dereverberation Based on Spectral Subtraction by Multi-channel LMS Algorithm for Distant-talking Speech Recognition // IEICE Trans. Inf. Syst. 2011. E94-D(3). P. 659—667.
8. Бобцов А. А., Колюбин С. А., Пыркин А. А. Алгоритм управления по выходу с компенсацией синусоидального возмущения для линейного объекта с параметрическими и структурными неопределенностями // Науч.-техн. вестн. информационных технологий, механики и оптики. 2012. № 3 (79). С. 68—72.
9. Nasu Y., Shinoda K., Furui S. Cross-channel spectral subtraction for meeting speech recognition // Proc. ICASSP. 2011. P. 4812—4815.
Сведения об авторах
Сергей Владимирович Алейник — ООО „ЦРТ-инновации", Санкт-Петербург; научный сотрудник;
E-mail: [email protected] Михаил Борисович Столбов — канд. техн. наук; ООО „ЦРТ-инновации", Санкт-Петербург; старший
научный сотрудник; Санкт-Петербургский национальный исследовательский университет информационных технологий, кафедра речевых информационных систем; доцент; E-mail: [email protected]
Поступила в редакцию 22.10.12 г.
УДК 621.391.037.372
С. В. Алейник, К. К. Симончик
АЛГОРИТМЫ ВЫДЕЛЕНИЯ ТИПОВЫХ ПОМЕХ И ИСКАЖЕНИЙ
В РЕЧЕВЫХ СИГНАЛАХ
Исследованы способы выделения типовых аддитивных помех в системах обработки речевых сигналов. Проведена экспериментальная оценка влияния того или иного детектора помех на эффективность системы верификации диктора. Предложены усовершенствованные алгоритмы выделения помех.
Ключевые слова: шум, акустические помехи, импульсные помехи, обработка речевых сигналов.
Введение. Акустические речевые сигналы зачастую искажены аддитивными помехами, значительно снижающими эффективность систем верификации диктора. В общем случае данные аддитивные помехи могут быть разделены на две большие группы: стационарные, присутствующие на всем протяжении сигнала (например, широко известный белый и розовый шум), и нестационарные кратковременные, присутствующие на отдельных участках сигнала.
При наличии помех второй группы входные сигналы редко бывают полностью искажены. Незначительно искаженные участки сигнала чередуются с участками, сильно искаженными импульсными помехами различных типов: клиппированием, кратковременными электрическими наводками, перегрузками и т.п. Именно эти нестационарные помехи и искажения оказывают наибольшее отрицательное влияние. Соответственно используя детекторы, способные на этапе предобработки с высокой вероятностью обнаруживать подобного рода помехи и искажения (с целью их дальнейшего подавления или исключения из анализа), можно существенно улучшить качество систем обработки речи. Основными типовыми помехами и искажениями, рассматриваемыми в настоящей статье, являются щелчки, перегрузки, короткие тональные сигналы, клиппирование.
Следует также отметить, что важными дополнительными требованиями к таким детекторам являются высокая скорость и низкая ресурсоемкость, т.е. типовые требования, предъявляемые к устройствам предобработки.
Рекомендована кафедрой речевых информационных систем