СИСТЕМЫ ОБРАБОТКИ РЕЧЕВЫХ И АКУСТИЧЕСКИХ СИГНАЛОВ
УДК 621.391.037.372
С. В. Алейник, М. Б. Столбов
ОЦЕНКА ВРЕМЕННОГО СДВИГА МЕЖДУ АУДИОСИГНАЛАМИ С ИСПОЛЬЗОВАНИЕМ ИХ ОГИБАЮЩИХ
Предложен метод оценки временного сдвига между акустическими сигналами, записанными в условиях реверберации и нелинейных искажений, базирующийся на оценке кросскорреляции временных огибающих сигналов, проведено его сравнение с другими методами оценки временного сдвига.
Ключевые слова: временной сдвиг, временная огибающая, кросскорреляция, речевой сигнал.
Введение. Оценка временного сдвига (ВС) между двумя сигналами (обычно называемыми „основной" и „опорный") важна для решения многих задач обработки аудиосигналов [1—5]: например, при оценке направления прихода сигналов, учете задержки в алгоритмах двухканальной фильтрации и др.
Большинство способов определения ВС базируется на оценке меры „близости" сигналов друг к другу: функции кросскорреляции (ФКК) сигналов, обобщенной кросскорреляции (generalized cross-correlation, GCC), евклидова расстояния между сигналами, а также методе преобразования фазы ФКК (phase transform, PHAT) и т.п. [6—8]. Ряд факторов, таких как реверберация, увеличение расстояния между приемниками аудиосигналов, нелинейные искажения сигналов, уменьшает сходство между сигналами, что приводит к снижению стабильности оценок ВС. На рис. 1 приведены оценки ФКК (Rx) аудиосигналов, записанных в помещении при расстоянии между основным и опорным микрофонами 1 метр (кривая 1), 2 (2) и 3 (3). Видно, что с увеличением расстояния максимум ФКК сигналов существенно снижается.
Rx(T)
-0,2 -0,4 -0,6
0,8
0,6 0,4 0,2 0
-0,02 -0,015 -0,01 -0,005 0 0,005 0,01 0,015 0,02 т, с
Рис. 1
В работе [9] показано, что оценка ВС на основе функции кросскорреляции временных огибающих сигналов (ФКО) дает хорошие результаты в случае сильных реверберационных искажений, назовем это методом корреляции огибающих (МКО). Обычно оценки ВС с использованием огибающих применяются в обработке коротких импульсных узкополосных сигналов в радиолокации и гидролокации [4, 7, 8, 10, 11], однако не для широкополосных аудиосигналов. Целью предлагаемой работы является описание алгоритма МКО, определение границ его применимости и оптимальных параметров.
Описание алгоритма. Оценка ВС в предлагаемом методе производится так же, как в методе ФКК. Однако сама ФКК вычисляется не по исходным сигналам, а по их временным огибающим, т. е.
т = агетах( Я^СО), (1)
где т — оценка времени задержки, а а(т) — ФКК временных огибающих основного а1 и опорного а2 сигналов.
Ключевым в оценке ВС (1) является вычисление огибающих. В настоящей работе для этого используется модифицированная процедура „выпрямление и фильтрация" [12]. Обозначим дискретный временной сигнал как х(г), где г — временной индекс, тогда его огибающая а(г) может быть получена как:
а (г) = ФВЧ(ФНЧ(| х(г)|)), (2)
где | • | — символ вычисления абсолютной величины (т.е. „выпрямления") сигнала, а ФНЧ и
ФВЧ — фильтры низких и высоких частот соответственно.
Фильтр низких частот предназначен для сглаживания выпрямленного сигнала и устранения выбросов. Сглаживание осуществляется фильтром первого порядка [13]:
у(г) = Р(х(7) + х(г -1)) + ау(г -1) , (3)
где х(г) и у(г) — входной и выходной сигналы фильтра. Коэффициент а (0 <а< 1) задается на основе соотношения:
а = 1 - 2/(1 +), (4)
где ^ — частота дискретизации сигнала в герцах, а Тнч — эквивалентная длина окна в секундах, Р = (1 - а) / 2 . Величина Тнч должна соотноситься с темпом модуляции акустических сигналов (речи, музыки). Если значение Тнч мало, то полученная огибающая будет сильно флуктуировать, если велико, это приведет к сильному сглаживанию самих огибающих. В обоих случаях уменьшится корреляция между огибающими и соответственно снизится
точность оценки ВС. Таким образом, существует некая оптимальная длина окна Тнч.
Фильтр высоких частот предназначен для удаления постоянной и низкочастотных составляющих сглаженных огибающих. ВЧ-фильтрация также осуществляется фильтром первого порядка [13]:
у(0 = Л(х(о - Х(г -1)) + уу(г -1) , (5)
где у = 1-2/ (1
-Тч^), а Л = (1 + У)/2 . ВЧ-фильтрация приводит, с одной стороны, к уменьшению корреляции огибающих, а с другой — к сужению главного лепестка ФКО, т. е. можно
* * *
предположить, что также существует некое оптимальное Твч (заметим, что Твч и Тнч в общем случае различны).
В качестве примера на рис. 2 представлены отрезок речевого сигнала (7), его огибающая после сглаживания (2) и после ВЧ фильтрации (3).
х(0
20000 15000 10000 5000 0
-5000 -10000 -15000 -20000
1,2 1,4 1,6 /, с
0 0,2 0,4 0,6 0,8 1
Рис. 2
Функция кросскорреляции. Качество оценки ФКО зависит от длины блока анализа данных Та . Величина Та должна соответствовать периодам осцилляции огибающих аудиосигнала. Если Та < 0,1 с, то огибающая речевого сигнала может представлять собой монотонно
возрастающую или убывающую функцию. В этом случае невозможно корректно оценить ФКО. Поскольку основная часть спектра огибающих расположена на частоте 4 Гц и выше, то адекватные оценки ВС получаются при Та > 1—2 с.
Поскольку вычисление ФКО на таких интервалах требует существенных вычислительных затрат, то вместо стандартной формулы вычисления ФКК [14]:
^ х2(т) =
Е г ( (Х1(/) ~ Х1)(*2(0 - х2)) ^Е г ((( - Х1)2 )Е г ((() - Х2)2)
используем вычисление за один цикл и „с шагами", значительно ускорив процесс без потери точности:
Я
х1, х 2
(т) = ■
Е{ х1 (К0х2 (К1 - т) - -М (Ех1(К/)Ег х2 (К - т))
а =
Егх12(Кг) -
Ег Х1(Кг) М
2 V
Ег х2(Кг - т) -
Ег Х2(Кг-т)
М
2 Л
(6)
(7)
Здесь К > 0 — шаг вычисления; х1 (г) и х2 (г) — дискретные сигналы; N — полное число отсчетов в сигналах на блоке анализа; т = 0, ± 1, ±2,... — временная задержка; х — среднее значение; М = |_(N - т)/К\ — количество отсчетов огибающих в вычислении каждого из значений ФКО; г = 0,..., М-1; _ \ — символ „взятие целой части".
Поскольку огибающая речевого сигнала осциллирует медленно, то можно задавать шаг вычисления К значительно больше единицы, что существенно ускоряет вычисления. Так как основная часть модуляционных компонент огибающих аудиосигналов находится в диапазоне до 25 Гц [15], то должно быть К < 0,5^/25. Для сигналов ^ =16 кГц было принято К = 100.
Пример ФКО реальных записей музыкальных сигналов и их огибающих представлен на рис. 3. Цифровой опорный сигнал воспроизводился через аудиоколонку. Основной сигнал был записан через микрофон в помещении с временем реверберации 650 мс, расстояние между громкоговорителем и микрофоном равнялось 4 м. Искажения основного сигнала трактом воспроизведения и реверберацией привели к тому, что корреляция между сигналами мала (кривая 1 — значение максимума, помеченное кружком, при т = 0 равно 0,11). С другой стороны, видно, что корреляция как огибающих (2), так и огибающих после ВЧ-фильтрации (3) существенна.
ад
0,8 0,6 0,4 0,2 0 -0,2
-0,4 -0
\\___2
.1
V / уу гуС4 \ / \ л
V
-0,6 -0,4 -0,2
0,4
0,6
0,8 т, с
0 0,2 Рис. 3
Исследование влияния искажений сигналов на оценку ФКО. Пусть х^/) и х2(/) — дискретные временные сигналы с нулевыми средними. Обозначим Я Х2 (т) — ФКК,
Яа1;а2(т) — ФКО сигналов. Если х1(/) = x2(j), то Ях1, х2(0) = Яа1,а2(0) =1 (здесь Я —
оценка Я ).
Нелинейные преобразования. Рассмотрим простые нелинейные преобразования: х2(/) =>|х2(/)|, или х2(/) =>(х2(/))2 . Можно показать, что в этом случае значение Ях^х^(0) существенно снижается, в то время как Яа1 а (0) меняется незначительно. Исследование влияния шума. Зададим Х1 (/) и Х2 (/) :
Х1 (0 = (1" Ц)¡¡{}) + Ци1 ОХ х2(0 = (1" Ц)я(0 + Ци2 ОХ (8)
где s(i) — речевой сигнал; ^1(7) и И2(0 — последовательности независимых случайных величин, 0 < Ц < 1. При Ц = 0 х1(/) = х2(/) = и ЯЯх1,х2 (0) = Яа1 ,а2 (0) = 1 При Ц = 1 х1(/) и х2(/) являются исходными независимыми случайными величинами и Ях1 х2 (0) « 0 и Яа1 а (0) « 0. Если дисперсии s(i) , и^/) и «2(7) равны, то получим теоретические выражения для Ях1 х2(0) как функцию от ц :
я;, х2(0, ц)=
(1 -Ц)2
, . (9)
Ц-+ (1 -ЦГ
На рис. 4 приведены оценки Ях1 х2 (0), Яа1 а (0), их 95 %-ные доверительные интервалы для сигналов (8) как функция от ц . Речевые сигналы брались из базы Т1М1Т [16], в качестве шума был взят файл factory1.wav из базы К01БЕХ-92 [17]. Мощности сигналов речи и шума приводились к единой величине перед преобразованием (8). Параметры вычисления огибающих: Та = 2 с, Тнч = 0,05 с, ВЧ-фильтр не использовался. Полученные результаты показывают,
что при увеличении доли шума Я х(0) (кривая 1) уменьшается, почти совпадая с теоретиче-
ской кривой 3, в то же время Я а (0) (кривая 2) сохраняет достаточно высокие значения вплоть до д = 0,6.
RM 1
0,4 0,2
0
........х.
Ч \У2
1 V 4
% 1
1 --к Ч-. V ""^-»Г^-ч- "t
0,25
0,5 Рис. 4
0,75
1 Ц
Эксперименты: поиск оптимальных параметров алгоритма. Целью экспериментов
* *
являлся выбор оптимальных значений постоянных времени Тнч и Твч ФНЧ и ФВЧ для различных Ta . Использовались двухканальные записи сигналов: „речь", „песня", „музыка", „розовый шум" и „модулированный по амплитуде белый шум", записанные в помещении с постоянной времени реверберации 650 мс. Расстояние между основным и опорным микрофонами 4 м, соответственно теоретически рассчитанная задержка между сигналами для частоты дискретизации 16 кГц равнялась 183 отсчетам. В качестве целевой величины был выбран средний квадрат ошибки (mean squared error, MSE) оценки ВС:
1 L-1 2 MSE(x) = — £(t(0 -Tteor )2, L i=0
где L — общее число экспериментов по оценке задержки; Tteor — теоретическое значение задержки. Оптимальные значения параметров, полученные экспериментально, приведены в таблице.
ФНЧ ФНЧ+ФВЧ
Та, с * * *
Тнч , с Тнч , с Твч , с
2 0,0212 0,0396 0,0319
3 0,0219 0,0311 0,0441
4 0,0241 0,0313 0,0394
5 0,0107 0,0275 0,0332
6 0,0119 0,0315 0,0327
7 0,0102 0,0303 0,0275
8 0,0137 0,0225 0,0374
Среднее 0,0164 0,0321 0,0340
Сравнение МКО с другими методами оценки ВС. Предложенный метод сравнивался с кросскорреляционным и методом РНАТ.
Через аудиоколонку проигрывалась музыка, записанная на компакт-диске, сигнал с которого использовался в качестве опорного, основной записывался через удаленный микрофон
в помещении и представлял собой сумму речевого сигнала и проигрываемой музыки.
Экспериментальные исследования показали, что в случаях, когда искажения основного и опорного сигналов невелики, лучшие результаты дает РНАТ (1), средние — ФКК (2), а предложенный метод (3) неэффективен. Однако если сигналы сильно искажены, МКО дает лучшие результаты — минимальное МБЕ (рис. 5).
Рис. 5
Обсуждение. Полученные в работе результаты позволяют утверждать, что использование временных огибающих речевых сигналов в задаче оценки временного сдвига между аудиосигналами оправдано в случаях, когда искажения сигналов слабо влияют на огибающие. Например, МКО полезен при асинхронной фильтрации речевых сигналов [9].
Традиционные методы оценки ВС эффективнее метода МКО в случае слабых искажений самих сигналов или в случае, когда огибающие имеют сильную не меняющуюся периодичность (например, на сигналах типа „ритмичная музыка").
По нашему мнению, вопрос выбора параметров 7^ и 7вч остается открытым. Эти параметры, как показывает моделирование, в общем случае зависят от характеристик как сигнала, так и его искажений. Однако соответствие полученных результатов обобщенным характеристикам спектра огибающих речевых сигналов позволяет предположить, что данные таблицы могут служить первым приближением для реальных параметров обработки.
Заключение. В работе описан и исследован метод оценки временного сдвига между двумя акустическими сигналами, основанный на кросскорреляции их огибающих. Главным достоинством метода является то, что он показывает хорошие результаты в случаях сильных искажений сигналов, например, при реверберации, или в асинхронном случае, когда сигналы записывались в разных условиях на разной аппаратуре. Недостатком является большая длина блоков данных, необходимых для оценки ВС.
Работа выполнена при государственной финансовой поддержке ведущих университетов Российской Федерации (субсидия 074-U01).
СПИСОК ЛИТЕРАТУРЫ
1. Chen J., Benesty J., Huang Y. A. Time Delay Estimation in Room Acoustic Environments // EURASIP J. on Advances in Signal Processing. 2006. P. 1—20.
2. Sandmair A., Lietz M., Stefan J., Leon F. P. Time delay estimation in the time-frequency domain based on a line detection approach // Proc. of IEEE Intern. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Prague, Czech Republic, 2011. P. 2716—2719.
3. Gedalyahu K., Eldar Y. C. Time-delay estimation from low-rate samples: A union of subspaces approach // IEEE Transactions on Signal Processing. 2010. Vol. 58. N 6. P. 3017—3031.
4. Kirkwood B. Acoustic Source Localization Using Time-Delay Estimation: M.S. Thesis. Technical University of Denmark, 2003.
5. Kozlov A., Kudashev O., Matveev Yu., Pekhovsky T., Simonchik K., Shulipa A. SVID Speaker Recognition System for NIST SRE 2012 // Proc. of 15th Intern. Conf. "Speech and Computer" (SPECOM 2013). Springer Lecture Notes in Computer Science. Lecture Notes in Artificial Intelligence. 2013. Vol. 8113. Р. 278—285.
6. Bédard S., Champagne B., Stéphenne A. Effects of Room Reverberation on Time-Delay Estimation Performance // Proc. of IEEE Intern. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Adelaide, SA, 1994. Vol. 2. P. 261—264.
7. Raya R., Frizera A., Ceres R., Calderón L., Rocon E. Design and evaluation of a fast model-based algorithm for ultrasonic range measurements // Sensors and Actuators A: Physical. 2008. Vol. 148, N 1. P. 335—341.
8. Yang L., Lavrinenko A.V., Hvam J.M., Sigmund O. Design of one-dimensional optical pulse-shaping filters by timedomain topology optimization // Appl. Phys. Lett. 2009. Vol. 95, Is. 26. P. 261 101.
9. Алейник С. В., Столбов М. Б. Подавление акустических помех аудиоустройств с использованием асинхронного опорного сигнала // Изв. вузов. Приборостроение. 2013. Т. 56, № 2. С. 11—18.
10. Lazarov B. S., Matzen R., Elesin Y. Topology optimization of pulse shaping filters using the Hilbert transform envelope extraction // Structural and Multidisciplinary Optimization. 2011. Vol. 44, N 3. P. 409—419.
11. Thrane N., Wismer J., Konstantin-Hansen H., Gade S. // Application Note. Practical use of the Hilbert transform. Techn. rev. N 3. [Электронный ресурс]: <http://www.bksv.com/doc/bo0437.pdf>.
12. Bouzid O. M., Tian G. Y., Neasham J., Sharif B. Envelope and Wavelet Transform for Sound Localisation at Low Sampling Rates in Wireless Sensor Networks // J. of Sensors. 2012. Vol. 2012. Р. 680 383.
13. Orfanidis S. J. Introduction to Signal Processing. [Электронный ресурс]: <http://www.ece.rutgers.edu/~orfanidi/ intro2sp/orfanidis-i2sp.pdf>.
14. Aarts R. M., Irwan R., Janssen A. J. E. M. Efficient tracking of the cross-correlation coefficient // IEEE Transact. on Speech and Audio Processing. 2002. Vol. 10, N 6. P. 391—402.
15. Hougast T., Steeneken H. J. M. A review of the MTF concept in room acoustics and it's use for estimating speech intelligibility in auditoria // J. of the Acoustical Society of America. 1985. Vol. 77, Is. 3. P. 1069—1077.
16. TIMIT Acoustic-Phonetic Continuous Speech Corpus. [Электронный ресурс]: <http://catalog.ldc.upenn.edu/LDC93S1>.
17. Database of recording of various noises NOISEX-92 [Электронный ресурс]: <http://www.speech.cs.cmu.edu/ comp.speech/Section1/Data/noisex.html>.
Сведения об авторах
Сергей Владимирович Алейник — ООО „ЦРТ-инновации", Санкт-Петербург; научный сотрудник;
E-mail: [email protected]
Михаил Борисович Столбов — канд. техн. наук, доцент; Санкт-Петербургский национальный иссле-
довательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; ООО „ЦРТ-инновации", Санкт-Петербург; старший научный сотрудник; E-mail: [email protected]
Рекомендована кафедрой Поступила в редакцию
речевых информационных систем 22.10.13 г.