Алгоритмы выделения типовых помех и искажений в речевых сигналах

Алейник Сергей Владимирович; Симончик Константин Константинович

7. Wang L., Nakagava S., Kitaoka N. Blind Dereverberation Based on Spectral Subtraction by Multi-channel LMS Algorithm for Distant-talking Speech Recognition // IEICE Trans. Inf. Syst. 2011. E94-D(3). P. 659—667.

8. Бобцов А. А., Колюбин С. А., Пыркин А. А. Алгоритм управления по выходу с компенсацией синусоидального возмущения для линейного объекта с параметрическими и структурными неопределенностями // Науч.-техн. вестн. информационных технологий, механики и оптики. 2012. № 3 (79). С. 68—72.

9. Nasu Y., Shinoda K., Furui S. Cross-channel spectral subtraction for meeting speech recognition // Proc. ICASSP. 2011. P. 4812—4815.

Сведения об авторах

Сергей Владимирович Алейник — ООО „ЦРТ-инновации", Санкт-Петербург; научный сотрудник;

E-mail: [email protected] Михаил Борисович Столбов — канд. техн. наук; ООО „ЦРТ-инновации", Санкт-Петербург; старший

научный сотрудник; Санкт-Петербургский национальный исследовательский университет информационных технологий, кафедра речевых информационных систем; доцент; E-mail: [email protected]

Поступила в редакцию 22.10.12 г.

УДК 621.391.037.372

С. В. Алейник, К. К. Симончик

АЛГОРИТМЫ ВЫДЕЛЕНИЯ ТИПОВЫХ ПОМЕХ И ИСКАЖЕНИЙ

В РЕЧЕВЫХ СИГНАЛАХ

Исследованы способы выделения типовых аддитивных помех в системах обработки речевых сигналов. Проведена экспериментальная оценка влияния того или иного детектора помех на эффективность системы верификации диктора. Предложены усовершенствованные алгоритмы выделения помех.

Ключевые слова: шум, акустические помехи, импульсные помехи, обработка речевых сигналов.

Введение. Акустические речевые сигналы зачастую искажены аддитивными помехами, значительно снижающими эффективность систем верификации диктора. В общем случае данные аддитивные помехи могут быть разделены на две большие группы: стационарные, присутствующие на всем протяжении сигнала (например, широко известный белый и розовый шум), и нестационарные кратковременные, присутствующие на отдельных участках сигнала.

При наличии помех второй группы входные сигналы редко бывают полностью искажены. Незначительно искаженные участки сигнала чередуются с участками, сильно искаженными импульсными помехами различных типов: клиппированием, кратковременными электрическими наводками, перегрузками и т.п. Именно эти нестационарные помехи и искажения оказывают наибольшее отрицательное влияние. Соответственно используя детекторы, способные на этапе предобработки с высокой вероятностью обнаруживать подобного рода помехи и искажения (с целью их дальнейшего подавления или исключения из анализа), можно существенно улучшить качество систем обработки речи. Основными типовыми помехами и искажениями, рассматриваемыми в настоящей статье, являются щелчки, перегрузки, короткие тональные сигналы, клиппирование.

Следует также отметить, что важными дополнительными требованиями к таким детекторам являются высокая скорость и низкая ресурсоемкость, т.е. типовые требования, предъявляемые к устройствам предобработки.

Рекомендована кафедрой речевых информационных систем

Щелчки. Несмотря на кажущуюся простоту, обнаружение щелчков представляет собой определенные трудности, поскольку короткие импульсы, воспринимаемые человеком на слух как „щелчки", могут в общем случае существенно различаться как во временном, так и в частотном представлении (рис. 1, 1 — короткий „классический" высокочастотный щелчок; 2 — низкочастотный щелчок; 3 — щелчок с короткими осцилляциями; 4 — „длинный" щелчок с шумовым или осциллирующим заполнением). А, o.e.

12 3 4

10 000

5000 0

-5000 -10 000

-15 000

1

IU. / и

10 20 1 30 1 1

50 t, мс

Рис. 1

Например, короткий высокочастотный щелчок хорошо обнаруживается следующим способом. Анализируемый сигнал x(i), где i — дискретный временной индекс, вначале пропускается через высокочастотный (ВЧ) фильтр с частотой среза порядка 2—4 кГц. Затем вычисляется первая разность d(i) = y(i) - y(i - 1), где y(i) — сигнал на выходе фильтра, далее ее абсолютная величина сравнивается с пороговым значением. К сожалению, данный способ не работает на низкочастотных (НЧ) щелчках (кривая 2), так как, во-первых, основная часть их энергии сосредоточена в низкочастотной области и „срезается" ВЧ-фильтром, а во-вторых, значение d(i) щелчков данного вида и речевых сигналов различается несущественно.

Результаты исследований различных алгоритмов, основанных на методах линейного предсказания и авторегрессионных моделях [1, 2] показали их высокую вычислительную сложность, поэтому авторы разработали более простой алгоритм обнаружения щелчков различных типов (рис. 2, сплошная кривая — участок анализируемого сигнала со щелчком, пунктир — выходная величина алгоритма (умноженная на 1000 с целью отображения на одном графике с сигналом); to—h — временные метки границ окна анализа).

,4, o.e.

8000

4000

-4000

-8000

i

i i

t I

i i

1 1

10 20 30 40 50

1 1 1 1

t0 t1 t2 t3

Рис. 2

Разработанный алгоритм включает следующие шаги.

1. Выбирается длина окна анализа (Н0, ¿з) таким образом, чтобы выполнялось условие

0

t3-t0 = KLc, где Lc — предполагаемая длительность щелчка и K — масштабный коэффициент, изменяющийся в диапазоне от 10 до 100.

2. Окно разбивается на три части (см. рис. 2), причем длина центральной части выбирается соизмеримой с предполагаемой длиной щелчка, и t1—10 = t3—12.

3. Выходная величина Vc, сравниваемая в дальнейшем с пороговым значением, рассчитывается как:

) _ ЭД -10) ^ *2(t) (1)

"cV'center/ . . __t - __t - > W

t2-1' I;_,„*2(t)+i;_t2*2(t)

где x(t) — анализируемый сигнал; tcenter=0,5(t0+t3) — центр интервала [t3, t0].

Нетрудно понять, что Vc в (1) есть отношение мощностей сигнала на различных участках, нормированное таким образом, что в случае стационарного сигнала (например, белого шума) Vc = 1. Для речевых сигналов полученные значения Vc колебались от нуля до нескольких единиц. Величина Vc > 8 сигнализирует о наличии щелчка (строго говоря, конкретное пороговое значение зависит от выбранной допустимой вероятности ложной тревоги и размеров окна анализа и определяется экспериментально).

Очевидно, что длина интервала t2-t1 в идеальном случае должна соответствовать длительности щелчка, подлежащего обнаружению, что в реальных условиях труднодостижимо. В проведенных экспериментах установлено, что если это значение находится в пределах нескольких длин щелчка, то результаты детектора также вполне приемлемы. В противном случае, при значительной априорной неопределенности в длительности предполагаемых щелчков, приходится осуществлять перебор.

Путем моделирования были получены следующие временные параметры детектора: интервал t2-t1 5 мс; t1-t0 и t3-t2 — 60 мс. При таких значениях получены хорошие результаты по детектированию типовых щелчков на реальных речевых сигналах.

Следует заметить, что при обнаружении коротких высокочастотных щелчков бывает полезна предварительная фильтрация ВЧ-фильтром с частотой среза 2—4 кГц.

Перегрузки. Перегрузкой называются короткие (1—2 отсчета) скачки сигнала, импульсы или серии подобных импульсов большой амплитуды, вызванные изменением знака сигнала при так называемом „целочисленном переполнении". Причины перегрузок кроются в следующем. На практике наиболее широко используемый тип квантования при переводе аудиосигналов в цифровую форму — 16-битовое квантование. При таком типе квантования каждый отсчет сигнала представляет собой целое двухбайтовое число в формате "signed short int" (стандарт ANSI), т.е. амплитуда отсчета изменяется от -32 768 до 32 767. В то же время обработка сигнала может выполняться, например, в форматах "long", "float" или "double". При этом если число, получившееся после обработки, выходит за пределы интервала [-32 768, 32 767], то при его простом преобразовании к типу "signed short int" (при записи, например, на диск в WAV-формате) произойдет „переброс знака", и число, например 32 768, преобразуется в -32 768, число -32 769 — в 32 767 и т.д.

Общие выражения для результата могут быть записаны как:

if (х > 32 767) theny _ (хmod32 767) - 32 768,

if (х < -32 768) then y _ -(х| mod32 768) + 32 768,

где х — число до преобразования, y — результат преобразования, mod — операция вычисления по модулю.

На слух одиночная перегрузка воспринимается как высокочастотный щелчок, а серия подобных щелчков — как резкий громкий треск, существенно ухудшающий как разборчивость речевого сигнала, так и показатели систем обработки речи.

На рис. 3 приведен типичный пример перегрузки, возникшей при преобразовании величины в формате double (время перегрузки 6,68 мс, значение х = 56 981) в двухбайтовый формат signed short int.

,4, o.e.

3000

2000

1000 0

-1000

-2000

-3000

Рис. 3

Одиночная перегрузка (в отличие от серии) с успехом может быть обнаружена с помощью детектора ВЧ-щелчков. Однако, используя первую разность (которая была ранее описана как неэффективная при обнаружении НЧ-щелчков второго типа), возможно создать алгоритм, обнаруживающий как одиночные, так и множественные перегрузки. Дело в том, что „переброс" знака вызывает сильные резкие скачки амплитуды за один отсчет, часто соизмеримые с динамическим диапазоном сигнала. В данном случае коэффициент вычисляется следующим образом:

d (i) =

|х(0 - x(i -1)|

A - A ■

max min

(2)

где Лтах и Лт[п — максимальное и минимальное значения амплитуды сигнала, вычисленные по всей выборке. Теоретически 0 < ё(г) < 1, однако на чистой речи, без перегрузок, величина ё(г), как правило, значительно меньше единицы.

Наши эксперименты по определению плотности распределения коэффициента ё(г) на

большом наборе речевых сигналов показали, что при пороге Т^ = 0,7 и принятии решения о

наличии перегрузки по условию ё(г) > Т^ вероятность ошибки первого рода (вероятность

принять речь за перегрузку) равна приблизительно 10 на один отсчет сигнала, что дает хорошие результаты даже на длинных сигналах.

Алгоритм детектирования перегрузок представлен ниже.

1. Выбирается величина порога , например, 0,7.

2. По всей выборке сигнала вычисляются его максимальное Лтах и минимальное Лт^ значения.

3. Для каждого отсчета сигнала х(г'), г = 1, N -1 (здесь N — полная длина сигнала) по формуле (2) вычисляется коэффициент ё(г) .

Производится сравнение ё(г) с выбранным ранее порогом, и в случае ё(г) > Т^ принимается решение о наличии перегрузки.

Короткие тональные сигналы — это широко известные сигналы телефонного вызова, представляющие собой обычно одну или две гармоники длиной около одной секунды. Отличительной особенностью таких сигналов является высокий уровень и стабильность частоты составляющих гармоник. Соответственно в подавляющем большинстве алгоритмов обнаружения тонов используется анализ спектров мощности (или модулей спектров мощности)

сигналов [3, 4]. Отметим, что тональные сигналы без примеси постороннего шума или в сумме с шумом малой мощности могут быть также с успехом обнаружены детектором клиппиро-ванных сигналов, базирующемся на анализе гистограммы [5].

Нами были исследованы два алгоритма обнаружения коротких тонов: на основе подсчета локальных максимумов в спектре и детектор оценки постоянства амплитуды спектральных максимумов. Детектор на основе подсчета локальных максимумов использует тот факт, что при наличии в сигнале тональной компоненты большой амплитуды спектр мощности такого сигнала имеет ярко выраженный узкий пик. Алгоритм детектирования следующий.

1. Выбирается величина M — длина сегмента сигнала для вычисления спектра мощности.

2. Для каждого сегмента сигнала длиной M вычисляется модуль мгновенного спектра мощности S(m), где m = 0,M /2 — дискретная частота.

3. Для всех m = 0, M / 2 находится спектральный максимум Smax.

4. Вычисляется пороговый уровень Ts = Tso Smax.

5. Для всех m = 0,M / 2 подсчитывается целевая величина Ks — количество спектраль-

M/2

ных отсчетов, превышающих уровень Ts, т.е.: Ks = ^ ks , где

m=0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

k = Г1 if S (m) > Ts,

s [0 if S(m) < Ts.

6. Производится сравнение: если Ks < 3 , то принимается решение о наличии тональной

составляющей в исследуемом фрагменте сигнала.

В алгоритме оценки постоянства амплитуды спектральных максимумов используется тот факт, что на соседних сегментах сигнала амплитуда тональной составляющей изменяется незначительно. В данном алгоритме сравниваются максимумы модулей спектров мощности

двух соседних сегментов сигнала Sax и Sm+X (где j — индекс сегмента) и вычисляется их относительная разность:

Sj+1 _ Sj

^tTIQY ^ITli

Ds =

^шах

Сравнение величины с заранее выбранным порогом Т^ дает искомый результат: если < Т^, то принимается решение о наличии тональной составляющей в у'-м фрагменте сигнала.

Пороговые величины Т^о и Т^ были определены нами в ходе моделирования: Тм = 0,01 и Та = 0,001.

Клиппирование — искажение формы сигнала, происходящее при перегрузке усилителя и при выходе выходного напряжения усилителя из его динамического диапазона. На осциллограмме клиппирование обычно выглядит как ограничение сигнала по амплитуде.

На слух клиппирование воспринимается как появление излишней звонкости, „металлического" звучания и может существенно снижать качество обработки речи.

Алгоритм детектирования клиппирования на основе анализа гистограммы сигнала приведен в работе [5].

Экспериментальная оценка эффективности разработанных алгоритмов. Эффективность предложенных алгоритмов была оценена в ходе экспериментов на примере системы верификации диктора на основе /-векторов, описанной в работе [6].

Для тестирования алгоритмов выделения типовых помех использовались записи телефонных разговоров в стандартном GSM-канале: 610 фонограмм различной длительности. Тестовые фонограммы поступали на вход блока предобработки, содержащего параллельно соединенные детекторы: участки фонограмм, на которых срабатывал хотя бы один из включенных детекторов, исключались из дальнейшего анализа. Показателем качества системы был выбран равновероятный уровень ошибок первого и второго рода (Equal Error Rate, EER), широко применяемый для оценки эффективности биометрических систем. Результаты экспериментов представлены в таблице.

Алгоритм детектирования EER, %

щелчков перегрузок клиппирования тональных помех

- - - - 13,6

- - - + 10,4

- - + - 10,4

- + - - 10,91

+ - - - 10,85

Из таблицы видно, что при отсутствии детекторов (первая строка) качество системы наихудшее (высокий EER). Включение какого-либо детектора приводит к уменьшению EER, т.е. к повышению качества верификации. Следует отметить одинаковое улучшение при работе детекторов клиппирования и тональных помех. По мнению авторов, данный эффект был вызван тем, что, во-первых, в тестовых фонограммах клиппирование практически отсутствовало (в отличие от тональных сигналов телефонных вызовов). И, во-вторых, как уже отмечалось ранее, детектор клиппирова-ния с успехом обнаруживает тональные сигналы, состоящие из одной гармоники.

Заключение. В статье рассмотрены алгоритмы обнаружения типовых помех, наиболее часто встречающихся при обработке речевых сигналов. Указаны характеристики данных алгоритмов, полученные путем моделирования на реальных записях речи. С помощью экспериментального исследования показано, что обнаружение и исключение из анализа речевых сигналов участков с помехами или искажениями способно повысить качество систем верификации диктора.

Работа проводилась при финансовой поддержке Министерства образования и науки Российской Федерации.

СПИСОК ЛИТЕРАТУРЫ

1. Esquef P. A. A., Karjalainen M., Valimaki V. Detection of clicks in audio signals using warped linear prediction // Proc. of the 14th Intern. Conf. on Digital Signal Processing. Greece, 2002. Vol. 2. P. 1085—1088.

2. Esquef P. A. A., Biscainho L. W. P., Diniz P. S. R., Freeland F. P. A double-threshold-based approach to impulsive noise detection in audio signals // Proc. EUSIPCO. Finland, 2000. Vol. 4. P. 2041—2044.

3. So H. C., Chan Y. T., Ma Q., Ching P. C. Comparison of Various Periodograms for Sinusoid Detection and Frequency Estimation // IEEE Trans. on Aerospace and Electronic Systems. 1999. Vol. 35. P. 945—952.

4. Grigorakis A. Application of Detection Theory to the Measurement of the Minimum Detectable Signal for a Sinusoid in Gaussian Noise Displayed on a Lofargram. Research Report, Aeronautical and Maritime Research Laboratory, Melbourne, Australia, 1997.

5. Алейник С. В., Матвеев Ю. Н., Раев А. Н. Метод оценки уровня клиппирования речевого сигнала // Науч.-техн. вестн. информационных технологий, механики и оптики. 2012. № 3 (79). С. 79—83.

6. Белых И. Н., Капустин А. В., Козлов А. В., Лоханова А. И., Матвеев Ю. Н., Пеховский Т. С., Симончик K. К., Шулипа A. К. Система идентификации дикторов по голосу для конкурса NIST SRE 2010 // Информатика и еe применения. 2012. T. 6, № 1. С. 91—98.

Сергей Владимирович Алейник

Константин Константинович Симончик

Сведения об авторах

— ООО „ЦРТ-инновации", Санкт-Петербург; научный сотрудник; E-mail: [email protected]

— канд. техн. наук; ООО „ЦРТ", отдел верификации и идентификации диктора, Санкт-Петербург; руководитель отдела; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, кафедра речевых информационных систем; доцент; E-mail: [email protected]

Рекомендована кафедрой речевых информационных систем

Поступила в редакцию 22.10.12 г.

УДК 656.25-52:656.22.05

С. В. Бибиков, М. Е. Маркисонов, С. А. Панасюк

СОВРЕМЕННАЯ МОБИЛЬНАЯ СИСТЕМА ОПОВЕЩЕНИЯ О ПРИБЛИЖЕНИИ ПОЕЗДОВ

Проанализированы системы оповещения работников путевых бригад о приближении подвижного состава. Проведен сравнительный анализ предложенной авторами мобильной системы оповещения и зарубежных систем.

Ключевые слова: системы оповещения, приближение поезда, виброакустические колебания.

При возросшей скорости подвижного состава и сокращающихся межпоездных интервалах существующие системы оповещения о приближении поезда не могут надежно решить задачу безопасности рабочих, занятых текущим ремонтом пути.

Рассмотренные в [1, 2] системы оповещения, в том числе „Сирена", разработанная ООО „НИИАС", являются вспомогательными системами обеспечения безопасности, так как сохраняют существующий порядок ограждения места производства работ сигналистами, работают по сигналам сигнализации, централизации, блокировки (СЦБ) и не являются средствами персонального оповещения.

На железных дорогах Японии применяются системы мультимедийной мобильной связи, в которой объединены проводные линии связи и радиосвязь [3]. Местоположение подвижного состава фиксируется с помощью сигнала передатчика, установленного на локомотиве, или на посту СЦБ, поступающего на приемник ретранслятора, который, в свою очередь, посылает сигнал по радиоканалу на портативное устройство. Каждый работник снабжен таким устройством и может оперативно получить всю информацию по обстановке.

Семейство независимых от сигналов СЦБ систем оповещения представляют Minimel 95, разработанная компанией Schweizer Electronic (Швейцария) [4], и система оповещения на основе радиосвязи Autoprowa® фирмы ZÖLLNER — Signal System Technologies [5]. Minimel 95 может быть сконфигурирована как полностью автоматическая, полуавтоматическая, управляемая сигналами или вручную. Модули системы Autoprowa® могут соединяться кабелями либо обмениваться сигналами по радиоканалу. В результате испытаний системы Autoprowa® на Октябрьской железной дороге были выявлены следующие недостатки: система не обеспечивает оповещение операторов дефектоскопных тележек [6]; использование системы малочисленной ремонтной бригадой затруднительно; датчики срабатывают только в момент

ALGORITHMS FOR DETECTION OF TYPICAL NOISES AND INTERFERING BURSTS IN SPEECH SIGNALS

Текст научной работы на тему «Алгоритмы выделения типовых помех и искажений в речевых сигналах»