Научная статья на тему 'Преимущество вейвлет-преобразования в обработке речевых сигналов'

Преимущество вейвлет-преобразования в обработке речевых сигналов Текст научной статьи по специальности «Математика»

CC BY
1591
469
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ / ПРЕОБРАЗОВАНИЕ ФУРЬЕ / ВЕЙВЛЕТ-АНАЛИЗ / DIGITAL SIGNAL PROCESSING / FOURIER TRANSFORM / WAVELET ANALYSIS

Аннотация научной статьи по математике, автор научной работы — Гапочкин Артём Владимирович

В данной работе рассмотрены основы теории вейвлет-преобразования и многомасштабного анализа речевых сигналов, кратко рассмотрены основные отличия вейвлет-преобразования и преобразования Фурье при анализе речевых сигналов. Исследованы возможности использования метода вейвлет-анализа для систем распознавания речи и основные его достоинства. Приведены примеры того, как данный метод может быть использован при обработке речевых сигналов и построения эталонов для систем распознавания.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Гапочкин Артём Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The advantage of the wavelet transform in the processing of speech signals

This work deals with basic theory of wavelet transform and multi-scale analysis of speech signals, briefly reviewed the main differences between wavelet transform and Fourier transform in the analysis of speech signals. The possibilities to use the method of wavelet analysis to speech recognition systems and its main advantages. In most existing systems of recognition and analysis of speech sound considered as a stream of vectors whose elements are some frequency response. It is known that human speech is characterized by a high degree of variability, therefore, different acoustic realization of the same speech units (e.g. phonemes) differ considerably. Therefore, the speech processing in real time using sequential algorithms requires computing resources with high performance. Examples of how this method can be used when processing speech signals and build standards for systems of recognition.

Текст научной работы на тему «Преимущество вейвлет-преобразования в обработке речевых сигналов»

№ 6'2015 ВЕСТНИК МГУП ИМЕНИ ИВАНА ФЕДОРОВА ISSN ON-LINE: 2409-6652 © Московский государственный университет печати имени Ивана Федорова_vestnik.mgup.ru

УДК 681.524

ПРЕИМУЩЕСТВО ВЕИВЛЕТ-ПРЕОБРАЗОВАНИЯ В ОБРАБОТКЕ РЕЧЕВЫХ СИГНАЛОВ

Гапочкин Артём Владимирович

аспирант кафедры инфоматики и информационных технологий Московский государственный университет печати имени Ивана Федорова 127550 Россия, г. Москва, ул. Прянишникова, д. 2А [email protected]

Аннотация. В данной работе рассмотрены основы теории вейвлет-преобразования и многомасштабного анализа речевых сигналов, кратко рассмотрены основные отличия вейвлет-преобразования и преобразования Фурье при анализе речевых сигналов. Исследованы возможности использования метода вейвлет-анализа для систем распознавания речи и основные его достоинства. Приведены примеры того, как данный метод может быть использован при обработке речевых сигналов и построения эталонов для систем распознавания.

Ключевые слова: цифровая обработка сигналов, преобразование Фурье, вейвлет-анализ.

Речь является естественным средством общения для людей. Она приходит так естественно к нам, что мы не осознаем, насколько сложным явлением представляется речь. В результате вокализации могут сильно различаться речевые признаки в зависимости от их акцента, произношения, артикуляции, тональности, высоты тона, громкости и скорости, кроме того, во время передачи, наша речь может быть также искажена фоновым шумом. Все эти источники изменчивости речи делают распознавание ее очень сложной проблемой. Основное значение при анализе и обработке речевого сигнала имеют его спектральные особенности, которые определяются передаточной характеристикой речевого тракта, подвергающегося воздействию в процессе непосредственной артикуляции (рис. 1).

25 т-1

20 -

Рис 1. Пример речевого сигнала

Также стоит отметить, что речевой сигнал имеет нелинейную структуру различных масштабов. Следовательно, для более точного анализа речевого сигнала используется кратномасштабный анализ и вейвлет-преобразование [7].

Вейвлетное преобразование сигналов является обобщением спектрального анализа, типичный представитель которого - классическое преобразование Фурье. Термин «вейвлет» (wavelet) в переводе с английского означает «маленькая (короткая) волна». Вейвлеты - это обобщенное название семейств математических функций

определенной формы, которые локальны во времени и по частоте, и в которых все функции получаются из одной базовой (порождающей) посредством ее сдвигов и растяжений по оси времени. Вейвлет-преобразования рассматривают анализируемые временные функции в терминах колебаний, локализованных по времени и частоте. Как правило, вейвлет-преобразования ^Т) подразделяют на дискретное (DWT) и непрерывное (CWT). DWT используется для преобразований и кодирования сигналов, CWT — для анализа сигналов. Вейвлет-преобразования в настоящее время принимаются на вооружение для огромного числа разнообразных применений, нередко заменяя обычное преобразование Фурье.

Преимущество вейвлет-преобразования над Фурье преобразованием обуславливается большей информативностью первого из них, за счет свойства локальности вейвлетов. Что непосредственно дает исследователям только глобальные сведения о частотах (масштабах) анализируемого речевого сигнала, так как большинство вейвлетов представлено вещественными функциями, так что отсутствует необходимость привлечения для их вычисления аппарата комплексных чисел, затрудняющих вычисления.

Одна из основных идей вейвлет-представления речевых сигналов заключается в разбивке приближения к сигналу на две составляющие — грубую (аппроксимирующую) и уточненную (детализирующую) — с последующим их уточнением итерационными методами. Исходя из этого, одномерное вейвлет-преобразование сигнала /(х) можно представить двумерной функцией [1]:

м х'=ж & *( ^ >'(' > *

где ядро ¥ называется вейвлетом, а — временной масштаб , Ь — смещением.

Нормирующий коэффициент имеет вид

№ 6'2015 ВЕСТНИК МГУП ИМЕНИ ИВАНА ФЕДОРОВА

© Московский государственный университет печати имени Ивана Федорова

ISSN ON-LINE: 2409-6652 _vestnik.mgup.ru

Ст = 2 л |

|т(со)|2

с1а < оо.

ю

где ¥ (ю) — Фурье-преобразование вейвлета Опишем далее основные области применения вейвлет-преобразования при исследовании речевых сигналов, используя вейвлеты Добеши (рис. 2) различных порядков (с 1-го до 10-го )[2].

Рис. 2. Функция вейвлетов Добеши

Шумоочистка. Алгоритм фильтрации при помощи вейвлет-преобразования позволяет эффективно удалять высокочастотный шум, даже превосходящий по величине исследуемый сигнал, в то время как преобразование Фурье теряет информацию об особенностях низкочастотной части сигнала, что приводит к искажению формы полезного сигнала [4]. Теперь мы можем наглядно отобразить различные виды представлений сигнала в ходе тех или иных их преобразований (рис.3) [5].

Рис. 3. а) простое преобразование Фурье; б) оконное преобразование Фурье; в) вейвлет-преобразование

Нетрудно заметить, что вейвлет-преобразование отличается наиболее сложной и гибкой структурой представления сигналов в плоскости «масштаб-время». Это дает возможность более полного и тонкого вейвлет-анализа речевых сигналов, по сравнению с другими известными видами их анализа. При этом особенности сигналов привязаны к временной шкале.

Сегментация речевого сигнала. Сегментация речевого сигнала предполагает выделение участков речевого сигнала, соответствующих отдельным структурным единицам [4]. В качестве таких единиц можно рассмотреть фонемы (рис. 4), следовательно, основной задачей сегментации речевого сигнала является обнаружение межфонемных пауз. Эта задача сложно решается в известных алгоритмах распознавания речи.

Вейвлет-преобразование решает данную проблему при рассмотрении фонем, соответствующих относительно протяженным квазистационарным участкам речевого сигнала. Между фонемами речевой сигнал изменяется на нескольких масштабах исследования [5], что приводит к увеличению количества вейвлет-коэффициентов для нескольких уровней детализации. Известно, что на стационарных участках фонем вейвлет-коэффициенты

сгруппированы вблизи определенных масштабов.

Следовательно, нахождение межфонемных границ можно произвести поиском моментов увеличения количества вейвлет-коэффициентов на определенном участке уровня масштабирования.

В серии экспериментов наши предположения подтвердились для случая, когда спектральные характеристики соседних фонем достаточно хорошо отличаются (например, сочетание «Л» — «А», «И» — «О» и т.п.). Если же форма речевого тракта при переходе от фонемы к фонеме изменяется медленно, то увеличение коэффициентов детализации проявляется, как правило, только на одном уровне, который заранее неизвестен и зависит, в первую очередь, от длины сигнала и порядка вейвлета [6].

Можно предположить, что решением этой проблемы является выбор адекватных вейвлет базисов для каждого класса фонем, которые описывают фонемы соответствующего класса. Выбор наиболее подходящего базиса в общем случае тривиален и сводится к выбору того из них, для которого количество ненулевых коэффициентов при разложении фонем данного класса минимально. Данный мультивейвлетный подход использует нескольких базисных вейвлетов при поиске межфонемных переходов с последующим суммированием результатов. Критерием для выбора конкретного вейвлета можно также предложить число нулевых моментов самого вейвлета и количество вейвлет-коэффициентов, превышающих значение порога самого сигнала. Оптимальный базис отбирают, минимизируя его [7].

Построение эталонов для систем распознавания. Как и следовало ожидать, являясь «сильным» инструментом анализа речевых сигналов, вейвлет-преобразование может быть использовано непосредственно при выборе и построении эталонов для распознавания речи [3,5]. При этом описание речевого сигнала, используемое для распознавания, может включать как полный набор вейвлет коэффициентов, так и их подмножество, в зависимости от решаемой задачи. Так, при построении дикторонезависимых систем

распознавания речи следует использовать коэффициенты больших и средних масштабов, отбрасывая малозначительные флуктуации речевого сигнала, описываемые коэффициентами,

соответствующими малым масштабам. Перспективно сочетание вейвлет-преобразования с нейросетевыми методами распознавания, позволяющее добиться весьма качественного распознавания. Естественно, с подобным успехом описание сигнала, полученное в результате вейвлет-преобразования, может служить

№ 6'2015 ВЕСТНИК МГУП ИМЕНИ ИВАНА ФЕДОРОВА

© Московский государственный университет печати имени Ивана Федорова

ОК-ЬЕЧБ: 2409-6652 _vestnik.mgup.ru

основой для систем распознавания, основанных на скрытых марковских моделях, сравнении с эталоном и т.п. [6]. В то же время еще раз подчеркнем, что большинство вейвлетов описываются итерационными выражениями, которые, в целом, сложнее синусойды, но, как правило, легче вычисляются численными методами, реализованными в компьютерных программах.

Исходя из того, что речевой сигнал является нелинейным, то вейвлет-преобразование

представляется весьма эффективным для его анализа. В отличие от традиционного Фурье преобразования, вейвлет-анализ хорошо описывает локальные особенности исследуемой функции, в частности быстрые изменения спектра речевого сигнала. Следует заметить, что многие теоремы вейвлет-анализа доказываются с помощью разложения Фурье, таким образом, эти два типа анализа являются скорее дополнительными друг другу, нежели соревнующимися в приложениях.

Рис. 4. Общая структурная схема системы распознавания речи

Следует отметить малую эффективность применения вейвлетов Добеши для отыскания межфонемных границ в случае, когда форма речевого тракта при переходе от фонемы к фонеме изменяется медленно. К недостаткам вейвлет-анализа следует отнести тот факт, что заранее невозможно определить, на каком масштабе нужно искать интересующую нас информацию. Мы коснулись только некоторых задач, связанных с исследованием речевых сигналов. Дальнейшие исследования, возможно, позволят указать иные области применения вейвлет-преобразования для их обработки, однако несомненен тот факт, что вейвлет-преобразование представляет собой мощное средство анализа речевых сигналов и его применение позволяет увидеть ряд проблем в новом ракурсе и успешно решать многие из них.

БИБЛИОГРАФИЧЕСКИЙ список

1. Астафьева Н.М. Вейвлет-анализ: основы теории и примеры применения. // Успехи физических наук. — 1996. — Т. 166, № 11. — С. 1145-1170.

2. Бойков Ф.Г. Применение вейвлет-анализа в задачах автоматического распознавания речи:

Дис. ... канд. физ.-мат. наук: 05.13.18 / Фёдор Геннадьевич Бойков. — М, 2003. — 111 с.

3. Гапочкин А.В. Структура системы распознавания речи на основе вейвлет-преобразования: 8аепсеТте. — 2014 — №2 (2) — С. 9-14.

4. Гапочкин А.В. Применение вейвлет-анализа для очистки речевого сигнала от шума: В сборнике: Материалы II Международной научной конференции «Технические науки: проблемы и перспективы» — СПб.: Заневская площадь, 2014. — С. 23-25.

5. Добеши И. Десять лекций по вейвлетам. — Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001. — 464 с.

6. Ермоленко Т., Шевчук В. Алгоритмы сегментации с применением быстрого вейвлет-преобразования [Электронный ресурс] // Диалог'2003. URL: http://www.dialog-21 .ru/digest/archive/2003.html (дата обращения: 17.10.15).

7. Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в МайаЬ/Н.К. Смоленцев. — М.: ДМК Пресс, 2005. — 304 с.

№ 6'2015 ВЕСТНИК МГУП ИМЕНИ ИВАНА ФЕДОРОВА

© Московский государственный университет печати имени Ивана Федорова

ISSN ON-LINE: 2409-6652 _vestnik.mgup.ru

THE ADVANTAGE OF THE WAVELET TRANSFORM IN THE PROCESSING OF SPEECH SIGNALS

Artem Vladimirovich Gapochkin

Moscow State University of Printing Arts 127550Russia, Moscow, Pryanishnikova st., 2А

Annotation. This work deals with basic theory of wavelet transform and multi-scale analysis of speech signals, briefly reviewed the main differences between wavelet transform and Fourier transform in the analysis of speech signals. The possibilities to use the method of wavelet analysis to speech recognition systems and its main advantages. In most existing systems of recognition and analysis of speech sound considered as a stream of vectors whose elements are some frequency response. It is known that human speech is characterized by a high degree of variability, therefore, different acoustic realization of the same speech units (e.g. phonemes) differ considerably. Therefore, the speech processing in real time using sequential algorithms requires computing resources with high performance. Examples of how this method can be used when processing speech signals and build standards for systems of recognition.

Keywords: digital signal processing, Fourier transform, wavelet analysis.

i Надоели баннеры? Вы всегда можете отключить рекламу.