УДК 004.934.2:004.421.2:517.9
МЕТОД ПОИСКА ФОРМАНТНЫХ ЧАСТОТ В РЕЧЕВОМ СИГНАЛЕ НА ОСНОВЕ БЫСТРОГО АЛГОРИТМА ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ ХААРА
© 2012 г. И.Ю. Беликов, О.Ф. Ковалев
Южно-Российский государственный технический университет (Новочеркасский политехнический институт)
South-Russian State Technical University (Novocherkassk Polytechnic Institute)
Рассматривается новый алгоритм ускоренного вычисления вейвлет-преобразования Хаара и возможность его применения в спектрально-временном анализе речевых сигналов. Описывается градиентный метод поиска формантных частот речи на основе предложенного алгоритма.
Ключевые слова: вейвлет Хаара; формантный анализ; речевой сигнал; градиентный метод; частотно-временной спектр.
This article discusses a new algorithm for rapid calculation of the Haar wavelet transform and its use in time-frequency analysis of speech signals. Describes a gradient search method formant frequencies of speech based on this algorithm.
Keywords: wavelet Haar; formant analysis; speech signal; the gradient method; time-frequency spectrum.
Спектральный анализ речевого сигнала является одним из первых шагов в задаче классификации речи. Существует несколько основных классов спектрального анализа. В настоящее время широко используются методы Фурье-преобразования и вейвлет-преобразования сигналов [1]. Для анализа речевых сигналов наиболее гибким является непрерывное вейвлет-преобразование [2]. Сигнал анализируется путем разложения по базисным функциям, которые получаются из некоторого прототипа путем масштабирования и сдвигов. Непрерывное вейвлет-преобразование позволяет выполнять спектральный анализ речевых сигналов с высокой точностью по частоте и может быть представлено в виде
W(а,Ь) = у(а,Ь,О) = | Ь, ^ . (1)
—ад
В формуле (1) а, Ь е R , где R - действительная ось значений, у(а,Ь, Г) — масштабированные и сдвинутые во времени материнские функции вейвлета. Вейвлет-преобразование разделяет сигнал на отдельные частотные компоненты, что дает возможность изучать каждую из этих компонент с разрешением, соответствующим ее масштабу, тем самым получать хорошую частотно-временную локализацию для анализа речевых сигналов, которые не характеризуются определенной стационарностью во времени. Вейвлет-анализ удобно применять для исследования сингулярности сигнала, так как его коэффициенты дают ощутимое приращение, реагируя на резкие изменения. Результатом вейвлет-преобразования речевого сигнала является двумерный массив значений коэффициентов С (а, Ь) частотно-временного спектра. Существует большое количество материнских функций вейвлет-преобразования. Наибольший интерес в задаче анали-
за непрерывных сигналов представляет вейвлет Хаара [2]. Функция материнского вейвлета Хаара представлена в аналитическом виде формулой
V(t) =
1, 0 < t < 1/2, -1,1/2 < t < 1, 0, иначе.
Анализируемый сигнал представляет собой последовательность дискретных отсчетов, поэтому дробные операции над данными при расчете неудобны. С этой целью «растянем» вейвлет Хаара в два раза, что по определению вейвлетов выполняется при помощи масштабирующего коэффициента, и поместим центр вейвлета в начало координатной плоскости. Получим новую материнскую функцию, производную от вейвлета Хаара. Аналитически функция отображена формулой
V(t) =
1, -1 < t < 0, -1,0 < t < 1, 0, иначе.
(2)
В дальнейшем под вейвлетом Хаара будем понимать вейвлет, описанный формулой (2). Допустим, что нам необходимо выполнить т уровней вейвлет-преобразования (рис. 1).
В соответствии с формулой (2) и рис. 1, можно записать алгоритм преобразования в виде
Sn = Sn-1 + V(-n) -V(n)-
(3)
С помощью формулы (3) можно производить расчет начальных значений вейвлет-коэффициентов с числом уровней т, используя результат предыдущих вычислений, что позволяет экономить время и ресурсы.
1 2 3 m-1 m п 1
—I
—n —n+1 -4 -3 -2 -1 1 2 3 4 n—1 n
Рис. 1. Уровни вейвлет-преобразования Хаара
Необходимо условиться, что дальнейшее преобразование выполняется сдвигом всех m вейвлет-функций на один отсчет. Это приведет к перерасчету уже имеющихся коэффициентов следующим образом:
= ^ -у(-л) + 2у(0) (4)
В формуле (4) Sn - значение вейвлет-коэффици-ента, у(п) - значение функции Хаара на данном отсчете сигнала. Однако такое преимущество в скорости перерасчета накладывает граничные условия в начале преобразования. Первые п отсчетов сигнала требуются для просчета начальных условий, поэтому спектр сигнала получается только с п+1 отсчета. Но данным ограничением, с учетом параметров анализируемого сигнала, можно пренебречь, так как краевой эффект наблюдается только лишь в начале вычислений и «быстро» исчезает. После выполнения всех операций над одномерным сигналом мы получаем его двумерное представление в виде матрицы коэффициентов. Значения коэффициентов показывают уровень влияния частот на каждом отсчете. В большинстве случаев, для дальнейшего анализа в сигнале берут абсолютные значения коэффициентов. На рис. 2 отображен результат обработки входного сигнала при помощи представленного алгоритма. По вертикальной шкале откладываются масштабируемые уровни вейвлета, определяющие частоту. Чем выше уровень вейвлета, тем ниже частота. По горизонтальной шкале расположены дискретные отсчеты сигнала.
0 20 40 60 80 100
Как видно из рис. 2, в спектре сигнала с большей степенью интенсивности присутствуют низкие и сред-
ние частоты. Такой алгоритм так же позволяет анализировать звуковые транзиенты в сигнале, что полезно при анализе взрывных и фрикативных фонем.
Для выполнения поиска формантных частот, а именно эти частоты несут основную информацию в речевом сигнале [3], необходимо определиться с достаточным минимальным количеством уровней вейв-лет-преобразования. По своей природе речь человека избыточна [4], однако не вся информация анализируется слуховыми органами. Фильтрующую функцию входной информации производит базилярная мембрана. Ее чувствительность к разным звуковым частотам неодинакова и носит нелинейный характер. Существует граничный доверительный интервал для частот. Чем ниже частота, тем точнее она определяется, известно, что в пределах до 2500 Гц мембрана имеет доверительный интервал до 100 Гц. У частот в районе 7000 Гц, этот интервал составляет порядка 800 - 1000 Гц [5]. Следовательно, для анализа речевого сигнала требуются не все уровни вейвлет-преобразования. Одним из параметров сигнала является частота основного тона (ЧОТ). В зависимости от пола человека она может меняться в пределах 80 - 300 Гц для мужчин, и 200 - 600 Гц для женщин. Частоты, расположенные выше 4 Гц, несут информацию о шипящих, фрикативных и взрывных, но в силу частотной избирательности уха информация в этой области менее подробная. Анализируя вышесказанное и положения общей фонетики [5], можно прийти к выбору частот спектрального анализа, Гц: 80, 100, 150, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1600, 1800, 2000, 2300, 2600, 3200, 4000, 5300, 8000.
Верхняя граница обусловлена тем, что частоты, лежащие выше 8000 Гц, практически не участвуют в образовании звуков и нередко являются шумами внешней среды. В силу специфичности предложенного вейвлета, необходимым параметром входного речевого сигнала остается его частота дискретизации. При таком частотном представлении целесообразно выбрать частоту дискретизации 32 КГц. Получаем максимальную частоту для анализа 8 КГц, так как вейвлет-функция изначально увеличена в два раза, принимая во внимание теорему Котельникова, получаем номера масштабирующих вейвлет-коэффици-ентов: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 17, 19, 22, 25, 30, 38, 50, 70, 100, 150, 200. При данном алгоритме вейвлет-преобразования Хаара необходимо для каждого уровня делать поправку на соответствующий им весовой коэффициент. Для получения равномерного распределения чувствительности необходимо каждый уровень вейвлет-коэффициентов умножать на коэффициент, пропорциональный численному значению соответствующей частоты.
Основной информацией в спектрально-временном образе речевого сигнала являются значения резонансных частот и их уровень присутствия в сигнале. Предлагаемый выше алгоритм быстрого преобразования Хаара дает двумерную матрицу коэффициентов, т.е. некоторую поверхность. В частотном анализе применяют практику абсолютных величин, дающих
большую информацию о частотах. В формантном анализе задача сводится к поиску резонансных частот. Она заключается в поиске экстремумов на этой поверхности. Решение задачи о поиске экстремума fx), с помощью необходимых и достаточных условий приводит к необходимости решать систему n линейных уравнений с n неизвестными [6]. Для достаточно сложных функций, в данном случае функций, описывающих поверхность частотно-временного спектра, такая процедура решения задачи достаточно трудоемка и затруднительна. Поэтому необходимо использовать численные методы безусловной оптимизации, которые позволяют найти стационарные точки функции.
Замечание. Во всех прямых методах рассматривается задача о поиске минимума функции fx), задача поиска максимума функции fx) может быть решена заменой целевой функции на - fx). Все прямые методы ищут точки как предел последовательности точек {xk} при k ^ го . В дальнейшем будем использовать термин минимума, а под термином максимума будет понимать обратную функцию [7].
Определение 1. Последовательность {xk} называется минимизирующей, если lim f (xk) = f (x*), т.е.
k
последовательно сходится к нижней грани функции fx).
Определение 2. Последовательность {xk} называ-
i- k *
ется сходящейся к точке минимума, если lim x = x .
k
Градиентный метод спуска можно записать следующим образом:
xk+1 = xk - tkVf (xk). (5)
В формуле (5) Vf(xk) - направление градиента функции, tk - шаг последовательности. Последний параметр выбирается постоянным tk = 1. Направление движения указывает нам на знак градиента. Изобразим графически функцию, описывающую поверхность вейвлет-коэффициентов в некоторой временной точке отсчета (рис. 3).
В поисковых методах экстремальное значение достигается с помощью последовательных процедур:
а) определение направления движения из данной точки по результатам специально организованного эксперимента;
б) организация движения в найденном направлении;
в) многократное повторение этих процедур до достижения точки экстремума.
Находясь в точке а, т.е. аргумент функции равен
хк, необходимо узнать направление градиента. Если
к к+1
выполняется условие х > х , то градиент имеет отрицательный знак и мы ищем минимум. Спуск происходит до того момента, пока не будет выполнено
условие хк — хк+1 < 0 , представленное на рис. 3 точкой Ь. После этого градиент меняет свое направление и происходит поиск максимума функции, т.е. в данном случае резонансной частоты. В точке с выполнится условие х к — х к+1 > 0 , означая нахождение максимума функции ^х) в точке хк. Используя этот метод на всей области задания функции, найдем все максимумы. В нашем случае, чтобы найти резонансные частоты, необходимо проверить все столбцы в матрице вейвлет-коэффициентов, а затем все строки.
На рис. 4 представлена поверхность вейвлет-коэф-фициентов речевого сигнала с учетом обозначенных номеров масштабирующих вейвлет-коэффициентов.
Рис. 4. Поверхность вейвлет-коэффициентов
На рис. 5 показана та же поверхность, но после применения метода поиска резонансных частот.
Рис. 5. Поверхность резонансных частот
Вершины треугольников - значения амплитуд вейвлет-коэффициентов. Сходимость метода градиентного спуска регламентируется теоремой.
Теорема. Если функция/х) ограничена снизу, а ее градиент удовлетворяет условию Липшица
1|У/ (х) -V/ (у)||< L||x - у ||, Ух, у е Rn, L > 0, то метод градиентного спуска гарантирует || V/(хк0, при к .
Сходимость к точке экстремума гарантируется для выпуклых функций, которой является поверхность, описываемая матрицей вейвлет-коэффици-ентов.
Литература
1. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. СПб., 1999. 204 с.
2. Дремин И.М., Иванов О.В., Нечитайло В.А. Вейвлеты и их использование // Успехи физических наук: материалы междунар. конф. Москва, май 2001 г. М., 2001. С. 455 - 501.
3. Фант Г. Акустическая теория речеобразования. М., 1964. 284 с.
4. Фланаган Д.Л. Анализ, синтез и восприятие речи. М., 1968. 392 с.
5. Сапожков М.А. Речевой сигнал в кибернетике и связи. М., 1963. 419 с.
6. Трифонов А.Г. Постановка задачи оптимизации и численные методы ее решения // Численные методы в MatLab 2011. URL: http://matlab.exponenta.ru/optimiz/book_2/2_1 .php
7. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. М., 2008. 636 с.
Поступила в редакцию 8 ноября 2011 г.
Беликов Иван Юрьевич - аспирант, кафедра «Электронные вычислительные машины», Южно-Российский государственный технический университет (Новочеркасский политехнический институт). Тел. 8-918-899-59-91. E-mail: [email protected]
Ковалев Олег Федорович - д-р техн. наук, профессор, кафедра «Электронные вычислительные машины», Южно-Российский государственный технический университет (Новочеркасский политехнический институт). E-mail: [email protected]
Belikov Ivan Yuryevich - post-graduate student, department «Computer Machines», South-Russia State Technical University (Novocherkassk Polytechnic Institute). Ph. 8-918-899-59-91. E-mail: [email protected]
Kovalev Oleg Fyodorovich - Doctor of Technical Sciences, professor, department «Computer Machines», South-Russia State Technical University (Novocherkassk Polytechnic Institute). E-mail: [email protected]_
Замеченные опечатки и пропуски
В статье авторов В.Н. Варавка, О.В. Кудряков, Ал.Ф. Медников, В.А. Ирха «Закономерности и параметры каплеударной эрозии титановых сплавов», № 6, 2011 г. на стр. 97, вторая колонка, четвертый абзац сверху следует читать так: «Представленные результаты получены в рамках выполнения научно-исследовательских работ по Государственным контрактам № 02.740.11.08.13, № 16.518.11.7031».
Редакция приносит извинения авторам за технические погрешности, допущенные при компьютерной верстке журнала.