Научная статья на тему 'Разработка алгоритма сжатия речевых данных с использованием субполосного преобразования'

Разработка алгоритма сжатия речевых данных с использованием субполосного преобразования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
314
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЖАТИЕ РЕЧЕВЫХ ДАННЫХ / СУБПОЛОСНОЕ ПРЕОБРАЗОВАНИЕ / ПАУЗЫ В СИГНАЛЕ / СТИСНЕННЯ МОВНИХ ДАНИХ / СУБСМУГОВЕ ПЕРЕТВОРЕННЯ / ПАУЗИ В СИГНАЛі / SPEECH DATA COMPRESSION / SUBBAND TRANSFORMATION / PAUSES IN SIGNAL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Прохоренко Е. И., Черноморец А. А., Эсауленко А. В.

Рассмотрена новая технология сжатия речевых данных с использованием субполосного преобразования, разработан и применен алгоритм сжатия речевых данных с использованием субполосного преобразования с учетом отличительных особенностей речевых данных (значительное количество пауз в сигнале, а также сосредоточение энергии сигнала в относительно узких частотных интервалах). Ил.: 4. Табл.: 1. Библиогр.: 10 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Development of the algorithm of the speech data compression with use of subband transformation

Is considered new technology of the speech data compression with the use of subband transformation, designed and applied algorithm of the speech data compression with the use of subband transformation with provision of discriminating speech data particularities (the great a number of the pauses in the signal, as well as concentration of the signal energy in comparatively narrow frequency interval). Figs.: 4. Table: 1. Refs.: 10 titles.

Текст научной работы на тему «Разработка алгоритма сжатия речевых данных с использованием субполосного преобразования»

УДК 621.391

Е.И. ПРОХОРЕНКО, канд. техн. наук, доц. БелГУ (г. Белгород, Россия),

А.А. ЧЕРНОМОРЕЦ, канд. техн. наук, доц. БелГУ (г. Белгород, Россия),

А.В. ЭСАУЛЕНКО, БелГУ (г. Белгород, Россия)

РАЗРАБОТКА АЛГОРИТМА СЖАТИЯ РЕЧЕВЫХ ДАННЫХ С

ИСПОЛЬЗОВАНИЕМ СУБПОЛОСНОГО ПРЕОБРАЗОВАНИЯ

Рассмотрена новая технология сжатия речевых данных с использованием субполосного преобразования, разработан и применен алгоритм сжатия речевых данных с использованием субполосного преобразования с учетом отличительных особенностей речевых данных (значительное количество пауз в сигнале, а также сосредоточение энергии сигнала в относительно узких частотных интервалах). Ил.: 4. Табл.: 1. Библиогр.: 10 назв.

Ключевые слова: сжатие речевых данных, субполосное преобразование, паузы в сигнале.

Постановка проблемы. На сегодняшний день актуальной задачей является создание и развитие новых информационных технологий, которые позволили бы ускорить процесс обмена информацией в обществе.

Существенную долю этого обмена составляют речевые данные. Кроме того, зачастую возникает необходимость в хранении речевых данных на жестких носителях, например при записи аудиоконференций, выступлений лекторов, театральных постановок, радиоархивов и т.п. В настоящее время

пользователями для сжатия речи, в основном, используются кодеки, предназначенные для сжатия звуковых данных, которые не учитывают специфические особенности речевых сигналов, такие как значительное количество пауз в сигнале, сосредоточение энергии сигнала в относительно узких частотных интервалах и так далее.

Таким образом, одной из важных задач реализации в информационнотелекоммуникационных системах речевого обмена является создание

эффективных методов сжатия полученных на этапе регистрации речевых данных с возможностью дальнейшего воспроизведения исходных речевых сообщений с приемлемым качеством на выходе системы передачи

информации.

Анализ литературы. Анализ работ многих авторов, посвященных данной тематике, например [1 - 5], показывает, что на сегодняшний день наиболее часто в литературе рассматривается метод сжатия речевых данных, основанный на использовании КИХ-фильтров. Недостатком такого подхода является наличие эффекта элайзинга, то есть наложения частот, и как следствие, ухудшение качества воспроизводимой речи.

Метод оптимального субполосного преобразования [6 - 10], позволяющий избежать недостатков КИХ-фильтрации, учитывает особенности речевого сигнала и позволяет осуществить избирательную обработку составляющих

сигнала, энергия которых сосредоточена в заданных частотных интервалах. Метод субполосного преобразования на основе КИХ-фильтрации получает все большее распространение в алгоритмах цифровой обработки речи.

Цель статьи - исследование и практическое применение метода оптимального субполосного преобразования для сжатия речевых данных.

Уменьшение объемов битовых представлений речевых сигналов

основано на методе субполосного преобразования.

Процедура прореживания выходных последовательностей КИХ-фильтров не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи. Поэтому целесообразно использовать метод обратимого субполосного преобразования, оптимального в смысле минимума погрешностей аппроксимации спектров исходного вектора в выбранных частотных диапазонах [1 - 4, 6].

Сущность субполосного преобразования состоит в том, что для отрезков

сигнала вычисляется вектор уу = (у1, у2,...,уЯ), состоящий из подвекторов —^

Уг = (у1г, У2г,...,У^г), которые отражают частотные свойства исходного сигнала в некотором частотном интервале. При этом в данном случае ось частот разбивается на Я равновеликих частотных интервалов:

¥г = [_иг,-иг_1)и[ог-1,иг), иг-1 <иг <%; и0 = 0; иг = п; г = 1,...,Я. Субполосное преобразование осуществляется по формуле:

——

уу = ААх, (1)

где АА - блочная матрица вида:

АА =

&

где Q1r = } - матрица собственных векторов матрицы Аг,

Ь1г = diag(k1,...,'k у) - вектор собственных чисел, 3 - количество

собственных чисел матрицы Аг.

Матрица Аг вычисляется как Аг = {агік}, і, к = 1,...,N;

аік =і

8Іи[иг (і - к)]- 8Іи[иг_1(і - к)] к(і - к)

если і ф к,

иг _иг-1 ■ ,

—------— , если і = к.

Если в качестве вектора исходных значений х используется отрезок речевого сигнала длительностью М, тогда вектор субполосного преобразования вычисляется по формуле (1).

С использованием полученных значений подвекторов субполосного преобразования вычисляется распределение энергии сигнала по заданным частотным интервалам (рис.1):

= 2 (Уіг) , г = 1,..., Я .

(2)

Полученные значения энергии упорядочиваются по возрастанию (рис. 2), при этом сохраняются номера частотных интервалов. Выбираются значения энергий для тех частотных интервалов, в которых сосредоточена некоторая доля энергии, например, 95%.

Рис. 1. Распределение энергии, сосредоточенной в Я = 32 частотных интервалах

(М = 256)

к

и

г=1

Рис. 2. Распределение энергии по интервалам (R = 32, N = 25б) при сортировке по

возрастанию

Значения подвекторов субполосного преобразования квантуются по уровню и записываются в информационный блок совместно со служебной информацией, содержащей номера частотных интервалов.

Алгоритм сжатия представлен на рис. З.

R, AA

x - (х1, ..., xN) УУ = (Уі, У2, ..., УR ) Pr - (P1, •••, PR ) n = (Иі, .„, nR )

Рис. 3. Функциональная схема системы сжатия речевых данных на основе оптимального субполосного преобразования

Для восстановления сигнала применяют алгоритм, который может быть описан функциональной схемой, представленной на рис. 4.

N

K

кн

1б3

Из информационного блока осуществляется считывание квантованных значений векторов субполосного преобразования и их восстановление.

АА

I

Блок восстановления Блок обратного ^

квантованных значении л л л Г преобразования л л л

УУ = (Уі, У2> •••, Уя)

Кв

Рис. 4. Функциональная схема системы восстановления речевых данных на основе оптимального субполосного преобразования

Обратное субполосное преобразование осуществляется по формуле:

х = ЛЛ'уу . (3)

Для определения параметров субполосного преобразования - длины анализируемого отрезка Ы, количества частотных интервалов Я было проведено большое количество вычислительных экспериментов. В качестве предварительной обработки были обнаружены и закодированы паузы. Таким образом процедуре сжатия подвергается собственно звуковой сигнал.

В ходе экспериментов для различных значений длин отрезков речевых данных N = 64, 128, 256, 512 отсчетов, диапазон частот разбивается на Я = 8, 16, 32 интервалов.

Некоторые результаты приведены в таблице, в которой используются следующие обозначения:

N - длинах отрезков речевых данных; К - степень сжатия за счет субполосного преобразования, которая определяется по формуле:

К = ¥ИУ2, (4)

где V - объем исходного файла; У2 - объем сжатого файла.

Таблица

Степень сжатия речевых данных при различных N

N К (при Я = 8) К (при Я = 16) К (при Я = 32)

64 1,52 1,18 1,22

128 1,81 1,71 1,54

256 1,97 2,38 2,64

512 2,09 2,48 2,80

Необходимо отметить, что в таблице приведены результаты сжатия речевых данных только за счет субполосного преобразования, без учета сжатия за счет удаления пауз и квантования сигнала. Таким образом, на основе полученных результатов можно говорить о высокой эффективности применения данного подхода к сжатию данных, т.к. он позволяет существенно сократить объем речевых данных при их передаче и хранении, при сохранении относительно высокого качества воспроизведения восстановленного сигнала.

При воспроизведении восстановленных звуковых файлов сохраняется качество на уровне телефонного (разборчивость речи, узнаваемость голоса, сохранение тембра голоса).

Выводы. В данной работе представлен алгоритм сжатия речевых данных с использованием субполосного преобразования с учетом отличительных особенностей речевых данных. В результате работы алгоритма достигается сжатие данных в 1,5 - 3 раза в зависимости от выбора длины анализируемого отрезка N и количества частотных интервалов R, при сохранении качества воспроизведения восстановленных данных.

Разработанный алгоритм сжатия речевых данных с использованием субполосного преобразования можно применять для сжатия речевых данных, для их передачи по каналам связи и хранения в ЭВМ. Практическое применение алгоритма сжатия речевых данных с использованием субполосного преобразования позволит ускорить процесс обмена информацией в обществе, а также уменьшить объем памяти, необходимой для хранения речевых данных.

Список литературы: 1. Сэломон M. Сжатие данных, изображений и звука / M. Сэломон. - М.: Техносфера, 2006. - 368 с. 2. Михайлов В.Г. Измерение параметров речи / В.Г. Михайлов. - М.: Радио и связь, 1987. - 168 с. 3. Сергиенко А.Б. Цифровая обработка сигналов / А.Б. Сергиенко. -СПб.: Питер, 2005. - 182 с. 4. Шелухин О.И. Цифровая обработка и передача речи / О.И. Шелухин, Н.Ф. Лукьянцев. - М.: Радио и связь, 2000. - 208 с. 5. Орищенко В.И. Сжатие данных в системах сбора и передачи информации / В.И. Орищенко, В.Г. Санников, В.А. Свириденко; под ред.

B.А. Свириденко. - М.: Радио и связь, 1985. - 184 с. 6. Жиляков Е.Г. Методы обработки речевых

данных в информационно-телекоммуникационных системах на основе частотных представлений: монография / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко. - Белгород: Изд-во БелГУ, 2007. - 136 с. 7. Жиляков Е.Г. О субполосном преобразовании звуковых сигналов / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Труды Российского научно-технического общества радиотехники, электроники и связи имени А.С. Попова. - М., 2006. - Выпуск VIII-1. - С. 167-169. - (Серия: цифровая обработка сигналов и ее применение). 8. Жиляков Е.Г. Частотный анализ речевых сигналов / Е.Г. Жиляков // Научные ведомости Белгородского государственного университета. - Белгород, 2006. - № 2 (31). - Вып. 3. - С. 201-208. 9. Жиляков Е.Г. О сжатии речевых сигналов

/ Е.Г. Жиляков, С.П. Белов // Вестник НТУ "Харьковский политехнический институт". Тематический выпуск: Информатика и моделирование. - Харьков: НТУ "ХПИ". - 2005. - N° 56. -

C. 32-40. 10. Прохоренко Е.И. Метод обнаружения пауз в речевых сигналах / Е.И. Прохоренко // Вестник Московской академии рынка труда и информационных технологий. - М., 2006. - № 4 (26). - С.13-20.

Статья представлена д.т.н. проф. БелГУЖиляковым Е.Г.

УДК 621.391

Розробка алгоритму стиснення мовних даних з використанням субсмугового перетворення / Прохоренко Е.І., Черноморец А.А., Есауленко А.В. // Вісник НТУ "ХПІ". Тематичний випуск: Інформатика і моделювання. - Харків: НТУ "ХПІ". - 2009. - № 43. - С. 160 -166.

Розглянута нова технологія стиснення мовних даних з використанням субсмугового перетворення, розроблений і застосований алгоритм стиснення мовних даних з використанням субсмугового перетворення з урахуванням відмітних особливостей мовних даних (значна кількість пауз в сигналі, а також зосередження енергії сигналу в щодо вузьких частотних інтервалах). Іл.: 4. Табл.: 1. Бібліогр.: 10 назв.

Ключові слова: стиснення мовних даних, субсмугове перетворення, паузи в сигналі.

UDC 621.391

Development of the algorithm of the speech data compression with use of subband transformation / Prokhorenko E.I., Chernomoretc A.A., Esaulenko A.V. // Herald of the National Technical University "KhPI". Subject issue: Information Science and Modelling. - Kharkov: NTU "KhPI". - 2009. - № 43. - P. 160 - 166.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Is considered new technology of the speech data compression with the use of subband transformation, designed and applied algorithm of the speech data compression with the use of subband transformation with provision of discriminating speech data particularities (the great a number of the pauses in the signal, as well as concentration of the signal energy in comparatively narrow frequency interval). Figs.: 4. Table: 1. Refs.: 10 titles.

Key words: speech data compression, subband transformation, pauses in signal.

Поступила в редакцию 10.10.2009

i Надоели баннеры? Вы всегда можете отключить рекламу.