УДК 621.391
Е.И. ПРОХОРЕНКО, канд. техн. наук, БелГУ (г. Белгород),
И.А. СИДОРЕНКО, канд. техн. наук, БелГУ (г. Белгород),
А.В. БОЛДЫШЕВ, БелГУ (г. Белгород)
ЦИФРОВОЕ КОДИРОВАНИЕ РЕЧЕВЫХ ДАННЫХ НА ОСНОВЕ
КЛИППИРОВАНИЯ И ЧАСТОТНЫХ ПРЕДСТАВЛЕНИЙ
Рассмотрена новая технология сжатия речевого сигнала для цифровых систем передачи информации, основанная на клиппировании речи с сохранением разборчивости речи и узнаваемости голоса. Предложены алгоритмы обработки цифрового речевого сигнала, реализующие обнаружение и удаление шума в паузах клиппированной речи, а также формирование данных об изменении мгновенного спектра речи на основе частотных представлений речевого сигнала.
Ключевые слова: сжатие речевого сигнала, клиппирование, разборчивость речи, узнаваемость голоса, частотное представление речевого сигнала.
Постановка проблемы. Построение эффективных цифровых систем передачи речевых сигналов определяется возможностью снижения затрат как на практическую реализацию алгоритмов обработки речевых данных, так и на сам процесс передачи данных, себестоимость которого пропорциональна объему передаваемых данных. Поэтому, например, операторы сетей мобильной связи заинтересованы в разработке алгоритмов сжатия речи, существенно уменьшающих объем битового представления речевых сигналов с сохранением их разборчивости и узнаваемости. Вот почему проблема сокращения объема данных при передаче речевых сигналов в цифровых системах передачи информации остается, по-прежнему, одной из самых исследуемых. Поиск путей возможного решения проблемы ведется в различных плоскостях и направлен на поиск компромисса между степенью сжатия речевых данных, с одной стороны, и сложностью алгоритма кодирования и обработки речи, с другой стороны. Непременным условием является сохранение качества речевого сигнала на выходе системы передачи информации, определяемое такими показателями как разборчивость речи и сохранение тембра речи, обеспечивающего узнаваемость голоса.
Анализ литературы. Анализ публикаций по проблеме эффективного сжатия речевых данных, например [1 - 9], позволяет определить следующие основные направления исследований:
- разработка эффективных методов компрессии данных, полученных после аналого-цифрового преобразования ограниченного по спектру речевого сигнала (амплитудное компандирование речи, удаление пауз и т.п.);
- поиск новых способов представления речи, основанных на передачи информации не о самой речи, а об её структурных элементах, таких как фонемы или форманты, либо об её спектре (частотное представление речи);
- имитация речевых сигналов посредством конечного набора реализаций шума или случайных сигналов, составляющих "словарь" для последующего синтеза речи в вокодерах;
- использование различных механизмов предсказания на основе математического аппарата Марковских цепей и т.п.
Предлагаемые в указанных источниках решения порой существенно снижают объем передаваемых данных, однако, как правило, это достигается значительным усложнением аппаратной реализации устройств кодирования и восстановления речевых сигналов, требующих применения высокопроизводительных сигнальных процессоров. Вместе с тем, цифровые технологии обработки речи позволяют по новому подойти к реализации механизмов уменьшения избыточности речевых сигналов, известных ещё с "аналоговых" времён.
Одним из наиболее эффективных способов уменьшения избыточности речи по праву считается клиппирование речевого сигнала. С точки зрения цифровых технологий клиппированный речевой сигнал может быть передан одноразрядной (однобитовой) последовательностью данных, несущих информацию только о полярности дискретных отсчетов сигнала. Такой сигнал сохраняет достаточную для практики словесную и фразовую разборчивость, вполне приемлемую в тех системах передачи информации, где тембровой окраской голоса (узнаваемость абонента) можно пожертвовать. Этот широко известный факт не находит практического применения именно из-за потери узнаваемости голоса, вызванного сильным зашумлением речи при её предельном амплитудном ограничении. В аналоговую эпоху передачи речи для устранения этого недостатка предлагалось организовывать дополнительный канал, по которому тем или иным способом должна была передаваться информация о поведении огибающей исходного речевого сигнала [1, 2]. На приемной стороне после объединении информации обоих каналов мог быть восстановлен исходный речевой сигнал, достаточного для практического применения качества. Сложность осуществления этой процедуры с использованием аналоговой схемотехники оказалась главной причиной, по которой указанный метод передачи клиппированной речи не нашел практического применения. Другой, не менее сложной, оказалась проблема подавления шума в паузах речи, который резко снижал разборчивость и утомлял слух абонента телефонной сети.
Вместе с тем, обе эти проблемы могут быть успешно решены с применением цифровых технологий обработки речи. Для этого необходимо очистить речь от шума в паузах и в общем потоке данных передать сам клиппированный речевой сигнал и информацию об изменении огибающей сигнала, либо его мгновенного спектра.
Цель статьи - разработка новой технологии сжатия речевых данных, основанной на передачи очищенной от шума в паузах клиппированной речи и
дополнительной информации об изменении её мгновенного спектра и обеспечивающей сохранение разборчивости речи и узнаваемость голоса.
Технология кодирования речи основана на методе субполосного преобразования.
Согласно акустической теории речеобразования восприятие звуков определяется областями максимальной концентрации энергии - формантами, т.е. можно сказать, что 95% энергии речевого сигнала сосредоточены в сравнительно узком частотном диапазоне и именно эта составляющая спектра определяет степень разборчивости при воспроизведении речи. В некоторых случаях для достижения большой степени сжатия речевых данных можно пренебречь малоэнергетическимим составляющими сигнала, которые определяют эмоциональную окраску речи и узнаваемость голоса диктора.
Таким образом, для решения проблем сжатия возникает необходимость избирательно преобразовывать спектральные компоненты из различных частотных диапазонов. В настоящее время все большее распространение получает подход на основе, так называемого, субполосного кодирования, который реализуется с использованием банков КИХ-фильтров, путем свертки сигнала с несколькими полосовыми фильтрами и децимацией результата.
Такой подход имеет определенные недостатки, поскольку проявляется эффект наложения спектров ("элайзинга"), возникающий при децимации, то есть относительная среднеквадратичная погрешность аппроксимации спектров исходного вектора в соответствующем частотном интервале, в основном, обусловлена малым количеством используемых прореженных данных, что, согласно теории Найквиста, приводит к элайзингу, а также зависит от степени подавления спектральных компонент в полосах непропускания и ширины переходных полос КИХ-фильтров.
В данной процедуре сжатия речевых данных используется новый вариационный метод субполосного преобразования, оптимальный с точки зрения минимума среднеквадратичной погрешности аппроксимации спектров исходного вектора в соответствующем частотном интервале.
Сущность субполосного преобразования заключается в следующем: для
—^
отрезков сигнала вычисляется вектор уу = (у1,у2,...,уЯ), состоящий из ——
подвекторов уг = (у1г, у 2г,..., у^), которые отражают частотные свойства исходного сигнала в некотором частотном интервале (в данном случае ось частот разбивается на Я частотных интервалов):
——
уу = ААх , (1)
где АА - блочная матрица; х - вектор исходного отрезка сигнала длиной N.
Блочная матрица формируется на основе субполосной матрицы Аг = } с элементами вида (2)
sin[u2 (i - k)] - sin[u[ (i - k)]
n(i - k)
где и[ и и 2 определяются исходя из разбиения области определения спектра [— я, я] на ряд равновеликих частотных интервалов:
Vr = [_u 2,-ui) ^[и2, ui),
(3)
таких, что ur2 - = Au = const.
Матрица А обладает тем свойством, что значения ее собственных чисел с
номерами меньшими m = 2
N
2R
при упорядочивании по возрастанию близки
к единице, а с номерами большими J = 2
N
2R
+ 4 стремятся к нулю
(квадратная скобка означает операцию взятия целой части содержимого) [3,4]. Таким образом, существует возможность создания блочной матрицы:
AA =
Д(в1)
№ в )Т
(4)
где Q1r = (цх,...,) - подматрица собственных векторов матрицы А;
—— ——
Ь[ = diag(X1 ,...,Х3) - подматрица собственных чисел матрицы А.
Значения энергии сигнала в заданном частотном интервале вычисляются с использованием полученных подвекторов субполосного преобразования:
Р =Е (у1Г), г = 1, Я . (5)
г =1
Данный метод частотного анализа подробно рассмотрен в [4].
Для отрезков сигнала осуществляется вычисление распределения энергии по частотному интервалу и упорядочивание полученных значений по убыванию, далее определяются номера интервалов, суммарная энергия в которых составляет 95% от общей.
Для данных интервалов вычисляются коэффициенты:
гк
2
1
n
2
J
в; =,| р-, (б)
тах
где Рг - значение энергии в г-м частотном интервале исходного сигнала соответственно; Ртах - максимальное значение энергии исходного сигнала.
Для исходного сигнала осуществляется клиппирование с последующим сохранением полученных значений и вычисленных ранее коэффициентов.
При восстановлении для клиппированного сигнала вычисляются значения энергии (5) и коэффициенты:
В2 = в^/Рр^, (7)
клг
где Р - значение энергии в г-м частотном интервале клиппированного сигнала соответственно; Рл тах - максимальное значение энергии клиппированного сигнала.
Значения коэффициентов в2 умножаются на значение вектора субполосного преобразования для соответствующего частотного интервала
—
Л
У = УВ2г . (8)
Значения подвекторов субполосного преобразования уг,
соответствующие интервалам, суммарная энергия которых составляет 5% от общей обнуляются. Далее осуществляется обратное субполосное преобразование:
—
х = АА уу . (9)
Для проверки работоспособности алгоритма были проведены вычислительные эксперименты для большого количества сигналов. Процедура сжатия осуществлялась в 3 этапа: кодирование пауз [5, 6], клиппирование с вычислением коэффициентов (6), арифметическое кодирование. Полученные после процедуры сжатия данные сохранялись на жестком носителе, затем рассчитывались коэффициенты сжатия по формулам (10) и (11):
К1 = —, (10)
12
¥1
К 2 = —, (11)
¥ 2
где Ь1 - длина исходного сигнала в отсчетах; Ь2 - длина сигнала с предварительно удаленными паузами, в отсчетах; ¥1 - объем исходного файла; ¥2 - объем файла, полученного в результате сжатия.
Типичные примеры результатов экспериментов представлены в табл.
Тип сигнала Пара- метры сигнала Длина исходного сигнала (М отсчетов) Длина сигнала с предварительно удаленными паузами (Ь2 отсчетов) Объем исходного файла, Кб (П) Коэф. сжатия после удаления пауз (К1) Объем файла, полученного в результате сжатия, Кб (Р2) Коэф. сжатия (К2)
диалог Fd = 8кГц, количество бит на 1 символ равно 8 145125 92672 283 1.57 13.2 13.9
стих 82944 66650 162 1.25 9.45 17.14
слит- ная фраза 35327 19006 69 1.86 2.72 25.37
лекция 376426 164352 735 2.29 23.4 31.4
Таким образом, на основе приведенных данных можно утверждать, что данный подход к сжатию данных позволяет существенно сократить объем речевых данных при их хранении на жестких носителях информации, при сохранении относительно высокого качества воспроизведения восстановленного сигнала.
Выводы. В результате проделанной работы была предложена новая технология сжатия речевых данных, основанная на новом вариационном методе субполосного преобразования, оптимального с точки зрения минимума среднеквадратичной погрешности аппроксимации спектров исходного вектора в соответствующем частотном интервале.
Список литературы: 1. Бухвинер В.Е. Управляемое компандирование звуковых сигналов. - М.: Связь, 1978. - 208 с. 2. Козленко Н.И. Помехоустойчивость дискретной передачи непрерывных сообщений. - М.: Радиотехника, 2003. - 352 с. 3. Гантмахер Ф.Р. Теория матриц. - М.: Физматлит, 2004. - 560 с. 4. Жиляков Е.Г. Частотный анализ речевых сигналов // Научные ведомости Белгородского государственного университета. - 2006. - № 2 (31). - Вып. 3. - С. 201208. 5. Прохоренко Е.И. Метод обнаружения пауз в речевых сигналах // Вестник московской академии рынка труда и информационных технологий. - 2006. - № 4 (26). - С. 13-20. 6. Жиляков Е.Г., Белов С.П. О сжатии речевых сигналов // Вестник Национального технического университета "Харьковский политехнический институт". Тематический выпуск: Информатика и моделирование. - Х.: НТУ "ХПИ". - 2005. - N° 56. - С. 32-40. 7. Сергиенко А.Б. Цифровая обработка сигналов. - СПб.: Питер, 2005. - 280 с. 8. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. - М.: Радио и связь, 2000. - 320 с. 9. Орищенко В.И., Санников В.Г., Свириденко В.А. Сжатие данных в системах сбора и передачи информации / Под ред. В.А. Свириденко. - М.: Радио и связь, 1985. -184 с.
УДК 621.391
Цифрове кодування мовних даних на основі кліппіровання і частотних представлень /Е. І. Прохоренко, І.А. Сидоренко, А.В. Болдишев // Вісник НТУ "ХПІ". Тематичний випуск: Інформатика і моделювання. - Харків: НТУ "ХПІ". - 2008 - № 49. - С. 139 - 145.
Розглянута нова технологія стиснення мовного сигналу для цифрових систем передачі інформації, заснована на кліппірованій мові із збереженням розбірливості мови і впізнанності голосу. Запропоновані алгоритми обробки цифрового мовного сигналу, що реалізують виявлення і видалення шуму в паузах кліппірованій мові, а також формування даних про зміну миттєвого спектру мови на основі частотних представлень мовного сигналу. Табл.: 1. Бібліогр.: 9 назв.
Ключові слова: стиснення мовного сигналу, кліппіровання, розбірливість мови,
впізнанність голосу, частотне представлення мовного сигналу.
UDC 621.391
Digital coding of speech data on the basis of speech clipping and frequency representations / E.I. Prokhorenko, I.A. Sidorenko, Boldyshev A.V.// Herald of the National Technical University "KhPI". Subject issue: Information Science and Modelling. - Kharkiv: NTU "KhPI". - 2008. - №» 49. -P. 139 - 145.
The new technology of compression of a speech signal for digital systems of transfer of the information, based on clipping speeches with preservation of legibility speech and recognition voice is considered. Algorithms of processing of the digital speech signal, realizing detection and removal of noise in pauses of clipped speech, and also formation of data about change of an instant spectrum of speech on the basis of frequency representations of a speech signal. Tabl.: 1. Bibliogr.: 9 titles
Keywords: compression of a speech signal, legibility of speech, frequency presentation of speech, clipping of speech.
Поступила в редакцию 10.10.2008