УДК 621.391
Е.Г. ЖИЛЯКОВ, д-р. техн. наук, проф., зав. каф. БелГУ (г. Белгород, Россия),
Е.И. ПРОХОРЕНКО, канд. техн. наук, доц. БелГУ (г. Белгород, Россия), А.В. БОЛДЫШЕВ, аспирант БелГУ (г. Белгород, Россия),
А.В. ЭСАУЛЕНКО, БелГУ (г. Белгород, Россия)
СЖАТИЕ РЕЧЕВЫХ ДАННЫХ КАК СРЕДСТВО ОБЕСПЕЧЕНИЯ СКРЫТНОСТИ РЕЧЕВЫХ СООБЩЕНИЙ
Рассмотрена информационная технология сжатия речевых данных, реализующая обнаружение и кодирование пауз, оптимальное субполосное преобразование и квантование по уровню, с сохранением достаточно высокой степени разборчивости и узнаваемости автора. Также рассмотрена возможность использования применяемых методов сжатия речевых данных как средств обеспечения скрытности речевых сообщений.
Ключевые слова: скрытность речевых сообщений, сжатие речевых данных, оптимальное субполосное преобразование, узнаваемость автора.
Постановка проблемы. В настоящее время в области информационнотелекоммуникационных систем большое внимание уделяется задаче сокращения объема битовых представлений (сжатия) речевых данных. Актуальность этой задачи обусловлена огромной ролью информационного обмена в современном обществе, существенную часть которого составляют речевые данные. Остро встает необходимость в использовании процедур сжатия для компактного хранения данных речевого обмена на жестких носителях, например, при проведении аудиоконференций (протоколирование различных заседаний), которые могут продолжаться длительное время, хранении звукозаписей выступлений лекторов, так же для систем информирования (звукового оповещения) в аэропортах, на авто и ж/д вокзалах и т.д.
При осуществлении сжатия речевых данных сигнал на жестком носителе может храниться в виде некого блока данных. В нем может храниться как преобразованная форма исходного сигнала, например, выходные последовательности КИХ-фильтров (если используется субполосное преобразование), квантованные значения сигнала (если используется квантование по уровню), так и информация о параметрах преобразований -параметры используемого квантователя (количество разрядов квантователя, максимальное по модулю значение вектора исходной последовательности, знаки отсчетов исходной последовательности), или же данные о субполосном преобразовании (количество интервалов, на которые разбивается ось нормированных частот, длительность интервала анализа в отсчетах). Если используется предварительное оценивание информативности сигнала (разделение сигнала на активную речь и паузу), то фрагменты сигнала,
классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов, фрагменты же, классифицированные как паузы анализируются и сами не передаются, а передается минимальная информация о расположении этих фрагментов. На рис. 1 представлен один из вариантов блока кодированных данных:
Квантованные Информация о
значения расположении пауз в Параметры
исходного исходном речевом квантователя
речевого сигнала сигнале
Рис. 1. Структура блока кодированных данных
Сигнал, хранимый на жестком носителе в такой форме невозможно воспроизвести и прослушать с помощью стандартных и широко распространенных средств. Для того чтобы воспроизвести его необходимо либо использовать специализированный кодер/декодер, либо вручную произвести декодирование этих данных, но при этом необходимо обладать сведениями о том, с помощью каких методов и алгоритмов было осуществлено кодирование.
Все это ограничивает непосредственный доступ к данным, и можно говорить о том, что сжатие речевых данных может стать средством решения такой немало важной проблемы при хранении и передаче речевых данных, как обеспечение конфиденциальности сообщаемых сведений, которая традиционно решается с использованием современных, хорошо себя зарекомендовавших криптографических методов защиты информации.
Анализ литературы. Предлагаемые во многих источниках, например [1 - 6], решения задачи сжатия порой существенно снижают объем передаваемых данных, однако, как правило, это достигается значительным усложнением аппаратной реализации устройств кодирования и восстановления речевых сигналов, требующих применения высокопроизводительных сигнальных процессоров.
При решении задачи сжатия речевых данных отмечаются два основных момента: необходимость удаления пауз, возникающих между отдельными словами и в режиме диалога, занимающих до 60% длительности исходных звукозаписей, и сокращение объема битовых представлений собственно звуковых данных [4, 5, 7].
Для сжатия участков собственно звуков речи тоже разработаны различные процедуры обработки. Основой этих процедур служат необратимые преобразования исходных данных либо за счет более грубого квантования по уровню, либо путем построения моделей генерации, позволяющих осуществить их воспроизведение [3, 8].
Существующие методы сжатия звуковых данных с использованием грубого квантования по уровню основываются на психоакустической модели,
что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха. Но следует помнить, что при использовании различных методов и алгоритмов сжатия необходимо обращать внимание на сохранение качества речевого сигнала на выходе системы передачи информации, которое определяется такими показателями как разборчивость речи и сохранение тембра речи, обеспечивающего узнаваемость голоса.
Целью статьи является анализ возможности использования предлагаемых методов сжатия речевых данных как средства обеспечения скрытности речевых сообщений при их передаче или хранении.
Субполосное преобразование. В основе предлагаемой процедуры сжатия речевых данных используется новый вариационный метод оптимального субполосного преобразования, подробно описанный в [9].
Сущность субполосного преобразования заключается в следующем: для
——
отрезков сигнала вычисляется вектор уу = (у1, у2, у? ), состоящий из
подвекторов уг = (у1г, у2г,...,у^), которые отражают частотные свойства исходного сигнала в некотором частотном интервале (в данном случае ось частот разбивается на Я частотных интервалов):
—
уу = ААх, (1)
где х - вектор исходного отрезка сигнала длиной Ы; АА - блочная матрица. Блочная матрица АА формируется на основе субполосной матрицы
Аг = {а[к } и имеет вид
АА =
у[Ц(в1)Т
^(<2Ъ7
Ц (в? )Т
(2)
где = (#!,..., qJ) - подматрица собственных векторов матрицы Аг
—— ——
Ц = diag(Xl, ...Д^) - подматрица собственных чисел матрицы Аг. Субполосная матрица Аг имеет элементы вида (3)
—
біп[о2 (і - к)] - 8Іп[и! (і - к)] . ^ к
п(і - к) (3)
і = к,
где и1 и и2 определяются исходя из разбиения области определения спектра [—я, я] на ряд равновеликих частотных интервалов
уг = [—и2,—и[) и[и2, ^) (4)
таких, что и2 — = Аи = сош1
Матрица Аг обладает тем свойством, что значения ее собственных чисел с номерами меньшими m = 2[Ы / 2К\ при упорядочивании по возрастанию близки к единице, а с номерами большими J = / 2Щ + 4 стремятся к нулю
(квадратная скобка означает операцию взятия целой части содержимого).
Значения энергии сигнала в заданном частотном интервале вычисляются с использованием полученных подвекторов субполосного преобразования:
Р =2У), г = 1,2,...,Я . (5)
i=l
Также имеет место обратное субполосное преобразование:
х = АА’уу . (6)
Кодирование пауз. Предлагаемый метод основан на учете отличий в распределении энергетических составляющих звуков речи и сигнала паузы в частотной области [4, 6]. Формулируется следующая гипотеза:
Н0: энергия исходного отрезка , i = 1,2,...,N в г-м частотном интервале (у2г — ) обусловлена внешними шумами.
Положим
Рі
З'г = -рП, г = 1,2,..., Я , (7)
где Р.1 - доля энергии паузы, Ргг - доля энергии отрезка сигнала (энергия вычисляется с использованием выражения (5)).
Для увеличения вероятности правильного обнаружения границы пауза/звук целесообразно с порогом сравнивать максимальное значение из
а.-,. = <
гк
г г Оо - Оі
2
п
отношений вида (7), так как энергия сигнала, соответствующего звуку может быть сосредоточена в сравнительно узком диапазоне частот.
Если имеет место
max(S,r) > к, (8)
то отвергается нулевая гипотеза Н0, т.е. отрезок речевого сигнала принимается за звук.
Если же выполняется неравенство
max(S,r) < к, (9)
то Н0 считается справедливой и данный отрезок речевого сигнала принимается за паузу.
В выражениях (8) и (9) к - это порог, который определяется адаптивно. Причем, отрезки сигнала, на которых величина решающей функции не
превышала установленный порог, как правило, являются паузами малой
длительности между фонемами или слитно произнесенными словами.
Информация об удаленных паузах хранится в "карте пауз", которая содержит сведения о начале паузы и ее длительности, она используется при декодировании сигнала для восстановления паузы. Причем, имеется возможность выбора параметров восстановления - длительность пауз, тип заполнения пауз ("тишина" или комфортный шум).
На рис. 2 представлена функциональная схема системы сжатия речевых данных на основе кодирования пауз, оптимального субполосного преобразования и квантования.
При поступлении сигнала на вход системы первоначальным этапом сжатия является обнаружение и кодирование пауз, при этом возможно оперировать следующими параметрами: N - длительность отрезков сигнала, на которые разбивается исходный сигнал, Я - количество частотных интервалов, на которые разбивается отрезок сигнала. На выходе блока обнаружения пауз формируется последовательность речевых данных, не содержащая пауз, а также служебная информация ("карта пауз") о том, где паузы находятся и какой они длительности: Ынач - номер начального отсчета и Ып - длина, т.е. количество отсчетов для каждой паузы. Применение данного метода обнаружения и кодирования пауз позволяет сократить объем данных в 2 раза, при сохранении разборчивости и узнаваемости говорящего.
Затем этот сигнал подвергается субполосному преобразованию, исходными параметрами для этого блока служат: N - длительность отрезков сигнала, на которые разбивается сигнал "без пауз", Я - количество частотных интервалов, на которые разбивается отрезок сигнала, а также блочная матрица АА. Сигнал теперь представляется в виде набора векторов субполосного преобразования, и выделить необходимую информацию без параметров матрицы АА представляется невозможным.
^кв АА' Карта туз
Рис. 2. Функциональная схема системы сжатия/восстановления речевых данных
В ряде работ [10, 11] описывалась возможность удаления подвекторов субполосного преобразования, к которым относятся малоэнергетические составляющие спектра речевого сигнала, без существенной потери разборчивости и качества воспроизведения, что существенно сокращает объем речевых данных. Для увеличения степени закрытия данных, можно также осуществить перестановку подвекторов субполосного преобразования, а информацию об их позициях кодировать и передавать вместе со служебной информацией.
Следующим этапом является квантование по уровню, полученных на предыдущем этапе, значений векторов субполосного преобразования, при этом главным параметром является количество уровней квантования, которое определяется числом разрядов т:
Мкв = 2 ” -1. (10)
Чем больше Жкв, тем на большее число ступеней разбивается шкала квантователя и тем с большей точностью воспроизводится исходная последовательность при восстановлении. Величина шага квантования Д определяется максимальным из абсолютных значений вектора квантуемой последовательности. При квантовании используется способ округления к ближайшему двоичному уровню с порогом округления 0,5 (рис. 3).
При пороге округления 0,5 квантованный сигнал симметричен относительно оси времени, в нем присутствуют только нечетные гармоники искажений. Этот вариант квантования наиболее распространен.
порог округления= 0,5
-І
А
А
Л
-1
Рис. 3. Характеристика квантователя
Квантованная последовательность на выходе квантователя кд имеет вид:
кв = [|у| / А + 0,5], (11)
где шаг квантования А = 1/ Жкв.
Квантование осуществляется для каждой субполосы, полученной на предыдущем этапе, отдельно, т.е. шаг квантования вычисляется для каждого
подвектора У исходной последовательности УУ .
Для осуществления квантования каждого из подвекторов выполняется следующая последовательность действий:
1. Определяются знаки отсчетов исходной последовательности
2Пг = SІgn(yI) .
2. Определяется максимальное по модулю значение подвектора исходной последовательности у^пах = тах(у|) соответствующего г-го частотного интервала.
3. Вычисляется шаг квантования для данного подвектора аг = 1 , где
количество уровней квантования Ыкв определяется заданным числом разрядов т (10).
4. Вычисляется квантованная последовательность для данного подвектора
как
' .г\„„г , А П (12)
кв = [ У, /(Утах * ) + 0,5] .
Таким образом, на выходе квантователя формируется массив данных, содержащий: N бит значений знаков отсчетов исходной последовательности
——
уу; Я максимальных значений подвекторов у; тЫ бит значений
квантованной последовательности si кв и значение, определяющее количество
разрядов квантования т. При таком алгоритме квантования имеется возможность устанавливать любое число разрядов квантования т, в зависимости от необходимой степени сжатия и требуемого качества воспроизведения восстановленного сигнала.
В совокупности все предложенные методы позволят достичь высокой степени сжатия при сохранении требуемого качества речи для различных прикладных областей применения.
На рис. 4 представлена структура блока кодированных данных, полученных при использовании предлагаемых методов.
Квантованные «Карта Параметры Количество Массив Массив
значения л, пауз» преобразования Ы, разрядов знаков значении
Я квантования т гп> У шах
Рис. 4. Структура блока кодированных данных, полученных при использовании
предлагаемых методов
Что же касается скрытности данных, полученных в результате сжатия предложенными методами, то, чтобы злоумышленник при перехвате сообщения смог выделить из нее необходимые данные, ему необходимо знать структуру сформированного блока (порядок записи информации в нем) и обладать сведениями о примененных методах и алгоритмах сжатия.
При осуществлении декодирования данных на попытку подобрать все параметры для выполненных преобразований, а именно параметры квантователя, субполосного преобразования, порядок следования подвекторов субполосного преобразования (если используется их перемешивание), а также место и длительность пауз в сообщении, будет затрачено длительное время. В частности, что касается субполосного преобразования, то без точного представления о математическом аппарате, используемом в данном методе, злоумышленник не сможет восстановить компоненты вектора в речевой сигнал.
Выводы. При использовании различных методов и алгоритмов сжатия необходимо обращать внимание на сохранение качества речевого сигнала на выходе системы передачи информации, которое определяется разборчивостью речи и сохранением тембра речи, обеспечивающего узнаваемость голоса.
Предлагаемый комплексный подход к сжатию речевых данных позволяет добиться не только высокого коэффициента сжатия, при сохранении достаточно высокой степени разборчивости восстановленного сообщения, но и не позволяет произвести декодирование за короткий промежуток времени без наличия полных сведений о примененных методах сжатия. Следовательно,
предлагаемая процедура сжатия речевых данных, без дополнительных затрат, может обеспечить некоторый уровень конфиденциальности информации.
Список литературы: 1. Бухвинер В.Е. Управляемое компандирование звуковых сигналов
I В.Е. Бухвинер. - М.: Связь, 1978. - 20S с. 2. Козленко Н.И. Помехоустойчивость дискретной передачи непрерывных сообщений / Н.И. Козленко. - М.: Радиотехника, 200З. - 352 с. 3. Шульгин В.И. Основы теории связи. Часть 1. Teоpия и практика кодирования. Учебное пособие, Харьков: "ХАИ", 2005. 4. Жиляков Е.Г. О сжатии речевых сигналов / Е.Г. Жиляков, С.П. Белов
II Вестник ШУ "Харьковский политехнический институт". - Харьков, 2005. - № 56. - С. З2-40.
5. Сергиенко А.Б. Цифровая обработка сигналов I А.Б. Сергиенко - СПб.: Питер, 2005.
6. Шелухин О.И. Цифровая обработка и передача речи I О.И.Шелухин, Н.Ф. Лукьянцев. - М.: Радио и связь, 2000. 7. Жиляков Е.Г. Метод обнаружения пауз в речевых сигналах / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Системы синхронизации, формирования и обработки сигналов для связи и вещания. Материалы научно-технического семинара. - Белгород, 2006. - С. 94-9S.
8. Применение цифровой обработки сигналов. Под ред. Э. Оппенгейма. - М.: Мир, 1980. - 550 с.
9. Жиляков Е.Г. Частотный анализ речевых сигналов // Шучные ведомости Белгородского государственного университета. - Белгород, 2006. - № 2 (З1). - Вып. З. - С. 201-20S.
10. Прохоренко Е.И. Цифровое кодирование клиппированной речи с сохранением разборчивости и узнаваемости диктора I Е.И. Прохоренко, И.А. Сидоренко, А.В. Болдышев // Шучные ведомости БелГУ. Серия: информатика и прикладная математика. Белгород, 2008. 11. Прохоренко Е.И. Цифровое кодирование речевых данных на основе клиппирования и частотных представлений I Е.И. Прохоренко, И.А. Сидоренко, А.В. Болдышев // Вестник ШУ "Харьковский политехнический институт". - Харьков: ШУ "ХПИ", 200S. - N° 49. - С. 184 - lS9.
УДК 621.З91
Стиснення мовних даних як засіб забезпечення скритності мовних повідомлень / Жиляков Е.Г., Прохоренко Е.І., Болдишев А.В., Есауленко А.В. II Вісник ШУ "ХПІ". Teмaтичний випуск: Інформатика і моделювання. - Харків: ШУ "ХПІ". - 2009. - № 43. - С. 75 -S3.
Розглянута інформаційна технологія стиснення мовних даних, що реалізовує виявлення і кодування пауз, оптимальне субсмугове перетворення і квантування по рівню, із збереженням достатньо високого ступеня розбірливості і впізнанності автора. Taкож розглянута можливість використання вживаних методів стиснення мовних даних, як засобів забезпечення скритності мовних повідомлень. Іл.: 4. Бібліогр.: 11 назв.
Ключові слова: скритність мовних повідомлень, стиснення мовних даних, оптимальне субсмугове перетворення, впізнанність автору.
UDC 62l.39l
Compression of vocal data as backer-up secrecy of vocal reports / Zhilyakov E.G., Prokhorenko E.I., Boldyshev A.V., Esaulenko A.V. II Herald of the National Technical University "KhPI". Subject issue: Information Science and Modelling. - Kharkov: NTU ''KhPI''. - 2009. - №. 43. -P. 75 - S3.
Information technology of compression of vocal data, realizing a discovery and encoding of pauses, optimum subbar transformation and quantum on a level, is considered, with a maintainance there is an enough high degree of legibility and knowableness of author. Possibility of the use of the applied methods of compression of vocal data is also considered, as backer-ups secrecy of vocal reports. Figs: 4. Refs: ll titles.
Key words: secrecy of vocal reports, compression of vocal data, optimum subband transformation, knowableness of author.
Поступила в редакцию 09.10.2009