-►
Проблемы передачи и обработки информации
УДК 002:004.056
В.Г. Алексеев
СИСТЕМА цИФРОВЫХ «ВОДЯНЫХ» ЗНАКОВ ДЛЯ АУДИОСИГНАЛОВ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ ЯВЛЕНИЯ
реверберации
Техника цифровых «водяных» знаков (ЦВЗ) является эффективным средством защиты прав собственности для различных продуктов, распространяемых в мультимедийных средах, в частности, звуковых (музыкальных) файлов. При этом дополнительная информация, вкладываемая в эти файлы, может содержать не только идентификатор собственника, но и данные легального покупателя, что позволяет в дальнейшем обнаруживать и привлекать к ответственности тех нечестных покупателей, которые копируют и затем нелегально распространяют купленные ими продукты. Вложение дополнительной информации не должно увеличивать объем файлов и изменять их формат. Более того, качество звуковых (и, особенно, музыкальных) произведений практически не должно меняться по сравнению с оригиналом.
Нелегальные распространители копий («пираты») могут попытаться удалить вложенный ЦВЗ, причем под удалением понимается ситуация, когда исходная информация сохраняет приемлемое качество, а ЦВЗ тем не менее не может быть выделен.
Можно также ожидать, что файл с вложением будет подвергаться сжатию с потерями, изменению частоты дискретизации и микшированию. ЦВЗ должен надежно извлекаться после этих преобразований.
Наиболее популярными методами вложения ЦВЗ в аудиосигнал являются метод модуляции мгновенной фазы [1] и добавления эхосигналов [2-8]. Первый использует слабую чувствительность человеческого уха к фазовому спектру аудиосигнала. Результаты исследования этого метода опубликованы в работе [3]. Однако дальнейшие наши исследования показали, что для вы-
деления ЦВЗ требуется обеспечить очень точную синхронизацию на приемной стороне, что фактически невозможно в реальных условиях.
Второй метод основывается на свойстве человеческого слухового аппарата не замечать наличие эхосигнала, если задержка между основным сигналом и эхосигналом не превышает определенной величины. Однако этот метод оказывается уязвимым к преднамеренным атакам, основывающимся на подавлении эха. Использование явления реверберации для построения системы ЦВЗ также рассматривалось ранее в научной литературе [4]. Однако предложенная система не удовлетворяла всем перечисленным выше требованиям. Потому мы представляем в данной статье более полное исследование данного вопроса.
Описание методов вложения и извлечения дополнительной информации на основе использования явления реверберации
Явление реверберации состоит в суперпозиции различных эхосигналов, полученных от одного источника звука. Эффект реверберации можно наблюдать в закрытых помещениях после выключения источника звука [1]. Реверберация присутствует изначально в любой звукозаписи, иногда ее добавляют искусственно с целью придания музыкальным произведениям определенных оттенков звучания.
Для искусственного добавления реверберации нужно произвести свертку исходного сигнала с «комнатным импульсом». Комнатный импульс -это реакция моделируемого помещения на единичный звуковой импульс [2].
Временем реверберации обычно называется время, за которое уровень звука уменьшается на 60 дБ.
Рис. 1. Схема погружения ЦВЗ на основе явления реверберации
В ранних исследованиях погружения информации в аудиосигнал с помощью добавления реверберации [2] предлагалось использовать два комнатных импульса для вложения, соответственно «0» и «1». Данный способ имеет, однако, существенный недостаток - присутствие некоторой разности в звучании сегментов с разными реверберациями.
В настоящей статье предлагается использовать один комнатный импульс, незначительно модулируя время задержки между основным сигналом и временем начала реверберации.
В этом случае схема погружения выглядит так, как показано на рис. 1, где т(п) - исходный звуковой сигнал; х(к) - погружаемая двоичная последовательность; к^п) — кЬ(п) - импульсные отклики фильтров, применяемых для имитации реверберации; z(n) - сигнал с вложением.
Различие между фильтрами к1(п) — кЬ(п) заключается в разном времени задержки между исходным сигналом и реверберацией.
Так как возможно применение нескольких величин задержки, то в промежуток времени, в течение которого действует один фильтр, можно вложить Ь бит, где Ь - число используемых вариантов задержки.
Если бы исходный звуковой сигнал т(г) (для упрощения мы перешли к непрерывному време-
ни) можно было аппроксимировать гауссовским процессом с известной корреляционной функцией, то, казалось бы, можно было построить оптимальный приемник для выделения одного бита вложенной информации (при использовании двух фильтров) по схеме, представленной на рис. 2 [5].
Здесь кд (г, и) - решение интегрального уравнения:
¡7, х)кд (х, у) (у, и) дхду =
00 (1) = Кх(г, и) - Яо(г, и),
где ^о(1)(г, х) - корреляционные функции сигналов на выходе первого и второго фильтра соответственно; . - временной интервал, на котором вкладывается один бит.
Однако модель с гауссовской аппроксимацией входного сигнала т(г), которая приводит к оптимальной решающей схеме, показанной на рис. 2, отличается от нашей исходной модели следующим:
звуковой сигнал плохо аппроксимируется га-уссовским процессом;
корреляционная функция входного звукового сигнала в точности не известна;
сигналы на входах первого и второго фильтров нельзя полагать взаимонезависимыми, что
Т
\ * Г Порог
) * ] 0 устройство -►
-►(0,1)
Рис. 2. Оптимальный прием гауссовских сигналов
существенно при доказательстве оптимальности схемы, показанной на рис. 2 [5].
Потому используем т. н. кепстральное преобразование сигнала с вложением, которое позволяет свести задачу выделения бита к различению двух гипотез на фоне аддитивного шума [8].
Известны два кепстральных преобразования (комплексное 5с и вещественное 5Д), для которых справедливы следующие представления: £ = ШГТ(5)|)) + 2ГО и 8К = 1БТ(^(| ГТ(5) |)), где I - целое число, необходимое для установки фазы; ГТ - преобразование Фурье; 1ГТ - обратное преобразование Фурье.
Известно следующее свойство кепструма (как комплексного, так и вещественного) [6]:
(5, * 52)' = Б\ + Б'2, (2)
где « * » - означает свертку сигналов; «'» - преобразование кепструма. Тогда, казалось бы, для модели, изображенной на рис. 2, должно выполняться соотношение:
г '(и) = т '(и) + к \ (и). (3)
Поскольку 2\п) может быть получено из звука с вложением, а кV(и), г = 1, 2, ..., I рассчитывается заранее по известным импульсным реакциям фильтров, то задача извлечения вложенной информации сводится к обнаружению присутствия одного из Ь (в частном случае Ь = 2) сигналов к'. (и) на фоне помех т '(и). Если аппроксимировать помеху гауссовским белым шумом, то оптимально решающее правило будет иметь вид:
г = Л^,.., X(г '(и) - к' (и))2. (4)
иеТ
Если выполнено условие
X к \ 2(и) = сош^/), (5)
иеТ
то (4) сводится к известному правилу корреляционного приема [7]:
г = л^,.., X г '(и) • к • (и). (6)
иеТ
Однако в нашем случае правило (4) оказывается неоптимальным по следующим причинам:
1) соотношение (3) не выполняется в точности на конечных промежутках «Т», соответствующих вложению одного бита;
2) аддитивная помеха т '(и) не является гаус-совской последовательностью;
3) аддитивная помеха т\и) не является стационарной по «и».
Более того, правила решения (4) или (6) оказываются неоптимальными даже при хорошем приближении помехи т'(и) моделью гауссов-ской независимой последовательности.
Действительно, предположим, что один вкладываемый бит соответствует N отсчетам сигнала. Выберем минимальный параметр Ы0 <Ы, на которм практически реализуется полная энергия кепструмов импульсной реакции фильтров, » ^
т. е. X к2 (и) «X к2 (и), и рассмотрим следующее
и=1 и=1
правило решения вместо (6):
N / ^
г = Лгв;=1:2..., X X г '(и)-к », (7)
е=1 пеЫк
где кепструмы 2 '(и) и к V (и) вычисляются на интервалах Nk,к = 1, 2, ..., N / N0 .
На первый взгляд это правило выглядит парадоксально, поскольку противоречит правилу (6) и фактически означает, что разделение интервала принятия решения на подынтервалы и вычисление на каждом из них кепструмов 2 \п) к V (и) с последующим накоплением на них взаимных корреляций может дать лучший результат, чем вычисление взаимных корреляций от кепструма на полном интервале.
Действительно, если бы 2\и) представляла собой отсчеты гауссовского белого шума, а к' г (и) - отсчеты, скажем, гармонического сигнала частоты шг. , то переход от (6) к (7) был бы бессмысленным, поскольку энергия полезного сигнала к(и) на N0 отсчетах была бы в N / Ы0 раз меньше, чем энергия на N отсчетах.
Однако в случае, когда к\(и) представляет собой кепструм импульсной реакции, это не так, поскольку выполняется соотношение:
да
X к. (и) «X к (и). (8)
иеNk и=1
Рассмотрим далее случай с двумя фильтрами, имеющими одинаковую импульсную характеристику к(и) за исключением разной задержки, выбранной так, что кепструм импульсных реакций этих фильтров оказывается ортогональным.
Тогда, следуя методике общей теории связи [7], можно показать, что вероятность ошибки при детектировании одного бита имеет вид:
(
Р = 1-Г
N0 V
Л
X к ,2(и)
(9)
где к\п) - кепструм импульсной реакции фильтра, рассчитанный на интервале ; 52 = Var{m '(п)} - дисперсия отсчетов гауссовско-го шума т'(п).
Из соотношения (9) видно, что чем на большее число интервалов N / разбито все множество отсчетов N, соответствующих вложению одного бита, тем меньше будет вероятность ошибки. Однако минимальная длина интервала N0 всегда будет ограничена протяженностью импульсной реакции фильтра, т. е. должно выполняться приближенное равенство (8).
На рис. 3 а показан кепструм типичного му-
а)
зыкального произведения. Видно, что основная энергия кепструма аудиосигнала сосредоточена в окрестностях «нуля», т. е. на т. н. малых <^иегепсу». На рис. 3 б, в показаны кепструмы импульсных реакций фильтров, взятых с различными задержками. Видно, что основная энергия кепструмов этих сигналов сосредоточена на интервалах, соответствующих величинам задержек. Поэтому для ослабления воздействия аддитивной помехи т'(п) в виде кепструма аудиосигнала на обнаружение сигналов к \ (п), соответствующих кепструмам фильтров, целесообразно выбрать задержки п0 и п1 таким образом, чтобы основ-
б)
-1,5
0,5 0,4 0,3 0,2 0 0 - 0 ,1 -0,2
,
, ,
0
- ,
п-1-1-г
П-г
- ,
0
10
30
35
40
45
50
Рис. 3. Кепструм типичного аудиосигнала (а) и импульсных реакций фильтров, отличающихся задержками в 25 (б) и 30 (в) отсчетов
-0.5
50 100 150 200 250 300 350 400 450 Рис. 4. Импульсная характеристика исследуемого фильтра
ная энергия кепструмов h'.(n) располагалась вне интервала отсчетов, где присутствует основная энергия аудиосигналов.
Исследование предложенного метода вложения и извлечения ЦВЗ при помощи моделирования
Для проведения эксперимента был выбран фильтр, импульсная реакция которого показана на рис. 4.
Для вложения «0» и «1» используются два фильтра, отличающихся только временем задержки между основным импульсом и реверберацией. В табл. 1 приведены результаты моделирования для различных выбранных параметров, позволяющих оценить скорость вложения и количество битовых ошибок при извлечении. В качестве покрывающего сообщения (ПС) использовались отрывки музыкального произведения Юты «Ревность» длительностью 29 с. Формат файла WAV, частота выборок 44,1 кГц, разрядность 16 бит на отсчет. Все N отсчетов на интервале вложения одного бита разбивались на l подынтервалов, со-
стоящих из Ы0 =— отсчетов в каждом, а извлечение битов производилось по правилу (7). Как и следовало ожидать, частота ошибок уменьшается при уменьшении скорости вложения и при увеличении (до некоторого значения) величины задержки импульсных реакций относительно аудиосигнала. Также частота ошибок зависит от максимальной амплитуды реверберации. Временем задержки между основным импульсом и реверберацией было выбрано 29 и 25 отсчетов.
Видно, что увеличение количества подынтервалов позволяет уменьшить число ошибок при неизменной амплитуде реверберации или уменьшить амплитуду реверберации, что позволяет уменьшить искажения, вносимые ЦВЗ.
Важнейшим требованием к системе ЦВЗ является ее устойчивость к различным естественным и преднамеренным преобразованиям аудиофайлов с вложением, при которых сохраняется высокое качество основного аудиосигнала (например, музыкального файла).
К естественным преобразованиям относят, прежде всего, сжатие с использованием стандарт-
Таблица 1
Зависимость количества ошибок от параметров вложения
Амплитуда реверберации Количество подынтервалов Вложено бит Ошибок
1 1 144 1
0,5 1 144 1
0,3 1 144 4
0,15 1 144 20
0,15 2 144 16
0,15 10 144 5
0,15 15 144 3
0,1 15 144 11
0,05 15 144 35
Таблица 2
Количество ошибок после сжатия с использованием mp3
Амплитуда реверберации Количество подынтервалов Вложено бит Ошибок
1 1 144 2
0,5 1 144 2
0,3 1 144 4
0,15 1 144 30
0,15 2 144 22
0,15 10 144 6
0,15 15 144 4
0,1 15 144 15
0,05 15 144 48
ных методов. В табл. 2 представлены результаты эксперимента для популярного формата тр3. В качестве ПС использовался аудиофайл Юта «Ревность» с параметрами N = 6000, N = 29, N = 25. Сжатие производилось с «битрейтом» 128 Кбит/с.
Видно, что, хотя количество битовых ошибок возрастет, это не приведет к полному «обрыву» канала ЦВЗ, как можно было бы ожидать при таких методах вложения, как, например, вложение в наименьшие значащие биты или квантованной индексной модуляции.
Были проведены также экспериментальные
исследования по влиянию параметров вложения на качество основного сообщения (музыкального произведения). К сожалению, ввиду особенностей слуховой системы человека, некорректно использовать для оценки изменения качества звучания какие-либо известные из теории связи числовые значения, такие, как соотношение сигнал/шум, ввиду того, что разные по форме и даже по спектру сигналы могут иметь одинаковое для человека звучание. Поэтому анализ качества проводился методом «экспертной оценки». Для этого группе из 5-7 человек предлагалось прослушать музыкальное произведение как в оригинале, так
Таблица 3
Результаты эксперимента для различных произведений
Название композиции Длина фрагмента, с Количество отсчетов для вложения одного бита Количество вложенных бит Количество ошибок
«Священная война» 20 10000 86 0
«Есть только миг» 20 10000 86 0
Oldfield. «Moonlight Shadow» 20 10000 86 0
Notre-Dame de Paris. «Belle» (Русская версия) 20 10000 86 0
Mozart, fantasia D-moll, KV 397 (Yudina) 20 10000 86 10
Metallica. «Fuel» 20 10000 86 0
Алиса. «Трасса Е95» 20 10000 86 0
Maria Maiestati 20 10000 86 0
Высоцкий. «Песенка сентиментального боксера» 20 10000 86 0
Юта. «Ревность» 20 10000 86 6
и с вложением и оценить их идентичность. Исследования показали, что при выборе амплитуды реверберации 0,3 большинство «экспертов» в группе не смогли заметить разницу между оригиналом и сигналом с вложением; при выборе амплитуды реверберации 0,15 ни один из экспертов не отличил оригинальный сигнал от сигнала с вложением.
Проведенные экспериментальные исследования позволяют выбрать следующие оптимальные параметры при использовании систем ЦВЗ для аудиосигналов, основанных на реверберации:
количество отсчетов импульсных реакций фильтров 300-600;
количество отсчетов, используемых для вложения одного бита 6000-10000;
количество подынтервалов для принятия решения 10-15;
задержка реверберации 20-40 отсчетов. В табл. 3 представлены результаты эксперимента по количеству ошибок для десяти различных фрагментов музыкальных файлов в формате WAV с частотой выборок 44,1 кГц, разрядностью 16 бит, при использовании набора параметров, приведенных выше.
Что же касается устойчивости ЦВЗ к преднамеренным преобразованиям, то защиту от них обеспечивает выбор секретной импульсной реакции фильтров, которая может вычисляться по специальному, разделяемому между пользователями, секретному стегоключу. Конечно, нельзя считать эту атаку полностью исследованной, тем более, что существует еще один метод удаления вложенных ЦВЗ, который в известной литературе [6] носит название «deconvolution» и заключает-
ся в том, что для звукового сигнала производится компенсация фильтрации дереверберационным фильтром. Однако решение задачи по защите системы от подобной атаки требует проведения значительных дополнительных исследований и поэтому мы предполагаем представить их в наших последующих публикациях.
В статье исследован метод вложения ЦВЗ для аудиосигналов, где для вложения бита «0» или «1» использовались фильтры, имитирующие некоторую акустическую среду звукозаписи. Фильтры, соответствующие «0» и «1», отличаются друг от друга только величиной задержки реверберации относительно основного аудиосигнала. Исследования данной системы ЦВЗ позволили сделать следующие выводы.
Извлечение информации целесообразно производить при помощи корреляционного приема кепструмов аудиосигналов, выполненных на интервалах, соответствующих протяженности кеп-струмов импульсных реакций фильтров, с последующим накоплением результата на интервале одного бита.
Типичный музыкальный файл позволяет вложить около 350 бит в одну минуту звучания при низкой вероятности ошибок.
Применение популярных алгоритмов сжатия с потерями, таких, как тр3, к сигналам с вложением ухудшает качество извлечения, но, тем не менее оно остается удовлетворительным.
Вид импульсной реакции реверберацонных фильтров определяется допустимыми искажениями аудиосигналов и возможностью их нахождения при выполнении «атак» на ЦВЗ.
СПИСОК ЛИТЕРАТУРЫ
1. Nishimura, R. Audio watermark based on periodical phase shift [Text] / R. Nishimura, Y. Suzuki // J. Acoust. Soc. Japan. -2004. -Vol. 60. -№ 5. -P. 268-272.
2. Kim, H.J. A novel echo-hiding scheme with backward and forward kernels [Text] / H.J. Kim, Y.H. Choi // IEEE Transactions on Circuits and Systems for Video Technology. -2003. -№ 13 (8). -P. 885-889.
3. Alekseyev, V. Design of «Robust Audio Watermark System» [Text] / V. Alekseyev, A. Grudinin, V. Korzhik // Proc. of the XI international symp. on problems of redundancy in information and control systems. -2007. -P. 163-165.
4. Ansari, R. Datahiding in audio using frequency-selective phase alteration [Text] / R. Ansari, H. Malik, A. Khokhar // Paper presented at the IEEE International Conf.
on Acoustics Speech and Signal Proc. -Montreal, Canada, 2004, May.
5. Ван Трис, Г. Теория обнаружения, оценок и модуляции [Текст] / Г. Ван Трис. -М.: Сов. радио, 1972. - Т. 2.
6. Childers, D.G. The Cepstrum: A Guide to Processing Proceedings [Text] / D.G. Childers, D.P. Skinner, R.C. Kemerait // IEEE. -Oct. 1977. -Vol. 65. -№ 10. -P. 1428-1443.
7. Финк, Л.М. Теория передачи дискретных сообщений [Текст] / Л.М. Финк. -Сов. радио, 1970.
8. Korzhik, V. The Use of Wet Paper Codes With Audio Watermarking Based on Echo Hiding [Text] / V. Korzhik, G. Morales-Luna, I. Fedyanin // Proc. of the Federated Conf. on Computer Science and Information Systems. -2012. -P.727-732.