ПОСТРОЕНИЕ ВЫЧИСЛИТЕЛЬНОЙ ПРОЦЕДУРЫ КОМПЛЕКСНОЙ ПРОВЕРКИ ПОДЛИННОСТИ ДАННЫХ ДЗЗ
Кузнецов А.В., Мясников В.В.
Институт систем обработки изображений РАН
Аннотация
Рассматривается задача построения вычислительной процедуры комплексной проверки подлинности данных дистанционного зондирования Земли (ДЗЗ) с использованием набора элементарных алгоритмов проверки подлинности. Указанная задача решается в рамках пассивного подхода, предполагающего определение фактов изменений (фальсификаций) данных ДЗЗ на основе их анализа.
Ключевые слова: дистанционное зондирование Земли, пассивная защита данных ДЗЗ, цифровое изображение, метаданные, элементарный алгоритм, вычислительная процедура.
Введение
Данные, получаемые с космических аппаратов (КА) при ДЗЗ, включают в себя две составляющие: цифровое изображение и соответствующие этому изображению метаданные. Изменениям после получения может подвергаться как собственно изображение, так и метаданные. Под проверкой подлинности данных ДЗЗ далее будем понимать комплекс мероприятий, позволяющих ответить на вопрос: «Были ли внесены изменения в данные ДЗЗ?». В настоящее время существуют два основных подхода к проверке подлинности цифровых изображений в общем случае и данных ДЗЗ в частности [1]: активный и пассивный.
Основным элементом активного подхода к проверке подлинности изображений являются цифровые водяные знаки (ЦВЗ) или так называемая цифровая подпись [2, 3]. Недостатком этого подхода является то, что ЦВЗ должен быть встроен в изображение во время записи/получения. Это означает, что либо механизм внесения ЦВЗ в изображение должен быть реализован при разработке бортовой аппаратуры КА, либо внесение ЦВЗ в изображение должно осуществляться на наземной станции приёма данных ДЗЗ. Независимо от места внесения ЦВЗ, итоговое изображение ДЗЗ оказывается искажённым, что является существенным недостатком, а в ряде случаев - недопустимым.
В отличие от активного, пассивный подход не предполагает какого-либо предварительного искажения изображения (ЦВЗ не используются). Он основан на предположении, что, даже если изменённое (фальсифицированное) изображение не содержит визуально обнаруживаемых следов изменений, их можно обнаружить путём анализа характеристик самого изображения [1, 4, 5]. В настоящее время существует большое количество алгоритмов, обеспечивающих различные способы проверки подлинности в рамках пассивного подхода [6, 7, 8]. Настоящая работа посвящена вопросам построения вычислительной процедуры комплексной проверки подлинности данных ДЗЗ в рамках пассивного подхода, конструируемой с использованием множества алгоритмов - элементарных алгоритмов проверки подлинности. Каждый из элементарных алгоритмов (ЭА) осуществляет проверку данных ДЗЗ на предмет наличия изменений -
атак - определённого класса. Конструируемая вычислительная процедура комплексной проверки подлинности выполняет обнаружение факта изменения (обнаружение атаки, проверку подлинности данных ДЗЗ). Наряду с обнаружением атаки, на практике часто возникает необходимость определения типа произошедших изменений - распознавание типа/класса изменения (распознавание атаки). Эта задача также рассматривается в рамках настоящей работы.
Учитывая также, что различные ЭА могут отличаться как вычислительной сложностью обработки, так и качественными показателями, при построении вычислительной процедуры комплексной проверки подлинности данных ДЗЗ её показатели качества и сложности выступают в качестве ограничений и/или показателей критериев оптимальности получаемого решения.
Работа построена следующим образом. В первом разделе описана формальная постановка задачи пассивной защиты данных ДЗЗ - вводятся основные определения и элементарные алгоритмы проверки подлинности. Второй раздел посвящён описанию вычислительной процедуры комплексной проверки подлинности данных ДЗЗ и показателей критерия оптимальности. В третьем разделе приводится описание точного и приближённого алгоритмов построения вычислительной процедуры при наличии данных о статистике срабатываний ЭА. В этом разделе также описан поставленный эксперимент по сравнению разработанных алгоритмов и приведены результаты экспериментов. Четвёртый раздел посвящён описанию алгоритма построения вычислительной процедуры при отсутствии данных о статистике срабатываний ЭА. В пятом разделе приводится описание построения вычислительной процедуры распознавания атаки. Наконец, в заключение работы приведены выводы, благодарности и список использованной литературы.
1. Пассивная защита данных ДЗЗ: основные определения и элементарные алгоритмы
проверки подлинности данных ДЗЗ
Задача пассивной защиты данных ДЗЗ заключается в обеспечении математических методов, алгоритмов и вычислительных средств проверки подлинности этих данных на основании анализа их содержа-
ния. Данные ДЗЗ включают растровые данные, обозначаемые далее f и метаданные, обозначаемые далее 3, предоставляющие дополнительную информацию о параметрах получения космического снимка (КС). Тогда в контексте формальной постановки задачи пассивной защиты под данными ДЗЗ будем понимать Д = (f, 3), где вторая величина (метаданные) может
быть задана полностью, частично или вообще отсутствовать (обозначается 0).
Рассмотрим элементы данных ДЗЗ по отдельности. Цифровое изображение определим как отображение f (или функция яркости) вида:
f: х N * ^ Фв (п2) ^ п ,
(1)
где М, N е N - линейные размеры изображения по вертикали и горизонтали соответственно, Ф - множество значений функции яркости изображения, характеризующее способ получения изображения, р -количество спектральных каналов изображения. В качестве Ф могут выступать следующие множества:
• R;
• В = {0,1};
• Z2m .
Для большинства данных ДЗЗ самым часто встречающимся представлением яркостей пикселей является Z2m, Ре {1,3,4}. Далее обозначим множество отображений типа (1) как FMNp (Ф).
В состав данных ДЗЗ, помимо растровых данных, обычно входят метаданные КС 3, которые содержат различные характеристики процесса регистрации КС. Приведём формальное представление наиболее часто используемых параметров метаданных:
1. Дата съёмки КС d е^31 хХ12 хNи0 определяется как вектор из трёх компонент, соответствующих дню, месяцу и году даты регистрации КС.
2. Время съёмки КС t е^24 х Z60 х Z60)и0 определяется как вектор из трёх компонент, соответствующих времени начала регистрации КС: час, минута и секунда.
3. Положение Солнца характеризуется вектором а= (аа,ае1 )Т, ае R2 и0 , который состоит из значений двух углов в системе координат «широта/долгота»: первый описывает положение в горизонтальной адг плоскости, а второй - в вертикальной ае1. Высота солнца над Землёй считается бесконечно большой по сравнению с остальными метрическими характеристиками в системе «спутник-Земля».
4. Положение космического аппарата описывается кортежем р = (фа,фе1,halt),р е R3 и0 , который включает в себя значения двух углов в системе координат «широта/долгота»: первый описывает положение в
горизонтальной фдг плоскости, а второй - в вертикальной фе1 - и высоту спутника над поверхностью Земли .
5. Координаты территории съёмки описываются вектором s = (51,s2,...,)Т,s е Rk и0,к е{4,6}. Значение к зависит от типа космического аппарата. В зависимости от значения параметра к территория съёмки описывается 2 способами:
• параллелограммом - 4 вершины;
• полигоном с 4 вершинами, у которого одна пара противоположных граней параллельна, а две другие описываются кривыми 2-го порядка - каждая по 3 точкам, итого, 6 вершин.
6. Тип КА t, с которого был получен КС, будет принадлежать перечислимому типу К .
7. Тип конкретного оптического сенсора 1, расположенного на КА, будет принадлежать перечислимому типу L . Так как на КА часто бывает установлено более одного оптического сенсора, то будем описывать сенсоры в виде вектора, размерность которого равна количеству установленных сенсоров.
Таким образом, 3= ^ а,р, s,к, 1) - кортеж, характеризующий метаданные КС. Каждый элемент кортежа может принадлежать пустому множеству 0 , если этот элемент отсутствует в наборе метаданных снимка. Будем обозначать элемент кортежа 3у , где
У - порядковый номер этого элемента в кортеже 3.
] Элемент кортежа 3
0 и
1 t
2 а
3 Р
4
5 к
6 1
В общем случае данные ДЗЗ полностью описываются парой Д (f, 3), что соответствует растровому изображению, полученному с космического аппарата, и его метаданным. На практике полнота метаданных 3 зависит от поставщика КС или от того, как КС был получен (не напрямую от поставщика, а от дилера или представителя). Множество данных ДЗЗ обозначим А, Д (f, 3) е А .
Введём индикаторную функцию I (3у) е В , показывающую наличие конкретного параметра метаданных:
I (3у Н '
[0, иначе.
В самом общем случае под элементарным алгоритмом (ЭА) а проверки подлинности данных ДЗЗ Б понимается вычислительная процедура, которая
на основании конкретных данных ДЗЗ Д указывает факт их подлинности: 1 - подлинные, 0 - не подлинные. Иными словами, а осуществляет однозначное отображение следующего вида:
а : А ^ В . (2)
Обозначим А множество отображений типа (2), то есть множество алгоритмов проверки подлинности (а е А). В зависимости от конкретных реализаций алгоритмов реализация отображения (2) может быть конкретизирована, то есть определена через другие формализованные отображения. Для этого введём ряд понятий.
Параметром ЭА будем называть функцию, реализующую отображение вида:
р : А ^ R.
Перечислим параметры ЭА, которые будут использоваться в дальнейшем:
1) вычислительная сложность ЭА и : А ^ R -функция, вычисляющая оценку общего числа арифметических операций алгоритма а ;
2) корректность выполнения ЭА характеризуется двумя параметрами:
• первый описывает ошибку первого рода, Ро : А ^ ^
• второй описывает ошибку второго рода, р1 : А ^ R;
3) число срабатываний ЭА с : А ^ N на заданной выборке данных - этот параметр характеризует, сколько раз ЭА а обнаруживает подделку среди анализируемых данных ДЗЗ D (без учёта факта правильности этого обнаружения);
4) число запусков ЭА са11 : А ^ N на заданной выборке данных - этот параметр характеризует, сколько раз ЭА а запускался в целях проверки подлинности анализируемых данных ДЗЗ Д.
В дальнейшем будет также использоваться следующий параметр ЭА, являющийся комбинацией параметров с и саП. Под частотой срабатывания ЭА fr : А ^ R, fr (а) = с (а) / са11 (а) на заданной выборке данных будем понимать, как часто ЭА а обнаруживает подделку среди общего количества запусков ЭА.
Дополнительно введём следующие отображения:
1) отображение Q : А х Z7 ^ В, которое для конкретного ЭА а е А и номера у е Z7 элемента кортежа метаданных 3 указывает на необходимость использования при выполнении а у -го элемента метаданных:
Q (а, у ) =
1, необходим 3у; 0, не используется;
2) отображение R : А х Z7 ^ В , которое для ЭА а е А и номера у е Z7 элемента кортежа метаданных 3 указывает, является ли результатом выполнения а у -й элемент метаданных:
R ( а, У ) =
1,3у является результатом, 0, не является результатом.
Разрабатываемые ЭА могут состоять из последовательности отдельных отображений, каждое из которых формирует на выходе промежуточные данные. В качестве промежуточных результатов работы ЭА могут выступать:
• список координат объектов;
• изображение - результат аналитической обработки f ;
• оценки параметров обнаруженных преобразований изображения с е С ;
• оценки параметров метаданных 3 .
Для того чтобы приводить набор промежуточных операций алгоритмов проверки подлинности к единому типу, введём понятие проекции.
Проекцией будем называть отображение вида:
РЬ : (¿1,...,Ьк) ^ Ь
где Ьу - произвольные величины.
Разные типы атак будем обозначать е N, t е[0, Т -1], где Т - количество различных типов атак. Множество различных типов атак будем обозначать WT.
Введём понятие матрицы инцидентности МТ?хК ,
ту е В, I е [0, Т -1], у е [0, К -1], где Т - количество
различных видов атак, К - количество ЭА проверки подлинности данных ДЗЗ. Данная матрица показывает, какие виды атак способны обнаруживать ЭА.
Если значение матрицы инцидентности ту = 1, то оно показывает, что ЭА ау может выявить подделку на данных с применённой атакой типа / . Эти данные будут использоваться в дальнейшем при распознавании типа атаки по результатам выполнения последовательности ЭА.
Приведём формальное описание различных групп ЭА.
1. ЭА, которые осуществляют проверку данных ДЗЗ на предмет наличия атак первого класса (ЭА первого типа) - дублирования фрагментов КС [8, 9, 10] -используют в своей работе исключительно цифровое изображение для анализа, то есть Q (а,у) = 0, V/ е Z7. При обнаружении фальсификации, наряду с ответом, алгоритм формирует список, каждый из элементов которого есть множество идентичных (в смысле выбранного критерия алгоритма) фрагментов анализируемого изображения.
Под фрагментом изображения далее будем понимать 4- или 8-связную подобласть в Б, Б = Nм х N * .
Для определённости обозначим список фрагментов из Б как L[Б]. Тогда результатом работы алгоритма является:
L [L [D]] = <! " 1 R - >
L JJ \{ЦГ\Dr,...,dr:;4
(3)
где 5 - число элементов различных «типов» фрагментов (например, дубликатов). Обозначим множество фрагментов вида (3) как L2 [б] .
Следует также отметить, что любой ЭА в качестве входных данных может использовать не всё изображение, входящее в состав данных ДЗЗ, а один или несколько его фрагментов, которые могли быть получены по результатам запуска других алгоритмов, в том числе алгоритмов других типов. Это используется, как правило, для сокращения вычислительной сложности или выполнения требовательных к ресурсам алгоритмов.
Под ЭА первого типа будем понимать последовательное выполнение отображений а1, а2, а3: а = а1 • а2 • а3, а1 = Рг7 : А ^ Fp, а2 : Fp ^L2 [Б], а3 : Ь2 [Б ] ^ В.
При этом а3 (L [L [D]]) :
1,|L[L[D]]|* 0 0,1 L [ L [ D ]] = 0
2. ЭА, осуществляющие проверку данных ДЗЗ на предмет наличия атак второго класса (ЭА второго типа) - ресэмплирование, вставка фрагментов другого КС, склеивание КС, генерирование текстур на КС, компрессия КС, нарушение межканальных зависимостей, добавление шумов, размытие или повышение резкости на КС [11,12,13,14,15,16,17] - также используют для работы только растровые данные. В отличие от ЭА первого типа в ходе анализа в качестве промежуточных данных выступают изменённые области и оценки параметров преобразований фрагментов изображения, если производились какие-либо изменения (например, матрица аффинного преобразования фрагмента, коэффициент сжатия алгоритмом JPEG).
В контексте ЭА второго типа под L [(D, Rs )] e L [(D, Rs )] будем понимать список обнаруженных фрагментов и вектор оценок параметров обнаруженных преобразований, где s - число различных параметров преобразований. Под параметрами преобразований будем понимать матрицу аффинного преобразования, коэффициент качества JPEG, математическое ожидание и дисперсию шума.
Под ЭА второго типа будем понимать последовательное выполнение отображений а1, а2, а3: а = а1 • а2 • а3, а1 = Ргу : А ^ Fp,
а2 : Fp ^ L2 [(D, Rs)], a3 : L2 [(D, Rs)] ^ B.
Здесь a3 (L [(D, Rs )]) =
1,|L [(D, Rs)]|* 0, 0,1 L [(D, Rs )]| = 0.
3. Группа ЭА, которые осуществляют проверку данных ДЗЗ на предмет наличия атак третьего класса (ЭА третьего типа) - несоответствия освещённости объектов на КС, изменение семантических данных на КС [18,19,20] - производит оценку параметров метаданных 3, анализируя растровые данные f. Результаты работы алгоритма представляются в виде списка областей с отличающимися параметрами метаданных и, собственно, оценок этих параметров
L |(Б, 3е Ь |(Б, 3)^ . Это позволит определить отклонение от параметров входных метаданных и на этом основании сделать вывод о наличии изменений. Отклонение от параметров метаданных позволит определить истинные значения типа КА, типов его сенсоров, координат положения Солнца и КА:
a : Л ^ L [(D, 5)], a2 : L [(D, 5)B.
Здесь a2 ( L [(D
(L [(D,5 )]):
1,|L [(D, 5)]| Ф 0, 0,1 L [(D, )]|= 0.
4. ЭА, осуществляющие поиск изображений в базе данных, схожих с искомым по характерным признакам (учитываются метаданные изображения, а также содержимое сцены) [21], формируют в качестве промежуточных данных список изображений и вероятности их сходства с искомым фрагментом, которые в дальнейшем будут обозначаться
П л! С Т ГптР
L[(FP,R[0,1])] e L[(Fp,R.
В таком случае алгоритм будет представлять из себя отображение следующего вида:
a : Л ^ L[(Fp,R[0,1])], З2 : L [(Fp, R[0Д])B,
при этом a2 ( L
(L [( FP, R[0,1])])
, R[0,1])] ( F, R[0,1])
* 0,
= 0.
a = a1 • a2
a = a1 • a2
1
L
0
L
Как было показано выше, любой ЭА проверки подлинности может быть представим в виде произведения отображений:
а = Ь • с , где Ь : А ^ L [*], с: L [*] ^ В , при этом
[1,1 L [*|* 0,
:(L [*]) = ■
0,| L [*| = 0.
Заметим также, что каждый ЭА характеризуется не только набором входных данных, но и промежуточными данными, формируемыми при анализе данных ДЗЗ.
2. Вычислительная процедура комплексной проверки подлинности данных ДЗЗ
Вычислительной процедурой комплексной проверки подлинности данных ДЗЗ назовём алгоритм проверки подлинности, осуществляющий путём последовательного выполнения ЭА проверки подлинности:
а- ,а- ,...,а-
% е А к, 'к *(к * у), 'к е 0, К -1
(4)
здесь Ак с А - множество ЭА, используемых при построении вычислительной процедуры.
Данные ДЗЗ считаются изменёнными / фальсифицированными (проверка подлинности считается непрой-денной, обнаружен факт атаки), если хотя бы один из ЭА определил факт наличия изменений в данных ДЗЗ (обнаружил атаку).
Задача построения вычислительной процедуры комплексной проверки подлинности данных ДЗЗ заключается в определении оптимальной в смысле некоторого критерия последовательности ЭА (4), обеспечивающей обнаружение факта изменения данных ДЗЗ. В качестве показателей или ограничений критерия оптимальности могут выступать следующие параметры вычислительной процедуры:
• вычислительная сложность процедуры комплексной проверки подлинности данных ДЗЗ, вычисляемая на основании значений вычислительной сложности входящих в её состав ЭА следующим образом:
С1 = и (а0) + (!- ^ (а0 ))•
•(и (а.)+...+(1- fr (а,к-2))и (а-к-,));
(5)
ошибки первого и/или второго рода, вычисляемые на основании соответствующих параметров ЭА, входящих в её состав:
С2 = Р1 (а0) + (!- ^ (а0 ))•
(Р1 (а1) +... + (1- ^ (ак-2)) Р1 (ак-1 ))•
(6)
В приведённых выше выражениях последовательность а^,...,а- обозначает конкретную последовательность выполнения ЭА.
3. Построение вычислительной процедуры при известной статистике
Как было замечено в предшествующем разделе, задача построения вычислительной процедуры комплексной проверки подлинности данных ДЗЗ заключается в определении последовательности (4) ЭА, которая в смысле выбранного критерия оказывается оптимальной. Существенным моментом является то, что состав множества используемых при построении алгоритмов Ак с А определяется составом и типом входных данных ДЗЗ, проверку подлинности которых требуется осуществить. При построении оптимальной последовательности ЭА следует также учитывать тот факт, что они могут быть зависимы по входным и выходным данным. В случае отсутствия такой зависимости, после выполнения алгоритма а-0 может быть запущен любой из оставшихся к -1
алгоритмов множества Ак . В случае появления зависимостей по данным, последовательность ЭА длины к может сократиться до длины к' < к , где к' - количество ЭА множества Ак, зависящих друг от друга по входным и выходным данным.
Очевидный способ построения оптимальной в смысле выбранного критерия последовательности ЭА заключается в переборе всех возможных перестановок алгоритмов, что требует рассмотрения к! вариантов. Если для к < 10 указанная переборная задача не представляет серьёзной вычислительной сложности, то при больших значениях к поиск оптимального решения может оказаться затруднительным или вовсе невыполнимым ввиду значительных затрат времени и ресурсов. Поэтому ниже предлагается два способа решения задачи построения искомой вычислительной процедуры комплексной проверки подлинности данных ДЗЗ (поиска оптимальной последовательности ЭА):
• точный - обеспечивает построение оптимальной последовательности ЭА при сравнительно небольших значениях к ;
• приближённый - обеспечивает нахождение квазиоптимального решения задачи для больших значений к .
Далее в настоящем разделе рассмотрены оба предложенных способа/алгоритма построения вычислительной процедуры комплексной проверки подлинности данных ДЗЗ, проводится анализ получаемых решений в смысле затрачиваемого времени на построение и получаемого показателя качества процедуры комплексной проверки подлинности.
Заметим также, что ниже, для того чтобы избавиться от лишних вычислений, выражения (5) и (6) приведены к следующему виду:
+(1
К ) + (1 - fr К ))((« (а1 ) + ■ ■■ + (1-fr (aK-2 )) u ())) = u (a )+(1 - fr (a))u (a0+
(1 - fr ( a ))(1 - fr ( ail)) u ( a, ) + ■■■ + (7)
+(1 - fr (a*. fr-'O - fr ( a„)) u ( at.,) =
= [u. = 1-fr (a. )] =
= u( a. ) + u.u(a. ) + ■■■ + u. u. • ■■■ -u. u( a. )■
\ *0 J % \ 4 / l0 . K-2 \ гК-1 J
В таком виде вычисление показателя критерия сводится к вычислению прямой суммы (7), что существенно удобнее и не требует при переборах перестановок повторных вычислений
3.1. Точный алгоритм построения вычислительной процедуры комплексной проверки подлинности Точный алгоритм основывается на методе полного перебора с отсевом подмножеств допустимых решений, заведомо не содержащих оптимальное (метод динамического программирования ветвей и границ) [22] На первом шаге алгоритм формирует первое решение (первую перестановку), считая его потенциальным оптимумом^ Далее во время перебора всех возможных комбинаций (K!) происходит исключение тех перестановок, для которых значение показателя критерия превышает потенциальный оптимум, полученный ранее^ В случае, если находится новый оптимум, потенциальный оптимум меняется^ Таким образом удаётся получать точное значение показателя критерия при меньших временных и ресурсных затратах^ Результаты зависимости времени поиска минимального значения показателя критерия от числа алгоритмов представлены на рис 1 Как можно видеть из данного рисунка, несмотря на ускорение по сравнению с полным перебором, данный метод не позволяет вычислять точное значение показателя критерия за приемлемое время для K > 25 ■ Время поиска минимума, мсх-105
А
/
/ /
у Ко 1U4 гсп во ЭА
—« 9— —« 1— -й i>— —«
8 10 12 14 16 18 20 22 24
Рис. 1. Зависимость времени поиска минимального значения показателя критерия от количества ЭА в последовательности
3.2. Приближённый алгоритм построения вычислительной процедуры комплексной проверки подлинности Для того чтобы иметь возможность строить вычислительную процедуру при К > 25 , был реализован приближённый алгоритм, основанный на методе последовательного присоединения [22].
Суть алгоритма состоит в том, что на k-ом шаге алгоритма, когда уже определена и зафиксирована последовательность ЭА aг ,aг ,...,aг
J0 > •> Jk _2
определяется такой ЭА ait i, для которого показатель
критерия (5) или (6) принимает минимальное значение. Каждое слагаемое на следующем шаге алгоритма фактически зависит от значения выбранного параметра ЭА u(aik i), так как коэффициенты иг и^,...,^ 2 определены выбором ЭА-ов aJo,a^,...,ait на предыдущих
шагах. Таким образом, в результате последовательного присоединения мы получаем упорядоченную последовательность алгоритмов (4).
Для улучшения решения, получаемого методом последовательного присоединения, была разработана его модификация. Она заключается в итерационном выполнении следующей операции в текущей последовательности: производится парная перестановка двух ЭА aik и aik+п в том случае, если эта перестановка приводит к снижению значения показателя критерия. Итерации продолжаются до тех пор, пока существуют требуемые для перестановки пары алгоритмов.
Результаты сравнения приближённых алгоритмов с модификацией и без неё представлены на рис. 2 (описание постановки эксперимента приведено ниже). На представленном графике приведена величина относительного отклонения минимального значения показателя критерия, полученного при помощи приближённых алгоритмов, от минимального значения показателя критерия, полученного при помощи точного алгоритма. Величина относительного отклонения вычисляется по следующей формуле:
е _ С Cmin
_ C -C ■ '
Cmax Cmin
где С - минимальное значение показателя критерия, полученное при помощи приближённого алгоритма, Cmax, Cmin - точные минимальное и максимальное
ma^ min
значения показателя критерия, вычисленные при помощи точного алгоритма. Отклонение
0,16, 0,12 0,08 0,04 О
с §>■ Алгоритм последовательного присоединения (приближённый) Уточнённый алгоритм последовательного присоединения
в
ч.
\
\
к if...... 1
sj -ü -*- Г" —*
11
13
15
17 19 Количество ЭА
Рис. 2. Зависимость отклонения приближённого
минимального значения показателя критерия
от количества ЭА в последовательности
Из графиков видно, что модифицированный алгоритм позволяет в несколько раз улучшить получаемое решение по сравнению с первоначальным алгоритмом.
3.3. Сравнение точного и приближённого алгоритмов построения вычислительной процедуры Для модифицированного приближённого алгоритма график зависимости времени построения вычислительной процедуры комплексной проверки подлинности от числа ЭА выглядит следующим образом (рис. 3).
Если сравнивать результаты, показанные на рис. 3 с результатами на рис. 1, то можно заметить, что скорость работы модифицированного приближённого алгоритма во много раз превышает скорость работы точного метода, делая приближённый алгоритм применимым на практике практически для любого реального числа ЭА.
Время поиска минимума, мс*103 5 -
Коли честя о ЭА
1 1
О 200 400 600 800 1000
Рис. 3. Зависимость времени поиска приближённого минимального значения показателя критерия от количества ЭА в последовательности
Для проведения экспериментальных исследований разработанных методов была создана .NET библиотека. Генерирование количества ЭА и их параметров (вычислительная сложность, частота срабатывания) было произведено при помощи класса Math.Random встроенной библиотеки Math. В основе алгоритма генерации случайных чисел, реализованного в Math.Random, лежит субтрактивный алгоритм генератора случайных чисел Д. Кнута [23]. Сгенерированные случайные величины распределены по равномерному закону распределения.
В данной работе было реализовано 10 экспериментов, в каждом из которых случайным образом выбирались количество ЭА (на промежутке [8, 20]) и их параметры (вычислительная сложность выбиралась на промежутке [100, 10000], а частота срабатывания - на промежутке [0, 1]).
В ходе каждого эксперимента вычислялись точные и приближённые минимальные и максимальные значения показателя критерия, а также приближённое среднее значение показателя критерия. На рис. 4 представлены средние значения критерия, вычисленные по 10 проведённым экспериментам.
Как видно из графика, кривая приближённых значений, вычисленных при помощи модифицированного приближённого алгоритма, практически совпадает с кривой точных минимальных значений показателя критерия. Таким образом, приближённый алгоритм следует использовать для вычисления значения критерия при больших значениях K .
Тенденция, показанная на рис. 1, 2, 3, наблюдается как для случая, когда алгоритмы не зависят друг от друга по входным и выходным данным, так и для случая, когда такая зависимость присутствует.
—Точное минимальное значение критерия
-----■■■ Среднее приближённое значение критерия
- - -*- минимальное приближённое значение критерия
.....О- Точное максимальное значение критерия
—О- Максимальное приближённое значение критерия
16 18 20 Количество ЭА
Рис. 4. Зависимость значений показателя критерия от количества ЭА в последовательности (средние значения для 10 реализаций)
4. Построение вычислительной процедуры комплексной проверки подлинности данных ДЗЗ
при отсутствии статистики
Ранее была рассмотрена ситуация, когда вся информация об алгоритмах считалась известной и задача заключалась в поиске оптимальной последовательности ЭА. Теперь рассмотрим ситуацию, когда перед построением вычислительной процедуры комплексной проверки подлинности отсутствует информация о частоте срабатываний ЭА или, другими словами, не было выполнено достаточное количество запусков ЭА из Ак. Тогда множество Ак можно разделить на два подмножества:
• ЭА с недостаточной информацией;
• ЭА с достаточной информацией.
При такой постановке дополнительной задачей является уточнение информации об ЭА из первого подмножества, а именно о частоте их срабатываний. В таком случае последовательность ЭА конструируемой вычислительной процедуры должна начинаться с тех ЭА, информация о количестве срабатываний которых (число запусков алгоритмов) является минимальной. При такой стратегии все ЭА множества Ак перейдут во второе подмножество. Дальнейшее построение вычислительной процедуры в смысле оптимальности критерия производится аналогично описанию выше.
После запуска каждого ЭА информация о количестве его запусков увеличивается на 1, а число срабатываний изменяется в зависимости от результата выполнения ЭА. Как только число запусков алгоритма удовлетворяет некоторому заранее введённому ограничению, этот алгоритм переходит в группу с достаточной информацией. Как только информация обо всех алгоритмах будет накоплена, построение последовательности будет производиться так, как описано в предыдущем разделе.
5. Построение вычислительной процедуры
распознавания атаки
Наряду с задачей определения подлинности предъявляемых для проверки данных ДЗЗ, в ряде случаев требуется распознать собственно атаку, то есть определить, какие именно изменения данных ДЗЗ
были произведены. Для решения задачи распознавания атаки в данной работе будет использоваться матрица инцидентности М^хК , введённая ранее.
Распознавание типа атаки может производиться при отсутствии информации о запуске последовательности ЭА, либо по результатам выполнения вычислительной процедуры комплексной проверки подлинности. В обоих случаях задача сводится к построению решающего правила для классификации атаки, применённой к данным ДЗЗ, используя информацию из матрицы инцидентности М^хК .
Для построения решающего правила воспользуемся обратной процедурой байесовского конечного последовательного распознавания с упорядочиванием признаков [24]. Представим задачу определения типа атаки в терминах распознавания образов. Под признаками будем понимать результаты работы ЭА множества Ак (то есть числа {0,1}), а в качестве классов будут выступать типы атак wt ,1 [0,7—1].
Стоимость измерения каждого признака будем трактовать как вычислительную сложность ЭА - и(а,) .
Риск принятия решения о классификации замеров а0,...,ап в класс wt обозначим R(а0,...,ап;м>,). В качестве минимального среднего риска последовательного решающего процесса на шаге п будем использовать следующее выражение, характеризующее вычислительную сложность процесса принятия решения:
Рп (ao,•••, ап ) =
прод.: u (an+l) +
= min
Z Pn+i (a<>'-' an' a»+i) •P (a»+i1 ao-an)
ап+л eA,
ост
K
•: ™in R (ao,•••, an;w) •
Используя данные матрицы инцидентности, составим таблицу для построения решающего правила в стандартном для задачи последовательного распознавания виде. Матрица будет иметь следующий вид:
a0 aK-1 w0 wT-1
0 m00 m0,K-1 V00 V0,K-1
T -1 mT-1,0 mT-1, K-1 VT-1,0 VT-1,K-1
- - -
2 K 1 1 - - -
В каждой строке расширенной матрицы содержатся сначала значения матрицы инцидентности т^, а
затем частоты срабатывания алгоритмов vij, полученные на стадии обучения. Первые Т строк содержат информацию из матрицы инцидентности, остальные 2к - Т строк соответствуют неопределённым типам атак.
Далее происходит построение решающего правила по расширенной таблице в соответствии с алгоритмом, описанным в [4]. Расчёт риска производится с последнего шага. Несущественное отличие от классической постановки заключается в том, что количество атак Т меньше числа различных комбинаций значений признаков 2к . Поэтому в ходе построения решающей процедуры могут быть получены последовательности ЭА, не имеющие соответствующих им типов атак. Такие результаты будем классифицировать в неопределённый класс атак.
Выводы и рекомендации
В данной работе предложен алгоритм построения вычислительной процедуры комплексной проверки подлинности данных ДЗЗ, который позволяет строить последовательность ЭА проверки подлинности в смысле оптимальности одного из предложенных критериев. На примере проведённых экспериментов показана высокая скорость вычисления минимальных значений показателей критериев при помощи
точного и приближённого алгоритмов. В работе было показано применение обратной процедурой байесовского конечного последовательного распознавания для решения задачи построения вычислительной процедуры распознавания атаки.
Благодарности
Работа выполнена при частичной финансовой поддержке:
- гранта РФФИ (проект 12-07-00021-а);
- программы фундаментальных исследований Прези-
диума РАН «Фундаментальные проблемы информатики и информационных технологий», (проект 2.12);
- Министерства образования и науки Российской
Федерации.
Литература
1. Sridevi, M. Comparative study of image forgery and copy-move techniques / M. Sridevi, C. Mala and S. Sanyam. -New Delhi, India: Proceedings of the Second International Conference on Computer Science, Engineering and Applications (ICCSEA 2012), 2012. - P. 715-723.
2. Cox, I.J. Watermarking is not cryptography / I.J. Cox, G. Doerr, T. Furon. - Proceedings of the 5th International Workshop on Digital Watermarking, 2006. - P. 1-15.
3. Lin, E.T. A review of fragile image watermarks / E.T. Lin, E.J. Delp // Proceedings of ACM Multimedia and Security Workshop. - 1999. - Vol. 1. - P. 25-29.
4. Mahdian, B. A bibliography on blind methods for identifying image forgery / B. Mahdian, S. Saic // Signal Processing: Image Communication. - 2010. - Vol. 25. - P. 389-399.
Глумов, Н.И. Обнаружение на изображениях искусственных изменений локального происхождения / НИ Глумов, А^ Кузнецов // Автометрия^ - 2011 ■ - Т 47, № 3^
- С 3-11
6^ Popescu, A.C. Statistical Tools for Digital Image Forensics: PhD thesis / A^C Popescu - Hanover, USA: Dartmouth College, Department of Computer Science, 2005^ - 102 p^ 7^ Fridrich, J. Estimation of primary quantization matrix in double compressed JPEG images / I Fridrich, I Lukas^ -Digital Forensic Research Workshop^ - 2003^ - P^ 2-5^ 8^ Bayram, S. A Survey of Copy-Move Forgery Detection Techniques / S^ Bayram, HT Senca, N Memoa - NY: IEEE Western New York Image Processing Workshop, 2008^ - P^ 1-4^ 9^ Fridrich, J. Detection of copy-move forgery in digital images / J^ Fridrich, D^ Soukal, J^ Lukas^ - Cleveland, OH, USA: Proceedings of Digital Forensic Research Workshop, IEEE Computer Society, 2003^ - P^ 55-61 10^ Huang, H. Detection of copy-move forgery in digital images using sift algorithm / К Huang, W^ Guo, Y^ Zhang^ -Washington, DC, USA: Proceedings of the 2008 IEEE Pacific-Asia Workshop on Computational Intelligence and Industrial Application, IEEE Computer Society, 2008^ -P^ 272-276^
11 ■ Kirchner, M. Fast and reliable resampling detection by spectral analysis of fixed linear predictor residue / M^ Kirchner - New York, NY, USA: Proceedings of the 10th ACM workshop on Multimedia and security, ACM, 2008^ - P^ 11-20^ 12^ Dong, J. Run-length and edge statistics based approach for image splicing detection / I Dong, W^ Wang, T Tan, Y^ Shi - Busan, Korea: Digital Watermarking, 7th International Workshop, IWDW 2008, 2008^ - P^ 76-87^ 13^ Sankar, G. Feature based classification of computer graphics and real images / G^ Sankar, V^ Zhao, Y^-H Yang^ -Washington, DC, USA: Proceedings of the 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE Computer Society, 2009^ - P^ 1513-1516^ 14^ Li, C.-T. Detection of block artifacts for digital forensic
analysis / Q-T Li // e-Forensics^ - 2009^ - P^ 173-178^ 15^ Fan, N. A pixel-based digital photo authentication framework via demosaicking inter-pixel correlation / № Fan, C Jin, Y^ Huang // New York, NY, USA: Proceedings of the 11th ACM Workshop on Multimedia and Security, ACM, 2009^ - P^ 125-130^ 16^ Gou, H. Noise features for image tampering detection and steganalysis / К Gou, A^ Swaminathan, M^ Wu - San Antonio, USA: ICIP (6), IEEE, 2007^ - P^ 97-100^ 17^ Li, Z. Blind detection of digital forgery image based on the local entropy of the gradient / Z^ Li, J^ Bin Zheng // IWDW^
- 2008^ - P^ 161-169^
18^ Johnson, M. Exposing digital forgeries in complex lighting environments / M^ Johnson, H Farid^ // IEEE Transactions on Information Forensics and Security^ - 2007^ - N 3(2) - P^ 450-461 ■ 19^ Farid, H. Image forensic analyses that elude the human visual system / К Farid, M^ Bravo^ - San Jose, CA, USA: SPIE Symposium on Electronic Imaging, 2010^ - 10 p^ 20^ Lee, S. Detecting false captioning using common-sense reasoning / S^ Lee, DA^ Shamma, B^ Gooch // Digital Investigation 3, SuppL 1 - 2006^ - P^ 65-70^ 21 Taileb, M. NOHIS-Tree: High-Dimensional Index Structure for Similarity Search / M^ Taileb, S^ Touati // World Academy of Science, Engineering and Technology^ - 2011 ■
- N 59■- P^ 518-525^
22^ Таха, Х.А. Введение в исследование операций / ХА^ Таха^
- 6-е изд^ - М^: Вильямс, 2001 - 912 с
23^ Кнут, Д.Э. Искусство программирования^ Том 2^ Получисленные алгоритмы / ДЭ Кнут - М^: Вильямс, 2007^ - 500 с 24^ Фу, К. Последовательный методы в распознавании образов и обучении машин / К Фу^ - М^: Наука, 1971 ■ - 256 с
References
1. Sridevi, M. Comparative study of image forgery and copy-move techniques / M. Sridevi, C. Mala and S. Sanyam. -New Delhi, India: Proceedings of the Second International Conference on Computer Science, Engineering and Applications (ICCSEA 2012), 2012. - P. 715-723.
2. Cox, I.J. Watermarking is not cryptography / I.J. Cox, G. Doerr, T. Furon. - Proceedings of the 5th International Workshop on Digital Watermarking, 2006. - P. 1-15.
3. Lin, E.T. A review of fragile image watermarks / E.T. Lin, E.J. Delp // Proceedings of ACM Multimedia and Security Workshop. - 1999. - Vol. 1. - P. 25-29.
4. Mahdian, B. A bibliography on blind methods for identifying image forgery / B. Mahdian, S. Saic // Signal Processing: Image Communication. - 2010. - Vol. 25. - P. 389-399.
5. Glumov, N.I. Detection of Local Artificial Changes in Images / N.I. Glumov, A.V. Kuznetsov // Optoelectronics, Instrumentation and Data Processing. - 2011. - Vol. 47(3). - P. 4-12..
6. Popescu, A.C. Statistical Tools for Digital Image Forensics: PhD thesis / A.C. Popescu. - Hanover, USA: Dartmouth College, Department of Computer Science, 2005. - 102 p.
7. Fridrich, J. Estimation of primary quantization matrix in double compressed JPEG images / J. Fridrich, J. Lukas. -Digital Forensic Research Workshop. - 2003. - P. 2-5.
8. Bayram, S. A Survey of Copy-Move Forgery Detection Techniques / S. Bayram, H.T. Senca, N. Memon. - NY: IEEE Western New York Image Processing Workshop, 2008. - P. 1-4.
9. Fridrich, J. Detection of copy-move forgery in digital images / J. Fridrich, D. Soukal, J. Lukas. - Cleveland, OH, USA: Proceedings of Digital Forensic Research Workshop, IEEE Computer Society, 2003. - P. 55-61.
10. Huang, H. Detection of copy-move forgery in digital images using sift algorithm / H. Huang, W. Guo, Y. Zhang. -Washington, DC, USA: Proceedings of the 2008 IEEE Pacific-Asia Workshop on Computational Intelligence and Industrial Application, IEEE Computer Society, 2008. -P. 272-276.
11. Kirchner, M. Fast and reliable resampling detection by spectral analysis of fixed linear predictor residue / M. Kirchner. - New York, NY, USA: Proceedings of the 10th ACM workshop on Multimedia and security, ACM, 2008. - P. 11-20.
12. Dong, J. Run-length and edge statistics based approach for image splicing detection / J. Dong, W. Wang, T. Tan, Y. Shi. - Busan, Korea: Digital Watermarking, 7th International Workshop, IWDW 2008, 2008. - P. 76-87.
13. Sankar, G. Feature based classification of computer graphics and real images / G. Sankar, V. Zhao, Y.-H. Yang. -Washington, DC, USA: Proceedings of the 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE Computer Society, 2009. - P. 1513-1516.
14. Li, C.-T. Detection of block artifacts for digital forensic analysis / C.-T. Li // e-Forensics. - 2009. - P. 173-178.
15. Fan, N. A pixel-based digital photo authentication framework via demosaicking inter-pixel correlation / N. Fan, C. Jin, Y. Huang // New York, NY, USA: Proceedings of the 11th ACM Workshop on Multimedia and Security, ACM, 2009. - P. 125-130.
16. Gou, H. Noise features for image tampering detection and steganalysis / H. Gou, A. Swaminathan, M. Wu. - San Antonio, USA: ICIP (6), IEEE, 2007. - P. 97-100.
17. Li, Z. Blind detection of digital forgery image based on the local entropy of the gradient / Z. Li, J. Bin Zheng // IWDW. - 2008. - P. 161-169.
18. Johnson, M. Exposing digital forgeries in complex lighting environments / M. Johnson, H. Farid. // IEEE Transactions on Information Forensics and Security. - 2007. - N 3(2). - P. 450-461.
19. Farid, H. Image forensic analyses that elude the human visual system / H. Farid, M. Bravo. - San Jose, CA, USA: SPIE Symposium on Electronic Imaging, 2010. - 10 p.
20. Lee, S. Detecting false captioning using common-sense reasoning / S. Lee, D.A. Shamma, B. Gooch // Digital Investigation 3, Suppl. 1. - 2006. - P. 65-70.
21. Taileb, M. NOHIS-Tree: High-Dimensional Index Structure for Similarity Search / M. Taileb, S. Touati // World Academy of Science, Engineering and Technology. - 2011. - N 59.- P. 518-525.
22. Taha, H.A. Operations Research: An Introduction (6th Edition) / H.A. Taha. - Moscow: "Williams" Publisher, 2001. - 912 p. - (In Russian).
23. Knuth, D.E. The art of computer programming. Volume 2 / D.E. Knuth. - Moscow: "Williams" Publisher, 2007. - 500 p.
- (In Russian).
24. Fu, K. Sequential methods in pattern recognition and machine learning / K. Fu. - Moscow: "Nauka" Publisher, 1971.
- 256 p. - (In Russian).
COPY-MOVE IMAGE FORENSICS DETECTION
A. V. Kuznetsov, V. V. Myasnikov Image Processing Systems Institute of the RAS
Abstract
The problem of constructing a complex calculation procedure of remote sensing data authentication using a set of basic algorithms for authentication is considered in this paper. This problem is solved according to the passive approach of data authentication, which assumes that artificial changes detection (forgeries detection) based on remote sensing data analysis.
Key words: passive remote sensing data protection, digital images, metadata, optimality criterion, elementary algorithm.
Сведения об авторах
Кузнецов Андрей Владимирович, родился в 1987 году. В 2010 году окончил Самарский государственный аэрокосмический университет (СГАУ) с отличием по специальности «Прикладная математика и информатика». В настоящее время работает стажёром-исследователем в Институте систем обработки изображений РАН, является аспирантом СГАУ. Круг научных интересов включает обработку и анализ изображений, обнаружение локальных изменений на изображениях, распознавание образов, геоинформатику. Имеет 17 публикаций, в том числе 4 научных статьи. E-mail: kuznetsoff.andrey@gmail. com .
Andrey Vladimirovich Kuznetsov (b. 1987) graduated with honours (2010) from the S. P. Korolyov Samara State Aerospace University (SSAU), majoring in Applied Mathematics and Informatics. He works as a researcher in Samara Image Processing Systems Institute of the Russian Academy of Sciences (IPSI RAS), also studies as a postgraduate student in SSAU. His research interests are currently focused on image processing and analysis, local images changes detection, pattern recognition, geoinformatics. He has 17 publications, including 4 scientific papers.
Мясников Владислав Валерьевич, 1971 года рождения. В 1994 году окончил Самарский государственный аэрокосмический университет (СГАУ). В 1995 году поступил в аспирантуру СГАУ, в 1998 году защитил диссертацию на соискание степени кандидата технических наук, а в 2008 - диссертацию на соискание степени доктора физико-математических наук. В настоящее время работает ведущим научным сотрудником в Федеральном государственном бюджетном учреждении науки Институт систем обработки изображений РАН и одновременно профессором кафедры геоинформатики и информационной безопасности СГАУ. Круг научных интересов включает цифровую обработку сигналов и изображений, компьютерное зрение, распознавание образов, искусственный интеллект и геоинформатику. Имеет более 100 публикаций, в том числе 40 статей и две монографии (в соавторстве). Член Российской ассоциации распознавания образов и анализа изображений. E-mail: [email protected] . Страница в интернете: http://www.ipsi.smr.ru/staff/MyasVV.htm Vladislav Valerievich Myasnikov (1971 b.), graduated (1994) from the S.P. Korolyov Samara State Aerospace University (SSAU). He received his PhD in Technical sciences (2002) and DrSc degree in Physics & Maths (2008). At present he is a leading researcher at the Image Processing Systems Institute of the Russian Academy of Sciences and holds a parttime position of Associate Professor at the Department of Geoinformatics and Information Security at SSAU. The area of interests includes digital signals and image processing, geoinformatics, neural networks, computer vision, pattern recognition and artificial intelligence. He's list of publications contains about 100 scientific papers, including 40 articles and 2 monographs. He is a member of Russian Association of Pattern Recognition and Image Analysis.
Поступила в редакцию 17 апреля 2013г.