ОБРАБОТКА ИЗОБРАЖЕНИЙ, РАСПОЗНАВАНИЕ ОБРАЗОВ
ОПИСАНИЕ ИЗОБРАЖЕНИИ С ИСПОЛЬЗОВАНИЕМ КОНФИГУРАЦИОННОГО ОТНОШЕНИЯ ЭКВИВАЛЕНТНОСТИ
В.В. Мясников 12
1Самарский национальный исследовательский университет имени академика С.П. Королёва, 443086, Россия, г. Самара, Московское шоссе, д. 34;
2ИСОИ РАН - филиал ФНИЦ «Кристаллография и фотоника» РАН, 443001, Россия, г. Самара, ул. Молодогвардейская, д. 151
Аннотация
В работе предлагается подход к построению описания данных и изображений, основанный на поиске оптимальной конфигурации (перестановки) их составляющих (отсчётов, областей, векторов признаков и др.). Критерий качества конфигурации, который может быть выбран в соответствии с прикладной задачей, определяет понятие оптимальности конфигурации. Конкретные конфигурации разбивают все множество анализируемых данных/изображений на эквивалентные подклассы, описания которых совпадают. Рассматриваются задачи инвариантности описаний, устойчивости предлагаемого представления, связи предлагаемого подхода с известными решениями: ЬБР и знаковым представлением изображения. Дана иллюстрация решения прикладной задачи с использованием предлагаемого подхода.
Ключевые слова: описание цифровых изображений, отношения, перестановка, конфигурация, локальные бинарные шаблоны, знаковое представление изображений.
Цитирование: Мясников, В.В. Описание изображений с использованием конфигурационного отношения эквивалентности / В.В. Мясников // Компьютерная оптика. - 2018. -Т. 42, № 6. - С. 998-1007. - БО!: 10.18287/2412-6179-2018-42-6-998-1007.
Введение
Описание изображений - одна из основных проблем в компьютерном зрении. Эффективное её решение наталкивается на противоречивые требования инвариантности такого описания к допустимым преобразованиям изображения и одновременно «чувствительности» описания к «значимым» изменениям на изображении. Учитывая тот факт, что понятие «значимости» изменений существенно зависит от прикладной области, разработка универсальных механизмов построения эффективных описаний изображений затруднительна. В то же время для достаточно широкого класса задач известны конкретные способы / алгоритмы описания и иногда подходы, которые оказываются достаточно эффективными при их решении [1]. Один из существующих подходов основан на идее, что изображение характеризуется набором отношений между его составляющими, например, отсчётами или областями. Для построения описания указанная идея применяется достаточно давно и не только в компьютерном зрении, например, в рамках идеологии семантических сетей [2]. Частным случаем подобного описания в компьютерном зрении являются локальные бинарные шаблоны [3-9] или знаковые представления изображений [10 -15]. Настоящая работа направлена на развитие подхода к построению описания изображения с использованием отношений его составляющих - конфигурационного отношения эквивалентности.
Работа построена следующим образом. В первом параграфе кратко описано современное состояние решений, наиболее близких к предлагаемому подходу. Формализация предлагаемого подхода к описа-
нию данных с использованием отношении составляющих представлена во втором параграфе. В третьем параграфе указанная формализация применяется для построения описаний изображений. Этот же параграф содержит описание постановок и результаты экспериментальных исследований, проведённых для демонстрации работоспособности и эффективности предлагаемого подхода. Благодарности и список использованных источников представлены в конце работы.
1. Локальные бинарные шаблоны и знаковое представление изображений
Принцип описания изображения текстуры, основанный на отношениях центрального отсчета области с 8 соседними отсчётами, был предложен в работах DC. He and L. Wang в 1990 [3]. После некоторой модификации первоначального выражения в 1994 году авторами T. Ojala, M. Pietikâinen и D. Harwood в работах [4, 5] способ описания, названный ими «локальный бинарный шаблон» (англ.: LBP - Local Binary Patterns), принял наиболее узнаваемый в настоящее время вид: каждой локальной окрестности 3*3 изображения f(...) ставится в соответствие бинарный вектор, получаемый путём парных сравнений (отношение «<») центрального отсчёта с соседними. Таким образом, с каждой окрестностью оказывается связано следующее числовое значение:
LBP (m, n) =
= S I (f (m, n) < f (m + i, n + j))2ind(i-j),
(1)
1, j e{-1,0,1) (i, j) * (0, 0)
где /(...) - индикаторная функция, задаваемая выражением:
I(условие)=
1, условие = true, 0, условие = false,
а ind (i, j) - порядковый номер (начиная с нуля) пары (i,j) в выбранной последовательности обхода соседних отсчётов, например (-1, -1), (-1, 0), ..., (0, -1), (0, 1), ..., (1, 1).
Существует значительное число вариаций и модификаций данного преобразования, описанных (далеко не полностью) в двух зарубежных монографиях [6, 7]. Часто они вводятся на основании выбора новой геометрической структуры анализируемых отсчетов или нового порядка обхода отсчетов внутри этой структуры. Пример одной из известных модификаций (GLBP - Geometric Local Binary Pattern), предложенной в работе [8], представлен на рис. 1. Учитывая гигантское число потенциально возможных вариантов таких модификаций, количество работ в этом направлении было и остаётся значительным [6, 7, 8, 9, 15].
Рис. 1. GLBP - принцип формирования описания окрестности с использованием восьми 6-битовых векторов: граф парных сопоставлений отсчётов окрестности (а); шаблон формирования 6-битовой последовательности (б)
Российские авторы А.Н. Каркищенко, A.B. Гончаров и А.Г. Броневич в цикле работ 2008 - 2011 годов [10 - 13] и последующей монографии 2013 года [14] представили детальную математическую проработку такого способа описания изображений, названного ими «знаковым представлением изображения»: определены свойства знакового представления, введены меры информативности и неопределённости знаковых представлений, рассмотрены вопросы их устойчивости.
Кратко, если f (х) - изображение (неотрицательная функция яркости), заданное на множестве
□ = {1,..., N }х{1,..., М },
то под знаковым представлением изображения / понимается отношение л с удовлетворяющее условиям [14]:
(х, у ) елл(у, х / (х ) = / (у ),
(х, у ) елл(у, х )гл^ / (х )< / (у ).
Авторы различают полное и оконное знаковые представления: первое задаёт отношение на всех возможных парах отсчётов, в то время как второе - только на «близких» по расположению. При том, что ЬБР, как очевидно, относится ко второй категории, множество изображений, соответствующих полному знаковому представлению, является аналогом (для строго возрастающих преобразований функции яркости) понятия формы, принятого в морфологии Ю.П. Пытьева [16].
Поскольку конкретному знаковому представлению л соответствует множество изображений (обозначим Фл), авторам подхода удалось формализовать понятия информативности и неопределённости знакового представления, связав их с информативностью наиболее информативного изображения из этого множества. Предложенный подход, что естественно, гарантирует максимум информативности (и, как следствие, нулевую неопределённость) для полного знакового представления [14].
Анализируя геометрию множества Фл изображений конкретного знакового представления, авторы [13-14] доказывают, что оно распадается на транзитивные классы, названные ими орбитами. Каждая из орбит порождается конкретным представителем /* под действием группы монотонно возрастающих преобразований Т
Ob (f *) {f: f = v(f*), 4}
(2)
и является выпуклым множеством. Доказано, что Фя также является выпуклым множеством. Для случая изображения с несовпадающими по яркости отсчетами имеем:
Предложение А ([14], с. 209). Изображение f принадлежит орбите ОгЬц, f*) в том и только том случае, если перестановки, упорядочивающие отсчёты f и f*, совпадают.
Данное предложение связывает конкретную орбиту и соответствующее ей подмножество изображений из Фя с определённой перестановкой отсчётов изображения.
Идея ассоциирования конкретной перестановки (конфигурации) с некоторым подклассом изображений лежит в основе предлагаемого в настоящей работе подхода к описанию данных.
Наконец, под устойчивостью знакового представления А.Н. Каркищенко и A.B. Гончаров понимают свойство его неизменности при изменениях самого изображения. При этом, следуя широко принятому вероятностному способу описания шумов, авторы под мерой устойчивости знакового пред-
ставления п относительно шума, распределённого по некоторому вероятностному закону, понимают вероятность неизменности этого представления для произвольного изображения из Фп. При этом доказано, что «...оконное знаковое представление наряду с потерей информации об изображении по сравнению с полным знаковым представлением, имеет более высокую степень устойчивости» ([14], с. 224).
Несколько отличный (нестатистический, поэлементный) подход к оценке устойчивости был представлен в публикации [15] автора настоящей работы.
Развитие идеи описания изображения через составляющие и отношения между ними также было предпринято Ю.В. Визильтером и А.Ю. Рубисом [17]. Указанные авторы вводят т.н. реляционные модели формы изображений (или TR-модели), а также метрики их сравнений. В отличие от описанных выше решений, где рассматриваются отношения между отсчётами, в этих моделях рассматриваются отношения между областями, что допускает сопоставление областей не только по яркости, но и по форме, текстуре и т.п. Другим отличием работы указанных авторов является направленность именно на возможность сравнения / сопоставления описаний (то есть получения некоторой величины схожести или различия), в то время как LBP и знаковые представления связывают изображение с некоторой числовой характеристикой - дескриптором. В результате область практического применения рассмотренных подходов оказывается несколько отличной. В настоящей работе больший интерес представляет такой способ описания, который позволяет получить компактное числовое описание -дескриптор - анализируемого изображения.
Заметим также, что, несмотря на широкое и достаточно успешное применение LBP / знаковых представлений в задачах компьютерного зрения [3-15], они обладают рядом недостатков, представленных ниже:
а) LBP /знаковые представления используют бинарное отношение (отношение частичного порядка) построения описания, в то время как использование отношений большей «арности» может дать дополнительную информацию;
б) в бинарные отношения в LBP / знаковых представлениях вступают исключительно числа, что ограничивает или делает затруднительным их использование для объектов другого класса, например, областей (как в работе Ю.В. Визиль-тера [17]) или векторов;
в) формирование итогового описания (код анализируемой области) производится линейным способом;
г) формируемый код не связан с решаемой прикладной задачей, то есть подход не позволяет ориентироваться на какой-либо критерий качества решаемой задачи.
В следующих двух параграфах представлено изложение предлагаемого подхода, позволяющего устранить указанные недостатки. Более того, получаемое с использованием LBP /знаковых представлений
описание изображений, как будет показано, оказывается его частным случаем.
2. Основные теоретические положения предлагаемого представления данных Рассмотрим набор данных - упорядоченное множество из N векторов длины п с компонентами, для определенности, из Я
go, gl,•••, gN-^ где gj =
60 j
g1 j
g( и-1) j
j = 0, N -1,
формирующее матрицу Ge RnxN следующего вида:
G = (go, gu-^ gN-1 ) =
g10 g11
g(«-1)0
g0(N -1) g1(N -1)
g(n-1)(N -1)
И пусть из каких-либо внешних соображений, формализуемых критерием качества ¥ (он будет более детально рассмотрен ниже), для данной конкретной матрицы О определена «наилучшая» перестановка ст¥,О е её столбцов (и, как следствие, векторов исходного множества), зависящая от компонентов самой матрицы:
СТ ¥ ,О : ^ N-1 ^ ZN-1 .
1 «Ст¥о (1)
Здесь ZN - множество неотрицательных целых чисел 0, 1, ... N - 1, а Едт - множество всех перестановок для N векторов (объектов). Учитывая, что число возможных перестановок для N объектов составляет N!, имеем:
= N!.
С конкретной перестановкой ст (подиндекс порождающих перестановку критерия ¥ и матрицы О в некоторых случаях будем опускать) свяжем код перестановки - целое неотрицательное число, обозначаемое далее %(ст) и определяющее ее позицию среди всех возможных N! перестановок, упорядоченных лексикографически. Учитывая общее количество перестановок, можно записать:
X : £ N ^ ZN, . (3)
ст«х(ст)
Для формализации понятия «наилучшей» перестановки введем далее формальный критерий качества перестановки в виде функционала
¥ : Япх* х £„ ^ Я , (4)
который для каждой п ^ матрицы О и перестановки ст из Едт указывает вещественную величину - показатель качества матрицы, вычисленный с учётом перестановки ст столбцов матрицы О. Множество критериев для конкретных параметров п и N матриц обозначим ы, а всё возможное множество критериев - Р.
Будем считать далее, что меньшие значения критерия соответствует более высокому качеству. Обозначим оптимальное значение критерия FGn, определяя его в виде:
FL = min F (G, ст).
Учитывая, что это оптимальное значение может достигаться на практике на некотором подмножестве перестановок, введём дополнительное обозначение для этого непустого подмножества:
£NG ={ст: F(G,ст) = FG., сте £„}.
(5)
И, наконец, определим оптимальную перестановку стР, О для матрицы О.
Определение 1. Оптимальной перестановкой ст_р, О для матрицы О называется перестановка из £с наименьшим кодом (3):
ст„,о = ^шт х(ст). (6)
Хэш-код оптимальной перестановки
к((ст / ,О )), (7)
полученный однозначным (сюръективным) преобразованием
к: Ът ^ Ък (К < N!)
кода оптимальной перестановки, рассматривается далее как первичная характеристика-описатель анализируемых данных (дескриптор данных или его составная часть). В простейшем случае, когда к - тождественное преобразование, хэш-код и код оптимальной перестановки совпадают.
Пример 1 Пусть матрица О задана в виде: О = (26, 33, 17, 1, 18). (8)
Определим критерий (4) следующим образом:
F
(G, ст) = ^
j =0
Множество £N
ст(;+1) '
" й>,ст(()| (F е F1,N ).
(9)
, очевидно, будет содержать две перестановки, позволяющие расположить значения элементов О из (8) в неубывающей или невозрастаю-щей последовательности:
'0 1 2 3 4^ (0 1 2 3 4\
(10)
£fn =
3 2 4 0 1
1 0 4 2 3
При этом минимальное значение критерия окажется равным размаху выборки: FG = 32
1 min •
Вторая из перестановок (10) является решением (5) с кодом x(ctf, g) = 81. □
Пример 2 Пусть матрица G задана в виде: G = (7, 3, 9, 1, 7, 9, 7). (11)
Определим критерий (2) следующим образом:
N-2
F G ст)= XI (
j=0
CT(j)
CT(j + l)
(12)
Множество £№ для такого критерия, очевидно, будет содержать набор перестановок, приводящих последовательность отсчётов О к вариационному ряду (1, 3, 7, 7, 7, 9, 9).
При минимальном - нулевом - значении критерия качества /ШОп число таких перестановок, очевидно, составляет:
|£№| = 1!-1!- 3!- 2! = 12
с оптимальной перестановкой
(0 1 2 3 4 5 6
ст/ о =1
' ^2 1 5 0 3 6 4 и кодом х(ст^, О) = 1902. □
Пример 3
Пусть матрица О задана в виде (6), а критерий
N-2
F (G, ст)=Х1 (()* ^)).
(13)
j=0
Тогда:
|£№| = 4! -1! -1! -3! -2! = 24-12 = 288
со значением /Он = 3, равным числу (за вычетом единицы) различных групп значений компонентов матрицы О, и
(0 1 2 3 4 5 6^ ст/О =1 ',О ^0 3 4 6 1 5 2
с кодом х(СТ/, о) = 2711.
Заметим, что взаимнооднозначные преобразования компонентов матрицы О не меняют ни минимальное значение критерия качества /Щ°п, ни результирующую оптимальную перестановку Ст/ О. □ Последний пример показывает целесообразность выделения среди всех возможных критериев качества (4) таких, которые были бы инвариантны к определённым преобразованиям отсчётов и / или векторов-столбцов матрицы О. Обозначим Т некоторую группу преобразований у: Я^Я". В качестве наиболее простых групп преобразований могут выступать, например, следующие покомпонентные преобразования векторов: биективные преобразования (обозначим Тв), монотонно-возрастающие преобразования (обозначим Тм), линейные возрастающие преобразования (обозначим Ть ).
Определение 2. Критерий качества FeFи, N называется инвариантным к группе преобразований Т (Тв-инвариантам), если выполняется
Ууе ¥ УО е Устьст2 еЕN
/ (О, Ст! )< / (О, ст2 (14)
^ / (у (О), ст, )< / (((О), Ст2).
□
В представленном определении под обозначением у(О) понимается матрица КпхЛ?, получаемая преобразованием векторов-столбцов матрицы О:
о = (10, Я1,--, Мм-1)
^у(О ) = (у(Я0), у(£1У^-1)).
Непосредственным следствием для инвариантных критериев является следующее:
Предложение 1. Для Т-инвариантного критерия качества ¥е Рп, N выполняется
Уу е V УО е Япх " ст¥ ,о = ст ¥ Ма). □
Простой проверкой можно убедиться в Тм -инвариантности критериев качества (9), (12) и (13) из всех представленных выше примеров.
Введём дополнительное
Определение 3. Пусть ¥е¥п, N - некоторый критерий. Матрицы О1, О2еRnхN назовём эквивалентными (по отношению к критерию ¥), если
ст¥ О = ст¥ ,О2 . □
С учётом введённого отношения эквивалентности матриц по отношению к критерию ¥еРп, N имеем, что все матрицы RnхN разбиваются на N! классов эквивалентности по числу возможных перестановок
стеЕ^
О (ст) = {О : ст¥О = ст, О е Япх" } Япх",
что позволяет именовать предлагаемый подход как подход на основе конфигурационного отношения эквивалентности.
Классы О (ст) являются эквивалентами орбит (2), введённых для знакового представления изображений в работах [13 -14].
Из определений 2 и 3 также следует, что для Т-инвариантных критериев в классы эквивалентности, наряду с конкретной матрицей О, попадают и все её образы у (О). Это позволяет каждый класс эквивалентности О (ст), в свою очередь, разбить на непересекающиеся эквивалентные подклассы. Каждый из таких подклассов, обозначаемых ниже О (О*), полно -стью определяется одним из своих представителей -порождающей матрицей соответствующего подкласса О*:
G(G*) = {G : G = у (G*), у е .
Тогда:
С (ст)= У С (ст, О*),
О*еО* (ст)
где С(ст) - множество порождающих матриц или базис соответствующего класса эквивалентности С (ст).
Устойчивость описания (6), то есть «свойство его неизменности при изменениях самого изображения» [14], введём по аналогии с работами по дискретной оптимизации и вычислительной геометрии В.К. Леонтьева и Э.Н. Гордеева через понятие радиуса
устойчивости [18, 19]. Обозначим как Qp(G) открытый шар радиуса p для матрицы G (с заранее согласованной нормой матриц):
Qp(G') = {G : ||G - G'||<p, G е R^ }.
Определение 4. Радиусом устойчивости p матрицы GeR"xN при критерии FeF„, n называется величина:
p (F, G) = sup {ре R: aF & = &&, G' е Qp (G)}.
Смысл радиуса устойчивости: пока возмущённая матрица данных находится в шаре-окрестности Qp(G) указанного радиуса, описание данных (6) остаётся неизменным.
Используя введённую величину, можно дополнительно определить радиус устойчивости критерия:
p(F, G)
GeR~N Gil '
p(F )= inf
Приведём далее некоторые результаты для конкретных критериев качества ¥е Рп, N.
Свойства критериев определённого класса
Рассмотрим подкласс критериев
F
N -2
(G, ст) = Щ |
j=0
Ф'+i)'
°(j)
с Гельдеровой нормой
= pБ, (p е N),
(15)
(16)
обозначив для фиксированного параметра р соответствующий критерий (15) как ¥пры, а все множество таких критериев Рр^. В простейшем случае, когда р = п = 1, критерий ^^ совпадает с критерием (9). Содержательно критерий (15) определяет общую длину пути, проходящего последовательно через точки Яст(0),Мст(1),-,Яст^-!), в метрическом пространстве с
метрикой Ьр, индуцированной соответствующей Гельдеровой нормой. Для критерия качества (15) оказывается справедливым следующее
Предложение 2. Все критерии множества являются Vь -инвариантными, критерий рЛ является
Тм -инвариантным.
Доказательство первой части данного утверждения основано на следующем равенстве (функция уеТь в виде у(х) = ах + Ь (а> 0)):
FnPN (у (G ) ст) = S Б I y(g „(,)-у(8 ф),,)|
j=0 V '=0
= S S: |(а8ст(;+1) + Ь ) - (agj + b )| =
j=0 V '=0 1 1
= aFnPN (G,ст).
j=0 v 1=0
'=0
Учитывая положительность величины а, отношение (порядка) между значениями критериев (при различных перестановках) сохранится, что приводит к (14). Относительно второй части утверждения комментарии представлены в работе выше. □
Устойчивость описания с использованием конфигурационного отношения эквивалентности
Рассмотрим подкласс критериев (15). Поскольку критерий (15) определяет общую длину пути, проходящего последовательно через точки-векторы составляющие матрицы G, то оптимальное решение оказывается напрямую связано с решением задачи комивояжера - нахождение гамильтонова цикла минимального веса в полном взвешенном графе с матрицей расстояний, задаваемой следующим образом (с нормой вида (16)):
Ag =(G )=0, aG =|- g ||.
Отсюда непосредственно следует:
V G'e Qp (G) max|a,G - aG |< 2p .
i, j ' '
Обозначим через x,(A) длину i-го пути (гамильтонова цикла) графа с матрицей расстояний A. Пусть также H(A) - множество номеров путей, имеющих минимальную длину в матрице A. И пусть |х;(А) П Tj(A)| обозначает число общих рёбер у соответствующих гамильтоновых циклов. В работе В. К. Леонтьева доказана
Теорема [18]. Справедлива формула
/ Ч (A)-xj (A)
p0 (A)= min max^-^-——□
jm(A) i*j 2 (n -|xi (А)П xj (A)|)
Здесь p0(A) - радиус устойчивости матрицы расстояний A, означающий неизменность решения задачи коммивояжера при возмущениях в соответствующих пределах, а именно:
V A'e Qp0 (A) H(A) = H(A') .
Величина Qp0(A) обозначает открытый шар квадратных NxN матриц с чебышевской метрикой с центром в A.
Из представленной теоремы и приведённых выше соотношений непосредственно следует
Предложение 3. Для подкласса критериев (15) радиус устойчивости p (F, G) конкретной матрицы GeR"xN удовлетворяет следующему соотношению:
p(F, G)> 2 p0 (Ag ).
3. Построение описания изображений
Применение предложенного подхода описания данных для описания изображений требует определить как минимум способ получения отдельных векторов и формирования из них матрицы G. Формально процесс построения дескриптора изображения (или фрагмента изображения) может быть представлен в виде набора этапов.
Этап 1. Выбор структуры и порядка обхода изображения (порядка формирования векторов).
Этап 2. Выбор способа задания или расчёта компонент векторов.
Этап 3. Выбор критерия качества перестановки.
Этап 4 (опционально). Выбор способа «нормализации» оптимальной перестановки.
Этап 5. Задание функции расчёта хэш-кода оптимальной перестановки.
В случае, если для описания изображения используется не один дескриптор, а некоторое множество, то указанные шаги выполняются соответствующее число раз. Агрегирование получаемых хэш-кодов для получения окончательного дескриптора изображения производится, исходя из конкретной задачи. Наиболее типичными примерами являются: конкатенация хэш-кодов, формирование гистограммы значений хэш-кодов и др. [6, 7, 9].
Предложенный способ описания, учитывая доказанное выше свойство инвариантности к глобальным и локальным преобразованиям определённого типа и устойчивость к возмущениям входных данных, имеет достаточно широкий спектр использования. В качестве иллюстрации эффективности предложенного подхода в настоящей работе был поставлен вычислительный эксперимент (подпараграф 3.2), предусматривающий его использование для решения задачи поиска яркостно-искажённых дубликатов на изображении.
3.1. О связи предлагаемого подхода
с LBP и знаковым представлением изображения
Пусть все отсчёты изображения используются в качестве компонент однокомпонентных векторов, формирующих матрицу G (то есть размер матрицы N совпадает с числом отсчётов изображения, а n = 1). Для критерия (12) оптимальная перестановка ctf, g будет соответствовать вариационному ряду исходного множества отсчётов изображения и, как следствие Предложения А ([14], с. 209), будет определять конкретную орбиту полного знакового представления изображения, предложенного А.Н. Каркищенко, A.B. Гончаровым и А.Г. Броневичем.
Для случая типового LBP (1) и соответствующего ему оконного знакового представления рассмотрим конкретизацию описания (этапы 1-5) фрагмента 3*3 изображения f (m1, m2).
Этап 1. Структура и порядок обхода (N = 9):
Ц, m) = (0,0), (-1,0), (-1, -1), (0, -1), (1,-1), (1,0), (1,1), (0,1), (-1,1).
Этап 2. Способ задания или расчёта компонент n = 1-мерного вектора для конкретной позиции
(mk, m* ) : g* = (f (mk, m2f )) .
Этап 3. Критерий качества перестановки выберем в виде (12).
Этап 4. Способ «нормализации» - отсутствует.
Этап 5. Задание функции расчёта хэш-кода по коду оптимальной перестановки х(ст¥, О)еШ! (9! = 362880): реализуется сюръективным отображением вида:
К : ^ Z256 .
Здесь значение хэш-кода «0» соответствует всем 7! перестановкам вида:
0 1 2 3 4 5 6 7
0
а значение хэш-кода «255» соответствует всем 7! перестановкам вида:
(0 1 2 3 4 5 6 7 I 0*******
и т.д.
3.2. Поиск яркостно-искажённых дубликатов
Задача поиска дубликатов на изображении [9, 15, 20] (англ.: copy-move forgery detection) состоит в нахождении на изображении таких фрагментов, которые с точностью до допустимого набора преобразований являются неотличимыми. Под допустимыми преобразованиями обычно понимают геометрические преобразования типа поворота и масштабирования, а также яркостные, включающие монотонно-возрастающие преобразования функции яркости и незначительные шумовые искажения. В настоящем подпараграфе рассмотрено использование предложенного подхода к поиску яркостно-искажённых дубликатов.
Ниже представлено уточнение по всем указанным выше этапам предлагаемого метода. Для определённости полагаем, что анализируемый фрагмент f(mi, m2) изображения имеет размер 9x9. Начало координат фрагмента для определённости поместим в его центр: m1, m2 =- 4,4. Для описания используем
два дескриптора, различающихся способом реализации первого этапа (см. ниже подпункты (а) и (б)).
Этап 1. Структура и порядок обхода (N = 5):
а) (m1, m2) = (0, 0), (-3, -3), (-3, 3), (3, 3), (3, -3);
б) (m1, mi) = (0, 0), (0, -3), (-3, 0), (0, 3), (3, 0).
Этап 2. Способ задания или расчёта компонент n = 9-мерного вектора для конкретной позиции
(m*, mk2) (k = 0,4):
( f (m*, mk ) ^
f (m* -1, mk ) f (m* -1, m2 -1)
f (m*, m* -1) f (m* +1, m2 -1)
f (m* +1, m* ) f (m* +1, m* +1)
f (m*, m* +1) f (m* -1, m* +1)
Этап 3. Критерий качества перестановки выберем в виде (15).
Этап 4. Способ «нормализации» оптимальной перестановки - отсутствует.
Этап 5. Задание функции расчёта хэш-кода по кодам оптимальных перестановок %(ст¥, О)еК5! (5! = 120) для вариантов (а) и (б): сумма кодов.
Число-дескриптор, характеризующее фрагмент изображения в позиции (ш\, т2), помещается в отсчёт выходного изображения-образа дескриптора. Собственно поиск дубликатов осуществляется сверхбыстрым алгоритмом поиска неискажённых дубликатов, разработанным ранее в работе [20].
Ниже на рис. 2 приведены примеры исходного изображения (рис. 2а), изображения с внесёнными искажёнными четырьмя дубликатами существующего фрагмента (рис. 2б, описание модели внесение дубликатов представлено детально в работе [15]), а также изображения-образы дескриптора ЬБР (1) (рис. 2в) и предлагаемого (рис. 2г).
Рис. 2. Иллюстрация к задаче обнаружения яркостно-искажённых дубликатов
Результаты обнаружения дубликатов с использованием указанных дескрипторов приведены соответственно на рис. 2д-е. В табл. 1 ниже представлено изменение показателей качества - точности (precision) и полноты (recall) - обнаружения (пообъектного) дубликатов в зависимости от «разброса» аддитивного шума, распределённого равномерно на интервале [- a, a] (aеR+).
Табл. 1. Зависимость показателей качества Ргеаз1оп:Яеса11 обнаружения дубликатов от параметра аддитивного шума а
Можно видеть, что предварительные экспериментальные исследования показывают большую устойчивость предложенного подхода. Первая строка таблицы соответствует ситуации, изображённой на рис. 2д-е.
Заключение
В работе предложен новый подход к описанию цифровых изображений с использованием конфигурационного отношения эквивалентности. В качестве формального описателя - дескриптора данных/изображений - предложено использовать код перестановки составных частей, приводящий к экстремальному значению выбранного показателя качества. Доказаны некоторые свойства предложенного описания, на примере продемонстрирована целесообразность и эффективность его использования для решения задач обработки и анализа цифровых сигналов и изображений.
Дальнейшие направления работ:
- более детальный анализ свойств инвариантности и устойчивости предлагаемого описания, его геометрических свойств;
- определение множеств критериев, обладающих удобными для введённого метода описания свойствами;
- разработка новых методов агрегации дескрипторов или функций расчёта хэш-кодов перестановок;
- решение прикладных задач с использованием предложенного метода.
Благодарности Исследование выполнено при финансовой поддержке грантов РФФИ в рамках научных проектов № 18-01-00748-а, № 17-29-03190-офи-м в части «Основные теоретические положения предлагаемого представления данных» и Министерства науки и высшего образования РФ в рамках выполнения работ по Государственному заданию ФНИЦ «Кристаллография и фотоника» РАН (Соглашение № 007-ГЗ/Ч3363/26) в части «Построение описания изображений».
Автор выражает благодарность аспиранту Самарского университета Е.А. Дмитриеву за помощь в проведении и оформлении экспериментов.
Литература
1. Методы компьютерной обработки изображений / М.В. Гашников, Н.И. Глумов, Н.Ю. Ильясова, В.В. Мясников, С.Б. Попов, В.В. Сергеев, В.А. Сойфер, А.Г. Храмов, А.В. Чернов, В.М. Чернов, М.А. Чичёва, В.А. Фурсов; под ред. В.А. Сойфера. - Изд. 2-е, испр. - М.: Физ-матлит, 2003. - 784 с. - ISBN: 5-9221-0270-2.
2. Ballard, D.H Computer vision / D.H. Ballard, Ch.M. Brown. - Englewood Cliffs, New Jersey: Prentice-Hall Inc., 1982. - 547 p. - ISBN: 978-0-13-165316-0.
3. He, D.-Ch. Texture unit, texture spectrum, and texture analysis / D.-Ch. He, L. Wang // IEEE Transactions on Ge-oscience and Remote Sensing. - 1990. - Vol. 28, Issue 4. -P. 509-512. - DOI: 10.1109/TGRS.1990.572934.
4. Ojala, T. Performance evaluation of texture measures with classification based on Kullback discrimination of distributions / T. Ojala, M. Pietikainen, D. Harwood // Proceedings of the 12th IAPR International Conference on Pattern Recognition (ICPR 1994). - 1994. - Vol. 1. - P. 582-585. -DOI: 10.1109/ICPR.1994.576366.
5. Ojala, T. A comparative study of texture measures with classification based on feature distributions / T. Ojala, M. Pie-tikinen, D. Harwood // Pattern Recognition. - 1996. - Vol. 29, Issue 1. - P. 51-59. - DOI: 10.1016/0031-3203(95)00067-4.
6. Pietikainen, M. Computer vision using local binary patterns / M. Pietikainen, A. Hadid, G. Zhao, T. Ahonen. -London: Springer-Verlag, 2011. - 212 p. - ISBN: 978-085729-747-1.
7. Local binary patterns: New variants and applications / ed. by S. Brahnam, C. Lakhmi, L. Nanni, A. Lumini. - Berlin, Heidelberg: Springer-Verlag, 2014. - 271 p. - ISBN: 978-3642-39288-7.
8. Ojala, T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns / T. Ojala, M. Pietikainen, T. Maenpaa // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2002 - Vol. 24, Issue 7. - P. 971-987. - DOI: 10.1109/TPAMI.2002.1017623.
9. Kuznetsov, A. A copy-move detection algorithm using binary gradient contours / A. Kuznetsov, V. Myasnikov. - In book: Image Analysis and Recognition / ed. by A. Campil-ho, F. Karray. - Springer International Publishing Switzerland, 2016. - P. 349-357. - DOI: 10.1007/978-3-319-41501-7_40.
10. Гончаров, A.B. Исследование свойств знакового представления изображений в задачах распознавания образов / A.B. Гончаров // Известия ЮФУ. Технические науки. - 2009. - Тематический выпуск. - С. 178-188.
11. Гончаров, A.B. Распознавание лиц на основе многомасштабного знакового представления изображений / A.B. Гончаров // Цифровая обработка сигналов. - 2010. - Т. 1. - С. 10-13.
12. Каркищенко, А.Н. Исследование устойчивости знакового представления изображений / А.Н. Каркищенко, А. В. Гончаров // Автоматика и телемеханика. - 2010. -Т. 9. - С. 57-69.
13. Каркищенко, А.Н. Геометрия знакового представления изображений и её приложение к исследованию устойчивости к шумам / А.Н. Каркищенко, A.B. Гончаров. -Международная конференция Интеллектуализация обработки информации (ИОИ-8): Сборник докладов. М.: МАКС Пресс, 2010. - С. 335-339.
14. Броневич, А.Г. Анализ неопределенности выделения информативных признаков и представлений изображений / А.Г. Броневич, А.Н. Каркищенко, А.Е. Лепский // М.: Физматлит, 2013. - 320 с. - ISBN: 978-5-9221-1499-8.
a LBP/знаковое представление Предлагаемый подход
0 1 : 1 1 : 1
0,25 0 : 0 0,833 : 1
0,5 0 : 0 0,833 : 1
0,75 0 : 0 0,833 : 1
1,00 0 : 0 1 : 0,6
1,5 0 : 0 1 : 0,6
2,0 0 : 0 1 : 0,6
2,5 0 : 0 0 : 0
15. Мясников, В.В. Локальное порядковое преобразование цифровых изображений / В.В. Мясников // Компьютерная оптика. - 2015. - Т. 39, № 3. - С. 397-405. - DOI: 10.18287/0134-2452-2015-39-3-397-405.
16. Пытьев, Ю.П. Методы морфологического анализа изображений / Ю.П. Пытьев, А.И. Чуличков. - М.: Физ-матлит, 2010. - 336 с. - ISBN: 978-5-9221-1225-3.
17. Визильтер, Ю.В. Реляционные модели формы изображений и метрики их сравнения / Ю. В. Визильтер,
A.Ю. Рубис, В.С. Горбацевич // 9-я международная конференция "Интеллектуализация обработки информации": Сборник докладов. - 2012. - С. 410-414.
18. Леонтьев, В. Устойчивость задачи коммивояжера //
B. Леонтьев // Журнал вычислительной математики и
математической физики. - 1975. - Т. 15, № 5. -C. 1298-1309.
19. Гордеев, Э.Н. Сравнение трёх подходов к исследованию устойчивости решений задач дискретной оптимизации и вычислительной геометрии / Э.Н. Гордеев // Дискретный анализ и исследование операций. -2015. - Т. 22, № 3. - C. 18-35. - DOI: 10.17377/daio.2015.22.461.
20. Kuznetsov, A.V. A fast plain copy-move detection algorithm based on structural pattern and 2D Rabin-Karp rolling hash / A.V. Kuznetsov, V.V. Myasnikov. - In book: Image Analysis and Recognition. 11th International Conference, ICIAR 2014 / ed. by A. Campilho, M. Kamel. - 2014. -P. 461-468. - DOI: 10.1007/978-3-319-11758-4 50.
Сведения об авторе
Мясников Владислав Валерьевич. В 1994 году окончил Самарский государственный аэрокосмический университет (СГАУ). В 1995 году поступил в аспирантуру СГАУ, в 1998 году защитил диссертацию на соискание степени кандидата технических наук, а в 2008 - диссертацию на соискание степени доктора физико-математических наук. В настоящее время работает профессором кафедры геоинформатики и информационной безопасности Самарского национального исследовательского университета имени академика С.П. Королева и одновременно ведущим научным сотрудником в Институте систем обработки изображений РАН - филиале ФНИЦ «Кристаллография и фотоника» РАН. Круг научных интересов включает компьютерное зрение, распознавание образов и искусственный интеллект, искусственные нейронные сети, цифровую обработку сигналов и изображений, геоинформатику. Имеет более 200 публикаций, в том числе более 100 статей и две монографии (в соавторстве). Член Российской ассоциации распознавания образов и анализа изображений. Страница в интернете: http://www.ssau.ru/staff/62061001-Myasnikov-Vladislav-Valerevich . E-mail: [email protected] .
ГРНТИ: 28.23.15
Поступила в редакцию 11 ноября 2018 г. Окончательный вариант - 20 ноября 2018 г.
DESCRIPTION OF IMAGES USING A CONFIGURATION EQUIVALENCE RELATION
V.V. Myasnikov 12
1 Samara National Research University, Moskovskoye shosse 34, 443086, Samara, Russia ;
2IPSI RAS - Branch of the FSRC "Crystallography and Photonics" RAS, Molodogvardeyskaya 151, 443001, Samara, Russia
Abstract
An approach to constructing a description of data and images based on the search for an optimal configuration (permutation) of their components (pixels, regions, feature vectors, etc.) is proposed. The quality criterion of the configuration, which may be selected in accordance with the application, determines the concept of optimal configuration. With specific configurations, the whole set of analyzed data / images is broken down into equivalent subclasses characterized by identical descriptors. Issues of invariant description, robustness of the proposed presentation, and the relationship of the proposed approach with the existing ones (Local Binary Patterns (LBP) and image representation by sign data) are considered. By way of illustration, an applied problem is solved using the proposed approach.
Keywords: description of digital images, relations, rearrangement, configuration, local binary patterns, sign representation of images.
Citation: Myasnikov VV. Description of images using a configuration equivalence relation. Computer Optics 2018; 42(6): 998-1007. DOI: 10.18287/2412-6179-2018-42-6-998-1007.
Acknowledgements: The work was funded by the Russian Foundation for Basic Research under research projects Nos. 18-01-00748, 17-29-03190 ("Basic theoretical propositions of the proposed data presentation") and the RF Ministry of Science and Higher Education within the State assignment to the FSRC «Crystallography and Photonics» RAS under agreement 007-G3/Ch3363/26 ("Image Description Construction").
References
[1] Soifer VA, ed. Computer image processing, Part II: Methods and algorithms. Saarbrücken: VDM Verlag; 2009. ISBN: 978-3639175455.
[2] Ballard DH, Brown CM. Computer vision. Englewood Cliffs, NJ: Prentice-Hall Inc, 1982. ISBN: 978-0-13165316-0.
[3] He D-C, Wang L. Texture unit, texture spectrum, and texture analysis. IEEE Transactions on Geoscience and Re-
mote Sensing 1990; 28(4): 509-512. DOI: 10.1109/TGRS.1990.572934.
[4] Ojala T, Pietikainen M, Harwood D. Performance evaluation of texture measures with classification based on Kull-back discrimination of distributions. Proc ICPR 1994; 1: 582-585. DOI: 10.1109/ICPR.1994.576366.
[5] Ojala T, Pietikinen M, Harwood D. A comparative study of texture measures with classification based on feature distributions. Pattern Recognition 1996; 29(1): 51-59. DOI: 10.1016/0031-3203(95)00067-4.
[6] Pietikainen M, Hadid A, Zhao G, Ahonen T. Computer vision using local binary patterns. London: Springer-Verlag; 2011. ISBN: 978-0-85729-747-1.
[7] Brahnam S, Lakhmi C, Nanni L, Lumini A, eds. Local binary patterns: New variants and applications. Berlin, Heidelberg: Springer-Verlag; 2014. ISBN: 978-3-642-39288-7.
[8] Ojala T, Pietikainen M, Maenpaa T. Multiresolution grayscale and rotation invariant texture classification with local binary patterns. IEEE Trans Pattern Anal Mach Intell 2002; 24(7): '971-987. DOI: 10.1109/TPAMI.2002.1017623.
[9] Kuznetsov A, Myasnikov V. A copy-move detection algorithm using binary gradient contours. In: Campilho A, Karray F, eds. Image Analysis and Recognition. Springer International Publishing Switzerland; 2016: 349-357. DOI: 10.1007/978-3-319-41501-7_40.
[10] Goncharov AV. Investigation of the properties of images sign representation in the pattern recognition problems [In Russian]. Izvestiya SFedU, Engineering Sciences 2009; Thematic issue: 178-188.
[11] Goncharov AV. Face recognition on the basis of sign-based image representation [In Russian]. Digital signal processing 2010; 1: 10-13.
[12] Karkishenko AN, Goncharov AV. Stability investigation of the sign representation of images. Autom Remote Con-
trol 2010; 71(9): 1793-1803. DOI: 10.1134/S0005117910090043.
[13] Karkishchenko AN, Goncharov AV. Geometry of sign representation of images and its application to noise resistance investigation [In Russian]. Intelligent Data Processing: Theory and Applications (IDP-2010): 335-339.
[14] Bronevich AG, Karkishchenko AN, Lepskiy AN. Uncertainty analysis of extracting features and representations from images [In Russian]. Moscow: "Fizmatlit" Publisher; 2013. ISBN: 978-5-9221-1499-8.
[15] Myasnikov VV. A local order transform of digital images. Computer Optics 2015; 39(3): 397-405. DOI: 10.18287/0134-2452-2015-39-3-397-405.
[16] Pyt'ev YuP, Chulichkov AI. Morphological methods for image analysis [In Russian]. Moscow: "Fizmatlit" Publisher; 2010. ISBN: 978-5-9221-1225-3.
[17] Vizilter YuV, Rubis AYu, Gorbatsevich VV. Form relational models of images and comparison metrics [In Russian]. Intelligent Data Processing: Theory and Applications 2012: 410-414.
[18] Leont'ev V. Stability of the travelling salesman problem. USSR Computational Mathematics and Mathematical Physics 1975; 15(5): 199-213. DOI: 10.1016/0041-5553(75)90116-0.
[19] Gordeev EN. Comparison of three approaches to studying stability of solutions to problems of discrete optimization and computational geometry. Journal of Applied and Industrial Mathematics 2015; 9(3): 358-366. DOI: 10.1134/S1990478915030072.
[20] Kuznetsov AV, Myasnikov VV. A fast plain copy-move detection algorithm based on structural pattern and 2D Rabin-Karp rolling hash. In: Campilho A, Kamel M, eds. Image Analysis and Recognition: 11th International Conference: ICIAR 2014: 461-468. DOI: 10.1007/978-3-319-11758-4 50.
Author's information
Vladislav Valerievich Myasnikov, graduated (1994) from the S.P. Korolyov Samara State Aerospace University (SSAU). He received his PhD in Technical Sciences (1998) and DrSc degree in Physics & Maths (2008). Currently he works as a professor at the Geoinformatics and Information Security department in Samara National Research University and, at the same time, as a leading researcher at the Institute of Image Processing Systems of the Russian Academy of Sciences, a branch of the Russian Academy of Sciences "Crystallography and Photonics" RAS. The range of scientific interests includes computer vision, pattern recognition and artificial intelligence, artificial neural networks, digital processing of signals and images, and geoinformatics. He has about 200 publications, including more than 100 articles and two monographs (in co-authorship). He is a Member of the Russian Association for Pattern Recognition and Image Analysis. http://www.ssau.ru/staff/62061001-Myasnikov-Vladislav-Valerevich. E-mail: [email protected] .
Received November 11, 2018. The final version - November 20, 2018.