Научная статья на тему 'Модельно-ориентированный дескриптор поля градиента как удобный аппарат распознавания и анализа цифровых изображений'

Модельно-ориентированный дескриптор поля градиента как удобный аппарат распознавания и анализа цифровых изображений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
534
65
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦИФРОВЫЕ ИЗОБРАЖЕНИЯ / ДЕСКРИПТОРЫ / ПРИЗНАКИ / АНАЛИЗ / РАСПОЗНАВАНИЕ / ПОИСК / DIGITAL IMAGES / DESCRIPTORS / FEATURES / ANALYSIS / RECOGNITION / IMAGE RETRIEVAL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мясников Владислав Валерьевич

В работе предлагается новый дескриптор, используемый для описания цифрового изображения – модельно-ориентированный дескриптор поля градиента. Производные характеристики дескриптора, рассматриваемые как признаки цифрового изображения, позволяют эффективным образом решать задачи анализа, распознавания и поиска изображений. Представлены примеры решения таких задач с использованием предложенного дескриптора.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мясников Владислав Валерьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODEL-BASED GRADIENT FIELD DESCRIPTOR AS A CONVENIENT TOOL FOR IMAGE RECOGNITION AND ANALYSIS

In the paper we propose a new descriptor which is used to describe a digital image, specifically, a model-oriented descriptor of gradient field. Derived characteristics of the descriptor, that are considered as features of a digital image, allow to solve effectively the problems of image analysis, recognition and retrieval. The examples of such tasks solutions with the proposed descriptor are given.

Текст научной работы на тему «Модельно-ориентированный дескриптор поля градиента как удобный аппарат распознавания и анализа цифровых изображений»

МОДЕЛЬНО-ОРИЕНТИРОВАННЫЙ ДЕСКРИПТОР ПОЛЯ ГРАДИЕНТА КАК УДОБНЫЙ АППАРАТ РАСПОЗНАВАНИЯ И АНАЛИЗА ЦИФРОВЫХ ИЗОБРАЖЕНИЙ

Мясников В.В.

Институт систем обработки изображений РАН

Аннотация

В работе предлагается новый дескриптор, используемый для описания цифрового изображения - модельно-ориентированный дескриптор поля градиента. Производные характеристики дескриптора, рассматриваемые как признаки цифрового изображения, позволяют эффективным образом решать задачи анализа, распознавания и поиска изображений. Представлены примеры решения таких задач с использованием предложенного дескриптора.

Ключевые слова: цифровые изображения, дескрипторы, признаки, анализ, распознавание, поиск.

Введение

Локальные дескрипторы, вычисляемые для определённых зон интереса анализируемого изображения, - достаточно мощное современное средство решения широкого класса задач обработки, анализа, понимания и поиска цифровых изображений [1-6]. В настоящее время существует множество различных дескрипторов, которые условно можно разделить на следующие категории.

Дескрипторы на основе вероятностных распределений. Для этой категории дескрипторов фрагмент изображения используется для построения оценки некоторого распределения вероятностей. Наиболее простыми вариантами являются гистограмма распределения функции яркости в анализируемом фрагменте или гистограмма распределения расстояний между «особыми точками», найденными на этом фрагменте. Дескрипторы этой категории были предложены, в частности, Johnson и Hebert [7], Zabih и Woodfill [8] и другими авторами. Особую популярность за универсальность и качественные показатели в последнее время приобрели дескрипторы SIFT [9], HOG [3] и LESH [10], предложенные соответственно Lowe в 1999 году (SIFT - scale invariant feature transform), Dalal и Triggs в 2005 году (HOG-histogram of gradients) и Sarfraz и Hellwich в 2008 году (LESH -Local Energy based Shape Histogram). По принципу построения некоторые другие дескрипторы оказываются похожими на эти дескрипторы либо используют схожие подходы. В частности, геометрические гистограммы [11] и контекст формы [12] используют ту же идею, что и SIFT дескриптор, а GLOH (Gradient Location and Orientation Histogram) [2] - аналогичную дескриптору HOG.

Дескрипторы на основе спектрального и спектрально-частотного представления. Дескрипторы этого класса формируются как функции отсчётов спектрального или спектрально-частотного разложения анализируемого фрагмента изображения. Наиболее популярными способами построения дескрипторов этой категории являются использование фильтров Габора [4-6, 13] и вейвлетов [4-6, 14]. Другими популярными способами является использование Фурье-разложения [6], преобразований Радона

или Hough [4-6, 15, 16] степенных моментов или моментных инвариантов [4-6, 17-20] и др.

Дифференциальные дескрипторы. Дескрипторы этой категории рассчитываются как функции частных производных функции яркости анализируемого изображения. Такой способ описания анализируемого изображения использовали в своих работах Koenderink [21], Florack и соавторы [22], Freeman и Adelson [23] при построении управляемых фильтров (steerable filters), Baumberg [24], Schaffalitzky and Zisserman [25] и другие. В рамках рассматриваемой категории дескрипторов особо стоит отметить направление, связанное с использованием только фазовой составляющей градиента изображения - так называемого поля направлений [6, 26]. Использование только этой частичной информации позволяет достаточно эффективно анализировать особый тип изображений - изображения со структурной избыточностью, - к которым можно отнести широкий спектр медицинский изображений, микро- и нано-масштабные изображения [6, 26].

Следует дополнительно отметить, что использование вероятностно-статистического аппарата для последней рассмотренной категории дескрипторов -дифференциальных дескрипторов - переводит их из третьей категории в первую, что подчёркивает (как было указано в начале обзора) условный характер представленной классификации. Более подробный анализ дескрипторов, их категорий, а также их аналитическое сравнение и сравнение их эффективности при решении прикладных задач могут быть найдены в работах [1,2, 27] и других.

В настоящей работе предлагается новый тип дескриптора изображения, конструируемый на основе дифференциальных и вероятностных свойств локальной окрестности наблюдаемого изображения (комбинация первой и третьей рассмотренных категорий). Спецификой вводимого дескриптора является наличие априори заданного (или заранее определённого по обучающему множеству изображений) вероятностного распределения поля градиента, характеризующего модель анализируемого изображения и/или решаемую задачу. Значения компонент дескриптора для конкретного изображения (фрагмента) вычисляются как значения этой плотности вероятностей с аргументом в виде конкретного поля

градиента, то есть оказываются зависимы как от реализации (конкретного изображения), так и от модели (распределения вероятностей). Такая специфика расчёта дескриптора позволяет классифицировать его как модельно-ориентированного и использовать двумя способами. Во-первых, напрямую в решающем правиле классификатора, поскольку значение функции плотности на конкретной реализации -ключевая составляющая байесовского решающего правила [28]. Во-вторых, аналогично любым другим дескрипторам - в качестве численной характеристики некоторой локальной области изображения [2, 27, 29-30]. В этом случае для описания этой локальной области можно (и в ряде случаев - удобнее и численно проще) использовать не сами значения дескриптора, а некоторые их производные характеристики - признаки дескриптора.

Работа построена следующим образом. В первом разделе вводится предлагаемый модельно-ориентированный дескриптор поля градиента (MGFD - model-based gradient field descriptor). Во втором разделе предлагается ряд числовых признаков - производных характеристик, вычисляемых на основании значений введённого дескриптора. В третьем разделе представлена практически удобная для построения дескриптора модель градиентного поля с независимыми отсчётами, а также приведён ряд примеров с конкретными видами аналитических моделей. Показывается, что ряд известных способов обнаружения объектов на изображении (коррелятор, фазовая корреляция) оказываются частными случаями механизма расчёта признаков введённого дескриптора. Четвёртый раздел даёт краткое описание метода построения модели градиентного поля с зависимыми отсчётами. В пятом разделе предлагаются типовые способы построения алгоритмов обнаружения и распознавания на изображениях с использованием введённого дескриптора. В шестом разделе представлены примеры практических задач, решённых автором с использованием предложенного подхода. Наконец, в заключение работы приведены выводы, благодарности и список использованной литературы.

Модельно-ориентированный дескриптор поля градиента

Пусть f (tj, t2) - дифференцируемая функция яркости, определённая на области анализа

lit Ф \ - rmi^ ^ ^ ^max ^min ^ ^ ,, ^max 1т-) „ „

|(ti,t2): т < tj < T ,T2 < t2 < T2 j. В качестве области анализа может выступать как область определения изображения целиком, так и фрагмент этого изображения. Пусть далее Д - шаг дискретизации непрерывного изображения, область анализа цифрового изображения определим в виде:

g («ъ n2 vf (niA + T

dfl dti f dt2

2 A + T1min )=

(«1, «2 )6 D

D = J(«i,«2): 0<« <

rp max rp min

A

i = 1,2;

- цифровое поле градиента, в котором для каждого отсчёта анализируемого изображения хранится информация о модуле градиента |g «2) и его ориентации по отношению к осям координат arg(g(иь «2 )) .

Для цифрового изображения градиентное поле может быть получено с использованием любого известного способа, например, с использованием оператора Превитта [4-6]. Обозначим далее анализируемый фрагмент цифрового изображения целиком

как g = {g (ИЬ «2 )}(„1,„2 )ев •

Пусть далее G - случайное градиентное поле с плотностью вероятностей pq (•), характеризующей модель наблюдения и/или решаемую задачу.

Определение 1. Модельно-ориентированным дескриптором поля градиента g (дескриптором по

отношению к модели G ) называется вектор

' PG (g) ^ min PG (g)

max PG(g)

|g| (g)

min PG (g)

arg g

max PG (g)

arg g

mlnmin PG g

argg |g| . (1)

maxmm pg (g)

argg |g|

max min PG (g)

|g| argg

min max pq (g)

argg |g|

mmmax pG (g)

|g| arg g

maixmax pG (g)

|g| argg

Величина вида min PG (g) определяется как зна-

arg g

чение плотности pq (•) для экземпляра градиентного поля, в каждом отсчёте («i, «2) которого модуль градиента совпадает со значением модуля градиента g («1, «2) поля g , а фазовые значения градиентов подобраны таким образом, чтобы минимизировать значение плотности pq (•). Остальные величины

определяются аналогичным образом.

В соответствии с определением элементов дескриптора все они принимают значения в интервале

и определим

t2=и2А+Г",ш

min mm pG (g), max max pG (g)

argg argg

причём min min Pg (g) - 0 • Для них оказывается

|g| argg

справедливым ряд очевидных соотношений, в частности:

min pG (g) < pG (g) < max pG I

kl gl

min PG (g) < PG (g) < maX PG1

arg g arg g

(2а) (2б)

minmin pg (g )< min pG (g )< maxmin PG (g) (2в)

|g argg argg |g argg

и т.п.

На весь набор этих неравенств далее в тексте будем ссылаться как на соотношения (2).

Признаки модельно-ориентированного дескриптора поля градиента Признаками анализируемого поля градиента могут являться производные характеристики введённого дескриптора. Учитывая соотношения (2), их удобно определить как относительное положение величины (например, pg (g)) в интервале от её минимального до её максимального значения. Учитывая, что величины типа max min pg (g) характери-

|g| argg

зуют исключительно модель наблюдения, а не анализируемую реализацию g градиентного поля, получаем семь основных признаков следующего вида (здесь ф: R + ^ R - произвольная монотонно-возрастающая функция):

So — -

ф(Р0(g))-ф| ^PG(g)

л

f -If -V

ф m^xPG(g)1-ф minPG(g)

I \g\ J V \g\ ,

Si —-

ф(PG(g))-ф( minPG

V arg g

ф| max Pg I

arg g

- ф| min pg I

v arg g

S, —

ф(Р0 (g ))-ф| minmin PG (

Vargg |g|

(3а)

2 ~~T

\ (

max max pg I

|g argg

minmin PG (g)

Vargg |g| ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

S3 —

ф| minPG(g)1-ф

V arg g

min min pg\

argg g|

3 f ^ f v maxmin pG (g) -ф mmmm PG (g)

Ig argg J Vargg |g| ,

S4 —-

ф(maxPg (g))-ф[ minmaxpö (g)

\ arg g G v V arg g |g| G v /

ф( maxmaxpö (g))-ф

min max

Pö (g)

S5 —-

ф| min pg (g)] ■-Ф( m™ pG (g)

S6 —■

ф| maxmin Pg (g) )-ф( minmin pö (g)

V argg |g| J V argg |g|

maxPG (g))-ф(™f PG (g)

(3б)

ф( maxmaxpg (g) ]-ф

min max pö (g)

£ / V 818 £ 1®1

Введённые признаки $г- характеризуют степень похожести анализируемого градиентного поля на потенциально-возможные реализации случайного поля G (на модель). Большие значения означают большую похожесть, а меньшие - меньшую. При этом если , например, определяет степень схожести поля модуля градиента, то - степень схожести фазового рисунка и т.п. На всё множество этих признаков ниже будем ссылаться как на вектор

$ = ($0,$1, —,$6^ .

Выбор функции ф существенным образом зависит от вида плотности pG (•). Более того, на практике вместо признаков $г- может быть удобным использование «вторичных» признаков вида ~ = к($г-), где к : R[0,l]^ R - произвольная взаимнооднозначная функция. Следует, однако, отметить, что такая замена может уничтожить следующее очевидное, но очень полезное свойство исходных признаков.

Предложение 1.

V/ = 0,6 0 < $г < 1.

Это свойство позволяет относительно просто решать задачи параметрической настройки решающих правил, входящих в состав алгоритмов обнаружения и распознавания на изображениях (см. два заключительных раздела настоящей работы).

Модель градиентного поля с независимыми отсчётами

Пусть отсчёты поля градиента независимы. Тогда плотность вероятностей градиентного поля, характеризующая его вероятностную модель, запишется в виде:

PG (£)= П PG(n1,n2 )(£ (пЬ п2)), (4)

(«1,«2 )еВ

где PG(nln1 )(•) - плотность вероятностей градиента в

конкретном отсчёте (п1, П2) цифрового изображения. Используя различные способы задания плотности PG(nl п2 )(•), можно получать различные группы при-

aig g g

ф

знаков (в том числе известные). Заметим, что в отличие от широко распространённой практики работы с градиентным полем в HOG-дескрипторах [3, 27], функцию плотности PG(nl,n1)(') предлагается задавать

аналитически с точностью до некоторого числа неизвестных параметров. Параметрическая оценка плотности (оценка неизвестных параметров) может быть получена хорошо известными методом моментов или методом максимального правдоподобия [31].

Замечание 1. Дополнительным удобством модели с независимыми отсчётами является возможность упрощения вычислений в ситуации, когда рассчитываются дескрипторы по целому ряду областей, в том числе - перекрывающимся и/или являющимися объединением областей. В частности, для произвольных непересекающихся областей D1 и D2 справедливо соотношение:

рА и-2 (■) = рА (.)• Р-22 (■) .

Ниже мы рассмотрим несколько способов задания плотности PG(nl,n1 )(■), которые приводят либо к

известным результатам (признакам), либо были успешно использованы автором для решения реальных задач обнаружения и распознавания изображений. В последнем случае описание решённых прикладных задач представлено в заключительном разделе настоящей работы.

Пример 1. Амплитудное соответствие Зададим плотность вероятностей для отсчётов градиентного поля в виде

PG(n1,n2)(? (пЬ п2 )) =

)• exP

-(g (n1, «2 Ь^« ))2

0 < g (n1, n2 )< gmax; 0 |g(n1,n2)> gmax.

Здесь a(nj,n2) - масштабный множитель; P(ni,n2)

- величина, определяющая наиболее вероятное значение модуля градиента в соответствующем отсчёте изображения; g max - наибольшее значение для модуля градиента на изображении. Тогда

( \

PG (g)= A exP - Z(g(иЬ П2 )-P(n1;n2 ))2

I (n1,n2)

max PG (g) = A , ™ПPG (g)= A exP(— Дmax ),

где

A = (П ) a(«1,«2 ) , (Л« )

"max

X(max(ß(„1,„2),gmax -ß(„1,„2)))2 .

(«1,и2 )

Полагая функцию ф: R + ^ R в виде

ф(х) = lnj A

(5)

имеем

I( g (tl, t2 HfeA))

= 1 -.

Д max

Здесь, например, удобно взять

= I(g (t1, t2 )"P(ti,t 2 ))2, (tl,t2 )

и итоговый признак принимает легко интерпретируемый смысл: эта величина характеризует суммарное рассогласование модулей градиентов с величинами P(f1 ¡2), определяющими их наиболее вероятные значения. Здесь очевидна связь с обычным корреляционным способом обнаружения на изображении объекта по шаблону [6].

Пример 2. Фазовое соответствие

Пусть

PG(n1,n2 )(g(пЪ n2 )) =

a(n1,n2 )• exp[cos(arg g («ь n2 )-9(n1;n2))+ J

= - 0 < |g (nb n2g max;

0 |g(n1,n21> gmax.

Параметры g m

имеют тот же смысл,

Smax и a(nl,n2)

что и в первом примере; величина ф(П[,П2) определяет наиболее вероятное значение фазы градиента arg g (n1; П2) в соответствующем отсчёте изображения. Тогда

PG (g ) =

f

= A exp

Xfc0s(arg g («1, «2 )-Ф(«1,«2 ))+1]

("w

«2 )

max pg (g) = A exp(2|D|), min PG (g) = A . argg argg

Здесь D| = - мощность области D. Полагая

(«b« )

функцию ф в виде (5), имеем:

$=D z 1 Icos(arg g ("l, «2 )-Ф("1,"2))+1]

I I fo« )

и признак также приобретает легко интерпретируемый смысл: эта величина характеризует среднее согласование (по фазе) анализируемого поля градиента с полем наиболее вероятных направлений Ф^«). Данная величина удобна при анализе полей

направления [6, 26] в качестве показателя, определяющего их фазовую согласованность: чем больше величина $1, тем выше степень согласованности.

Пример 3. Амплитудная величина фазового соответствия

Зададим плотность вероятностей для отсчётов градиентного поля в виде

Ро(П1,П2)(?(пЪп2 )) =

С g (пь П2

^ (n1, п2 )■ 1

J(n1,n2 )• exP

cos

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

■Ф("1,п2)

0 \g(пЪ "2 )> g:

араметры g max, a(tb смысл, что и выше. Тогда

0 < \g(n1,"2)< gmax;

Параметры gmax , a(t1,t2) и Ф(^2) имеют тот же

PGI

= A exp

max PG (g ) = A exp arg g

i \ ZI g (nl' n21 cos(arg g (nb n2 )-ф(пьп2))

v(nl,n2) у

Г Л

ZI g (n1' n2 }

v(n1,n2) у

min ^G (g )= ^ .

arg g

Полагая функцию ф в виде (5), имеем признак следующего вида:

Z |g(n1' n21c0s(arg g(n1' n2 ) - Ф(п1,п2)) öl =-' ^

_ (t1,t2 )

Z|g(n1, П2 }

(п1,п2 )

Эта величина характеризует относительную суммарную величину проекции модуля градиента на наиболее вероятное его направление Ф^п ).

Пример 4. Амплитудно-фазовое соответствие Зададим плотность вероятностей для отсчётов градиентного поля в виде

Ро (П1,П2 )(? (n1, п2 )) =

a(n1,n2 )• exP

(6)

■(g(пЪ "2 )-ß(n1,n2 •

• |sin(arg g (nl, "2 )-Ф(п1,п2))

0 < |g(n1,"2)< gmax; |g(n1,"2}> gmax.

Значения всех параметров описаны выше. Тогда

- Z(g("b"2 Н(щ,"2

PG (g)_ A exp ("1,"2)

|sin(arg g (nl, "2 )-Ф("1,"2))

max pG (g) _ max pG (g) _ max max pG (gg) _

argg |g| argg |g|

_ min max pq (g) _ min max pq (g) _

|g| argg argg |g|

_ max min PG (g) _ max min pG (g) _ A,

argg |g| |g| argg

min PG (g)_ A exp

arg g

■ Z(g ^^ "2 )-ß("1,"2 ))2 ("1,"2 )

mn PG (g)_

|g|

_ A exp

- z fe )F lsin(arg g("1, "2 )-ф("1,"2 )) ("1,"2 )

min mmPG (g) = A exp[- Д max ].

argg Igl

Здесь ДI(nlXn2) = max(gmax -P(nb«2),P(n1,n2)). Также используя функцию ф в виде (5), представим весь набор признаков:

»0 = 1 -

Z (g (n1' n2 ) -P(n1;n2 )f |sin(arg g (nb n2 )- Ф(И1,И ("1,n2 )_

Z })2 Isin(argg(n1,n2)-Ф(»1,»2)) (n1'n2 ) S1 = 1 -

Z (g (n1' n2 ) -Р(и1,и2 ))2 |sin(arg g (nb n2 )-Ф(И1,„2 )) (n1,n2 )_

ö _ 1 -

A

^ Z

("1,"2 )

Z(g^"2) -P("1," ("1>"2 )

|g (n1, "2

-ß("1,"2 )

jarg g("Ъ "2 )-)

-Ф("1,"2 )

ö3 _ 1 --

A

— Z (g(n1,"2 )-ß("1,"2 =

("1,"2 )

ö4 _ ö6 _ 1, _ 1 -

z (А(п:П g (п1, п2 )-Ф(П„П2 )).

тах (П1;П2 )

Приведённые компоненты вектора признаков 9 совместно характеризуют согласованность анализируемого градиентного поля с моделью, выбранной в виде указанного распределения с параметрами.

Метод построения модели градиентного поля с зависимыми отсчётами Для построения модели градиентного поля с зависимыми отсчётами используем следующее представление функции плотности: К-1

PG(g)_ Z( П )Pq("1,"2)(g("1,"2)), к _0("1 ,"2 ) W 2/

(7)

где

плотность вероятностей

Ро (п1;П2 )(Я (п1, П2 ))

градиента в конкретном отсчёте (п1, П2 ) изображения для ^го «слоя» представления плотности, заданная аналитически с точностью до набора пара-

2

2

max

max

метров. В качестве такой «элементарной» плотности может выступать любая из плотностей, представленная в приведённых выше примерах 1-4. Более того, при таком представлении можно использовать

плотность

PkG (щ,п2 ("1, П2 ))

в виде, допускающем

независимость модуля и фазы градиента:

PG} (nbn2 )(g (п1, П2 )) =

= P|G(nbn2) (g(П1,"2 ))pargG(n„n2)(argg(n1,П2 )),

здесь

P|G(nbn2 )(g (n1, П2 )) -

плотность распределения

вероятностей модуля градиента,

• PtgG(n„n2 )(argg(n1,П2 )) P|G(nbn2)(g(П1,П2 )) -

плотность распределения вероятностей фазы градиента.

Параметрическая оценка плотности в виде (7) может быть получена различными способами. Наиболее удобным способом является использование ОМ-алгоритма (expectation-maximization, EM-algorithm) [32].

Замечание 2. Главная проблема использования модели (7) с зависимыми отсчётами заключается в необходимости решения относительно трудоёмкой в вычисленном плане (оптимизационной) задачи расчёта следующих элементов дескриптора:

mn PG (g ^ W PG (g), min PG (g), maX PG (g),

|g| |g| argg arg g

поскольку процесс их вычисления требуется проводить при каждом акте формирования дескриптора. В отличие от указанной четвёрки элементов, величины типа min min Pg (g) могут

|g| argg

быть вычислены один раз для принятой модели (7), то есть заблаговременно.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Использование модельно-ориентированного дескриптора поля градиента для распознавания и поиска изображений

Положительным свойством предложенного дескриптора и его признаков является относительная простота использования их для решения задач анализа, распознавания и поиска изображений, а также обнаружения и распознавания объектов на изображении. В частности, очевидным способом построения решающего правила является использование классической дискриминантной функции байесовского классификатора [28]: di (g ) = P )pG (i )(g),

где P(p.i), pg(i)(g) - соответственно, априорная вероятность i-го класса и соответствующее этому классу значение плотности вероятностей для анали-

зируемого поля градиента £ (первый компонент дескриптора). Несмотря на очевидность (и «наивность») такого решения, для некоторых задач (см. второй пример следующего раздела - обнаружение лица на изображении) его оказывается достаточно для получения требуемого качества обработки.

Более сложные решающие правила могут быть сконструированы на основе комбинаций решений отдельных «простых» классификаторов - экспертов, каждый из которых использует признаки дескриптора со своей подобласти. Таким образом, потенциальный классифицируемый фрагмент оказывается разбитым на подобласти (возможно, перекрывающиеся) - Di (/ = 0, I -1), и для каждой подобласти формируется её описание в виде дескриптора и/или его признаков $/ (/ = 0,I -1). Выбрав алгоритм классификации для каждого эксперта и метод его настройки, разработчик системы распознавания/анализа/поиска может далее использовать различные существующие стратегии комбинации их решений: голосование большинства или взвешенное голосование, решающий список (см. первый пример следующего раздела и работу [33]), алгоритм вычисления оценок [34], алгебру над алгоритмами [35], алгоритмы бустинга [29-30] и другие.

Примеры практических задач, решённых с использованием дескриптора поля градиента

Предложенный модельно-ориентированный дескриптор поля градиента и признаки, рассчитываемые на его основе, были использованы при разработке двух систем анализа изображений. Ниже они представлены как примеры использования предложенного подхода.

Пример 1. Целью первой системы было обнаружение легковых транспортных средств на цифровых изображениях оптического дистанционного зондирования Земли (ДЗЗ). Обрабатываемые изображения были получены путём аэрофотосъёмки, степень их пространственного разрешения соответствовала перспективным средствам космического ДЗЗ, допускающим съёмку с пространственным разрешением порядка 0,2 м (например, американский спутник GeoEye-2 допускает разрешение 0,25-0,3 м). При построении этой системы были использованы различные группы признаков (геометрические, текстурные, структурные). Но большинство признаков (более 80%) задавались как амплитудная величина фазового соответствия (см. пример 3) по специфическим областям объекта обнаружения (подход с комбинацией решений экспертов). В качестве решающего правила (для проверки гипотезы о наличии объекта), следуя предложению предыдущего раздела, выступал решающий список. Система обнаружения тестировалась на 30 изображениях городской застройки (разрешение снимков - 0,1 м), не входящих в состав обучающей выборки. Среднее число объектов, присутствующих на изображениях,

-35 штук. Пример работы предложенного метода приведён на рисунке ниже.

Полученные в результате эксперимента показатели качества обнаружения:

- вероятность верного обнаружения - 95 %,

- среднее число ложно обнаруженных объектов (в кадре) - 2,8.

Более подробное изложение метода обнаружения, положенного в основу разработанной системы, представлено в работе [33].

Рис. 1. Пример работы системы обнаружения легковых транспортных средств

Пример 2. Целью второй системы было обнаружение на цифровом изображении удостоверения личности лица его владельца. Задача усложнялась тем, что не вводилось ограничений на вид документа, на положение искомой фотографии, на тип «растрирования» при его печати; на фотографиях допускалось наличие бликов и засветки как следствий наложения на документ ламинирующего покрытия и неравномерности освещения; присутствовали элементы типографской печати на фотографии человека; допускалось радикальное различие в контрасте переднего (лица) и заднего плана и т.п.

В качестве основного элемента при построении решения был использован единственный признак $2, полученный для модели поля градиента (изображения

лица) в виде (7) с функциями плотности pG (п п )(•) в

виде (6). Вероятность верного обнаружения для разработанной системы (при допущении погрешности в определении местоположения лица и его линейных размерах в 20% и 30% соответственно) составила 98 %. Тестирование проводилось для 500 паспортов, только половина из которых российские.

Выводы и рекомендации

Предложен модельно-ориентированный дескриптор поля градиента, предназначенный для описания цифровых изображений, а также признаки дескриптора, позволяющие эффективным образом решать задачи анализа, распознавания и поиска изображений. На примерах решения реальных практических задач показана эффективность предложенного дескриптора и подхода к анализу изображений.

Дальнейшими направлениями работ являются:

- сравнение эффективности предложенного мо-дельно-ориентированного дескриптора поля градиента и его признаков с существующими решениями (HOG, SIFT и др.);

- разработка модификации дескриптора, инвариантной к преобразованиям подобия (сдвиг, поворот, масштаб) и/или аффинным преобразованиям;

- разработка моделей поля градиента, допускающих построение численно эффективных алгоритмов вычисления дескрипторов и классификации.

Благодарности Работа выполнена при частичной финансовой поддержке:

- грантов РФФИ, проекты 12-07-00021-а, 11-07-12060-офи-м-2011, 11-07-12062-офи-м-2011;

- программы фундаментальных исследований Президиума РАН «Фундаментальные проблемы информатики и информационных технологий», проект 2.12.

Литература

1. Schmid, C. Evaluation of interest point detectors /

C. Schmid, R. Mohr, C. Bauckhage // Int. Journal of Computer Vision. - 2000. - Vol. 37(2). - P. 151-172.

2. Mikolajczyk, K. A performance evaluation of local descriptors / K. Mikolajczyk, C. Schmid // IEEE Transactions on Pattern Analysis and Machine Intelligence. -2005. - Vol. 10(27), - P. 1615-1630.

3. Dalal, N. Histograms of Oriented Gradients for Human Detection / N. Dalal, B. Triggs // Proceedings of IEEE Conference Computer Vision and Pattern Recognition, San Diego, USA. - 2005. - P. 886-893.

4. Forsyth, D.A. Computer Vision: A Modern Approach /

D.A. Forsyth, J. Ponce. - New Jersey: Prentice Hall, 2002.

- 693 p.

5. Shapiro, L.G. Computer Vision / L.G.Shapiro, G.C.Stockman. - New Jersey: Prentice Hall, 2001. - 608 p.

6. Методы компьютерной обработки изображений. / М.В. Гашников, Н.И. Глумов, Н.Ю.Ильясова, В.В. Мясников [и др.], под общей ред. В.А. Сойфера. -2-е изд., испр. - М.: Физматлит, 2003. - 784 с.

7. Johnson, A. Object recognition by matching oriented points / A. Johnson, M. Hebert // Proceedings of the Conference on Computer Vision and Pattern Recognition, Puerto Rico, USA. - 1997. - P. 684-689.

8. Zabih, R. Non-parametric local transforms for computing visual correspondence / R. Zabih, J. Woodfill // Proceedings of the 3rd European Conference on Computer Vision, Stockholm, Sweden. - 1994. - P. 151-158.

9. Lowe, D. Distinctive image features from scale-invariant keypoints / D. Lowe // International Journal of Computer Vision. - 2004. - Vol. 2(60). - P.91-110.

10. Sarfraz, O. Head Pose Estimation in Face Recognition across Pose Scenarios / O. Sarfraz, S., Hellwich // Proceedings of VISAPP 2008, Int. conference on Computer Vision Theory and Applications, Madeira, Portugal. -2008. - P. 235-242.

11. Ashbrook, A. Robust recognition of scaled shapes using pairwise geometric histograms / A. Ashbrook, N. Thacker, P. Rockett, C. Brown // Proceedings of the sixth British Machine Vision Conference, Birmingham, UK. - 1995 -P. 503-512.

12. Belongie, S. Shape matching and object recognition using shape contexts / S. Belongie, J. Malik, J. Puzicha // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2002. Vol. 24(4). - P. 509-522.

13. Gabor, D. Theory of communication / D. Gabor // Journal I.E.E. - 1946. - Vol. 3(93). - P. 429-457.

14. Mallat, S. A Wavelet Tour of Signal Processing: The Sparse Way. Third Edition / S. Mallat. - Burlington, MA: Academic Press, 2009.

15. Deans, S.R. The Radon Transform and Some of Its Applications / S.R. Deans. - New York: John Wiley & Sons, 1983.

16. Duda, R.O. Use of the Hough Transformation to Detect Lines and Curves in Pictures/ R.O. Duda, P.E. Hart // Comm. ACM. - 1972. - Vol. 15. - P. 11-15.

17. Hu, M.K Visual Pattern Recognition by Moment Invariants / M.K. Hu // IRE Trans. Info. Theory. - 1962. -Vol. IT-8. - P. 179-187.

18. Gool, L. Affine/photometric invariants for planar intensity patterns / L. Gool, T. Moons, D. Ungureanu // Proceedings of the 4th European Conference on Computer Vision, Cambridge, UK. - 1996. - P.642-651.

19. Glumov, N.I. Polynomial bases for image processing in a sliding window / N.I. Glumov, V.V. Myasnikov, V.V. Ser-geyev // Pattern Recognition and Image Analysis. - 1994.

- Vol. 4(4). - P. 408-413. - ISSN: 1054-6618.

20. Flusser, J. Moments and Moment Invariants in Pattern Recognition / J. Flusser, T. Suk, B. Zitova. - Wiley & Sons Ltd, 2009. - 312 p.

21. Koenderink, J. Representation of local geometry in the visual system / J. Koenderink, A. Doorn // Biological Cybernetics, - 1987. - Vol. 55. - P. 367-375.

22. Florack, L. General intensity transformations and second order invariants / L. Florack, B. Romeny, J. Koenderink, M. Viergever // Proceedings of the 7th Scandinavian Conference on Image Analysis, Aalborg, Denmark. -1991. - P. 338-345.

23. Freeman, W. The design and use of steerable filters // W. Freeman, E. Adelson / IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1991. - Vol.13(9). -P. 891-906.

24. Baumberg, A. Reliable feature matching across widely separated views / A. Baumberg // Proceedings of the Conference on Computer Vision and Pattern Recognition, Hilton Head Island, South Carolina, USA. - 2000. - P. 774-781.

25. Schaffalitzky, F. Multi-view matching for unordered image sets / F. Schaffalitzky, A. Zisserman // Proceedings of the 7th European Conference on Computer Vision, Copenhagen, Denmark. - 2002. - P. 414- 431.

26. Храмов, А.Г. Метод поля направлений в анализе и интерпретации диагностических изображений: дис. на соискание ученой степени доктора технических наук по специальности 05.13.17 - Теоретические основы информатики / А.Г. Храмов. - Самара, 2006. -230 с.

27. Dalal, N. Finding People in Images and Videos. PhD Thesis, Institut National Polytechnique de Grenoble / N. Dalal. - Grenoble, 2006. - 135 p.

28. Fukunaga, K. Introduction to Statistical Pattern Recognition / K. Fukunaga. - 2nd ed. - New York: Academic Press, Inc, 1991.- 591 p.

29. Schapire, R. Boosting: Foundations and Algorithms / R. Schapire, Y. Freund - MIT Press, 2012. - 496 p.

30. Viola, P. Rapid Object Detection using a Boosted Cascade of Simple Features / P. Viola, M.J. Jones // Proceedings IEEE Conf. on Computer Vision and Pattern Recognition.

- 2001. - P. 511-518.

31. Cramer, H. Mathematical Methods of Statistics / H. Cramer.

- Princeton: Princeton University Press, 1999. - 575 p.

32. Dempster, A.P. Maximum Likelihood from Incomplete Data via the EM Algorithm / A.P. Dempster, N.M. Laird, D.B. Rubin // Journal of the Royal Statistical Society. Series B (Methodological). - 1977. - Vol. 39(1). - P. 1-38.

33. Мясников, В.В. Метод обнаружения транспортных средств на цифровых аэрофото- и космических изображениях дистанционного зондирования Земли / В.В. Мясников // Компьютерная оптика. - 2012. -ISSN 0134-2452. (в печати).

34. Журавлев, Ю.И. Алгоритмы распознавания, основанные на вычислении оценок / Ю.И. Журавлев,

B.В. Никифоров // Кибернетика. — 1971. — N°3.

35. Zhuravlev, J.I. An algebraic approach to recognition or classifications problems / J.I. Zhuravlev // Pattern Recognition and Image Analysis. — 1998. — Vol. 8(1) — P. 59-100. - ISSN: 1054-6618.

References

1. Schmid, C. Evaluation of interest point detectors /

C. Schmid, R. Mohr, C. Bauckhage // Int. Journal of Computer Vision. - 2000. - Vol. 37(2). - P. 151-172.

2. Mikolajczyk, K A performance evaluation of local descriptors / K. Mikolajczyk, C. Schmid // IEEE Transactions on Pattern Analysis and Machine Intelligence. -2005. - Vol. 10(27). - P. 1615-1630.

3. Dalal, N. Histograms of Oriented Gradients for Human Detection / N. Dalal, B. Triggs // Proceedings of IEEE Conference Computer Vision and Pattern Recognition, San Diego, USA. - 2005. - P. 886-893.

4. Forsyth, D.A. Computer Vision: A Modern Approach /

D.A. Forsyth, J. Ponce. - New Jersey: Prentice Hall, 2002.

- 693 p.

5. Shapiro, L.G. Computer Vision / L.G. Shapiro, G.C. Stockman. - New Jersey: Prentice Hall, 2001. - 608 p.

6. Methods of computer image processing. / M.V. Gashnikov, N.I. Glumov, N.U. Ilyasova, V.V. Myasnikov [et al]. - 2-nd edition, reviewed. - Moscow. : "Fizmatlit Publisher", 2003. - 784 p. - (In Russian).

7. Johnson, A. Object recognition by matching oriented points / A. Johnson, M. Hebert // Proceedings of the Conference on Computer Vision and Pattern Recognition, Puerto Rico, USA. - 1997. - P. 684-689.

8. Zabih, R. Non-parametric local transforms for computing visual correspondence / R. Zabih, J. Woodfill // Proceedings of the 3rd European Conference on Computer Vision, Stockholm, Sweden. - 1994. - P. 151-158.

9. Lowe, D. Distinctive image features from scale-invariant keypoints / D. Lowe // International Journal of Computer Vision. - 2004. - Vol. 2(60). - 91-110.

10. Sarfraz, O. Head Pose Estimation in Face Recognition across Pose Scenarios / O. Sarfraz, S. Hellwich // Proceedings of VISAPP 2008, Int. conference on Computer Vision Theory and Applications, Madeira, Portugal. - 2008. -P. 235-242.

11. Ashbrook, A. Robust recognition of scaled shapes using pair-wise geometric histograms / A. Ashbrook, N. Thacker, P. Ro-ckett, C. Brown // Proceedings of the sixth British Machine Vision Conference, Birmingham, UK. - 1995 - P. 503-512.

12. Belongie, S. Shape matching and object recognition using shape contexts / S. Belongie, J. Malik, J. Puzicha // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2002. - Vol. 24(4). - P. 509-522.

13. Gabor, D. Theory of communication / D. Gabor // Journal I.E.E. - 1946. - Vol. 3(93). - P. 429-457.

14. Mallat, S. A Wavelet Tour of Signal Processing: The Sparse Way / S. Mallat. - Burlington, MA: Academic Press, 2009.

15. Deans, S.R. The Radon Transform and Some of Its Applications / S.R. Deans. - New York: John Wiley & Sons, 1983.

16. Duda, R.O. Use of the Hough Transformation to Detect Lines and Curves in Pictures/ R.O. Duda, P.E. Hart // Comm. ACM. - 1972. - Vol. 15. - P. 11-15.

17. Hu, M.K Visual Pattern Recognition by Moment Invariants / M.K. Hu // IRE Trans. Info. Theory. - 1962. -Vol. IT-8. - P. 179-187.

18. Gool, L. Affine/photometric invariants for planar intensity patterns / L. Gool, T. Moons, D. Ungureanu // Proceedings of the 4th European Conference on Computer Vision, Cambridge, UK. - 1996. - P.642-651.

19. Glumov, N.I Polynomial bases for image processing in a sliding window / N.I. Glumov, V.V. Myasnikov, V.V. Ser-geyev // Pattern Recognition and Image Analysis. - 1994. - Vol. 4(4). - P. 408-413. - ISSN: 1054-6618.

20. Flusser, J. Moments and Moment Invariants in Pattern Recognition / J. Flusser, T. Suk, B. Zitova. - Wiley & Sons Ltd, 2009. - 312 p.

21. Koenderink, J. Representation of local geometry in the visual system / J. Koenderink, A. Doorn // Biological Cybernetics. - 1987. - Vol. 55. - P. 367-375.

22. Florack, L. General intensity transformations and second order invariants / L. Florack, B. Romeny, J. Koenderink, M. Vier-gever // Proceedings of the 7th Scandinavian Conference on Image Analysis, Aalborg, Denmark. - 1991. - P. 338-345.

23. Freeman, W. The design and use of steerable filters // W. Freeman, E. Adelson / IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1991. - Vol.13(9). -P. 891-906.

24. Baumberg, A. Reliable feature matching across widely separated views / A. Baumberg // Proceedings of the Conference on Computer Vision and Pattern Recognition, Hilton Head Island, South Carolina, USA. - 2000. - P. 774-781.

25. Schaffalitzky, F. Multi-view matching for unordered image sets / F. Schaffalitzky, A. Zisserman // Proceedings of the 7th European Conference on Computer Vision, Copenhagen, Denmark. - 2002. - P. 414- 431.

26. Khramov, A.G. Method of direction field for analysis and interpretation of diagnostic images. Doctoral thesis, speciality 05.13.17 - Informatics theoretical basis / A.G. Khramov. - Samara, 2006. - 230 p. - (In Russian).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

27. Dalal, N. Finding People in Images and Videos. PhD Thesis, Institut National Polytechnique de Grenoble / N. Dalal. - Grenoble, 2006. - 135 p.

28. Fukunaga, K. Introduction to Statistical Pattern Recognition / K. Fukunaga. - 2nd ed., - New York: Academic Press, Inc, 1991. - 591 p.

29. Schapire, R. Boosting: Foundations and Algorithms / R. Schapire, Y. Freund. - MIT Press, 2012. - 496 p.

30. Viola, P. Rapid Object Detection using a Boosted Cascade of Simple Features / P. Viola, M.J. Jones // Proceedings IEEE Conf. on Computer Vision and Pattern Recognition,

- 2001. - P. 511-518.

31. Cramer, H. Mathematical Methods of Statistics / H. Cramer.

- Princeton: Princeton University Press, 1999. - 575 p.

32. Dempster, A.P. Maximum Likelihood from Incomplete Data via the EM Algorithm / A.P. Dempster, N.M. Laird, D.B. Rubin // Journal of the Royal Statistical Society. Series B (Methodological). - 1977. - Vol. 39(1). - P. 1-38.

33. Myasnikov, V.V. Methods of vehicle detection on the aero and space images of Earth remote sensing / V.V. Myasnikov // Computer Optics. - 2012. - ISSN 0134-2452. - (in printing, in Russian).

34. Zhuravlev, J.I Pattern recognition algorithms, based on valuation calculation / J.I. Zhuravlev, V.V. Nikiforov // Cybernetics. — 1971. — N°3. - (In Russian)/

35. Zhuravlev, J.I An algebraic approach to recognition or classifications problems / J.I. Zhuravlev // Pattern Recognition and Image Analysis. — 1998. — Vol. 8(1) — P. 59-100. - ISSN: 1054-6618.

MODEL-BASED GRADIENT FIELD DESCRIPTOR AS A CONVENIENT TOOL FOR IMAGE RECOGNITION AND ANALYSIS

V. V. Myasnikov Image Processing Systems Institute of the RAS

Abstract

In the paper we propose a new descriptor which is used to describe a digital image, specifically, a model-oriented descriptor of gradient field. Derived characteristics of the descriptor, that are considered as features of a digital image, allow to solve effectively the problems of image analysis, recognition and retrieval. The examples of such tasks solutions with the proposed descriptor are given.

Key words: digital images, descriptors, features, analysis, recognition, image retrieval.

Сведения об авторе Мясников Владислав Валерьевич см. стр. 584 этого номера.

Поступила в редакцию 27 сентября 2012 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.