Научная статья на тему 'Устойчивый метод поиска изображений в визуальных базах данных'

Устойчивый метод поиска изображений в визуальных базах данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
132
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КАДРИРОВАНИЕ / ДЕКАДРИРОВАНИЕ / ДЕСКРИПТОР ИЗОБРАЖЕНИЯ / КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Максимов Н. А., Синча Д. П.

Значительный интерес к беспилотным летательным аппаратам в последнее время усилил необходимость создания эффективной системы распознавания изображений [1]. В отличие от других систем распознавания образов (систем биометрической идентификации, систем распознавания лиц, систем распознавания документов и т.д.), непосредственным объектом, подлежащим классификации (распознаванию) в данном случае, является само изображение, которое, естественно, может быть искажено различными факторами. В основе любой системы распознавания изображений лежат, главным образом, два алгоритма: алгоритм формирования дескриптора (индекса) изображения (т.е. организованной совокупности признаков изображения) и алгоритм оценки степени сходства двух изображений по их дескрипторам. Достаточно перспективный вариант этих алгоритмов представлен в данной статье

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Максимов Н. А., Синча Д. П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Устойчивый метод поиска изображений в визуальных базах данных»

© H.A. Максимов, Д.П. Синча, 2012

УЛК 519.92

H.A. Максимов, Д.П. Синча

УСТОЙЧИВЫЙ МЕТОД ПОИСКА ИЗОБРАЖЕНИЙ В ВИЗУАЛЬНЫХ БАЗАХ ДАННЫХ

Значительный интерес к беспилотным летательным аппаратам в последнее время усилил необходимость создания эффективной системы распознавания изображений [1]. В отличие от других систем распознавания образов (систем биометрической идентификации, систем распознавания лиц, систем распознавания документов и т.д.), непосредственным объектом, подлежащим классификации (распознаванию) в данном случае, является само изображение, которое, естественно, может быть искажено различными факторами. В основе любой системы распознавания изображений лежат, главным образом, два алгоритма: алгоритм формирования дескриптора (индекса) изображения (т.е. организованной совокупности признаков изображения) и алгоритм оценки степени сходства двух изображений по их дескрипторам. Достаточно перспективный вариант этих алгоритмов представлен в данной статье. Ключевые слова: кадрирование, декадрирование, дескриптор изображения, коэффициент корреляции.

Сушествуюшие методы распознавания поиска изображений в визуальных базах данных узко специализированы и используют, как правило, различные эвристические методы, соответствуюшие специфике практического применения. [2, 3]. В большинстве случаев для индексирования изображений используют цветовые характеристики изображений, в частности цветовые гистограммы, форму объектов и некоторые другие признаки [3, 4]. Однако такого рода признаки становятся малоэффективными, если искомое и эталонное изображение достаточно сильно отличаются из-за помех, изменения масштаба, кадрирования или изменения яркости. В этой связи встает задача создания эффективных алгоритмов индексирования цветных (полутоновых) изображений и алгоритмов сравнения эталонных и предъявляемых изображений.

Постановка залачи

Поставим задачу следуюшим образом. Имеется коллекция (произвольного объема) растровых неповторяюших-ся изображений произвольной тематики. Иными словами, имеется база данных изображений-эталонов. Каждое изображение может иметь произвольное пространственное разрешение (желательно не ниже 100x100 пикселей) и произвольную глубину цве-та/битность (желательно не ниже 8 бит/пиксель). Каждое изображение коллекции может быть как цветным, так и не цветным. Изображения не содержат никакой сопутствуюшей информации (никаких ключевых слов, фраз на естественном языке или каких-либо иных метаданных). На изображения не нанесены водяные знаки. Каждое изображение базы формирует отдельный класс и является единственным представителем данного класса. Необходимо создать систему, на вход которой подается удовлетворяю-

шее вышеприведенным ограничениям изображение, которое может, как принадлежать, так и не принадлежать коллекции. Подаюшееся на вход системы изображение из коллекции может быть искажено одним или несколькими сле-дуюшими факторами:

• групповые помехи произвольной формы и размера,

• поворот,

• изменение масштаба,

• нелинейное изменение яркости,

• изменение разрешения,

• сдвиг,

• кадрирование/ декадрирование,

• зеркальное отображение.

Примеры некоторых из перечисленных искажений показаны на рис. 1.

Система должна правильно классифицировать входное изображение, т.е., либо отнести его к одному из классов (естественно, верному) (результат работы — представитель этого класса), либо резюмировать, что входное изображение не принадлежит ни к одному классу.

Иными словами, ставится задача создания системы распознавания изображений, которая принципиально сводится к созданию двух упомянутых выше алгоритмов.

Алгоритм формирования дескриптора изображения

Вследствие наличия искажаюших факторов необходимо разрабатывать такие признаки изображения, каждый из которых будет малочувствителен хотя бы к одному из рассматриваемых факторов. По этой же причине разрабатываемые признаки изображения должны, по крайней мере, слабо коррелировать, а лучше, если они будут иметь слабую статистическую взаимосвязь. Силу корреляционной взаимосвязи можно оценить посредством выборочной оценки коэффициента корреляции Пирсона [5]. Силу статистической взаимосвязи можно оценить

посредством величины средней взаимной информации [6]. Соответственно, дескриптор изображения в нашем случае — это просто вектор признаков.

Разработанный дескриптор изображения состоит из трех групп признаков. Первая группа признаков получается следуюшим образом. Исходное изображение преобразуется в полутоновое, если изначально таковым не являлось. Далее, используя метод выделения локальных двоичных микроструктур (метод ЬБР), полученное полутоновое изображение приводится к ЬБР-изображению, т.е. к такому изображению, в котором яркость каждого пикселя суть ЬБР-код (рис. 2).

Подробное описание метода ЬБР может быть найдено в [7]. Суть метода заключается в следуюшем (рис. 3). Вокруг каждого пикселя изображения (дс) описывается окружность радиуса К (в нашем случае К=1). Далее определяются яркости (I) Р точек (у нас Р=8), равномерно распределенных по окружности. Если точка совпадает с пикселем изображения (точки д0, д2, д4 и д6), то яркость этой точки есть яркость пикселя. В противном случае (точки д1, дз, д5 и д7) яркость точки получают посредством интерполяции по 4 соседям. Выбрав одну из Р точек в качестве начальной (до) и задав направление обхода (оба действия выполняются всегда единообразно), вычисляется величина, называемая ЬБР-кодом:

р-1

ЬБР(х, у) = X 5(I(др) -1(дс)) • 2р

р=0

, . Г1 при х > 0

5 (х) = 1 А А

[0 при х < 0

Предположим, что в качестве дескриптора исходного изображения выступает нормированная гистограмма соот-ветствуюшего ему ЬБР- изображения,

Рис. 1. Примеры изображений-эталонов (левый столбец) и их искаженных версий (правый столбец). Соответствующие искажающие факторы (сверху-вниз): нелинейное изменение яркости, групповые помехи, кадрирование, сдвиг, изменение масштаба, декадрирование

Рис. 2. Исходное 24-битное изображение (слева) и соответствующее ему 8-битное ЬБР-изображение (справа)

т.е. вектор размерности 256x1, каждый элемент которого есть частота появления соответствуюшего ЬБР-кода на ЬБР-изображении. Однако

такой дескриптор не будет эффективным при решении поставленной задачипо крайней мере, из-за двух причин.

Первая причина состоит в слишком большой размерности пространства признаков. Пусть некоторому пикселю д,- изображения поставлен в соответствие ЬБР-код ЬБР(д) = 31. Повернув изображение на 900 против часовой стрелки, получим ЬБР(д) = 124, а на 900 по часовой стрелке — ЬБР(д) = 199. Получить устойчивость (но не инвариантность) к повороту изображения можно, если сгруппировать ЬБР-коды и вычислять не частоты появления отдельных ЬБР-кодов, а суммы частот появления ЬБР-кодов каждой группы. Для приведенного примера группа будет следуюшей: {31, 62, 124, 143, 199, 227, 241, 248}. Таким образом, 256 признаков исходного изображения «сжимаются» до 36. Однако и такой дескриптор изображения недостаточно эффективен вследствие второй причины, которая сводится к учету редко появляюшихся ЬБИ-кодов. Продемонстрируем это на следуюшем примере. Сформируем объемную (V = 40000 изображений) коллекцию растровых неповторяюшихся изображений, применив к каждому из них метод ЬБР, и, построив в итоге совокупную нормированную гистограмму ЬБР-кодов (рис. 4), мы увидим, что большинство ЬБР-кодов появляются достаточно редко. Необходимо объединить все «редкие» коды в одну группу, что ведет к «сжатию» 36 признаков исходного изображения до 16.

Итак, пока мы характеризуем исходное изображение (рис. 4) 16 признаками — это предварительная первая группа искомых признаков. Также формируются предварительные вторая и третья группы искомых признаков (о них — далее). Окончательные группы искомых признаков получаются следуюшим образом. Пусть исходное изображение характеризуется N = N1 + N2 + N3 признаками. Вычислив для каждого изображения вышеупомя-

нутой коллекции (V = 40000) эти N признаков, получим матрицу объект-признак [8] размером 40000хМ Выбрав любые два столбца этой матрицы, и, воспользовавшись выборочным коэффициентом корреляции, можно оценить силу корреляционной взаимосвязи между соответствуюшими признаками. Если вместо выборочного коэффициента корреляции использовать среднюю взаимную информацию, то можно оценить силу статистической взаимосвязи между данными признаками. Построим две матрицы признак-признак размерами NxN. Каждый элемент первой матрицы — величина средней взаимной информации для соответствуюших признаков. Каждый элемент второй матрицы — величина выборочного коэффициента корреляции для соответствуюших признаков (т.н. корреляционная матрица). Совместный анализ обеих матриц определяет размерность и состав дескриптора исходного изображения N = N'1 + N'2 + N'3, N < N1).

Предварительные вторая и третья группы искомых признаков получаются посредством дальнейшей обработки ЬБР-изображения (смотри рисунок 2). При этом используется концепция линейно-симметрического изображения [9], введенная Джозефом Бигу-ном. На рисунке 5 приведены примеры линейно-симметрических (л-с) изображений. Упрошенно (точное определение смотри в [9]) можно определить л-с изображение, как «полосатое», т.е. каждое такое изображение выглядит, как группа параллельных друг другу «прямых» полос в обшем случае различных ширин и яркостей. Яркость в пределах полосы неизменна. Количество полос произвольно. Единичный вектор перпендикулярный всем полосам л-с изображения задает направление линейной симметрии этого изображения.

Рис. 3. Иллюстрация процесса получения ЬБР-кода для пикселя дс. Узлы сетки соответствуют пикселям изображения

Рис. 4. Совокупная нормированная гистограмма ЬБР-кодов

Невырожденное л-с изображение имеет два и только два (противоположных друг другу) направления линейной симметрии. Л-с изображения обладают следующим замечательным свойством. Если и только если изображение является линейно-симметрическим, его Фурье-спектр (а также амплитудный и энергетический спектры) сконцентрирован в прямую, проходящую через начало координат (т.н. центральную прямую) и задающую направления линейной симметрии этого изображения.

Можно получить два интересных признака изображения, аппроксимировав его л-с изображением. Процесс аппроксимации произвольного изо-

бражения л-с изображением эквивалентен процессу аппроксимации Фурье-спектра (или амплитудного спектра, или энергетического спектра) этого изображения центральной прямой. Задача аппроксимации — поиск такой ориентации центральной прямой, при которой ошибка аппроксимации будет минимальной (мы определяем ошибку посредством метода ортогональной регрессии [10]). Ориентация оптимальной (даюшей наименьшую ошибку) центральной прямой (угол а) и обеспечиваемый ею показатель качества аппроксимации (С) есть искомые (интересные) признаки изображения.

Рис. 5. (Верхняя строка) Два линейно-симметрических изображения (искусственные) (слева и в центре) и одно почти линейно-симметрическое изображение (реальное) (справа); Зеленые вектора задают направления линейной симметрии изображений. (Нижняя строка) Амплитудные спектры приведенных изображений

Каждый пиксель ЬБР-изображения рассматривается вместе со своей окрестностью, как отдельное (маленькое) изображение, для которого вычисляются признаки а и С. Нормированные гистограммы признаков а и С анализируются подобно тому, как было рассмотрено ранее, и «сжимаются» в предварительные вторую и третью группы искомых признаков.

Алгоритм оценки степени сходства двух изображений по их дескрипторам

Степень сходства р изображений 1т 2 и 1т 2, характеризуемых векторами признаков Д2 и 02 размерностью И', вычисляется следующим образом.

N

X 5.

p(ImpIm 2) =

j=i

N'

s j =

A,.- ad,

A..

-, если A j - adj > 0

0, иначе

AD = \Dl - D2

Здесь Д — вектор допусков, определяемых экспериментально.

Низкая сложность (O(nJ) рассмотренный алгоритмов, их естественная распараллеливаемость и обеспечиваемая ими высокая точность распознавания определяют эффективность построенной на их основании системы распознавания изображений «VARdi»[1], основные характеристики которой приведены ниже.

Конфигурации тестовых компьютеров:

Таблица 1

Время формирования дескриптора изображения в системе «VARdi»

Размер полноцветного (24-bit) изображения Время формирования дескриптора изображения (сек)

PC 1 PC 2

768x512 (1.125 Mb) 1.34 0.69

2048x1536 (9 Mb) 10.75 5.5

4096x2304 (27 Mb) 32.26 16.5

Таблица 2

Точность распознавания системы «VARdi» при различных искажающих факторах

Искажающий фактор Дополнительная информация Точность распознавания

Отсутствует — 1

Групповые помехи Искажение вплоть до 25 % площади изображения Не менее 0,93

Групповые помехи Искажение вплоть до 40 % площади изображения Не менее 0,75

Изменение масштаба Вплоть до 2.0 раз Не менее 0,9

Кадрирование Отсечение вплоть до 50 % площади изображения Не менее 0,95

Кадрирование Отсечение вплоть до 70 % площади изображения Не менее 0,88

Декадрирование Увеличение площади изображения не более чем на 50 % Не менее 0,97

Нелинейное Функции изменения яркости 0,99

изменение яркости изображения — гладкие и неубывающие

Сдвиг Искажение вплоть до 25 % площади изображения Не менее 0,98

Сдвиг Искажение вплоть до 50 % площади изображения Не менее 0,77

Изменение разрешения Вплоть до 3.2 раз Не менее 0,9

Зеркальное отображение Относительно горизонтальной, вертикальной или обеих осей 1

Поворот Угол поворота изображения произволен Не менее 0,84

PC 1: AMD Athlon 64 3000+(1.7 GHz) + 1GB RAM + Windows XP 32-bit PC 2: Intel Q6600 (2.4GHz) (использовалось одно ядро) + 4GB RAM + Windows XP 64-bit

Выводы и область применения Работоспособность программы «VARdi»провeрялась на различных

классах объектов — аэрофотоснимкам, снятым в разных ракурсах, с разных высот, при различном осве-шении, а также на портретах людей, снимках медицинского характера изображениях произвольного характера. Были получены хорошие результаты, во многих случаях даже превос-

i Надоели баннеры? Вы всегда можете отключить рекламу.