Научная статья на тему 'Быстрый локальный дескриптор для категоризации изображений по типу сцены'

Быстрый локальный дескриптор для категоризации изображений по типу сцены Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
227
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КАТЕГОРИЗАЦИЯ СЦЕН / ЛОКАЛЬНЫЕ ДЕСКРИПТОРЫ / G-SURF / SURF / SCENE CATEGORIZATION / LOCAL DESCRIPTORS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Проскурин А. В.

Предложен метод Fast Dense Gauge Speeded-Up Features, вычисляющий набор локальных дескрипторов для всего изображения. Представлены экспериментальные результаты сравнения предложенного дескриптора с дескрипторами G-SURF и SURF.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FAST LOCAL DESCRIPTOR FOR SCENE IMAGE CATEGORIZATION

The author presents the method called Fast Dense Gauge Speeded-Up Features for calculation set of local descriptors for the whole image. The experiments show that the presented method has comparable precision of scene categorization with G-SURF descriptor, while its calculation is several times faster.

Текст научной работы на тему «Быстрый локальный дескриптор для категоризации изображений по типу сцены»

References

1. Enzweiler M. Monocular Pedestrian Detection: Survey and Experiments. Pattern Analysis and Machine Intelligence. 2009. Pр. 2179-2195.

2. Freund Y. A Short Introduction to Boosting. Shannon Laboratory, USA. 1999. Рp. 771-780.

3. Matas J. AdaBoost. Center for Machine Perception / Czech Technical University. Prague. 2010. Рp. 67-78.

4. Viola P., Jones M. J. Robust real-time face detection // International Journal of Computer Vision. 2004. Vol. 57, no. 2, рp. 137-154.

5. Viola P., Jones M. J. Rapid object detection using a boosted cascade of simple feature // Conference on Computer Vision and Pattern Recognition (CVPR). 2001. Рр. 511-518.

6. Caltech Pedestrian Detection Benchmark. Available at: http://www.vision.caltech.edu/Image_ Datasets (accessed: 10.6.2015).

© Петров А. С., 2015

УДК 004.932

БЫСТРЫЙ ЛОКАЛЬНЫЙ ДЕСКРИПТОР ДЛЯ КАТЕГОРИЗАЦИИ ИЗОБРАЖЕНИЙ

ПО ТИПУ СЦЕНЫ

А. В. Проскурин

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

Предложен метод Fast Dense Gauge Speeded-Up Features, вычисляющий набор локальных дескрипторов для всего изображения. Представлены экспериментальные результаты сравнения предложенного дескриптора с дескрипторами G-SURF и SURF.

Ключевые слова: категоризация сцен, локальные дескрипторы, G-SURF, SURF.

FAST LOCAL DESCRIPTOR FOR SCENE IMAGE CATEGORIZATION

A. V. Proskurin

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: [email protected]

The author presents the method called Fast Dense Gauge Speeded-Up Features for calculation set of local descriptors for the whole image. The experiments show that the presented method has comparable precision of scene categorization with G-SURF descriptor, while its calculation is several times faster.

Keywords: scene categorization, local descriptors, G-SURF, SURF.

Активное распространение цифровых устройств со встроенными видеокамерами привело к экспоненциальному увеличению количества изображений, доступных пользователям в сети Интернет. Для изучения истории развития летательных аппаратов по снимкам необходимо провести автоматическую категоризацию изображений по типу сцены. Большинство алгоритмов, предложенных для решения данной проблемы, основано на представлении изображений в виде наборов визуальных слов (Bag-of-Visual-Words, BoVWs) [1], для формирования которых требуется вычисление локальных дескрипторов, таких как Speeded-Up Robust Features (SURF) [2]. В работе [3] было показано, что при категоризации изображений по типу сцены вычисление дескрипторов с использованием регулярной сетки эффективнее по сравнению с другими

детекторами. При этом увеличение пересечения областей, на которых вычисляются дескрипторы, повышает точность категоризации. Однако это приводит к значительному увеличению вычислительных затрат. Для решения этой проблемы в данной работе предложен метод Fast Dense Gauge Speeded-Up Features (FDG-SUF), являющийся модификацией дескриптора Gauge Speeded-Up Robust Features (G-SURF) [4] и вычисляющий набор локальных дескрипторов для всего изображения. Рассмотрим его подробнее.

Алгоритм FDG-SUF состоит из двух этапов: вычисление матрицы частей дескрипторов M и построение с ее помощью набора локальных дескрипторов. На первом этапе все изображение I разделяется сеткой на ячейки размером 5s х 5s пикселей, где s - масштаб. После этого в каждой ячейке для 5 х 5 равно-

Решетнеескцие чтения. 2015

мерно распределенных точек вычисляются вектор градиента w и перпендикулярный к нему вектор у: ( дЬ (р, с) дЬ (р, с)

w =

sj-Lc (p, О) + Ly (p, G)

dx dy

(Lx (p, G), Ly (p, G))

(1)

v =

dL (p, g ) dL (p, g )

дУ

dx

px (p, G) + L2y (p, G)

•(Ly (p,G),-Lx (p,G)), (2)

где р(х, у) - точка в изображении I; ст - масштаб фильтра; Ьх (р, с) - свертка части изображения I в точке р с первой производной Гауссиана я(с):

Lx (p, G) = / (p)*|g (О).

(3)

Значение Ьу (р, с) вычисляется аналогично выражению (3).

Наибольший интерес представляют производные второго порядка выражений (1) и (2), использующие матрицы Гессе и обозначенные как Ь^ (р, с) и Ьуу (р, с):

'О3, с )= ГЦ. ТИ- ^ (Ьх (P, с) ЬУ (P, с )х

L,,

Lvv (p, G) =

L2x (p, о) + L2y (p, g) 'Lxx (p, G) Lxy (p, О)VLx (p, G)

vLyx (p, G) Lyy (p, G),JtLy (p, G) 1

(4)

)(Ly (p, G) - Lx (p, G))X

(5)

Ь2х (р, с) + Ь2у (р, с) 'Ьхх (р, с) Ьху (р, с)У Ьу (р, с) чЬух (р, с) Ьуу (р, с),Л-Ьх (p, с)

Выражение (4), вычисляющее (р, с), содержит информацию об изменении градиента в направлении градиента, а выражение (5) для расчета Ь^ (р, с) часто используется как детектор «хребтов» («хребет» - это протяженный регион с приблизительно постоянной шириной и интенсивностью, точки которого являются локальными максимумами). Благодаря их использованию края на изображении остаются четкими, а текстура размывается, что является положительным фактором для снижения шумов.

На последнем шаге для каждой ячейки формиру-

ется вектор VD_p

образуя часть дескриптора. Полученные части дескриптора сохраняются в матрицу M.

На втором этапе алгоритма формируется набор локальных дескрипторов. Для этого по матрице M перемещается скользящее окно размером 4 х 4 ячейки. Каждый локальный дескриптор представляет собой объединение частей дескриптора, попавших в скользящее окно. Изменяя шаг смещения скользящего окна, можно существенно увеличить количество локальных дескрипторов, извлеченных из изображения, без значительных вычислительных затрат.

Для проверки предложенного метода использовался набор из 8 категорий сцен (далее - OT8) [5]. OT8 состоит из 2688 изображений, размер каждого изображения 256 х 256 пикселей. Для обучения из каждой категории случайным образом выбиралось по 100 изображений, остальные использовались для тестирования.

Проводилось сравнение локальных дескрипторов FDG-SUF, G-SURF и SURF. Для последних двух вычисления осуществлялись на точках интереса, поученных с помощью регулярной сетки и детектора «быстрый Гессиан». В случае FDG-SUF и регулярной сетки масштаб s равен 1, а сдвиг точек интереса составлял 5 пикселей.

Для формирования словаря визуальных слов из обучающей выборки случайным образом выбиралось 200 000 локальных дескрипторов, которые кластеризовались с помощью алгоритма ^-средних. В этой работе количество кластеров (визуальных слов) равно 400. С помощью словаря каждому изображению присваивалось BoVWs-описание. В качестве классификатора использовалась реализованная в библиотеке dlib [6] машина опорных векторов с пересечением гистограмм (Histogram Intersection) в качестве ядра.

Для экспериментов использовался компьютер с процессором Intel Core i5-2430M 2,4 ГГц и оперативной памятью Kingston 1333 МГц, DDR3 8 ГБ. Вычисления производились с использованием одного процессорного ядра. Все расчеты повторялись 5 раз, после чего результаты усреднялись (см. таблицу).

Как видно из приведенных данных, предложенный дескриптор FDG-SUF позволяет получить точность категоризации изображений по типу сцены, сопоставимую с дескриптором G-SURF, затрачивая в несколько раз меньше времени. В дальнейших работах планируется разработать быстрый алгоритм формирования визуальных слов, основанный на самоорганизующейся нейронной сети.

Сравнение локальных дескрипторов при категоризации набора OT8

х

Тип локального дескриптора Среднее количество вычисленных дескрипторов Среднее время вычисления дескрипторов, мс Точность категоризации, %

FDG-SUF 2 788 20,87 85,61

G-SURF (Сетка) 2 788 96,35 85,53

SURF (Сетка) 2 788 57,26 81,05

G-SURF (Гессиан) 207 15,78 74,38

SURF (Гессиан) 207 12,35 70,03

References

1. Zhang D., Islam Md. M., Lu G. A Review on Automatic Image Annotation Techniques // Pattern Recognition. 2012. Vol. 45, no. 1, pp. 346-362.

2. Bay H., Ess A., Tuytelaars T., Gool L.V. Speeded-Up Robust Features (SURF) // Computer Vision and Image Understanding. 2008. Vol. 110, no. 3, pp. 346-359.

3. Li F.-F., Perona P. A Bayesian Hierarchical Model for Learning Natural Scene Categories // Computer Vision and Pattern Recognition. 2005. Vol. 2, pp. 524-531.

4. Alcantarilla P. F., Bergasa L. M., Davison A. J. Gauge-SURF Descriptors // Image and Vision Computing. 2013. Vol. 31, no. 1, pp. 103-116.

5. Modeling the Shape of the Scene: a Holistic Representation of the Spatial Envelope. Available at: http://people.csail.mit.edu/torralba/code/spatialenvelope (accessed: 28.08.2015).

6. Dlib C++ Library. Available at: http://dlib.net (accessed: 28.08.2015).

© Проскурин А. В., 2015

УДК 004.932.2

ОБНАРУЖЕНИЕ ДЫМА НА ВИДЕОПОСЛЕДОВАТЕЛЬНОСТИ С ПРИМЕНЕНИЕМ ЛОКАЛЬНЫХ БИНАРНЫХ ШАБЛОНОВ В УСЛОВИЯХ ШУМА

А. В. Пятаева

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Визуальное обнаружение дыма на открытых пространствах имеет большое значение для раннего обнаружения задымлений и возгораний, в частности, на территории аэродромов. Изучено воздействие различных шумов на качество детектирования дыма.

Ключевые слова: детектирование дыма, шум, локальные бинарные шаблоны.

VIDEO-BASED SMOKE DETECTION USING LOCAL BINARY PATTERNS IN NOISE VODEOSEQUENCES

A. V. Pyataeva

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

Video-based smoke detection in outdoor spaces is particularly important for early warning systems because smoke usually rises before flames arise. The influence of different noise types on a quality of smoke detection is studied.

Keywords: smoke detection, noise, local binary pattern.

Видеоизображения, полученные в результате ви- В качестве фильтра размытия использован фильтр деосъемки в реальных условиях, могут включать ар- Гаусса. Фильтр размытия Гаусса основывается на тефакты, возникающие из-за помех оборудования или матрице свертки, которая заполняется нормализован-линии передачи информации, а также связанные с ными коэффициентами, полученными с помощью погодными условиями. В связи с этим возникает не- функции Гаусса двух переменных [1; 2]: обходимость проверки областей-кандидатов на дым, когда такие области уже выделены в видеопоследовательности. ' 2лст2

Рассмотрим алгоритмическую компенсацию где с - коэффициент пропорциональности размытия;

сложных погодных условий съемки при детектирова- х, y - расстояния от центрального элемента матрицы

нии дыма на видеопоследовательностях. до элемента, для которого рассчитывается коэффици-

Для имитации атмосферных осадков на изображе- ент по вертикали и горизонтали соответственно.

ние накладывался аддитивный белый гауссов шум. На Для повышения резкости изображения использо-

изображения был также наложен импульсный шум ван фильтр Лапласа. Дискретный лапласиан опреде-

типа «соль-перец», который возникает из-за проблем ляется как сумма вторых производных и аппроксими-

с оборудованием, а также может быть связан с ошиб- руется суммой перепадов на соседних пикселях отно-

ками при передаче изображений в 5,2, 7,01 и 10 дБ. сительно центрального пикселя:

_ х2 + у2

G( X, у) = -

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.