Научная статья на тему 'Построение архитектуры баз данных для задачи поиска изображений'

Построение архитектуры баз данных для задачи поиска изображений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
397
103
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОИСК ИЗОБРАЖЕНИЙ / КОМПЬЮТЕРНОЕ ЗРЕНИЕ / ТЕОРИЯ АКТИВНОГО ВОСПРИЯТИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Десятников Игорь Евгеньевич, Утробин Владимир Александрович

Рассмотрены существующие на сегодняшний день методы поиска изображений в базах видеоданных. Архитектуру баз данных для задачи поиска предлагается построить с помощью алгебры полных и замкнутых групп – элементов теории активного восприятия, разработанной на кафедре «Вычислительные системы и технологии» НГТУ им Р.Е. Алексеева. Разработаны алгоритмы поиска не только исходных, но также зашумлённых, отредактированных и испорченных изображений, разработан поиск похожих изображений, который по достоверности и производительности может конкурировать с существующими методами поиска изображений в сети Интернет. Приведены экспериментальные результаты, полученные для базы данных произвольных изображений размером около 2 млн объектов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Десятников Игорь Евгеньевич, Утробин Владимир Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATABASE ARCHITECTURE FOR IMAGE SEARCH AND RETRIEVAL

The article considers the currently existing methods of image search and retrieval in video databases. It is proposed to build the database architecture using the algebra of complete and closed groups as the elements of the active perception theory developed at the department of Computer Systems and Technologies of the R.E. Alekseev Nizhni Novgorod State Technical University. The developed algorithms can find not only original, but also noisy, edited, and corrupted images. We have also developed a method to search for similar images that can compete with existing image retrieval techniques on the Internet in terms of reliability and performance. The experimental results obtained for a database of arbitrary images with about 2 million objects are presented.

Текст научной работы на тему «Построение архитектуры баз данных для задачи поиска изображений»

Информационные технологии Вестник Нижегородского университета им. Н.И. Лобачевского, 2012, № 5 (2), с. 321-327

УДК 025.4.03

ПОСТРОЕНИЕ АРХИТЕКТУРЫ БАЗ ДАННЫХ ДЛЯ ЗАДАЧИ ПОИСКА ИЗОБРАЖЕНИЙ

© 2012 г. И.Е. Десятников, В.А. Утробин

Нижегородский государственный технический университет им. Р.Е. Алексеева

[email protected]

Поступила в редакцию 10.09.2012

Рассмотрены существующие на сегодняшний день методы поиска изображений в базах видеоданных. Архитектуру баз данных для задачи поиска предлагается построить с помощью алгебры полных и замкнутых групп - элементов теории активного восприятия, разработанной на кафедре «Вычислительные системы и технологии» НГТУ им Р.Е. Алексеева. Разработаны алгоритмы поиска не только исходных, но также зашумлённых, отредактированных и испорченных изображений, разработан поиск похожих изображений, который по достоверности и производительности может конкурировать с существующими методами поиска изображений в сети Интернет. Приведены экспериментальные результаты, полученные для базы данных произвольных изображений размером около 2 млн объектов.

Ключевые слова: поиск изображений, компьютерное зрение, теория активного восприятия.

Введение

За последние годы объем мультимедиаданных вырос в несколько раз. Все больше людей используют поиск изображений в сети Интернет для оформления своих презентаций, публикаций и просто для удовлетворения любопытства. При этом классифицированной является лишь незначительная часть этих изображений (в основном, это касается коммерческих баз данных). Для остальных же доступен только поиск по ключевым словам в сопутствующем тексте.

По некоторым подсчетам, количество изображений в сети Интернет на сегодняшний день составляет более 1012. Однако вся эта информация бесполезна без точного, удобного и быстрого поиска по ней.

Можно уверенно прогнозировать, что по мере расширения доступа к электронным архивам изображений и видео будет возрастать значимость поиска изображения по его содержанию. Для обоснования этого прогноза достаточно привести тот факт, что значительная часть информации, поступающей из окружающего мира, воспринимается нами именно в зрительной форме.

1. Методы поиска изображений

Все существующие на настоящий момент методы поиска графической информации можно разделить на два направления:

- поиск по содержанию (Content-Based Image Retrieval - CBIR);

- поиск по текстовым аннотациям (Description-Based Image Retrieval - DBIR).

В отличие от систем DBIR, системы поиска изображений по содержанию не требуют наличия какой-либо дополнительной информации об изображении. Поиск в таких системах проводится на основе анализа и сравнения низкоуровневых характеристик изображения, таких как цвет или текстура.

До недавнего времени традиционным считался поиск визуальной информации, опирающийся на индексирование текстовых описаний, ассоциированных с изображением. Однако поиск по текстовой информации имеет ряд недостатков.

Во-первых, необходимо, чтобы оператор вручную пометил все изображения ключевыми словами. Однако каждый день в глобальной сети Интернет появляется огромное количество новых изображений, и чтобы их проиндексировать, нужны громадные человеческие ресурсы.

Во-вторых, неоднозначность соответствия между визуальным содержанием и текстовым описанием снижает показатели точности и полноты поиска.

Наконец, еще один недостаток заключается в существовании изображений, которые вообще трудно описать словами (очевидный пример -абстрактные картины).

Совершенно иным методом решения задачи поиска в базе изображений является поиск по

визуальному подобию. В самом общем виде СВІЯ-система работает подобно любой другой поисковой системе - в два этапа. На первом этапе индексирования каждое изображение описывается и заносится в базу данных. Только в этом случае систему интересуют не ключевые слова или имена файлов, а определенные параметры самого изображения, анализируемые с помощью специальных алгоритмов. Обычно это уже названные выше параметры цвета, текстуры и очертаний. Полученные данные сохраняются в индексной базе. После этого можно вести поиск по определенным значениям таких параметров, сравнивать их между собой или с представленным системе изображением. Это уже второй этап - нахождение в базе изображений с близкими признаками - другими словами, визуально похожих. На этапе поиска свойства одной картинки сравниваются с аналогичными данными других изображений, хранящихся в индексной базе. Традиционная архитектура систем поиска изображений по содержанию представлена на рис. 1.

Интернет

Индексирование

Вычисление

сигнатур

Поиск по индексу

База данных

Рис. і. Архитектура систем поиска изображений

Задача поиска изображений в последние годы активно развивается и привлекает всё больше исследователей. Для проверки гипотезы о росте количества публикаций авторы провели простое упражнение. Мы искали публикации, содержащие в своей теме фразу «Image Retrieval» с помощью Google Scholar [і]. Результат исследования показан на рис. 2.

Активное развитие исследований в области поиска изображений связано в первую очередь с резко возросшим объемом обрабатываемой информации, с которой человек уже не справляется. Поэтому и повышается роль автоматизированных систем, которые будут выполнять задачу поиска.

Алгоритмы построения векторов признаков

и метрики, используемые для их сравнения, составляют основу любой системы. Все алгоритмы поиска по содержанию можно разделить на классы в зависимости от характеристики, которую использует тот или иной алгоритм: поиск по цвету [2, 3], по текстуре [4, 5], по форме [6]. Каждый из этих классов в свою очередь делится на подклассы по типу алгоритма построения вектора. Некоторые исследователи выделяют в отдельный класс пространственные признаки изображений [7, 8]. В качестве меры сходства или отличия чаще всего предлагается брать различные метрики. Сравнение мер расстояния, часто применяющихся для поиска изображений, проведено в [9].

Рис. 2. Количество публикаций по теме поиска изображений

Заметим, что большинство существующих алгоритмов ориентировано для поиска не зашумлённых изображений, т.е. поиск выполняется только для исходных изображений. В реальности же изображения могут быть зашумлены, немного отредактированы, часть изображения может быть просто потеряна.

Цель работы: разработать архитектуру базы данных и алгоритмы для выполнения поиска исходных, а также зашумлённых и похожих изображений. Итогом должна стать программная система для выполнения поиска в базах данных, размером более 1 млн объектов.

Требования к системе поиска:

- высокая производительность (малое время отклика системы на запрос);

- достоверность поиска (корректность результата);

- робастность к небольшим изменениям изображения (шумы, изменение яркости, повороты до 5 градусов и т.д.);

- поиск изображений, часть которых была потеряна или отредактирована;

- поиск похожих изображений.

2. Построение базы видеоданных

Ранее авторами был предложен метод вычисления признаков изображений [10]. Кратко данный метод состоит из двух этапов:

1) проводится дихотомия изображения как множества М на п равных частей и подсчитывается визуальная масса каждой из них - получаем матрицу | \ту\ | изображения;

2) на матрицу \ |тгу|| налагаются фильтры пространственного дифференцирования - получаем 15-мерный вектор ц. Полученный вектор и есть характеристика исходного изображения.

группы не изменяются, а только в некоторых случаях меняются местами.

Рис. 3. Схема информационных преобразований

По данному алгоритму для всех изображений вычисляется вектор и формируется база данных, содержащая изображения и их вектора. Для каждого изображения достаточно вычислить его вектор всего один раз - когда изображение попадает в коллекцию. Но в случае больших баз изображений (несколько миллионов) задача поиска в такой коллекции становится весьма сложной.

Предлагается сделать центрами классов изображений «полные» и «замкнутые» группы (см. теория активного восприятия [10, 11]) (рис. 4):

- полные (алгебраические) группы - Рпі, образованные на тройках операторов (V, V;, Ук), для которых справедливы соотношения: Vi + + Vj + V; = е1 - единица; ViVjVk - образ (на операции умножения) на планигоне и описание группы Рпі';

- замкнутые (алгебраические) группы - Ри,

образованные на четверке операторов V V, Vp, ^), где (V, V, V;) Є Рпі, (V,, Vm, V;) Є Р,;, с

описанием VlVj + VpVm (необходимое число инверсий операторов нечетно) и единицей - V + + V; + Гр + Ут = Є1.

В результате исследований на большой базе данных произвольных изображений было найдено, что данные группы устойчивы к воздействию шумов и редактированию изображений. То есть при небольших изменениях изображения максимальные по вкладу полные и замкнутые

2

а)

1

.

3

б)

Рис. 4. Примеры полных (а), замкнутых групп (б), представленных графами на решетке операторов, и один из их образов

На рис. 5 приведены результаты исследования устойчивости групп к воздействию аддитивных шумов и изменению яркости изображения.

На этапе формирования базы данных необходимо разделить все множество входных изображений на подмножества (классы). В теории активного восприятия показано, что существует всего 140 полных групп и 840 замкнутых групп (с учетом всех возможных инверсий). Вместе группы дают разбиение множества входных изображений на 140x840 = 117600 классов. Та-

кая архитектура базы данных дает возможность хранить и эффективно выполнять поиск на 1010 объектах.

Ниже представлены результаты разработанных алгоритмов для конфигурации ПК ЛМБ РЬепош II Х4 945 3 ГГц, 2Гб ОЗУ и размера ба-

Устойчивость замкнутых групп к аддитивному шуму

-Поиск в 1 гр. -Поиск в 2 гр. Поиск в 3 гр.

Коэффициент зашумления, %

Устойчивость полных групп к изменению яркости изображения

-Поиск в 1 гр -Поиск в 2 гр. Поиск в 3 гр.

Изменение яркости

Устойчивость замкнутых групп к изменению яркости изображения

-Поиске 1 гр. -Поиске 2гр. Поиске Згр.

Изменение яркости

Рис. 5. Устойчивость полных и замкнутых групп к воздействию шумов и изменению яркости изображени

3. Тестирование разработанных алгоритмов поиска

Пусть имеется база видеоданных N изображений и изображение, которое нужно найти. В процессе анализа возможных вариантов решения данной задачи был выбран двухэтапный подход поиска. Его суть заключается в постепенном сужении области поиска: на первом этапе отбираются изображения в количестве п (выборка производится по низкочастотным составляющим вектора исходного изображения), наиболее близкие к искомому в признаковом пространстве. На втором этапе все п отобранных портретов проходят более тщательное сравнение с исходным изображением. Критерием близости при этом является евклидово расстояние между векторами.

Описанные в данной статье алгоритмы были реализованы в виде законченного программного продукта. Описываемая ниже программа предназначена в первую очередь для экспериментальной проверки эффективности предложенного метода поиска, отладки и демонстрации их результатов.

зы данных около 2000000 объектов. База данных содержит изображения произвольного размера и содержания.

3.1. «Грубый» поиск. «Грубый» поиск по базе предназначен для поиска изображений, зашумлённых не более чем на 5% (аддитивный шум). Характеризуется большой скоростью поиска (за счет малой выборки объектов на первом этапе обработки).

Поиск изображения в данном режиме выполняется в среднем за 25 мс. Отметим, что скорость распознавания простого изображения мозгом человека составляет по разным оценкам 40-250 мс [12]. Это время необходимо кратковременной памяти человека, чтобы сравнить свое содержимое с запасами долговременной. Как видим, разработанный алгоритм даже превосходит возможности человеческого мозга.

3.2. Помехоустойчивый поиск. Помехоустойчивый поиск предназначен для поиска зашумлённых изображений, а также изображений с измененной яркостью, поворотом на небольшой угол (до 10°). Примеры таких изображений

представлены на рис. 6.

; - .

г)

Аддитивный шум

20 30 40 50

Процент зашумления

а)

Изменение яркости

100,0

90.0

80.0

70.0

60.0

50.0

40.0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

30.0

20.0 10,0

0,0

-50 -40 -30 -2

■Ґ—

-10 0 10 Изменение яркости

б)

Рис. 7. Результаты по алгоритму «Помехоустойчивый поиск изображения»: а) тестирование с воздействием аддитивного шума, б) тестирование с изменением яркости исходного изображения

3.3. «Многоуровневый» поиск

Данный режим предназначен для поиска не зашумлённых, но поврежденных изображений, например, часть изображения потеряна или стерта. При этом может быть стерто до 75% исходного изображения. Пример такого изображения представлен на рис. 8.

Рис. 6. Примеры зашумлённых и отредактированных изображений: (а) исходное изображение, (б) аддитивный шум с вероятностью 30%, (в) яркость изображения +30, (в) поворот изображения на 5 градусов

Данный вид поиска характеризуется средней скоростью поиска (за счет средней выборки объектов на первом этапе обработки). Производительность (среднее время поиска): 400 мс. Результаты работы алгоритма для разных типов помех и искажений представлены на рис. 7.

Рис. 8. Часть изображения испорчена

В данном случае, чтобы успешно выполнить задачу поиска необходимо перейти на следующий уровень пирамиды разрешения, т.к. верхний уровень поврежден.

Время поиска больше, чем в случае «грубого» поиска, и составляет 150 мс. Объясняется

это тем, что необходимо сравнить не 1 вектор, а сразу несколько, так как операции производятся на втором уровне пирамиды разрешения. Тем не менее, 150 мс - отличный показатель для поиска испорченных изображений.

3.4. Поиск похожих изображений

Данный режим предназначен для поиска набора похожих изображений. На выходе алгоритма получаем некоторое количество изображений, похожих на искомый объект, причем изображения упорядочены по степени сходства (критерием служит евклидово расстояние между векторами). Среднее время поиска 1 с. Пример поиска показан на рис. 9.

который может успешно конкурировать по производительности и достоверности с существующими алгоритмами в сети Интернет. Также разработана архитектура базы данных для классификации изображений на основе полных и замкнутых групп на стадии занесения изображения в базу.

Разработанные методы поиска показывают отличные результаты по производительности и достоверности, несмотря на то, что тесты проводились на вполне обычном персональном компьютере. Анализ результатов позволяет сделать вывод, что разработанная система успешно справляется с поставленной задачей поиска не только исходных, но и зашумлённых и отредактированных изображений.

Рис. 9. Исходное изображение (а), результаты выполнения поиска похожих изображений (б)

Заключение

В статье разработана система поиска изображений. В отличие от ранее опубликованных алгоритмов в литературе, обеспечивается более низкая вычислительная сложность и возможность работать с зашумлёнными изображениями. Разработан алгоритм поиска испорченных изображений. При небольшом усовершенствовании алгоритма - а именно при переходе на самые нижние уровни пирамиды разрешения -имеется возможность выполнять поиск лишь по небольшой части изображения. Разработан новый алгоритм поиска похожих изображений,

К сожалению, из-за отсутствия единой базы для тестирования невозможно сравнить результаты с другими системами. К тому же большинство систем имеют коммерческий характер и обычно имеют узкую специализацию. Авторы считают, что полученные результаты соответствуют реалиям сегодняшнего дня, и данный метод может применяться для построения систем контроля и поиска изображений в базах данных, в том числе и в сети Интернет.

Список литературы

1. http://scholar.google.ru.

2. Swain M.J., Ballard D.H. Color Indexing // In-

ternational J. of Computer Vision. 1991. V. 7(1). P. 11-32.

3. Васильева Н. С., Новиков Б. А. Построение соответствий между низкоуровневыми характеристиками и семантикой статических изображений // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды 7-й Всерос. науч. конф. 2005. С. 23б-240.

4. Tamura H., Mori S., Yamawaki T. Textural features corresponding to visual perception // IEEE Transactions on systems, man, and cybernetics. 1978. V. 8(б). P. 4б0-473.

5. Manjunath B.S., Ma W.Y. Texture features for browsing and retrieval of image data // IEEE Transactions on pattern analysis and machine intelligence. 199б. V. 18 (8). P. 837-842.

6. Zhang D., Lu G. Content-based shape retrieval using different shape descriptors // A comparative study, in IEEE International Conf. on multimedia and expo. 2001.

P. 289-293.

7. Grosky W., Stanchev P. An image data model // In proceedings of advances in visual information systems: 4th International Conf. 2000. P. 227-243.

8. Safar M., Shahabi C., Sun X. Image retrieval by shape: a comparative study // IEEE International Conf. on multimedia and expo. 2000. V. 1. P. 141-144.

9. Rubner Y., Tomasi C. A Metric for distributions with applications to image databases // In Proceedings of the sixth International Conf. on computer vision, IEEE Computer society. 1998. P. 59.

10. Утробин В.А. Физические интерпретации элементов алгебры изображений // Успехи физических наук. 2004. Т. 174. №10. С. 1089-1104.

11. Десятников И.Е., Утробин В.А. Алгоритмы поиска изображений в базах видеоданных // Компьютерная оптика. 2011. Т. 35. №3. С. 416-422.

12. Демидов В. Е. Как мы видим то, что видим. М.: Знание, 1987. 240 с.

DATABASE ARCHITECTURE FOR IMAGE SEARCH AND RETRIEVAL I.E. Desyatnikov, V.A. Utrobin

The article considers the currently existing methods of image search and retrieval in video databases. It is proposed to build the database architecture using the algebra of complete and closed groups as the elements of the active perception theory developed at the department of Computer Systems and Technologies of the R.E. Alekseev Nizhni Novgorod State Technical University. The developed algorithms can find not only original, but also noisy, edited, and corrupted images. We have also developed a method to search for similar images that can compete with existing image retrieval techniques on the Internet in terms of reliability and performance. The experimental results obtained for a database of arbitrary images with about 2 million objects are presented.

Keywords: image search and retrieval, computer vision, active perception theory.

i Надоели баннеры? Вы всегда можете отключить рекламу.