Ссылка на статью:
// Радиооптика. МГТУ им. Н.Э. Баумана. Электрон. журн. 2015. № 05. С. 87-100.
Б01: 10.7463/п1о1*.0515.0813256
Представлена в редакцию: 08.08.2015 http://radiooptics.ru Исправлена: 22.08.2015
© МГТУ им. Н.Э. Баумана
УДК 004.932.2
Метод поиска изображений с использованием вейвлет-технологии
Филиппов М. В.1*, Гайдук С. Э.1 йЦрроу.ггаке^таД.ш
1МГТУ им. Н.Э. Баумана, Москва, Россия
В статье рассмотрен метод поиска заданных изображений в базах данных больших размеров. Предложена модифицированная версия данного метода, основанная на применении вейвлет базиса Добеши. Для определения степени близости двух изображений рассмотрена метрика, основанная на сравнении коэффициентов вейвлет преобразования. Предложен алгоритм определения коэффициентов на основе метода логистической регрессии. Проведено экспериментальное исследование представленного модифицированного метода. Продемонстрировано его преимущество по сравнению с использованными ранее методами с точки зрения точности реализации запроса и быстродействия.
Ключевые слова: вейвлет-преобразование, запрос, изображение, логистическая регрессия, метрика
Введение
В связи с увеличением размеров баз данных методы нахождения в них заданных изображений становятся практически неприменимыми. Действительно, быстрый просмотр нескольких сотен изображений с целью отыскания конкретного запроса является достаточно простой задачей. Однако, организация такого запроса среди нескольких десятков тысяч изображений представляется существенно более трудной задачей. Таким образом, при существенном расширении баз банных поиск методом полного перебора перестает быть эффективной стратегией.
В настоящее время существует несколько наиболее популярных методов поиска изображений [1,2].
В работах [3,7] представлен метод, анализирующий объекты изображения или характеристики форм в изображении. Он работает, как правило, достаточно хорошо и надежно, но полученная информация очень слабо характеризует то, как картинка будет
Радиооптика
восприниматься визуально. Поэтому этот метод может служить только как вспомогательный.
В методе опорных точек (БШТ-дескрипторы) [4] выбирается на изображении набор опорных точек и использует взаимное их расположение в роли характеристики картинки. Эта группа методов весьма хороша для выяснения, является ли одно изображение деформированной копией другого — однако для определения подобия двух принципиально разных, пусть и визуально похожих картинок, метод непригоден (например, две фотографии одного и того же котенка в разных позах будут иметь мало общего для таких методов).
Метод цветовых гистограмм [2,9] - один из самых популярных методов, использующих цветовые характеристики для индексирования изображений. Возможно также использование таких показателей, как средний или основной цвета, а также различные множества цветов. Эти характеристики имеет смысл использовать для локального индексирования определенных областей изображения. Однако, изображения, отличные только по взаимному расположению похожих по цвету объектов, считаются различными, что может оказаться результатом, непригодным для пользователя.
Метод поиска по метаинформации использует организацию изображений в фотоальбомах с названиями и комментариями, подписи и даже готовые теги, а также то, является ли изображение иллюстрацией к чему-либо [8]. Но данный метод никак не позволяет оценить изображение визуально [5].
Каждый из методов может быть использован для решения поставленной задачи, но большинство из них могут являться лишь дополнением к другим, т.к. не дают достаточной информации об изображении или вовсе не задействуют визуальные признаки.
Метод поиска с использованием вейвлетов позволяет решить большинство проблем и избавиться от недостатков, присущих другим методам [10]. В данной работе представлен модифицированный алгоритм, реализующий данный метод, позволивший существенно улучшить его характеристики.
1. Описание метода
Лучше всего метод работает с изображениями, на которых четко можно отделить один объект от другого. Результат поиска считается успешным, если среди отобранных изображений присутствует изображение, содержащее ту же отличительную деталь, что и в изображении, по которому происходит поиск. Примеры такого изображения представлены на Рис.1. На снимке слева такими отличительными деталями являются самолеты, а на снимке справа - маяк.
Рис. 1. Изображения с четко отличимыми деталями
В качестве основы метод использует вейвлет-преобразование. Вейвлеты как математическое средство для иерархического представления функций, позволяют описать произвольную функцию в терминах грубого усредненного приближения и с помощью уточняющих коэффициентов, позволяющих работать с функцией при различных масштабах [9,11].
В методе, описанном в работе [10] используются вейвлеты Хаара. Преимуществом этих функций является простота и возможность аналитического представления. Кроме того, запросы, нарисованные самим пользователем, имеют склонность к большим однородно окрашенным участкам, которые хорошо представлять таким базисом. Однако, в силу своего ступенчатого характера базис Хаара является достаточно грубым приближением для изображений с плавным изменением интенсивности. Поэтому для представления таких изображений требуется достаточно большое количество коэффициентов.
В данной работе в качестве базиса используются вейвлеты Добеши [11,12]. Основная сложность заключается в том, что вейвлеты Добеши не имеют аналитического представления. Для их представления используются уравнения (1) и (2), которые решаются в численном виде:
(1) (2)
-рекурсивно задаваемая аппроксимирующая функция, Ь(к) -коэффициенты аппроксимации, ф(£) - рекурсивно задаваемая вейвлет-фукция, а §(к) -коэффициенты вейвлет-базиса.
Базис вейвлет-функций в данном случае является изначально ортонормированным, а сами функции гладкими, что является одной из причин теоретически более точного восстановления данных из сжатого вида. Также использование вейвлетов Добеши
позволяет уменьшить количество коэффициентов в разложении, что дает выигрыш во времени. Ниже будет произведено сравнение эффективности использования вейвлет-функций Хаара и Добеши.
Чтобы получить разложение изображения (Рис. 2), сначала применяется
одномерное вейвлет-преобразование [5,11] к каждой строке значений пикселей. Эта
операция даст нам среднее значение и уточняющие коэффициенты для каждой строки.
Затем мы рассмотрим эти преобразованные строки так, как если бы они сами являлись
изображением, и применим одномерное преобразование к каждому столбцу. Полученные
в результате значения окажутся уточняющими коэффициентами, за исключением
единственного коэффициента, представляющего общее среднее значение.
Рис. 2. Двумерное вейвлет-преобразование
Одной из основных проблем, возникающих в процессе поиска, является определение, насколько найденные изображения соответствуют запросу. Рассмотрим стандартный подход, используемый в ряде работ [10,13].
Введем некоторые обозначения. Пусть Q обозначает один цветовой канал изображения-запроса, а I — потенциального целевого изображения. Q(0,0) и J(0,0) представляют коэффициенты масштабирующих функций, соответствующие среднему значению интенсивности данного цветового канала. Далее, Q1 и II будут обозначать усеченные версии матриц Q и I. Для удобства примем Q1(0,0)=0, 11(0,0)=0.
Для вычисления расстояния между изображением-запросом и потенциальным целевым изображением наиболее очевидным выбором являются нормы Ь1, определяемая выражением (3) или норма Ь (формула (4)):
б - 3 ||1=Ш/,])- 3(1,]) | (3)
¡, ]
6 - 3 ||2=(Кб(/,])- 3(1,Ж1 2, (4)
]
где
-значение пикселя изображения-запроса, а /(£•/) -значение пикселя целевого изображения.
Именно эти нормы обычно использовались для сравнения изображений[10]. Однако, данные метрики не только требуют больших вычислительных затрат, но и не учитывают неточности изображения-запроса.
В данной статье используется метрика, основы которой описаны в работах [1,6]. В этой метрике используются коэффициенты вейвлет-преобразования изображения. Основой для настройки метрики является цветовое пространство У10. Данное цветовое пространство интересно, в частности, неравномерностью распределения информации по цветовым каналам. Наиболее значительную часть информации (яркость) несет канал Y. Данная особенность используется ниже при подборе весовых коэффициентов, рассчитываемых с использованием статистических методов.
Для вычисления расстояния между изображением-запросом и потенциальным целевым изображением предлагается использовать следующее выражение;
|| б-31|=^0,0 | 60,0-30,0 | | б1(/,]) -31(1,]) |, (5)
ч
где являются весовыми коэффициентами.
Для уменьшения числа коэффициентов, которые необходимо определить экспериментальным путем, сгруппируем их по уровням разложения. Далее, будем рассматривать только те коэффициенты вейвлет-разложения запроса, которые не равны нулю. Преимущество подобного подхода заключается в том, что не детализированный запрос сопоставляется с детализированным изображением, и наоборот, детализированный запрос не ставится в соответствие изображению с отсутствующей деталью.
Для уменьшения числа коэффициентов предлагается группировать вейвлет-коэффициенты по диапазонам разложения следующим образом:
1еу(1, у)=шт(шах(1о§2 (О, (/))Д>, (6)
где N принимает целые значения. Обычно используется значение N = 5, которое получено в результате экспериментальных исследований.
В результате выражение (6) преобразуется к виду:
|| б-31|=*0 | 6(0,0) -3(0,0) | (б1(/,]) -31(г,])) (7)
Разность между коэффициентами можно заменить неравенством, т.е. метрика приобретает вид формулы (8):
|| Q-J ||=W0 | 6(0,0) -J(0,0) | +lWieV(ij) (Q1(i, j) *J1(i, j)) (8)
i,j
где оператор Ф принимает численное значение 1 при выполнении неравенства и 0 при его невыполнении. Поскольку операция сравнения производится быстрее, чем неравенство, и поскольку искомое множество изображений составляет всего лишь часть базы, производится замена неравенства на равенство. В результате второе слагаемое предыдущей формулы принимает вид формулы (9):
JWievdj)- YWiev{ij) (Q1(i, j) =Jl(i, j)) (9)
i, j i, j; Qi(ij)+0
Так как первое слагаемое не зависит от J, мы можем им пренебречь в целях ускорения расчета. На окончательный результат это не влияет. Таким образом, после ряда упрощений, выражение (7) приобретает следующий вид:
|| Q-J ||=W0|Q(0,0)-J(0,0) ^щМШ^Ш) (10)
ij Qi(mo
Весовые коэффициенты дают возможность настроить данную метрику на конкретную базу изображений и цветовое пространство. Стоит отдельно отметить два вида весовых коэффициентов (См. Табл.1). В данном случае, отдельно находятся коэффициенты для изображений запросов, нарисованных пользователем (Нарисованные запросы) и для изображений, которые могут являться изображениями в другом разрешении или отсканированными изображениями (Сканированные изображения).
Для определения этих коэффициентов в работе предложен способ, основанный на статистической модели и называемый логистической регрессией [14]. Логистическая регрессия применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная у, принимающая лишь одно из двух значений — как правило, это числа 0 (событие не произошло) и 1 (событие произошло), и множество независимых переменных (также называемых признаками, предикторами или регрессорами) — вещественных переменных (x-l , х2. .-,хп) , на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной. В данном случае событием является соответствие изображения-запроса и изображения из базы данных, где производится поиск. Вероятность наступления события вычисляется согласно формуле (11):
Р = F{y = 1 | х},где F{у = 1 | х} = F (z) = (11)
В данном случае z вычисляется по формуле (12), а у - по формуле (13):
z = I wfc tfc< i + и г (12)
к
1 , е сл и х > 0 (13)
(13)
где 2 - вектор значений независимых переменных и параметров (коэффициентов регрессии), ^ г - сумма слагаемых в выражении (10), которые попадают на уровень к (независимая переменная), - неизвестный коэффициент регрессии (весовой
коэффициент), щ - погрешность вычислений, а у - бинарная (зависимая) переменная, дающая информацию о совпадении изображения-запроса и целевого изображения или нет.
Для нахождения коэффициентов регрессии (или весовых коэффициентов) можно применить метод наименьших квадратов для случая регрессионного анализа, используя выражение (12).
Таким образом, используя эту модель, можно подобрать следующие оптимальные значения весовых коэффициентов, которые позволят метрике минимизировать ошибки при поиске в определенной базе данных изображений.
Таблица 1. Весовые коэффициенты, используемые в метрике
Нарисованные запросы Сканированные запросы
ь Wy Wi Wq Wy Wi Wq
1 4.04 15.14 22.62 5.00 19.21 34.37
2 0.78 0.92 0.40 0.83 1.26 0.36
3 0.46 0.53 0.63 1.01 0.44 0.45
4 0.42 0.26 0.25 0.52 0.53 0.14
5 0.41 0.14 0.15 0.47 0.28 0.18
6 0.32 0.07 0.38 0.30 0.14 0.27
Процедура сравнения изображений происходит следующим образом. Инициализация поиска состоит в заполнении массива оценок файлов нулями. Далее массив оценок начинает накапливать оценки. Первая часть оценки состоит из взвешенной разности средних цветов, т.е. (6(0,0) -3(0,0)). Эти оценки суммируется по каждому цветовому каналу. Далее по каждому цветовому каналу производится корректировка оценок в сторону уменьшения следующим образом. Для каждого ненулевого коэффициента запроса находится список файлов, имеющих коэффициент в этом же цветовом канале такого же знака. Оценка каждого файла из списка уменьшается на число
^7еу(у). Окончательный этап — отбор необходимого количества наиболее релевантных изображений. Ими являются изображения с наименьшими оценками.
Кратко работу алгоритма можно описать следующим образом: 1. Выполняется стандартное [13] двумерное вейвлет-разложение каждого изображения из базы данных и сохраняется только общее среднее значение цвета, а также индексы и знаки, принадлежащие коэффициентам с наибольшими значениями (рис. 3).
Рис. 3. Коэффициенты разложения изображения
2. Выполняется вейвлет-разложение для каждого изображения-запроса и вновь отбрасывается вся информация, за исключением среднего значения цвета и самых больших коэффициентов
3. При помощи разработанной метрики происходит сравнение изображений (запроса и изображения в БД) и определение их похожести (рис. 4).
Рис. 4. Сравнение изображений
2. Анализ результатов численного эксперимента
В данном разделе приведены результаты сравнения алгоритма, основанного на
представленной в статье метрике, обозначаемой далее Ьч и стандартных алгоритмов,
1 2
использующих метрики Ь и Ь по эффективности поиска при различных объемах баз данных (БД) и времени поиска. Под эффективностью понимается процент успешно реализованных запросов.
Численный эксперимент проводился при количестве изображений в БД, равным 100 и 1000. Определялись процент успешных запросов и время выполнения алгоритма поиска. На рис. 5 представлен график зависимости успешности запросов от количества последовательно выполненных запросов.
■а
о
и
0 о_
гл
Г1 л;
л
1
щ
и >-
Рис. 5. Эффективность поиска изображений при использовании различных метрик
Для оценки скорости поиска целевых изображений с использованием различных метрик также выполнялись запросы к БД изображений, содержащим 100 и 1000 данных, соответственно. Причем, все изображения имели одинаковый размер равный 128*128 пикселей.
На рис. 6 изображена гистограмма, отражающая длительности выполнения запросов в базе с 100 и 1000 изображений для метрик Ь1, Ь2 и Ьч.
По итогам эксперимента было выяснено, что разработанная метрика выполняется
1 2
значительно быстрее и точнее, чем метрики Ь и Ь .
Эффективность поиска при различных метриках
100 90 80 70 60 50 40 30
Ьч Ь2
Ь1
Макс, количество запросов
1ц
■ 11
11
Было также проведено сравнение алгоритма выполнения запросов с использованием вейвлет-разложении по функциям Добеши , предложенного в данной работе с результатами работы [6].
В численном эксперименте были рассмотрены две БД, 100 и 1000 изображений с разрешением 512x512 пикселей и оценивалось время выполнения алгоритма поиска, при том, что в одном случае используются вейвлеты Хаара, а в другом - вейвлеты Добеши. На рис. 7 изображена гистограмма, иллюстрирующая времени выполнения каждого алгоритма.
Время выполнения запроса
50,00
т и п^ т. из
Рис. 6. Скорость выполнения поиска при использовании различных метрик Время раБо1ы алгоритма
3,4
100 1000 Количество изображений в Базе
т Хаар (512x512) ч^ Добеши (512x512) Рис. 7. Время работы алгоритма при использовании различных вейвлетов
При тех же условиях проводилась сравнительная оценка эффективности выполнения запросов. На Рис. 8 приведен график эффективности поиска при различных углах поворота изображения в БД.
Рис. 8. Эффективность поиска изображений при повороте изображения-запроса
Рис. 9 представляет график зависимости процентного отношения успешного поиска при различных коэффициентах масштабирования изображения в БД.
Рис. 9. Эффективность поиска изображений при масштабировании изображения-запроса
Анализ этих графиков позволяет сделать вывод, о том, что представленный в работе алгоритм выполнения запросов, использующий вейвлет-разложенияпо по функциям Добеши и метод логистической регрессии для определения весовых коэффициентов использующее вейвлетыДобеши, выполняется быстрее и точнее, чем подход, описанный в работе [6].
Заключение
В данной работе рассмотрен метод поиска заданного изображения с использованием вейвлет-технологий. Показано, что использование вейвлет- разложения изображения по функциям Добеши и логистической регрессии позволяет существенно сократить время выполнения запроса и повысить эффективность его выполнения по сравнению с
известными подходами. Также, продемонстрировано преимущество метрики Ьч по
1 2
сравнению с обычно используемыми стандартными метриками Ь , Ь .
Список литературы
1. Э.Столниц, Т.Дероуз, Д.Салезин. Вейвлеты в компьютерной графике. - Ижевск, НИЦ «Регулярная и хаотическая динамика», 2003, 272 с.
2. SmithJ.R., ChangS.F. ToolsandTechniquesforColorlmageRetrieval. // SPIE (ColumbiaUniv., USA, 1996): Proceedings of the SPIE, vol. 2670, 1996. pp. 426-437.
3. Duda R., Hart P. Pattern Classification and Scene Analysis. John Wiley and Sons publishing, 1973. 512 p.
4. D. G. Lowe. Distinctive Image Features from Scale-Invariant keypoints. Режим доступа: https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf (дата обращения 02.06.2015).
5. Niblack W., Barber R., Equitz W., Flickner M., Glasman E., Petkovic D., Yanker P., Faloutsos C., Taubin G. The QBICproject: Querying images by content using color, texture, and shape volume. // SPIE (Bellingham, WA, 1993): Storage and Retrieval, 1993. pp. 173187.
6. E.Stollnitz, E.J.,DeRose T.D., Salesin D.H. Wavelets for Computer Graphics. Theory and Applications. Morgan Kaufmann PublishersInc., 1996. 245p.
7. BeylkinO.,Coifman R., RokhlinY. Fast wavelet transforms and numerical algorithms. // Communications on pure and Applied Mathematics, 1991, vol. 44. pp. 141-183.
8. Kankanhalli A., Zhang H.J., Low C.Y. Using texture for image retrieval. // International Conference оп Automation, Robotics and Computer Vision. (Nanyang Technological University, Singapore, 1994), IEEE publ., 1994. pp. 935-939.
9. Gibson A.S. Exposure and Understanding the Histogram. PeachpitPresspubl., 2011. 75 p.
10. C.E.Jacobs, A.Finkelstein, D.H.Salesin. Fast multiresolution image quering. Proceedings of SIGGRAPH, ACM, New York, 1995, pp. 277-286.
11. Najmi A.H. Wavelets: A Concise Guide. Johns Hopkins University Press publ., 2012. 304 p.
12. Fugal D.L. Conceptual Wavelets in Digital Signal Processing. Space & Signals Technical Publishing, 2010. 374 p.
13. Vetterli M., Kovacevic E., Goyal V.K. Fourier and Wavelet Signal Processing. Cambridge University Press, 2014. 294p.
14. Davis J., Goadrich M. The Relationship Between Precision-Recall and ROC Curves // Proc. Of 23 International Conference on Machine Learning, Pittsburgh, PA, 2006, pp.233-240.
Radiooptics of the Bauman MSTU, 2015, no. 05, pp. 87-100.
DOI: 10.7463/rdopt.0515.0813256
Received: 08.08.2015
Revised: 22.08.2015
http://radiooptics.ru © Bauman Moscow State Technical Unversity
The Method of Image Retrieval Using Wavelet Technology
M.V. FilippOV1'", S.E. Gaiduk1 " flipp OY:müte:amaÜJU
:Bauman Moscow State Technical University, Moscow, Russia
Keywords: wavelet transform, query, image, logistic regression, the metric
Recently, the problem of quick search of specified images has taken developers' attention. The main reason for this interest lies in the substantially increasing capacity of graphic information, which stipulates the need to create instant search algorithms. An important problem is also to develop the metric for determining an affinity degree of the two images.
A number of papers describe a wavelet- based technology method. Herewith the metric is based on a comparison of the wavelet transform coefficients. These papers demonstrate the benefits of such an approach. This article describes a modification of the method described above in order to increase the effectiveness of the image retrieval on the image-request, as well as to reduce the retrieval time. The presented method has the following features. Firstly, Daubechies wavelets have been proposed as the decomposition basis, in contrast to previously used Haar wavelets. This reduced the number of expansion coefficients and thus, reduced the search time. Secondly, to determine the coefficients has been used so-called logistic regression algorithm based on the statistical model. The paper gives a detailed description of the algorithm to implement said procedure of image search.
To assess the effectiveness of the presented method based both on the criteria of accuracy of selecting a given image (the percentage of successfully completed requests) and on the speed, there were conducted numerical experiments to search for images in databases of different capacities. The paper has shown that the proposed metric provides a substantially greater speed and
i 9
accuracy than the standard metric L and L . It has also demonstrated the advantage of using Daubechies wavelet- basis.
References
1. Stolnits E., Derouz T., Salezin D. Veyvlety v komp'yuternoy grafike [Wavelets in computer graphics]. Izhevsk, "Regular and chaotic dynamics" SIC, 2003. 272 p.
2. Smith J.R., Chang S.F. Tools and Techniques for Color Image Retrieval. SPIE (ColumbiaUniv., USA, 1996): Proceedings of the SPIE, vol. 2670, 1996, pp. 426-437.
Radioopt
3. Duda R., Hart P. Pattern Classification and Scene Analysis. John Wiley and Sons publishing, 1973.512 p.
4. Lowe D.G. Distinctive Image Features from Scale-Invariant keypoints. https://www.cs.ubc.ca: project website. Available at: https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf (accessed 02.06.2015).
5. Niblack W., Barber R., Equitz W., Flickner M., Glasman E., Petkovic D., Yanker P., Faloutsos C., Taubin G. The QBICproject: Querying images by content using color, texture, and shape volume. SPIE (Bellingham, WA, 1993): Storage and Retrieval, 1993. pp. 173-187.
6. E.Stollnitz, E.J., DeRose T.D., Salesin D.H. Wavelets for Computer Graphics. Theory and Applications. Morgan Kaufmann PublishersInc., 1996. 245p.
7. Beylkin O., Coifman R., Rokhlin y. Fast wavelet transforms and numerical algorithms. Communications on pure and Applied Mathematics, 1991, vol. 44. pp. 141-183.
8. Kankanhalli A., Zhang H.J., Low C.Y. Using texture for image retrieval. International Conference on Automation, Robotics and Computer Vision. Nanyang Technological University, Singapore 1994. IEEE Publ., 1994, pp. 935-939.
9. Gibson A.S. Exposure and Understanding the Histogram. PeachpitPress Publ., 2011. 75 p.
10. Jacobs C.E., Finkelstein A., Salesin D.H.. Fast multiresolution image quering. Proceedings of SIGGRAPH, ACM, New York, 1995, pp. 277-286.
11. Najmi A.H. Wavelets: A Concise Guide. Johns Hopkins University Press publ., 2012. 304 p.
12. Fugal D.L. Conceptual Wavelets in Digital Signal Processing. Space & Signals Technical Publishing, 2010. 374 p.
13. Vetterli M., Kovacevic E., Goyal V.K. Fourier and Wavelet Signal Processing. Cambridge University Press, 2014. 294p.
14. Davis J., Goadrich M. The Relationship Between Precision-Recall and ROC Curves. Proc. Of 23 International Conference on Machine Learning, Pittsburgh, PA, 2006, pp. 233-240.