Научная статья на тему 'Выбор шага квантования при построении цветовой гистограммы в задаче поиска изображений'

Выбор шага квантования при построении цветовой гистограммы в задаче поиска изображений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
810
115
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОИСК ИЗОБРАЖЕНИЙ / ЦВЕТОВЫЕ ПРИЗНАКИ / ЦВЕТОВЫЕ ГИСТОГРАММЫ / ШАГ КВАНТОВАНИЯ / IMAGE RETRIEVAL / COLOR FEATURES / COLOR HISTOGRAMS / BINNING SCHEME

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Васильева Наталья Сергеевна

Цвет одна из наиболее значимых визуальных характеристик, используемых для определения степени подобия изображений. Наиболее распространенным представлением цвета в системах поиска является гистограмма распределения цветов изображения. Общепринято, что эффективность цветовых гистограмм зависит от схемы квантования исходного пространства значений. Тем не менее вопросу выбора оптимального шага квантования в литературе уделено недостаточно внимания. Работа посвящена поиску ответа на данный вопрос на основе экспериментальных исследований. Представлены результаты оценки эффективности поиска для различных схем квантования цветового пространства и для двух функций подобия, используемых для сравнения гистограмм. Приведено обсуждение полученных результатов и предложены рекомендации по выбору оптимального шага квантования цветового пространства. Результаты экспериментов показали, что увеличение числа интервалов (соответственно уменьшение шага квантования) незначительно повышает точность поиска при применении манхэттеновской метрики в качестве функции подобия. В случае сравнения гистограмм косинусной метрикой точность поиска понижается с увеличением числа интервалов. Полнота результатов поиска снижается с ростом числа интервалов для обеих метрик. На основе данных результатов можно прийти к выводу, что при использовании косинусной метрики стоит разбивать цветовое пространство на меньшее число интервалов. Это позволит повысить точность и полноту результатов поиска, а также уменьшить размер вектора признаков. Когда применение косинусной метрики не обязательно, более точного результата поиска можно добиться при выборе небольшого шага квантования и сравнении векторов манхэттеновской метрикой. Однако это приведет к повышению вычислительных затрат и объема памяти в связи с ростом размерности вектора признаков. Библиогр. 20 назв. Ил. 2.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Васильева Наталья Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Color feature is one of the most important visual features used to measure image similarity. In image retrieval histograms are widely used to represent the color distribution in images. It is a common understanding that the efficiency of color histograms depends on binning scheme. However the question of optimal bin width selection is not adequately explored in the literature. This paper addresses the issue in the experimental study. Retrieval efficiency is evaluated for various binning schemes and two different similarity measures. The paper discusses the results and provides the recommendations to bin width selection in color histograms. Test results show that the increase in the number of bins leads to the higher precision when Manhattan dissimilarity measure is used. In case of Cosine measure retrieval precision is lower for the bigger number of bins. The recall is decreasing with growing number of bins for both Manhattan and Cosine measures. Based on these results we conclude that one should select small number of bins when Cosine measure is used. That will increase both precision and recall of the system and reduce the size of the feature vector. When Manhattan distance can be used, one can get higher precision with the bigger number of bins. But this will lead to the storage and computation expenses growth caused by the increased feature vector size.

Текст научной работы на тему «Выбор шага квантования при построении цветовой гистограммы в задаче поиска изображений»

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

Сер. 10. 2009. Вып. 2

ИНФОРМАТИКА

УДК 539.3

Н. С. Васильева

ВЫБОР ШАГА КВАНТОВАНИЯ ПРИ ПОСТРОЕНИИ ЦВЕТОВОЙ ГИСТОГРАММЫ В ЗАДАЧЕ ПОИСКА ИЗОБРАЖЕНИЙ

1. Введение. Методы поиска изображений по содержанию (Content Based Image Retrieval, CBIR) работают на основе анализа численных характеристик составляющих изображение пикселей и не требуют наличия текстовых аннотаций или другой дополнительной информации об изображении. При поиске по коллекции цветных изображений произвольной тематики цвет - наиболее значимая характеристика. Он играет огромную роль в механизме зрительного восприятия человека. Кроме того, цвет изображения достаточно просто анализировать, он инвариантен относительно размера изображения и ориентации расположенных на нем объектов.

Наиболее распространенным представлением цвета в системах поиска является цветовая гистограмма - гистограмма распределения цветов изображения. Этот подход используется в большинстве известных систем CBIR, в таких как, например, QBIC [1, 2], VisualSEEk [3], NeTra [4], Mars [5, 6].

Многие исследователи указывают на тот факт, что эффективность поиска по цветовым гистограммам во многом зависит от выбора цветового пространства. Также важен выбор шага квантования цветового пространства при построении гистограммы. Этот параметр влияет на качество поиска, быстродействие поисковой системы и на объемы данных, которые необходимо хранить в системе о каждом изображении. Однако вопросу выбора оптимального значения для данного параметра уделяется недостаточное внимание. В большинстве работ, посвященных алгоритмам построения цветовых гистограмм, обоснование выбора шага квантования ограничивается общими соображениями, основанными на различных фактах об особенностях зрительного восприятия человека [7, 9].

Цель настоящей работы - выявить зависимость качества результатов поиска от выбора шага квантования цветового пространства при построении цветовых гистограмм. Результаты проведенных экспериментов свидетельствуют о ее наличии и о возможности выбора оптимального значения данного параметра в зависимости от свойств коллекции и метрики, используемой для сравнения гистограмм. В работе показано, что в случае

Васильева Наталья Сергеевна — ассистент кафедры информатики математико-механического факультета Санкт-Петербургского государственного университета. Количество опубликованных работ: 12. Научные направления: поиск изображений по содержанию, проектирование прав доступа в информационных системах. E-mail: [email protected].

© Н. С. Васильева, 2009

применения манхэттеновской метрики выбор большого шага квантования (разбиение цветового пространства на 24 цвета) незначительно снижает качество результатов поиска по сравнению с выбором меньшего шага (общепринято разбиение от сорока до сотен цветов). При сравнении гистограмм косинусной метрикой увеличение шага квантования приводит к повышению качества результатов поиска. В то же время независимо от метрики выбор большего шага позволяет снизить размерность вектора признаков и, следовательно, уменьшить объемы хранимой информации в базе и ускорить поиск.

2. Основные понятия. Цветовое пространство (называемое также цветовой моделью или системой цветов) [10] определяет систему координат и подпространство в этой системе, в котором каждый цвет представляется единственной точкой. Таким образом, каждый цвет в определенном цветовом пространстве имеет свои цветовые координаты.

Вектора признаков (feature vector) (или просто признаки) - набор численных параметров, описывающих отдельно взятое изображение. Большинство таких векторов описывают какую-либо одну характеристику изображения. Говоря о методах поиска по содержанию, обычно подразумевают поиск по одной из низкоуровневых характеристик изображения (цвету, текстуре, форме объектов на изображении) или комбинированный поиск по некоторым из них.

Вектора признаков, построенные с помощью одного и того же алгоритма, образуют пространство векторов признаков (сокращенно пространство признаков). Задав метрику на таком пространстве, можно сравнивать изображения друг с другом, вычисляя расстояние между соответствующими им векторами.

3. Существующие подходы.

3.1. Цветовые пространства. Традиционным пространством для представления цифровых изображений служит RGB. Однако оно не является зрительно однородным относительно евклидовой метрики. Евклидово расстояние между двумя цветами в пространстве RGB не всегда соответствует их визуальному различию. Пространства Lab (CIE L*a*b, CIELab) (L - яркость; a, b - два диапазона цветности) и группа пространств HSV/HSB, HSL, HSI (Hue - оттенок; Saturation - насыщенность; Value, Brightness, Luminance, Intensity - значение яркости/интенсивности цвета) [11] лучше соответствуют цветовосприятию человека. Данные пространства также обладают тем преимуществом, что они позволяют разделить цветовую и яркостную информацию, а это удобно при обработке изображений. Потому большинство исследователей строят вектора признаков для цвета в одном из таких пространств. Использование пространств группы HSV более распространено из-за того, что перевод RGB ^ HSV вычислительно проще, чем перевод RGB ^ Lab.

3.2. Цветовые гистограммы.

Гистограммы и метрики для их сравнения. Стандартный способ представления цветовой характеристики изображения - цветовые гистограммы [7, 12]. Гистограммой цифрового изображения, заданного в некотором дискретном цветовом пространстве C = {ci,c2, ...cn} из N цветов, называется дискретная функция H(ck) = hk, где ck есть k-й цвет пространства, а hk - число пикселей на изображении цвета ck. Общей практикой является нормализация гистограммы путем деления каждого из ее значений на общее число пикселей в изображении. Таким образом, H(ck) служит оценкой вероятности появления пикселя цвета ck (при условии, что цвета различных пикселей не коррелируют) [10].

Распространенными метриками для сравнения двух гистограмм являются метрики, заданные нормами Li, L2 или [1, 7, 12]. Иногда также используют косинусное

расстояние [9, 13]. Общий недостаток данных метрик - то, что они не учитывают степень сходства различных цветов: для двух изображений, имеющих схожие, но не совпадающие цвета, расстояние будет велико. Примером метрики, учитывающей различия между цветами, может служить более общая форма метрики Ь [14]:

Ла(С},Г) = ^Но-НтУАфо-Нт),

где Q, I - сравниваемые изображения; Ид, Н1 - соответствующие им вектора признаков (гистограммы), \Нд\ = \НI\ = N; N х N матрица А состоит из коэффициентов а^, отражающих степень схожести между цветами г и ].

Сравнение гистограмм с помощью метрик, учитывающих межцветовые расстояния, лучше соответствует зрительному восприятию подобия изображений, однако такие метрики вычислительно сложнее.

Выбор шага квантования. При построении цветовой гистограммы в контексте задачи поиска изображений по подобию обычно производят квантование (разбиение) исходного цветового пространства. Соседние цвета исходного пространства объединяются в цветовые промежутки, и гистограмма строится по таким промежуткам. Это позволяет снизить размерность получаемого из значений гистограммы вектора признаков. Здесь важен выбор шага квантования [8, 15]. Слишком большой шаг приведет к тому, что хорошо различимые цвета будут трактоваться системой как один и тот же цвет. Выбор слишком маленького шага в случае сравнения гистограмм с помощью метрики, не учитывающей межцветовые расстояния, приведет к обратной ситуации: близкие цвета будут соответствовать различным значениям гистограммы, и система не сможет корректно определить степень подобия изображений. Чем меньше шаг квантования, тем выше размерность гистограммы и тем больше вычислительные затраты на сравнение двух изображений.

В большинстве случаев, когда для сравнения изображений используются цветовые гистограммы в пространствах, позволяющих разделить информацию о цветности и яркости точки, при выборе шага квантования учитывают следующие наблюдения:

• человеческий глаз гораздо более чувствителен к изменению оттенка цвета, чем к изменению яркости. Человек в состоянии различать тысячи различных оттенков цвета и всего лишь порядка двух десятков оттенков серого [10];

• существуют пороговые значения яркости 1втн и 1штн такие, что для всех цветов с яркостью меньше 1в или больше ^ человек не различает разницу в их оттенках и насыщенности;

• существует пороговое значение насыщенности Бтн такое, что для всех цветов с меньшей насыщенностью человек не различает разницу в их оттенках.

Обычно для каждой размерности выбирают свой шаг квантования. Из первого наблюдения можно сделать вывод, что по оттенку необходимо выбирать меньший шаг квантования, чем по яркости и насыщенности. Большинство исследователей следуют данному выводу [9, 13, 16]. В то же время конкретные значения шага значительно отличаются в разных работах. Например, в [13] используют всего 6 оттенков, в [16] - 17, а в [9] - 40. При этом из перечисленных работ только в [16] обоснован выбор данного значения. Авторы использовали метод Ванда [17], который позволяет определить оптимальный шаг квантования для произвольной гистограммы на основе оценки распределения данных, по которым она строится. Метод имеет теоретическое обоснование.

3.3. Статистическая модель. Альтернативой гистограммам является статистическая модель представления цвета изображения [12]. В рамках данной модели вектор признаков представляет собой набор статистических параметров распределения для каждого из цветовых каналов. В [12] предложено использовать значения первых трех центральных моментов: математического ожидания, дисперсии и асимметрии. Таким образом, для описания цветовой характеристики требуется всего 9 чисел. В качестве функции расстояния применяется взвешенная сумма разностей между соответствующими параметрами для пары изображений. В [18] цветовые каналы рассматриваются не как независимые распределения, а как части трехмерного распределения: помимо средних значений по каждому каналу для характеристики берутся также попарные ковариации каналов. Авторы указывают на существенное превосходство предложенной модели представления цвета над всеми видами цветовых гистограмм на основе полученных экспериментальных данных.

4. Выбор цветового пространства. В настоящей работе используются пространства HSI* и HCL (Hue, Chroma and Luminance), относящиеся к группе HSV. Пространство HSI* незначительно отличается от классических HSI/HSV/HSL [10, 11] представлением интенсивности (яркости) цвета. Оно лучше соответствует тому свойству зрительного восприятия человека, что ненасыщенные цвета визуально кажутся светлее более насыщенных тех же оттенка и яркости. При преобразовании RGB ^ HSI* интенсивность цвета задается как квадрат евклидовой нормы точки в RGB, что есть удаленность данного цвета от черного. Точки с фиксированной интенсивностью I лежат на сфере с радиусом, равным а/7, и с центром в начале координат. Насыщенность и оттенок цвета определяются положением точки на сфере аналогичным образом, как для пространств HSI/HSV/HSL.

Подробное описание пространства HCL, а также преобразования HCL ^ RGB представлено в работе [19]. При его построении были учтены достоинства и недостатки пространств HSL/HSV и Lab, а также ряд особенностей зрительного восприятия человека [19]. Результаты экспериментов [19] показали, что пространство HCL является более однородным по сравнению с RGB, Lab, HSV и CIECAM02.

5. Выбор шага квантования. Для выбора оптимального шага квантования в пространстве HSI* был поставлен следующий эксперимент.

Эксперимент проводился на наборе палитр, сгенерированных из цветов-представи-телей для всех цветовых промежутков, полученных путем квантования при различных параметрах. В ходе эксперимента участникам-асессорам показывали одну из палитр и случайно сгенерированный цвет. Задача асессора заключалась в выборе наиболее близкого цвета палитры к случайному цвету. Для оценки палитры вычислялось процентное соотношение правильных ответов асессоров, т. е. таких ответов, когда случайный цвет действительно принадлежал промежутку, соответствующему выбранному цвету палитры.

Для построения палитр мы воспользовались наблюдениями об особенностях зрительного восприятия человека, изложенными в п. 3.2. Из них следует, что целесообразно выбирать различные значения шага вдоль разных координатных осей. Также воспользовались результатами предварительных экспериментов, которые показали, что разбиение пространства по насыщенности и яркости на число промежутков большее трех приводит к появлению в палитре цветов, с трудом различимых человеческим глазом. В результате для эксперимента с участием независимых асессоров было отобрано пять палитр, отличавшихся в основном шагом квантования по оттенку. Представим набор отобранных палитр и результаты эксперимента:

Н х 5 х I 15 х 2 х 3 13 х 2 х 3 11 х 2 х 3 9 х 2 х 3 6 х 2 х 2

Точность, % 60 63 66 72 76

Запись И х Б х I = к х I х т означает, что пространство разбивалось на к промежутков по оттенку (ось И), на I промежутков по насыщенности (ось Б)ина т промежутков по яркости (ось I). Можно заметить, что с уменьшением числа промежутков точность ответов асессоров повышается.

Помимо общего вычисления точности ответов был произведен анализ, какого рода ошибки совершались чаще: ошибался ли асессор в оттенке, яркости или в насыщенности. В среднем наблюдалось превосходство ошибок по насыщенности - 43%. Если рассматривать динамику от разбиения с меньшим количеством оттенков к разбиению с большим количеством оттенков, то здесь наблюдается стабильное количество ошибок по насыщенности, в то время как число ошибок по оттенку увеличивается с 16 до 51%. По яркости наблюдается уменьшение соотношения ошибок при увеличении числа оттенков от 37 до 17%.

6. Эффективность поиска по цветовым гистограммам. Результаты эксперимента, описанного в п. 5, дают основание предположить, что при поиске по подобию с использованием цветовых гистограмм снижение размерности вектора признаков путем квантования исходного цветового пространства на небольшое число промежутков не должно негативно сказаться на эффективности поиска. Ниже приведены результаты экспериментов, частично подтверждающие это предположение.

6.1. Описание эксперимента. Оценка эффективности поиска по подобию осуществлялась на двух экспериментальных базах изображений: ImageDB-100 и ImageDB-1000. Первая база содержит 100 специально отобранных изображений, разбитых экспертом на 16 групп по семантическому и визуальному подобию. Размер групп колеблется от 2 до 10 изображений. Изображения, принадлежащие одной группе, обладают сильным сходством, в то время как из разных групп существенно отличаются. Вторая база, ImageDB-1000, включает чуть более 1000 изображений. ImageDB-1000 содержит все изображения базы ImageDB-100, разбитые на те же группы. Помимо этого она включает еще 900 случайных изображений, которые не подвергались процессу отбора и распределения по группам.

Оценка производилась для следующих цветовых признаков:

HSI* б x 2 x 2 - гистограмма по пространству HSI* с квантованием б x 2 x 2;

HSI* 12 x 2 x З - гистограмма по пространству HSI* с квантованием 12 x 2 x З;

HSI* 1S x 2 x З - гистограмма по пространству HSI* с квантованием 1S x 2 x З;

HSI* 1T x 12 x 1B - гистограмма по пространству HSI* с квантованием 1T x 1B x 12;

HCL б x 2 x 2 - гистограмма по пространству HCL с квантованием б x 2 x 2;

HCL 12 x 2 x З - гистограмма по пространству HCL с квантованием 12 x 2 x З;

HCL 1S x 2 x З - гистограмма по пространству HCL с квантованием 1S x 2 x З;

HCL 1T x 12 x 1B - гистограмма по пространству HCL с квантованием 1T x 1B x 12;

Moments - статистическая модель, описанная в п. З.З (цветовые моменты).

Параметры квантования были выбраны с учетом результатов эксперимента, описанного в п. 5. Также для сравнения были взяты параметры, которые использовались в работах [1З, 16]. Для сравнения гистограмм применялись взвешенное манхэттеновское расстояние (Li - метрика) и косинусное расстояние. Цветовые моменты сравнивались только взвешенной манхэттеновской метрикой, поскольку авторами данного представления цвета было показано, что она позволяет достичь более высокой эффективности поиска на этом пространстве признаков [18].

6.2. Анализ результатов. Для оценки эффективности поиска использовались средняя полнота на уровне N (average recall at N) и средняя точность на уровне N (average precision at N) - классические меры оценки качества в информационном поиске, представляющие среднюю полноту и точность первых N элементов ответа системы *). Роль запросов играли 100 изображений базы ImageDB-100. Релевантными запросу считались изображения из одной группы с запросом.

Необходимо отметить, что при поиске по большим коллекциям документов (как текстовых, так и мультимедиа), точность результата считается более важным показателем эффективности алгоритма. В случае поиска по объемной коллекции обычно не ставится задача найти все релевантные документы (их может быть очень много). Необходимо в числе первых результатов поиска вернуть хотя бы некоторые из наиболее релевантных запросу.

Рис. 1. Полнота на уровне 10 при выборе различного шага квантования а - ImageDB-100; б - ImageDB-1000.

На рис. 1, 2 представлены результаты эксперимента. Зависимость полноты на уровне 10 от шага квантования для различных пространств признаков и метрик представлена на рис. 1. Уровень 10 выбран для оценки по той причине, что максимально возможное число релевантных изображений в обеих экспериментальных базах не превышает 10. Поскольку статистическое представление цвета не зависит от шага квантования, результат поиска с использованием этого признака постоянен. Заметим, что по данной метрике качество поиска по базе ImageDB-100 значительно выше, чем по базе ImageDB-1000, что является очевидным следствием из способа создания баз. Что касается зависимости полноты от шага квантования, то на графике наблюдается незначительное убывание полноты с увеличением числа промежутков в гистограмме, что соответствует результатам эксперимента по выбору шага квантования, описанному

*) Полнота представляет собой отношение количества релевантных документов, найденных поисковой системой, к общему числу релевантных документов в коллекции. Точность определяется отношением числа релевантных документов, найденных системой, к общему числу полученных документов. Чем выше эти показатели, тем качественнее ответы поисковой системы.

0123456789 10

Уровень

Точность на уровне N (N = 1,. .. ,10) при выборе различного шага квантования для ImageDB-100 (а, б) и ImageDB-1000 (в, г)

а, в - Manhattan distance; б, г - Cosine distance.

в п. 5. Также можно отметить, что полнота результатов при поиске с использованием косинусного расстояния во всех случаях уступает полноте при поиске с манхэтте-новским расстоянием. Поиск с помощью статистической модели представления цвета показывает лучший результат по сравнению с гистограммами для базы ImageDB-1000. Однако на небольшой базе хорошо различимых изображений применение гистограмм вкупе с манхэттеновской метрикой дает более полные ответы поиска.

На рис. 2 приведены зависимости точности от уровня выборки для баз ImageDB-100 (а, б) и ImageDB-1000 (в, г), только для некоторых рассмотренных пространств признаков: для статистического представления и для гистограмм с максимальным и минимальным числом промежутков квантования. Результаты поиска в остальных пространствах в целом близки к показанным.

Графики свидетельствуют о более высокой точности поиска при меньшем шаге квантования в случае использования взвешенной манхэттеновской метрики на пространстве признаков, построенном в цветовой модели НБ1*. В то же время при сравнении гистограмм косинусной метрикой уменьшение шага квантования ведет к заметному понижению точности для всех цветовых пространств на обеих тестовых базах. Цветовые моменты в среднем дают более высокую точность поиска в сравнении с гистограммами по базе ImageDB-1000, которая является лучшим приближением к реальной коллекции изображений.

На основе полученных результатов можно сделать следующие выводы. В среднем использование цветовых моментов позволяет получить более полный и точный результат при поиске по коллекции разнородных изображений, где помимо релевантных запросу присутствуют также шумовые изображения - обладающие некоторым визуальным сходством с изображением-запросом, но в то же время не являющиеся семантически релевантными. При использовании цветовых гистограмм вкупе с манхэттеновской метрикой для их сравнения увеличение шага квантования (соответственно уменьшение числа бинов гистограммы) понижает точность поиска, но в то же время ведет к незначительному повышению полноты результата. Иными словами, снижается вероятность того, что в числе первых результатов система вернет очень близкие к запросу изображения (если они есть в коллекции), а ранжирование остальных элементов результата (менее похожих, но все же релевантных, и совсем непохожих и нерелевантных) более соответствует степени подобия запросу. При сравнении гистограмм косинусной метрикой увеличение шага квантования приводит к повышению значений обеих мер качества результатов, полноты и точности. Отметим также, что увеличение шага квантования понижает размерность вектора признаков и тем самым позволяет повысить скорость поиска.

7. Заключение. В настоящей работе представлены результаты экспериментального сравнения эффективности поиска по цветовым гистограммам при выборе различного шага квантования цветового пространства. Эксперименты проводились на двух тестовых коллекциях, обладающих разными свойствами. Однако для обеих коллекций наблюдается общий характер зависимости полноты и точности результатов поиска от величины шага квантования и выбранной метрики для сравнения векторов признаков. При сравнении гистограмм взвешенной манхэттеновской метрикой увеличение шага квантования (снижение числа цветовых промежутков и размерности вектора признаков соответственно) приводит к меньшей точности и к незначительному повышению полноты результатов поиска. При использовании косинусной метрики увеличение размерности вектора признаков ведет к снижению качества поиска. Действительно, как показано в работе [20], косинусная метрика с увеличением размерности векторов дает результат, близкий к евклидовой метрике. А евклидова метрика, в свою очередь, дает худший результат на пространстве цветовых гистограмм по сравнению с манхэттенов-ской [12].

На основе сказанного можно сделать вывод, что в том случае, когда необходимость применять косинусную метрику продиктована особенностями архитектуры системы поиска (например, использование индексных структур, подразумевающих сравнение

индексируемых векторов именно такой метрикой), для повышения точности поиска нужно выбирать достаточно большой шаг квантования цветового пространства. Дополнительным преимуществом при таком выборе будет уменьшение размерности векторов признаков. Когда косинусная метрика не обязательна, более точного результата поиска можно добиться при выборе небольшого шага квантования и сравнении векторов манхэттеновской метрикой.

Из результатов проведенных экспериментов следует также, что статистическая модель представления цвета изображения (цветовые моменты) в среднем дает лучшие полноту и точность результатов поиска по сравнению с цветовыми гистограммами на разнородной коллекции изображений. Однако было замечено, что эффективность поиска по цветовым моментам и цветовым гистограммам зависит от свойств текстуры запроса-образца. Подробное исследование данной зависимости является следующей интересной исследовательской задачей.

Литература

1. Niblack W., Barber R., Equitz W. et al. The QBIC project: Querying images by content, using color, texture, and shape // Proc. of Storage and Retrieval for Image and Video Databases (SPIE). 1993. P. 173-187.

2. Flickner M., Sawhney H., Niblack W. et al. Query by image and video content: the QBIC system // Intelligent multimedia information retrieval. 1997. P. 7-22.

3. Smith J., Chang S. VisualSEEk: a fully automated content-based image query system // Proc. of the fourth ACM Intern. conference on Multimedia. New York, USA: ACM Press, 1997. P. 87-98.

4. Ma W.-Y., Manjunath B. S. NeTra: A toolbox for navigating large image databases // Proc. of the Intern. Conference on Image Processing. Santa-Barbara, USA, 1997. Vol. 1. P. 568-571.

5. Huang T. S., Mehrotra S., Ramchandran K. Multimedia analysis and retrieval system (MARS) project // Proc. of 33rd Annual Clinic on Library Application of Data Processing - Digital Image Access and Retrieval. Urbana, USA, 1996. P. 100-117.

6. Ortega M., Rui Y., Chakrabarti K. et al. Supporting similarity queries in MARS // MULTIMEDIA ’97: Proc. of the fifth ACM Intern. conference on Multimedia. New York, USA: ACM Press, 1997. P. 403-413.

7. Swain M. J., Ballard D. H. Color indexing // Intern. Journal of Computer Vision. 1991. Vol. 7, N 1. P. 11-32.

8. Smith J. R., Chang S.-F. Single color extraction and image query // Intern. Conference on Image Processing (ICIP-95). 1995. Vol. 3. P. 528-531.

9. Sural S., Qian G., Pramanik S. A histogram with perceptually smooth color transition for image retrieval // Fourth Intern. Conference on Computer Vision. Pattern Recognition and Image Processing. Durham, USA, 2002. P. 664-667.

10. Гонсалес Р., Вудс Р. Цифровая обработка изображений. Мир цифровой обработки / пер. с англ.; под ред. П. А. Чочиа. М.: Техносфера, 2005. 1072 с.

11. Jack K. Video Demystified: A Handbook for the Digital Engineer. Fourth ed. London et al.: Newnes, 2004. 966 p.

12. Stricker M., Orengo M. Similarity of color images // Storage and Retrieval for Image and Video Databases (SPIE). 1995. P. 381-392.

13. Guironnet M., Pellerin D., Ladret P. NeTra: Combinaison de descripteurs flous de couleur et d’activite pour le resume de videos // 14eme congres de Reconnaissance des Formes et Intelligence Artificielle RFIA. 2004. 9 p.

14. Ioka M. A method of defining the similarity of images on the basis of color information: Tech. Rep. RT-0030. Tokyo, Japan: IBM Tokyo Research Lab., 1989. 24 p.

15. Smith J. R., Chang S.-F. Tools and techniques for color image retrieval // Storage and Retrieval for Image and Video Databases (SPIE). 1996. P. 426-437.

16. Missaoui R., Sarifuddin M., Vaillancourt J. An effective approach towards content-based image retrieval // Image and Video Retrieval. Berlin; Heidelberg: Springer, 2004. Vol. LNCS 3115. P. 335-343.

17. Wand M. P. Data-based choice of histogram bin width // The Amer. Statistician. 1997. Vol. 51, N 1. P. 59-64.

18. Stricker M., Dimai A. Spectral covariance and fuzzy regions for image indexing // Mach. Vision Appl. 1997. Vol. 10, N 2. P. 66-73.

19. Sarifuddin M., Missaoui R. A new perceptually uniform color space with associated color similarity measure for contentbased image and video retrieval // ACM SIGIR Workshop on Multimedia Information Retrieval. 2005. URL: http://mmis.doc.ic.ac.uk/mmir2005/CameraReadyMissaoui.pdf.

20. Qian G., Sural S., Gu Y., Pramanik S. Similarity between euclidean and cosine angle distance for nearest neighbor queries // 19th Annual ACM Symposium on Applied Computing. 2004. P. 1232-1237.

Статья рекомендована к печати проф. А. Н. Тереховым.

Статья принята к печати 25 декабря 2008 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.