СПИСОК ЛИТЕРАТУРЫ
1. Cagnazzo M., Cicala L., Poggi G., Verdoliva L. Low-complexity compression of multispectral images based on classified transform coding // Signal Processing: Image Communication. - 2006. -№10 (21). - P. 850-861.
2. Gueguen L., Trocan M., Pesquet-Popescu B., Giros A., Datcu M. A comparison of multispectral satellite sequence compression approaches // Signals, Circuits and Systems. - 2005. - № 1. - P. 87-90.
3. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия данных. - М.: Диалог-МИФИ, 2003. - 384 с.
4. Kiely A., Klimesh M., Xie H., Aranki N. ICER-3D: A Progressive Wavelet-Based Compressor for Hyperspectral Images // The Interplanetary Network Progress Report. - 2006. - P. 142-164.
5. Motta G., Rizzo F., Storer J.A. Hyperspectral Data Compression. -Berlin: Springer, 2006. — 415 p.
6. Christopoulos C., Skodras A., Ebrahimi T. The JPEG2000 still image coding system // Signal Processing Magazine, IEEE. - 2001. -V. 18. - № 5. - P. 36-58.
7. Замятин А.В., То Динь Чыонг. Сжатие многозональных аэрокосмических изображений с использованием вейвлет-преоб-разования и учетом междиапазонной зависимости // Известия Томского политехнического университета. - 2008. - T. 313. -№ 5. - С. 20-24.
Поступила: 27.10.2008 г.
УДК 004.9
ИССЛЕДОВАНИЕ СУПЕРВИЗОРНЫХ КРИТЕРИЕВ ОЦЕНКИ КАЧЕСТВА СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ
А.О. Левашкина, С.В. Поршнев
Уральский государственный технический университет, г. Екатеринбург E-mail: [email protected]
Описана методика, позволяющая вычислять количественные значения показателя качества сегментации изображений. В соответствии с данной методикой проведен сравнительный анализ супервизорных критериев оценки качества сегментации изображений: FOM, критерий Хаусдорфа, критерий Баддели, DKu, M, RMS, V, RI-критерий, критерий GCE, VI-критерий. Выделены критерии, которые целесообразно использовать для оценки качества алгоритмов сегментации изображений.
Ключевые слова:
Сегментация изображения, оценка качества сегментации, супервизорные критерии.
Введение
Сегментация изображений является фундаментальным процессом в системах компьютерного зрения и приложениях, выполняющих обработку и анализ графической и видеоинформации. Данная процедура используется для разделения изображения на отдельные области, которые соответствуют различным объектам реального мира. Сегментацию следует рассматривать как начальный этап построения формального описания сцены, качество выполнения которого во многом определяет успех решения задачи распознавания изображений, интерпретации и идентификации визуально наблюдаемых объектов.
На сегодняшний день известно большое количество алгоритмов сегментации изображений (АСИ), использующих различные признаки и характеристики изображений. Необходимо отметить, что при исследовании АСИ неизменно возникает две проблемы:
1. выбор АСИ, соответствующего классу анализируемого изображения;
2. нахождение критерия, позволяющего оценивать обоснованность выбора АСИ.
Таким образом, разработка методов сравнения качества работы АСИ является актуальной задачей.
Отметим, что оценка результатов сегментации может быть проведена визуально, однако при этом окончательные выводы оказываются достаточно субъективными. Известен альтернативный подход, в котором оценка качества АСИ проводится по конечному результату работы технической системы, например в системах технического зрения. Однако данный подход является скорее качественным, поскольку в целом удовлетворительные результаты работы технической системы отнюдь не означают, что выбран наилучший АСИ.
Для количественной оценки качества сегментации сегодня разработано большое количество критериев. Известные критерии количественной оценки качества сегментации изображений можно разделить на две группы (рис. 1):
1. Несупервизорные критерии, основанные на вычислении различного рода статистик, используются при отсутствии априорной информации о сегментах изображения. (В англоязычной литературе для обозначения этого класса критериев используются следующие термины: goodness criteria, unsupervised criteria, stand-alone criteria [1]).
2. Супервизорные критерии, основанные на вычислении меры отличия результатов сегмента-
ции и истинной формы объектов (ИФО) изображений. При этом форма объектов может задаваться экспертами (как в базе изображений университета Беркли (Berkeley Segmentation Dataset) [2]) или считается известной. (В англоязычной литературе для обозначения этого класса критериев используются следующие термины: discrepancy criteria, supervised criteria, reference criteria, а для обозначения ИФО термины reference image, ground truth [1]).
Эмпирические критерии оценки качества сегментации
супервизорные
(discrepancy criteria, supervized criteria, reference criteria)
несупервизорные
(goodness criteria, unsupervised criteria, stand-alone criteria)
Рис. 1. Классификация эмпирических критериев оценки качества сегментации
Описание данных критериев приводит преимущественно в зарубежной литературе [1, 3-18]. Среди русскоязычных публикаций выделим работы [19, 20]. Существуют специальные пакеты для оценки качества сегментации изображений, в которых применяются различные критерии качества [2, 21], однако авторам не удалось найти обоснование использования разработчиками именно выбранных ими критериев качества.
Известны попытки проведения сравнительного анализа супервизорных критериев, позволяющих выполнять количественную оценку качества сегментации изображений [22, 23]. Однако эти работы также несвободны от ряда недостатков.
В работе [22] для сравнения супервизорных критериев были использованы 100 изображений. При этом были выделены три класса результатов сегментации - недосегментация, пересегментация
и нормальная сегментация (рис. 2). Из рис. 2 видно, что контуры объектов, вообще говоря, являются разрывными. В тоже время, авторы [22], не обращая внимание на указанное свойство контуров, выбрали для сравнения те супервизорные критерии, значения которых рассчитываются на основе значений граничных пикселей. Как очевидно, в условиях разрывности границ контуров сложно говорить о выделении объектов на изображении, что и является целью сегментации.
В работе [23] основное внимание авторы уделили анализу качества выделенных при сегментации границ объектов. При этом они различали следующие результаты регистрации - границы с наличием излишне зарегистрированных точек (over detection), границы с неполной регистрацией точек границы (under detection) (рис. 3). Для нахождения количественного значения критериев качества выделения границ авторы ограничились шестью изображений, представленных на рис. 3. Объем используемой выборки, принимая во внимание случайную составляющую имманентно присутствующую в задаче сегментации изображений, позволяет поставить статистическую значимость полученных результатов под сомнение.
Целью статьи является описание методики оценки качества сегментации изображений и сравнительный анализ следующих супервизорных критериев оценки качества сегментации: FOM, критерий Хаусдорфа (Hausdorff distance), критерий Бад-дели (Baddeley s distance), DKu, M, RMS, V, RI-критерий, критерий GCE, VI-критерий.
1. Супервизорные критерии оценки качества АСИ
Для количественной оценки качества сегментации изображений используются следующие критерии:
1. Критерий FOM (Figure of Merit), предложенный Праттом, соответствует эмпирическому расстоянию между ИФО, представленной в ви-
пример изображения
ИФО
недосегментация нормальная сегментация пересегментация
Рис. 2. Примеров классов результатов сегментации, выделяемых в 1221
Идеальная
С неполной С неполной
С наличием дополнительно зарегистрированных регистрацией всех регистрацией точек точек (over detection) точек границы границы при наличии
IIIIII
Рис. 3. Примеры результатов регистрации границ, выделяемых в [23]
де контуров It и контурами, полученными в результате сегментации Is [1]
FOM (It, Is) =
-| card (Is) -i
=_1__у_1_
max{card (It), card (Is)} t! 1 + d2 (i)'
где card(I) количество пикселей в множестве I,, card(I) количество пикселей в множестве I, d(i) расстояние между i-м пикселем I и ближайшим к нему пикселем в It.
2. Критерий Хаусдорфа (Hausdorff) - расстояние между двумя множествами пикселей и ), предложенный в [1]
Hausdorff (It, Is) = max(h (It, Is), h (Is, It)),
где ^(It,I)=maxteIminieI||ti=si||. Если Hausdorf(I,,I)=d, то это означает, что все пиксели в множестве It находятся не дальше чем на расстоянии d от пикселей в I .
3. Критерий RMS (root mean squared error) - средне квадратичная ошибка, предложенная в [1]
RMS (L, /2) =
1
card (X)
У (Л( X) - / 2( x));
где I(x) интенсивность пикселя x в I, X множество пикселей на сегментируемом изображении.
4. Критерий DKu, предложенный в [1]
DKu (Ii, 12) = —-У (Ii( х) -12( х)) • log(
card (X) 12(x)
5. Критерий M - среднее значение ошибки сегментации, предложенный в [1]
1 card (Is)
M = —^ГГ У d(i )■
card (Is) f=1
6. Критерий V- дисперсия ошибки сегментации, предложенный в [1]
1 card(Is)
V = —^ГТ У (d'(i) - M)■
card (Is) t!
7. Критерий Баддели (Baddeley), предложенный в [1] i
Baddeley (/15 /2) =
card (X)
■У Id(x,/Л - d(x,/2)P
где X - общая область двух результатов сегментации IbI2; IbI2 соответствуют пикселям на контурах в сравниваемых сегментациях; d(x,l)=miny6d(x,y); p>1. Далее используется обозначение Baddeley(p) -в скобках указывается выбранное значение p. 8. RI-критерий (Rand Index), предложенный в [24] a + b a + b
R/ =
a + b + c + d
Если S={O1,...,On} множество пикселей, X={x1,...,xr} и Y={y1v..,ys} два результата сегментации, то a - количество пар элементов в S, которые отнесены к одному подмножеству в Xи в Y; b - количество пар элементов в S, которые отнесены к разным подмножествам в X и Y; c - количество пар элементов в S, которые отнесены к одному и тому же подмножеству в X и к разным подмножествам в Y; d -количество пар элементов в S, которые отнесены к разным подмножествам в Хи к одному и тому же в Y.
9. Критерий GCE (Global Consistency Error) - глобальная ошибка несовместимости - предложенный в [25]
GCE (S, S') =
= — • min{y LRE(S, Sxi), У LRE(SS,х,.)},
N . .
|C(S, х.) \ C (Sх. )| где LRE(S, S', х,) = ' ¿(S х )| '; S, S два результата сегментации; X={x,...,xN} пиксели на результатах сегментации; C(S,x) обозначает сегмент в S, содержащий пиксель x; C(S',x) обозначает сегмент в S, содержащий пиксель xi; оператор разности множеств.
10. VI-критерий (Variation of Information), предложенный в [26]
VI (C, K) = H (C\K) + H (C\K),
Kl CI a
H (C\K) = -уу % •log
где
^^ N
k=1 c=1 N
Id K\
'У d
H (K\c) = -££ Orlos Уг
c=1 k=1 iV У
¿—tk=1
k=1 ack
П
N — количество пикселей, С={с(|/=1,...,«} и К={к^=1,...,т} - два варианта сегментации, количество пикселей, которые являются членами класса с и элементами класса к.
2. Методика сравнения супервизорных критериев
Для проверки работоспособности критериев использовалась методика, реализующаяся следующей последовательностью действий:
1. Выбор базы, состоящей из не менее 100 изображений и их сегментаций, выполненных человеком.
2. В связи с тем, что сегментация изображений, выполненная человеком, не однозначна, осуществляется случайный выбор из набора возможных сегментаций. (Примеры сегментаций, выполненных четырьмя разными людьми, приведены на рис. 4).
3. Вычисление значения количественного критерия для случая идеальной сегментации.
4. Выбор алгоритма сегментации.
5. Сегментация изображений с использованием выбранного АСИ.
6. При необходимости применение операции связывания контуров.
7. Визуальный анализ полученных результатов и выделение следующих классов результатов сегментации (не менее 100 результатов сегментации в каждом классе):
• недосегментация (UNDER) - результат сегментации, на котором несколько компонент ИФО пропущены;
• пересегментация (OVER) - результат сегментации, на котором количество выделенных компонент больше, чем на ИФО;
• компромиссная (COMPROMISE) - результат сегментации, который, по мнению человека, является похожим на ИФО.
Пример каждого из выбранных типов сегментации изображений представлен на рис. 5.
Рис. 5. Примеры изображений трех классов результатов сегментации
8. Вычисление значения критериев для каждого из выделенных классов результатов сегментации (результат выполнения п. 8 - набор случайных величин для случаев пересегментации, не-досегментации и компромиссной сегментации).
9. Исключение аномальных отклонений из набора случайных величин, полученных в п. 8, с помощью известных критериев (например, критерий Романовского).
10. Статистический анализ случайных величин коэффициентов сегментации с исключенными аномальными значениями:
• вычисление среднего;
• проверка нормальности закона распределения случайных величин;
• проверка статистической значимости отличия средних значений.
3. Анализ результатов сравнения критериев
Методика, описанная в предыдущем разделе, была применена для 300 изображений из базы изображений университета Беркли [2]. В качестве критериев оценки качества сегментации изображений были использованы критерии, описанные в разделе 2.
Грубые отклонения исключались с доверительной вероятностью 0,95. Для проверки соответствия нормальному закону распределения рассчитывался критерий Колмогорова-Смирнова. Распределение считалось нормальным при Ж1,3. Значения критерия Колмогорова-Смирнова для выбранных классов результатов сегментации представлены в табл. 1.
Таблица 1. Значения критерия Колмогорова-Смирнова
№ Критерии Класс результата сегментации
UNDER OVER СОМРКОМ^Е
1 Вааае!еу(1) 4,158 3,343 3,199
2 Ваае!еу(5) 2,308 3,391 2,142
3 Вааае!еу(20) 1,741 2,482 2,089
4 Dku 2,432 2,253 2,283
5 FOM 8,203 2,122 6,159
6 GCE 1,994 1,814 1,718
7 1,651 2,41 2,728
8 М р.р. 1,862 2,379
9 К! 16,421 2,088 17,012
10 КМБ 1,574 4,856 2,575
11 V р.р. 2,85 3,33
12 V! 1,753 3,441 1,436
отличаются от нормальных, для сравнения значимости отличий средних мы использовали метод сравнения двух средних произвольно распределенных генеральных совокупностей [26]. Выводы делались на основе приближенного критерия (1) при уровне значимости 0,05.
г =
х - 7
Ов (X) Бв (У )
т
(1)
где X, У - две выборки, -, - - выборочные средние, БВ(Х), А,(У) - выборочные дисперсии.
Средние значения выбранных критериев качества сегментации представлены в табл. 2.
Таблица 2. Средние значения критериев оценки качества АСИ
№ Критерий UNDER OVER COMPROMISE
1 Вааае!еу(1) 5,7±0,5 16±1 2,2±0,2
2 Ваае!еу(5) 32±1 50±2 8,7±0,3
3 Вааае!еу(20) 59±3 81±3 16±1
4 Dku 0,00153±0,00008 0,022±0,001 0,0027±0,0001
5 FOM 0,69±0,02 0,16±0,01 0,70±0,02
6 GCE 0,0072±0,0003 0,034±0,001 0,0145±0,0005
7 81±4 112±4 22±1
8 М 0±0 1,3±0,1 0,019±0,001
9 К! 0,981±0,003 0,854±0,003 0,975±0,003
10 КМБ 0,071±0,002 0,270±0,004 0,093±0,002
11 V 0±0 170000±20000 36±3
12 V! 0,063±0,003 0,47±0,01 0,110±0,004
Из табл. 2 видно, что средние значения критериев М и V равняются нулю для случая недосегментации. Это объясняется тем, что в соответствии с использованием критерия Романовского все ненулевые значения были классифицированы как выбросы. Таким образом, данные критерии нецелесообразно использовать при сравнительном анализе АСИ.
Таблица 3. Результаты оценки значимости отличий средних значений
Таким образом, из табл. 1 видно, что ни один из критериев оценки качества сегментации для выбранных классов результатов сегментации не могут быть описаны нормальным законом распределения. Для критериев М и V наблюдалось равномерное распределения (р.р.) для случая недосегмента-ции (все значения равны нулю).
В связи с тем, что значения критериев качества сегментации изображений оказываются случайными величинами, законы распределения которых
№ критерий UNDER_OVER UNDER ШМ-PROM!SE OVER гам- PROM!SE
1 Вааае!еу(1) + + +
2 Ваае!еу(5) + + +
3 Вааае!еу(20) + + +
4 Dku + + +
5 FOM + - +
6 GCE + + +
7 Hausdorff + + +
8 М + + +
9 R! + - +
10 RMS + + +
11 V + + +
12 V! + + +
Результаты оценки значимости отличий средних представлены в табл. 3. Из таблицы видно, что отличия средних для критериев FOM и Ы оказываются незначимыми. Таким образом, данные критерии не целесообразно использовать при сравнительном анализе АСИ.
Заключение
Описана методика, позволяющая вычислять количественные значения показателя качества сегментации изображений. В соответствии с данной методикой проведен сравнительный анализ супер-визорных критериев оценки качества сегментации изображений, в том числе критерии: FOM, Хаус-
СПИСОК ЛИТЕРАТУРЫ
1. Zhang Y.J., Advances in image and video segmentation. - IBM Press, 2006. - 473 p.
2. Berkeley Segmentation Dataset - база изображений университета Беркли, [Электронный ресурс]. - режим доступа: http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grou-ping/segbench. - 17.03.2008.
3. Everingham M., Muller H., Thomas B. Evaluating Image Segmentation Algorithms Using Monotonic Hulls in Fitness/cost Space // Proc. of the 12th British Machine Vision Conference (BMVC2001).
- 2001. - P. 363-372.
4. Everingham M., Muller H., Thomas B. Evaluating image segmentation algorithms using the pareto front // Proc. of the 7th European Conf. on Computer Vision (ECCV2002). - 2002. - P. 34-48.
5. Cavallaro A., Gelesca E., Ebrahimi T. Objective evaluation of segmentation quality using spatio-temporal context // Proc. of IEEE Intern. Conf. on Image Processing. - 2002. - V. 3. - P. 301-304.
6. Zhang H., Fritts J.E., Goldman S.A. A co-evaluation framework for improving segmentation evaluation // SPIE Defense and Security Symposium - Signal Processing, Sensor Fusion, and Target Recognition XIV. - 2005. - P. 420-430.
7. Zhang H., Fritts J.E., Goldman S.A. A entropy-based objective evaluation method for image segmentation // SPIE Electronic Imaging
- Storage and Retrieval Methods and Applications for Multimedia.
- 2004. - P. 38-49.
8. Unnikrishnan R., Pentofaru C., Hebert M. Toward objective evaluation of image segmentation algorithms // IEEE transactions on pattern analysis and machine intelligence. - 2007. - V. 29. - № 6. -P. 929-944.
9. Chabrier S., Laurent H., Emile B. Performance evaluation of image segmentation. Application to parameter fitting // European Signal Processing Conference (EUSIPCO). - 2005. - P. 849-852.
10. Chabrier S., Laurent H., Emile B., Rosenberger C., Marche P. Evaluating the segmentation result of gray-level image // XII European Signal Processing Conference (EUSIPCO). - 2004. - P. 953-956.
11. Chabrier S., Laurent H., Rosenberger C., Zhang Y.J. Supervised evaluation of synthetic and real contour segmentation results // 14th European Signal Processing Conference (EUSIPCO). - 2006. -P. 563-569.
12. Jiang X., Matri C., Irniger C., Bunke H. Distance measures for image segmentation evaluation // EURASIP Journal on Applied Signal Processing. - 2006. - P. 1-10.
13. Ge F., Wang S., Liu T. Evaluating edge detection through boundary detection // EURASIP Journal on Applied Signal Processing. -2006. - P. 1-15.
14. Ge F., Wang S., Liu T. New benchmark for image segmentation evaluation // Journal of Electronic Imaging. - 2007. - V. 16. - № 3. -P. 21-34.
дорфа (Hausdorff distance), Баддели (Baddeleys distance), DKu, M, RMS, V, RI, GCE, VI с использованием 300 изображений из базы университета Беркли. Сделан вывод о возможности использования критериев Хаусдорфа, Баддели, DKu, M, RMS, V, GCE, Vi для оценки качества алгоритмов сегментации изображений.
15. Ge F., Wang S., Liu T. Image-segmentation evaluation from the perspective of silent object extraction // Proc. of the 2006 IEEE Computer Conference on Computer Vision and Pattern Recognition. -2006. - P. 125-140.
16. Neubert N., Herold H., Meinel G. Evaluation of remote sensing image segmentation quality - further results and concepts // Proc. 1st Intern. Conf. on Objectbased Image Analysis (OBIA 2006). -2006. - V. XXXVI-4/C42. - P. 4-6.
17. Sharma M. Performance Evaluation of Image Segmentation and Texture Extraction Methods in Scene Analysis: thesis for the degree of Master of Philosophy in Computer Science. - University of Exeter, 2001.
18. Restif C. Segmentation and Evaluation of Fluorescence Microscopy Images: Thesis for the degree of Doctor of Philosophy. - Oxford Brookes University, 2006.
19. Аксенов О.Ю. Сравнение алгоритмов сегментации // Труды НТОРЭС им. А.С. Попова. Сер. Цифровая обработка сигналов и ее применение. - 2005. - В. VII-2. - С. 278-281.
20. Привалов О.О. Методы и алгоритмы обработки растровых изображений для решения задач автоматизированной микроскопии медико-биологических препаратов: Дис. ... к.т.н. - Волгоград, 2007.
21. Image Segmentation Benchmark - пакет для оценки качества сегментации изображений, [Электронный ресурс]. - режим доступа: http://www.cse.sc.edu/~tiecheng/research_web/res-earch3.html. - 17.03.2008.
22. Chabrier S., Laurent H., Emile B., Rosenberger C., Marche P. A comparative study of supervised evaluation criteria for image segmentation // European Signal Processing Conference (EUSIPCO).
- 2004. - P. 1143-1146.
23. Odet C., Belaroussi B., Benoit-Cattin H. Scalable discrepancy measures for segmentation evaluation // Proc. of Intern. Conf. on Image Processing. - 2002. - V. 1. - P. I-785- I-788.
24. Rand Index, Wikipedia, free encyclopedia, [Электронный ресурс].
- режим доступа: http://en.wikipedia.org/wiki/Rand_index. -17.03.2008.
25. Unnikrishnan R., Pantofaru C., Hebert M. Toward objective evaluation of image segmentation algorithms // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2007. - V. 29. - №. 6. -P. 247-251.
26. Rosenberg A., Hirschberg J. V-measure: A conditional entropy-based external cluster evaluation measure // Proc. of the 2007 Joint Conference on Empirical Methods in Natural Languages Processing and Computational Natural Language Learning. - 2007. -P. 410-420.
27. Гмурман В.Е. Теория вероятностей и математическая статистика. Изд. 7-е, стер. - М.: Высшая школа, 2000. - 479 с.
Поступила 26.06.2008 г.