УДК 004.932.2
АЛГОРИТМ ОБНАРУЖЕНИЯ И СЕГМЕНТАЦИИ ДЕФЕКТОВ В ПОЛУПРОЗРАЧНЫХ МИНЕРАЛАХ НА ФОТОИЗОБРАЖЕНИЯХ
А.С. Лебедев, аспирант; В.А. Гаганов, к.ф.-м.н., научный сотрудник; А.В. Игнатенко, к.ф.-м.н., научный сотрудник (Московский государственный университет им. М.В. Ломоносова, Ленинские горы, 1, г. Москва, 119991, Россия, alebedev@graphics. cs. msu. ru, vgaganov@graphics. cs. msu. ru, ignatenko@graphics. cs. msu. ru)
В статье описан новый алгоритм обнаружения и сегментации дефектов в полупрозрачных минералах на фотоизображениях, обладающий большей точностью и устойчивостью к входным данным, чем существующие методы. Многие из известных алгоритмов неприменимы к задаче поиска дефектов из-за множества ограничений на входные данные и априорных предположений о форме искомых объектов, размере и контрастности границы. Наиболее перспективными являются методы на основе оценки фона изображения, использующие только информацию о яркости изображения. Разработанный алгоритм позволяет более точно, чем существующие аналоги, оценивать фон изображения, так как, помимо яркости изображения, используется простая физическая модель получения фотографий. На основе оценки фона производятся сегментация и классификация найденных областей на дефекты и фон с использованием метода опорных векторов. Алгоритм был протестирован на реальных данных из алмазной промышленности. Также было проведено сравнение предложенного алгоритма с уже существующими. Результаты сравнения показали, что предложенный алгоритм обладает более высокой точностью на реальных данных, чем его аналоги.
Ключевые слова: компьютерное зрение, детектирование объектов, сегментация изображений, оценка фона, метод опорных векторов.
ALGORITHM FOR DETECTION AND SEGMENTATION OF DEFECTS IN TRANSPARENT MINERALS ON PHOTOGRAPHS Lebedev A.S., postgraduate; Gaganov V.A., Ph.D., research associate; Ignatenko A. V., Ph.D., research associate (Lomonosov Moscow State University, Leninskie Gory, 1, Moscow, 119991, Russia, alebedev@graphics. cs.msu.ru, [email protected]. ru, ignatenko@graphics. cs.msu.ru)
Abstract. The paper proposes a new algorithm to detect and segment defects in transparent minerals that is more accurate and stable than existing methods. Many existing algorithms cannot be applied to the defect detection problem as they have restrictions on input data and require some additional prior knowledge about shape of detected objects, their size and contrast. The most useful methods that can be applied to defect detection are algorithms based on background estimation. Such algorithms use information about image intensity. The proposed algorithm estimates the background more precisely than existing methods, because, besides image intensity, it takes into account the physical principles of input data acquirement. The image is segmented based on background estimation. Segments are classified using classifier trained by support vector machine algorithm. The algorithm was tested on real world data from diamond industry. It also was compared with other background estimation algorithms. The results of comparison show that the proposed algorithm is more precise than other existing methods.
Keywords: computer vision, object detection, image segmentation, background estimation, classification, support vector machine, radial basis function, Platt calibration, adaptive thresholding, ROC.
В промышленности очень часто возникает задача контроля и улучшения качества изделий. Для ее решения необходимо обнаруживать и локали-зовывать дефекты в выпускаемой продукции или в сырье. В данной статье рассматривается предметная область, связанная с обработкой алмазного сырья с целью получения драгоценных камней. Обрабатываемые алмазы имеют различные дефекты, образовавшиеся внутри кристаллов в процессе их роста. Для максимизации стоимости полученных драгоценных камней необходимо обнаружить дефекты внутри алмазного сырья и отсечь их при распиле на драгоценные камни. Основными дефектами являются инородные включения минералов, воздуха, а также трещины. Поскольку алмазное сырье обладает высоким коэффициентом преломления и сложной геометрической формой, обнаружение включений сильно затруднено. Для того чтобы включения были лучше видны, алмаз запаивается в иммерсионный куб с показателем преломления, близким к показателю преломления
алмаза (рис. 1). Иммерсионный куб с алмазом подсвечивается специальным образом, что позволяет максимизировать контраст наблюдаемых дефектов. Иммерсионный куб фотографируется с различных ракурсов. Задача состоит в обнаружении и сегментации дефектов на полученных фотоизображениях. Помимо изображений, заданы геометрия алмаза и иммерсионного куба, их коэффи-
а) б)
Рис. 1. Фотографии алмазного сырья: а) изначальная и б) после впайки в иммерсионный куб
циенты преломления, параметры фотокамеры (положение, ориентация относительно алмаза и т.п.).
Обзор существующих методов
Задача обнаружения и сегментации объектов является очень распространенной в области компьютерного зрения. Существующие алгоритмы часто используют априорную информацию об искомых объектах, например, об их форме, размере, цвете, о контрастности границы и т.п. Что касается включений, то их форма и размер могут сильно варьироваться, граница может быть как четкой, так и размытой. Единственная информация, которую можно достоверно использовать, - это относительная яркость (чем темнее область на фотографии, тем вероятнее, что это дефект). Для подобных задач применяются различные алгоритмы бинаризации изображений: глобальные, когда имеется один общий порог, и локальные (например, алгоритм симметричного локального порога [1], вычитание из размытого изображения). Суть алгоритмов в том, что в них различными способами оценивается яркость фона изображения, которая затем вычитается из исходного изображения. Основной сложностью для этих алгоритмов в задаче обнаружения включений является сильная вариация яркости фона, обусловленная сложной геометрией алмаза. Другой распространенный подход заключается в сегментации изображения с последующей классификацией областей по признакам, однако трудно выбрать эти признаки, так как априорной информации об искомых объектах мало. Алгоритм максимально стабильных экстремальных регионов [2] позволяет разбить изображение на набор вложенных друг в друга областей и выбрать максимально стабильную, соответствующую наиболее вероятному положению искомого объекта. Данный алгоритм хорошо работает в случае дефектов с контрастной границей, в других ситуациях граница дефекта может быть найдена неверно. Аналогичные проблемы возникают при подходах на основе классификации областей, полученных сегментацией типа «змея» [3]. Используемый в подходе признак, основанный на однородности градиента изображения вдоль границы объекта, в задаче поиска включений оказывается малоприменимым в силу различной степени размытости частей границы. Методы на основе классификации областей в скользящем окне (например [4]) не применяются для поиска дефектов в силу разного размера и произвольной формы. Таким образом, наиболее перспективными являются алгоритмы на основе оценки фона.
Описание предлагаемого алгоритма
Предлагаемый в данной работе алгоритм базируется на идее оценки яркости фона изображения,
а также на стандартном подходе к сегментации изображения с последующей классификацией областей с использованием признаков на основе яркости восстановленного фона. Для оценки фона, помимо фотографии алмаза в иммерсионном кубе, используется описанная далее физическая модель расчета яркости на фотографии. Иммерсионный куб находится между равномерным источником света и фотокамерой, поэтому основная доля энергии от источника света теряется за счет поглощения энергии иммерсионным стеклом (алмаз практически не поглощает энергию). При этом энергия от источника счета зависит экспоненциально от длины хода луча в иммерсионной среде: /¿(х, у)=/0-ехр(-а-й), где 1ц - яркость изображения; /0 - яркость источника света; й - длина хода луча света в иммерсионной среде. Коэффициент затухания энергии а>0 неизвестен, однако его можно оценить по одной фотографии, поскольку длину хода луча можно легко рассчитать для каждого пикселя фотографии. Данная модель довольно проста, чтобы служить оценкой фона изображения, поскольку в реальности яркость источника света может быть не константой для всех точек изображения, имеются различные внешние источники влияния (блики, отражения) и т.п. Тем не менее она верно передает различные перепады яркости в фоне изображения. Для построения финальной оценки фона используется двухмерный сплайн с пространственной вариацией гладкости. Искомая оценка фона представляется в виде линейной комбинации радиально-базисных функций [5]: /(Р)=Е^,-ехр(-|а,-р(Р, Р,)), где Р - рассматриваемая точка изображения (х, у); Р, 1, п ) - одна из опорных точек сплайна; р(-,-) - квадрат евклидова расстояния между точками; ^,>0 - вес опорной точки; |,>0 - коэффициент гладкости сплайна в опорной точке.
Рассмотрим процесс построения сплайна. Изображение разбивается равномерной сеткой, в узлах которой помещаются опорные точки сплайна. Далее для каждой опорной точки оценивается гладкость Для этого в локальной окрестности рассматриваемой точки строится сплайн с постоянной гладкостью | для простой оценки фона /¡.. Перебирая различные | , находим максимально возможное значение, при котором максимальная погрешность аппроксимации яркости в окрестности точки меньше некоторого порога Т. Это значение и будет искомой гладкостью Веса находятся путем решения системы линейных алгебраических уравнений, описанной в [5]. Таким образом, получена оценка фона изображения, которая одновременно учитывает перепады яркости фона по простой физической модели и яркость исходного изображения.
Следующий этап алгоритма - сегментация и классификация областей. В отличие от тра-
диционного подхода, когда сегментируется исходное изображение, предлагается сегментировать разность полученной оценки фона и исходного изображения. Полученные области классифицируются методом опорных векторов на основе нескольких признаков, среди которых можно выделить различные квантили разности оценки фона и исходного изображения по области, а также отношение средней яркости исходного изображения по области сегмента к средней интенсивности фона по области всего алмаза. Выход классификатора калибруется алгоритмом Платта [6]. По результатам этого этапа получается карта вероятности нахождения дефекта (пример результата работы алгоритма представлен на рисунке 2).
Тестирование алгоритма на реальных данных
Для обучения классификатора и тестирования алгоритма были размечены дефекты на изображениях различных алмазов (всего размечено около 30 фотографий, половина из которых использовались для обучения алгоритма). Для оценки алгоритма рассчитывалось общее число ложно найденных, а также ненайденных пикселей (результаты сведены на рисунке 3 в ROC-кривую). Предложенный алгоритм сравнивался с подходами на основе оценки фона: применением глобального порога и алгоритмом симметричного локального порога [1] (брался радиус, равный половине линейного размера алмаза). Данные графики показывают, что простой глобальный порог в среднем работает лучше адаптивного порога, а предложенный алгоритм обладает большей точностью, чем существующие алгоритмы.
Таким образом, в данной статье представлен новый алгоритм обнаружения и сегментации дефектов в полупрозрачных минералах на основе оценки яркости фона изображения. Результаты
CL 1
"—----■— ''
— . —" '
sf
/ //
/ / 1
/ /
/ !
/ /
/ ' / 1 / 1 1
0,8 FPR
— предложенный метод
— симметричный локальный порог ■ — глобальный порог
Рис. 3. ROC-крuвые для алгоритмов: предложенного, на основе глобального порога и симметричного локального порога
сравнения предложенного алгоритма с аналогами показали, что данный алгоритм обладает большей точностью.
Литература
1. Veit T., Tarel J.-P., Nicolle P., Charbonnier P., Evaluation of road marking feature extraction, Intelligent Transportation Systems, 2008, ITSC 2008, 11th International IEEE Conference on. IEEE, 2008, pp. 174-181.
2. Matas J., Chum O., Urban M., Pajdla T., Robust wide baseline stereo from maximally stable extremal regions, British machine vision conference, 2002, Vol. 1, pp. 384-393.
3. Saha B.N., Ray N., Zhang H., Computing oil sand particle size distribution by snake-PCA algorithm, ICASSP, 2008, pp. 977980.
4. Viola P., Jones M.J., Snow D., Detecting pedestrians using patterns of motion and appearance, Computer Vision, 2003, Proc. 9th IEEE Intern. Conf. IEEE, 2003, pp. 734-741.
5. Bookstein F.L., Principal warps: Thin-plate splines and the decomposition of deformations, IEEE Transactions on. Pattern Analysis and Machine Intelligence, 1989, Vol. 11, no. 6, pp. 567585.
6. Platt J., Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods, Advances in large margin classifiers, 1999, Vol. 10, no. 3, pp. 61-74.
References
1. Veit T., Tarel J.-P., Nicolle P., Charbonnier P., 11th Int. IEEE Conf. on Intelligent Transportation Systems, IEEE, 2008, pp. 174-181.
2. Matas J., Chum O., Urban M., Pajdla T., British machine vision conf., 2002, Vol. 1, pp. 384-393.
3. Saha B.N., Ray N., Zhang H., ICASSP, 2008, pp. 977-980.
4. Viola P., Jones M.J., Snow D., Proc. of 9th IEEE Int.l Conf. on Computer Vision, IEEE, 2003, pp. 734-741.
5. Bookstein F.L., IEEE Transactions on Pattern Analysis and Machine Intelligence, 1989, Vol. 11, no. 6, pp. 567-585.
6. Platt J., Advances in large margin classifiers, 1999, Vol. 10, no. 3, pp. 61-74.
Вниманию авторов!
В журнале «Программные продукты и системы» возможно размещение статей на английском и немецком языках (вместе с русскоязычной версией или как самостоятельная публикация).
0,9
0,8
0,7
0,6
0,5
0
0,2
0,4
0,6