УДК 528.852
СОКРАЩЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА СПЕКТРАЛЬНЫХ ПРИЗНАКОВ ДАННЫХ ДЗЗ ВНУТРИ КЛАСТЕРОВ
Валерия Сергеевна Сидорова
Институт вычислительной математики и математической геофизики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, научный сотрудник лаборатории обработки изображений, тел. (383)330-73-32, e-mail: [email protected]
Рассматривается возможность сокращения размерности векторного пространства спектральных признаков внутри хорошо изолированных кластеров, полученных иерархическим гистограммным алгоритмом данных ДЗЗ с заданием предельной отделимости кластеров.
Ключевые слова: дистанционное зондирование, кластеризация, многомерная гистограмма, кластерная разделимость, собственное пространство векторов.
REDUCING THE SPECTRAL FEATURES SPACE DIMENSION FOR REMOTE SENSING DATA INSIDE THE CLUSTERS
Valeria S. Sidorova
Institute of Computational Mathematics and Mathematical Geophysics SB RAS, 630090, Russia, Novosibirsk, Lavrentjev avenu, 6, scientific researcher, laboratory of Image Processing, tel. (383)330-73-32, e-mail: [email protected]
Reducing the dimension of the vector space inside a well-isolated clusters with the detail choice for the spectral features clustering is considered. This is used in the hierarchical divisible histogram algorithm to cluster separability, not worse given. The application of the algorithm for the territory mapping of industrial waste pollution is illustrated on spectral features of the Earth satellite.
Key words: remote sensing, image processing, clustering, multidimensional histogram, cluster separability, own space vectors.
В настоящей работе рассматривается вопрос о размерности собственного пространства для каждого полученного кластера методом иерархического гис-тограммного алгоритма [1]. Ранее [2] было предложено сокращать размерность перед использованием алгоритма кластеризации. Пример: на рис. 1 представлено изображение района Улан-Удэ с целью выделения области загрязнения территории. Это семиспектральное изображение Бурятии со спутника "Landsat-8", район Улан-Удэ. Исходный файл предоставлен сибирским центром ФГПУ НИЦ "ПЛАНЕТА". Построение ковариационной матрицы спектральных данных для всего изображения и ее диагонализация показало, что можно рассматривать три измерения без существенной потери информации. Сокращение размерности приводит к экономии компьютерного времени. К преобразованным данным был применен делимый иерархический гистограммный алгоритм кластеризации с порогом отделимости кластера d= 0, 015. Затем проведена глобальная сегментация, и полученная карта унимодальных кластеров представлена на рис.2. Кластеры с фиолетовыми оттенками соответствуют загрязненным территориям, рассчитаны их площади, координаты, модальные вектора и др.
Рис. 1. Семиспектральное изображение со спутника "Ьапёза1>8", район Улан-Удэ
Рис. 2. Кластерная карта, полученная делимым иерархическим гистограммным алгоритмом. 15 этапов иерархии. й= 0, 015. 54 кластера (включая маленькие вплоть до 1 пикселя). Загрязнение: лиловые и темно-зеленые оттенки
В работе [2] алгоритм отбора наиболее информативных признаков описан достаточно подробно. Те же идеи используются и в новом алгоритме, только теперь рассматривается не все пространство векторов, а лишь часть его, относящаяся к каждому кластеру. Рассматриваемый алгоритм иерархический, и каждый кластер делится на подкластеры на каждом этапе иерархии в соответствии с изменением детальности представления данных, размерность каждого подкластера может измениться. Рассмотрим более подробно. Внутри каждого кластера применяется быстрый гистограммный кластерный алгоритм Нарендры [3]. Этот алгоритм позволяет находить кластеры произвольной формы и размеров. Он не требует задания числа кластеров и вообще каких-либо предварительных предположений о форме распределений. Алгоритм находит скопления
векторов, анализируя многомерную гистограмму и разделяя данные по унимодальным кластерам. Однако в этом алгоритме заранее определяется детальность кластеризации предварительным квантованием векторного пространства признаков. То есть, предварительно вектора группируются более простым правилом. Алгоритм Нарендры был реализован и описан в [3-7]. Детальность кластеризации в алгоритме определялась предварительным отсечением младших битов в каждом байте, соответствующем спектральному направлению. Предложенный иерархический алгоритм [1] предлагает автоматизировать процесс выбора детальности, учитывая разделимость кластеров, причем для разных областей данных будет получена свой порог наибольшей детальности, обеспечивающей заданную отделимость кластеров d. Для оценки отделимости используется ранее предложенная автором мера [7]. Ценность этих мер в том, что они позволяют сравнивать статистически распределения с тесно расположенными унимодальными кластерами, когда на их границах много общих векторов. Эти меры удовлетворяют условиям мер[6]. Кроме того, эти меры легко вычисляются, так как сравнивают скалярные значения гистограммы в центре и на границах кластеров.
Квантование пространства признаков может производиться по разным правилам. У Нарендры оно достигается отсечением младших битов в каждом спектральном канале. Каждое отсечение уменьшает число уровней квантования вдвое. В работе [4] был предложен другой способ, более плавный, но по-прежнему в каждом направлении число уровней квантования сохранялось одинаковым. Однако, в общем случае, данные вытянуты вдоль какого-то направления, и правило квантования, обеспечивающее наименьшую потерю информации, требует различного подхода в различных направлениях, а именно: квантование должно сохранять ячейку квантования в форме гиперкуба (а не гиперпараллелепипеда). Это условие будет выполнено, если число уровней квантования вдоль каждой оси собственного пространства пропорционально квадратному корню из соответствующего собственного числа. (Собственное число характеризует разброс данных вдоль оси), а именно:
(1)
где N1, N2, • • • , Нек числа уровней квантования вдоль для соответствующих собственных векторов по к ортонормированным осям, а 82 в\ , $ в2 , • . . , $ вк собственные числа.
Зададим максимальное число уровней квантования в собственном пространстве равным Нет =255, таково обычное число уровней серого для данных дистанционного зондирования по каждому измерению. Тогда, в соответствии с пропорциями (1) может быть найдено число уровней квантования и по другим осям собственного пространства. Для задач кластеризации это число должно быть больше или равно 2, иначе эта компонента одинакова для всех векторов и никакой роли в кластеризации не играет. Таким образом, если отношение
8ет / $ех < 2, то соответствующая ось х может не рассматриваться, и мы получаем
сокращение размерности пространства признаков.
При решении задачи внутри кластера (построении ковариационной матрицы) используется уже построенная ранее гистограмма признаков в виде определенным образом организованного списка. Рассмотрим пример. Анализируется изображение поверхности Земли со спутника КОАА 17 от 7.04.2003, полный кадр (1328x624) пикселей представлен в пяти спектральных каналах (один в видимой части спектра, остальные в инфракрасной), объем около 4 мегабайт. На рис.3 представлено изображение в одном из каналов. В нижней части снимка формирование вихря, озера; в верхней в основном - тающие снега, тайга Сибири. На рис. 4а кластерная карта без сокращения размерности собственного пространства пяти спектральных признаков. На рис. 4б при сокращении размерности по кластерам.
¡Л М7_07-1.НЮ>(С1; 1:1) -|п| х|
Рис. 3. Исходное изображение в видимой части спектра
Рис. 4. а) Кластеризация по пяти спектральным признакам иерархическим гис-тограммным алгоритмом; 4 этапа иерархии; ^=0,1; получено 22 кластера. б) Кластеризация иерархическим гистограммным алгоритмом с поиском размерности по кластерам; 4 этапа иерархии; ^=0,1; получено 10 кластеров
Кластеры с площадью меньше 100 пикселей в обоих случаях отнесены в фоновый. Из-за того, что новое число уровней квантования (детальность) рассчитывается по другому закону: с учетом разброса по соответствующим собст-
венным осям пространства признаков, - унимодальные кластеры, соответствующие облакам при заданной отделимости ^=0,1, не образовались, они соединились в один ложный темно-синий кластер. Для заданного числа 4 уровней иерархии при анализе размерности по кластерам получилось меньше кластеров. Однако, при задании большей детальности кластеризации, а именно семи этапов иерархии на рис. 5, кластер облаков делится на унимодальные подкла-стеры. Для большинства подкластеров размерность собственного пространства оказалась равна трем, как и для всех данных в целом, но некоторые подкласте-ры потребовали пятиспектрального рассмотрения. Таким образом, сокращение размерности произошло более точно, в зависимости от характера области данных. Время вычислений оказалось в три раза меньше, чем для пятиспекрально-го варианта и составило несколько минут на одноядерном компьютере РК 1.6 ГГц 512 МБ.
Рис. 5. Кластеризация иерархическим гистограммным алгоритмом с поиском размерности по кластерам; 7 этапов иерархии; задано d=0,12; получено 29 кластеров
Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 16-07-00066) и Программы 1.33П фундаментальных исследований Президиума РАН (проект № 0315-2015-0012).
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. V.S. Sidorova. Detecting Clusters of Specified Separability for Multispectral Data on Various Hierarchical Levels // Pattern Recognition and Image Analysis. 2014, - Vol. 24, No. 1. -P. 151-155.
2. Сидорова В.С. Детальность кластеризации и сокращение размерности пространства спектральных признаков данных ДЗЗ. // Интерэкспо ГЕ0-Сибирь-2015. XI Междунар. науч. конгр. : Междунар. науч. конф. «Дистанционные методы зондирования Земли и фотограмметрия, мониторинг окружающей среды, геоэкология» : сб. материалов в 2 т. (Новосибирск, 13-25 апреля 2015 г.). - Новосибирск : СГУГиТ, 2015. Т. 2. - С. 83-87.
3. Narendra P.M. and Goldberg M. A non-parametric clustering scheme for LANDSAT // Pattern Recognition. - 1977 - 9 - P. 207-215.
4. Сидорова В.С. Кластеризация многоспектральных изображений с помощью анализа многомерной гистограммы // Новосибирск. Сб. Математические и технические проблемы обработки изображений. СО АН СССР. - 1986 -. С. 52-57.
5. Сидорова В.С. Классификация многоспектральных космических изображений поверхности Земли с помощью разделения многомерной гистограммы по унимодальным кластерам // Ж. Вестник КазНУ., сер. географическая. - 2004 -. N 2(19) -. С. 206-210.
6. V. S. Sidorova. Separating of the Multivariate Histogram on the Unimodal Clusters. // Proceedings of the Second IASTED International Conference "Automation Control and Information Technology". - Novosibirsk. - 2005. - P. 267-274.
7. Сидорова В.С. Оценка качества классификации многоспектральных изображений гистограммным методом // Автометрия. - 2007. - Том 43. - №1. - С. 37- 43.
8. Сидорова В.С. Новый гистограммный алгоритм с автоматическим выбором детальности кластеризации по заданной разделимости кластеров // Интерэкспо ГЕ0-Сибирь-2012. VIII Междунар. науч. конгр. : Междунар. науч. конф. «Дистанционные методы зондирования Земли и фотограмметрия, мониторинг окружающей среды, геоэкология» : сб. материалов в 2 т. (Новосибирск, 10-20 апреля 2012 г.). - Новосибирск : СГГА, 2012. Т. 2. - С. 149-154/
9. Калиткин Н.Н. Численные методы. Москва. " Наука ". 1978. СС. 512.
© В. С. Сидорова, 2016