Научная статья на тему 'Кластерный анализ в обработке данных дистанционного зондирования Земли'

Кластерный анализ в обработке данных дистанционного зондирования Земли Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1001
276
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИСТАНЦИОННОЕ ЗОНДИРОВАНИЕ / КЛАСТЕРНЫЙ АНАЛИЗ / ЖЕСТКАЯ КЛАСТЕРИЗАЦИЯ / НЕЧЕТКАЯ КЛАСТЕРИЗАЦИЯ / REMOTE SENSING / CLUSTERING / HARD CLUSTERING / FUZZY CLUSTERING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Асмус Василий Валентинович, Бучнев Алексей Александрович, Пяткин Валерий Павлович

Рассматривается система кластерного анализа для обработки данных дистанционного зондирования Земли (ДЗЗ). Система представлена следующими методами: методом Kсредних, методом анализа мод многомерных гистограмм, гибридным методом, объединяющим метод анализа мод многомерных гистограмм с последующей иерархической группировкой и рядом алгоритмов нечеткой кластеризации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Асмус Василий Валентинович, Бучнев Алексей Александрович, Пяткин Валерий Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLUSTERING IN EARTH REMOTE SENSING DATA PROCESSING

The clustering system for processing of the Earth remote sensing data is discussed. The system consists of the next methods: Kmeans method, method of the multidimensional histograms modes analysis, hybrid method, which involves method of the multidimensional histograms modes analysis and the subsequent hierarchical grouping, and a number of fuzzy clustering algorithms.

Текст научной работы на тему «Кластерный анализ в обработке данных дистанционного зондирования Земли»

УДК 528.852

КЛАСТЕРНЫЙ АНАЛИЗ В ОБРАБОТКЕ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ

Василий Валентинович Асмус

ФГБУ «НИЦ "Планета"», РОСКОМГИДРОМЕТ, 123242, Россия, г. Москва, Большой Пред-теченский пер.,7, директор, тел. (8499)255-69-14, e-mail: [email protected]

Алексей Александрович Бучнев

ФГБУН ИВМиМГ СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, ст. научный сотрудник лаборатории обработки изображений, тел. (383)333-73-32, e-mail: [email protected]

Валерий Павлович Пяткин

ФГБУН ИВМиМГ СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, заведующий лабораторией обработки изображений, тел. (383)333-73-32, e-mail: [email protected]

Рассматривается система кластерного анализа для обработки данных дистанционного зондирования Земли (ДЗЗ). Система представлена следующими методами: методом K-средних, методом анализа мод многомерных гистограмм, гибридным методом, объединяющим метод анализа мод многомерных гистограмм с последующей иерархической группировкой и рядом алгоритмов нечеткой кластеризации.

Ключевые слова: дистанционное зондирование, кластерный анализ, жесткая кластеризация, нечеткая кластеризация.

CLUSTERING IN EARTH REMOTE SENSING DATA PROCESSING

Vasiliy V. Asmus

State Research Center of Space Hydrometeorology «Planeta», Roshydromet, 123242, Russia, Moscow, 7 Bol'shoi Predtechenskii per., director, tel. (8499)255-69-14, e-mail: [email protected]

Aleksey A. Buchnev

Institute of the Computational mathematics and mathematical geophysics (ICM&MG) SB RAS, 630090, Russia, Novosibirsk, 6 pr. Akademika Lavrentieva, lab of the images processing senior researcher, tel. (383)333-73-32, e-mail: [email protected]

Valeriy P. Pyatkin

Institute of the Computational mathematics and mathematical geophysics (ICM&MG) SB RAS, 630090, Russia, Novosibirsk, 6 pr. Akademika Lavrentieva, lab of the images processing head, tel. (383)333-73-32, e-mail: [email protected]

The clustering system for processing of the Earth remote sensing data is discussed. The system consists of the next methods: K-means method, method of the multidimensional histograms modes analysis, hybrid method, which involves method of the multidimensional histograms modes analysis and the subsequent hierarchical grouping, and a number of fuzzy clustering algorithms.

Key words: remote sensing, clustering, hard clustering, fuzzy clustering.

Центральные вопросы тематической обработки (интерпретации) данных ДЗЗ - вопросы повышения качества дешифрирования - непосредственно связаны с проблемой выбора адекватных алгоритмов распознавания [1-5]. Современный опыт автоматизированного распознавания данных ДЗЗ показывает, что заранее практически невозможно установить, какой алгоритм будет лучше с точки зрения стоимости и точности классификации. Поэтому в распознающую систему целесообразно закладывать несколько алгоритмов и выбор оптимального алгоритма проводить эмпирически. В классификации данных ДЗЗ чаще других используются методы, которые можно разбить на две группы: контролируемая классификация (классификация с обучением) и неконтролируемая (кластерный анализ). В данной работе рассматривается кластерный анализ в обработке многоспектральных (многомерных) данных ДЗЗ. Характеризуя методы кластеризации в целом, следует отметить, что в основном они отыскивают в данных не те структуры, которые там реально существуют, а те, для поиска которых они предназначены [2]. Поэтому надежность результатов кластеризации часто можно оценить лишь сравнением нескольких вариантов обработки. данных ДЗЗ. Характерной особенностью ДДЗ является "загрязнение" выборок смешанными векторами измерений, т.е. векторами, которые образуются при попадании в элемент разрешения съемочной системы нескольких природных объектов. Это обстоятельство является одним из источников ошибок при построении карты классификации [1,2]. Большинство алгоритмов кластеризации для отнесения векторов признаков кластерам вычисляют для каждого вектора значения подходящей функции «правдоподобия». В случае зачисления вектора признаков в кластер по максимальному значению функции правдоподобия получается так называемая жесткая кластеризация. Рассмотрим некоторые алгоритмы жесткой кластеризации.

В состав программного комплекса, реализованного совместными усилиями ФГБУ «НИЦ «Планета» и ФГБУН ИВМиМГ СО РАН, входит реализация классического алгоритма жесткой кластеризации - алгоритма ^-средних, широко используемого для разбиения на кластеры больших объемов многомерных данных [5]. Алгоритм ^-средних может быть отнесен к классу параметрических, т.к. он неявным образом предполагает природу плотности вероятности: кластеры стремятся иметь конкретную геометрическую форму, зависящую от выбранной метрики. Мы используем следующие метрики: Евклидова, Махала-нобиса, Чебышева, city-block расстояние. Известно также, что результат кластеризации методом ^-средних зависит от задания начальных центров кластеров. Предоставляется выбор одного из трех вариантов, два из которых определяются на основе статистических характеристик набора данных и один основан на случайной выборке. Один из вариантов алгоритма позволяет учитывать влияние смешанных векторов [2]. Дополнительным параметром в этом случае является выбираемое эмпирически соотношение чистых и смешанных векторов в наборе данных. На основе этого соотношения и градиентного изображения, сформированного подходящим градиентным оператором (Роберт-са/Превитта/Собела), выделяются связные компоненты, состоящие из чистых

векторов. Кластеризации подвергаются средние векторы связных компонент. В дальнейшем смешанные векторы распределяются по полученным кластерам на основе минимального расстояния до центра кластера.

Другой подход, позволяющий получать разбиение векторов измерений на кластеры произвольной формы, основан на предположении, что исходные данные являются выборкой из многомодового закона распределения, причем векторы, отвечающие отдельной моде, образуют кластер [2]. Таким образом, задача сводится к анализу мод многомерных гистограмм.

Ещё один алгоритм жёсткой кластеризации, реализованный в нашем программном комплекс, - гибридный метод: анализ мод многомерной гистограммы с последующей иерархической группировкой. Практическое использование метода анализа мод многомерной гистограммы показывает, что зачастую получение приемлемого результата является весьма трудоемким процессом и требует высокой квалификации эксперта-исследователя. Причиной этого является, вероятно, то, что алгоритм является многопараметрическим (в частности, на решение оказывает большое влияние способ сглаживания гистограммы). В связи с этим, система кластеризации дополнена двухэтапной процедурой (с сохранением всех ранее существовавших функций): на первом этапе выполняется предварительное разбиение исходной выборки на кластеры с помощью модального анализа, а затем для получения окончательного результата используется иерархическая группировка [6]. Заметим, что применение иерархической группировки для кластеризации исходного набора векторов нереально из-за того, что используемая в алгоритме матрица расстояний состоит (в начале работы алгоритма) из Ы(Ы-1)/2 элементов, где N - количество векторов. Предварительное использование модального анализа позволяет сократить объем данных до разумных пределов. В качестве входных данных для иерархической группировки используются векторы средних группы векторов, связанных с каждой модой многомерной гистограммы. Напомним, что на каждом шаге восходящей иерархической классификации объединяются два кластера, расстояние между которыми минимально Достоинством иерархической группировки является то, что после построения иерархического дерева кластеризации можно "разрезать" его на любом уровне иерархии, т.е. получать разные кластерные карты, не запуская снова процесс кластеризации.

Последним этапом работы всех алгоритмов жёсткой кластеризации является сортировка полученных кластеров по убыванию их объемов и подсчет соответствующих статистик: объемов, векторов средних и девиаций (стандартных отклонений) в каналах для каждого кластера. Эти данные записываются, при необходимости, в файл на диске. Туда же записывается число векторов данных, не вошедших ни в один из кластеров, т.е. попавших в "К+Г'-ый кластер. Эти данные являются основой для анализа разделимости полученных кластеров.

Результатом работы классификаторов в рабочем режиме является однока-нальное (байтовое) изображение, значениями пикселов которого являются номера кластеров. Это изображение окрашивается в предопределенные цвета, которые в интерактивном режиме могут быть заменены на цвета, определяемые

пользователем. К выходному изображению можно применить функцию постклассификации для удаления изолированных пикселов (генерализация данных).

Следует отметить, что предложенные алгоритмы жёсткой кластеризации внедрены в практику оперативной работы ФГБУ «НИЦ «Планета», и широко используются в технологии построения карт ледовой обстановки по спутниковым данным видимого, инфракрасного или микроволнового диапазонов. На рис. 1 представлена карта-схема ледовой обстановки в море Росса (Антарктика), полученная с использованием этой технологии по спутниковым данным ИСЗ «Метеор-М» №1.

Рис. 1. Карта-схема ледовой обстановки в море Росса (Антарктика), полученная по спутниковым данным ИСЗ «Метеор-М» № 1

Альтернативой жесткой разделяющей кластеризации является мягкая или нечеткая кластеризация, разрешающая векторам принадлежать всем кластерам с коэффициентом членства и1/ е [0,1], определяющим степень принадлежности ]-

го вектора /-му кластеру:

с

IЩ = 1, V/ (1)

L

Z uu <L, v,

J=1

определяя этими соотношениями нечеткую кластеризацию. Здесь C - число кластеров, L - количество векторов измерений. В недавнее время нами в состав системы кластеризации программного комплекса была включена реализация широко используемого алгоритма нечеткой кластеризации, известного как метод C-средних [7]. Это итерационный алгоритм, который используется для разделения смешанных векторов измерений в данных ДЗЗ. Идея метода заключается в описании сходства вектора с каждым кластером с помощью функции уровней принадлежности, принимающей значения от нуля до единицы. Значения функции, близкие к единице, означают высокую степень сходства вектора с кластером. Очевидно, что сумма значений функции уровней принадлежности для каждого пиксела должна равняться единице. Также, как и в алгоритме К-средних, параметрами соответствующей процедуры (кроме количества кластеров) являются тип метрики и вариант выбора начальных центров кластеров. Дополнительным параметром является показатель нечеткости, значения которого для данных ДЗЗ предлагается брать близкими к двум (см., [1]).

Вторым алгоритмом нечеткой кластеризации, включенным в состав программного комплекса по обработке данных ДЗЗ, является алгоритм нечеткой кластеризации с регуляризацией - так называемый алгоритм Possibilistic C-means, PCM. Принципиальное отличие алгоритма PCM от алгоритма FCM состоит в снятии ограничения (1) на элементы матрицы принадлежности вектора признаков кластерам: в алгоритме FCM для каждого вектора признаков сумма элементов матрицы принадлежности по всем кластерам должна равняться единице (вероятностное - probabilistic - свойство алгоритма FCM). Таким образом, в алгоритме FCM членство вектора в кластере является относительным, т.к. оно зависит от членства этого вектора во всех других кластерах, в то время как в алгоритме PCM значение членства вектора в кластере является абсолютным (т.е. не зависящим от значений членства этого вектора в других кластерах) и может интерпретироваться в терминах типичности вектора. Алгоритм PCM пытается найти моды в наборе данных, так как каждый полученный кластер соответствует плотной области в этом наборе. В процессе выполнения итераций алгоритма прототипы кластеров последовательно перемещаются в плотные области в пространстве признаков.

PCM алгоритм является робастным методом кластеризации, который может быть использован для обнаружения плотных областей в данных. Степень членства вектора признаков в кластере определяется двумя величинами: расстоянием вектора до прототипа кластера и параметром K, называемым ссылочным расстоянием кластера. Значение этого параметра индивидуально для каждого кластера и зависит от среднего размера кластера.

Авторы алгоритма (Krishnapuram&Keller [8]) отмечают, что для получения качественных результатов кластеризации требуется хорошая инициализация ссылочных расстояний кластеров. Следуя их рекомендациям, в качестве

начального приближения матрицы степеней членства векторов признаков в кластерах используется результат выполнения алгоритма нечеткой кластеризации методом FCM. Т.е. необходимым условием выполнения алгоритма PCM для какого-либо набора данных является предварительное выполнение алгоритма FCM для этого набора данных.

Нижеследующие рисунки демонстрируют результаты работы алгоритмов С-средних. На рис. 2 представлен фрагмент снимка ИСЗ SPOT-4, полученного 04.05.2011 г., с паводковой ситуацией в районе Камня-на-Оби (снимок предоставлен Сибирским центром НИЦ «Планета»). На рис. 3 приведен результат обработки алгоритмом FCM. Фрагменты исходного изображения, являющиеся «шумом» по отношению к области интереса, исключены из процесса обработки. На рис. 4 представлен результат обработки алгоритмом PCM со значением ссылочного расстояния K=1. Выделялось 10 кластеров, выполнялось 50 итераций алгоритмов. Рис. 5 содержит графическое представление объемов кластеров, полученных разными алгоритмами кластеризации (KM - алгоритм жесткой кластеризации К-средних).

Основная часть работы алгоритмов FCM и PCM состоит в итерационном перестроении матрицы уровней принадлежности векторов признаков кластерам и пересчете центров кластеров. Алгоритмы заканчивают работу при выполнении заданного числа итераций либо при достижении матрицы уровней принадлежности состояния стабильности, т.е. состояния, при котором норма разности матриц в двух последовательных итерациях не превосходит заданного порога. Эта работа требует больших временных затрат при ее

Рис. 2. Исходное изображение Рис. 3. Кластеризация методом FCM

Рис. 4. Кластеризация методом PCM с K=1

Рис. 5. Объемы полученных кластеров

последовательном выполнении, особенно в случае, когда показатель нечеткости неравен двум, в связи с чем реализованы параллельные версии алгоритмов. Параллельная реализация алгоритмов осуществляется средствами ОС Windows в рамках одного процесса путем запуска нескольких параллельных потоков. Количество запускаемых потоков равно количеству логических процессоров компьютера. Каждый поток перестраивает соответствующую часть матрицы уровней принадлежности. Необходимая при работе параллельных потоков синхронизация достигается с помощью механизма событий ОС Windows. В табл. 1 содержатся данные о времени выполнения параллельной процедуры нечеткой кластеризации методом FCM набора векторов признаков рис. 1. Приводятся результаты измерений времени (в секундах) для значений параметра нечеткости m=2 и m=2.2. Измерения проводились под управлением

Windows-7 на аппаратной платформе с четырьмя логическими процессорами. Выполнялось 50 итераций. Аналогичные данные для алгоритма PCM приведены в таблице 2.

_Таблица 1

Значение m количество запускаемых потоков

1 2 3 4

m=2 76.18 52.87 44.52 40.65

m=2.2 305.56 189.14 140.04 116.92

Практика решения конкретных прикладных задач ДЗЗ с использованием предлагаемых алгоритмов кластеризации многоспектральных космических снимков, получаемых как с российских, так и с зарубежных спутников, подтверждает их высокую эффективность. Отметим, что широкий набор возможностей системы кластеризации программного комплекса позволяет эксперту-исследователю выбирать адекватные решения задач дешифрирования данных ДЗЗ.

_Таблица 2

Значение m количество запускаемых потоков

1 2 3 4

m=2 50.71 33.03 30.95 28.80

m=2.2 228.60 123.51 99.12 82.66

Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований (проект № 13-07-00068) и Программы № 43 Президиума РАН (проект № 32).

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Шовенгердт Р.А. Дистанционное зондирование. Модели и методы обработки изображений. М.- Техносфера, 2010. - 560 с.

2. Асмус В.В. Программно-аппаратный комплекс обработки спутниковых данных и его применение для задач гидрометеорологии и мониторинга природной среды. Диссертация в виде научного доклада на соискание ученой степени доктора физико-математических наук. На правах рукописи. Москва - 2002, -75 с.

3. Асмус В.В., Бучнев А.А., Пяткин В.П. Контролируемая классификация данных дистанционного зондирования Земли. Автометрия, 2008, № 4. с. 60-67.

4. Асмус В.В., Бучнев А.А., Пяткин В.П. Кластерный анализ данных дистанционного зондирования Земли. Автометрия, 2010, № 2. с. 58-66.

5. Jain A.K. Data clustering: 50 years beyond K-means. Pattern Recognition Letters. 31 (2010), pp. 651-666.

6. М. Жамбю. Иерархический кластер-анализ и соответствия. Пер. с фр. М., Финансы и статистика, 1988. -342 с.

7. Bezdek J.C. Pattern recognition with fuzzy objective function algorithms. Plenum Press, New York, 1981.

8. R. Krishnapuram and J.M. Keller. A possibilistic approach to clustering. IEEE Transactions on Fuzzy Systems, 1:98-110, 1993.

© В. В. Асмус, А. А. Бучнев, В. П. Пяткин, 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.