Том 152, кн. 4
Естественные науки
2010
УДК 504.054.001.5
ВЕРОЯТНОСТНАЯ МОДЕЛЬ ДЛЯ ОПРЕДЕЛЕНИЯ МЕСТ НЕСАНКЦИОНИРОВАННОГО РАЗМЕЩЕНИЯ ОТХОДОВ НА ОСНОВЕ ДДЗЗ
А.А. Савельев, С.С. Мухарамова, С.М. Шишкин, С.Р. Яушева, А.И. Гаязов, Г.Ю. Осин
Аннотация
В статье предлагается геоинформационная методика выявления антропогенно-нарушенных территорий по данным дистанционного зондирования Земли (ДДЗЗ). Эта методика была применена для выявления мест несанкционированного размещения отходов с использованием ДДЗЗ высокого пространственного разрешения.
Ключевые слова: ГИС-анализ, места несанкционированного размещения отходов, данные дистанционного зондирования Земли высокого пространственного разрешения.
Введение
Отходы сферы потребления образуются в результате бытовой деятельности населения. В настоящее время развитые страны производят все больше отходов, что является следствием высокого уровня потребления. Так, годовой объем бытовых отходов на душу населения в странах, входящих в Организацию экономического сотрудничества и развития, возрос на 14% по сравнению с 1990 годом и на 35% по сравнению с 1980 годом [1]. К тому же, на практике в городском хозяйстве производится учет не всего объема бытовых отходов, а той лишь его части, которая вывозится централизовано из городских мусорных баков.
В настоящее время в России ответственность за вывоз отходов переложена с государственных органов на население (ТСЖ, гаражные кооперативы, садоводческие общества и др.), которые вынуждены затрачивать собственные средства на организационные мероприятия по вывозу отходов. При отсутствии таких мероприятий возникают несанкционированные свалки вблизи населенных пунктов, гаражных кооперативов, садоводческих товариществ и др.
Развитие технологий производства способствует увеличению не только количества отходов, но и изменению ее состава. Если раньше наиболее значительную часть отходов составляли бумага и картон, органические отходы, в том числе пищевые, были второй по объему категорией, а металл, стекло и пластик составляли по 7-9% от общего количества отходов, то сейчас наблюдается тенденция к увеличению доли пластика и бумажных отходов, особенно в крупных городах [2].
Таким образом, появление мест несанкционированного размещения отходов (НРО) является результатом неорганизованной хозяйственной деятельности человека. Несанкционированные свалки стали источником загрязнения окружающей
среды, они ухудшают санитарно-эпидемиологическую обстановку, нарушают эстетический вид. Их необходимо выявлять и ликвидировать. В связи с этим актуальным является создание системы оперативного мониторинга, которая бы обеспечивала выявление таких мест и неотвратимость наказания за такого рода нарушение, являясь источником пополнения бюджета.
Для комплексного информационно-аналитического обеспечения оперативного контроля мест НРО (расчета площадей, выявления вероятного нарушителя и др.) такая система должна включать подсистему автоматизированного определения мест несанкционированного размещения отходов с использованием геоинформационных технологий и данных дистанционного зондирования.
В сегодняшней ситуации одним из основных источников информации о состоянии окружающей среды, в первую очередь по детальности, становятся данные дистанционного зондирования Земли (ДДЗЗ), получаемые со спутников. В настоящей работе описывается опыт изучения и оценки возможностей автоматизированного выявления мест НРО на основе ДДЗЗ высокого пространственного разрешения, получаемых со спутника QuickBird. Практическая часть работы выполнялась в интересах Министерства экологии и природных ресурсов Республики Татарстан.
1. Область изучения и материалы
Для исследований была выбрана территория площадью около 680 кв. км, включающая в себя г. Казань и прилегающую местность.
В качестве ДДЗЗ были использованы космоснимки спутника QuickBird, полученные 4 мая 2008 г., 12 июня 2008 г., 18 июля 2008 г. Космический аппарат QuickBird, запущенный в США в 2001 г., предназначен для получения цифровых изображений земной поверхности с пространственным разрешением 0.6 м в панхроматическом режиме и 2.4 м в мультиспектральном режиме (три канала в видимом диапазоне, один - в ближнем инфракрасном). Основными преимуществами спутника являются широкая полоса охвата (размер сцены 16.5x16.5 км) и высокая метрическая точность. Спутник совершает 15 витков вокруг Земли за сутки и обеспечивает прохождение над любым районом Земли каждые 1-3.5 дня.
При обработке и интерпретации данных дистанционного зондирования, кроме самих материалов космосъемки, необходимо привлечение различного рода геоинформации, предоставляющей дополнительные тематические данные на изучаемую территорию. Такая пространственно распределенная информация, пригодная как для более точной привязки самих космоснимков, так и для целей их интерпретации, в частности определения прямых или косвенных дешифро-вочных признаков (свойств выделяемых объектов, находящих непосредственное отображение на снимках), была интегрирована в специализированной геоинформационной системе (ГИС). В состав созданной ГИС включены полученные по данным инвентаризации векторные слои, представляющие: водные объекты, элементы рельефа, растительность, дороги, застройку, границы гаражных и садовых кооперативов.
2. Предварительная обработка ДДЗЗ
Предварительная обработка ДДЗЗ включает в себя выполнение следующих операций: фотометрическая коррекция, геометрическая коррекция, создание мозаик на заданные территории, создание синтезированных изображений, получение синтезированного цветного изображения высокого разрешения путем процедуры слияния панхроматического изображения (с высоким пространственным разрешением) и многозонального изображения (с низким пространственным разрешением).
Основная цель процедуры геометрической коррекции - обеспечить с максимальной точностью переход от внутренней системы координат снимка к выбранной картографической системе координат. Трансформирование снимков в картографическую проекцию осуществляется как по высокоточным измерениям орбитальных параметров (углы ориентации спутника и камеры, параметры камеры -время сканирования одной строки, фокусное расстояние, параметры дисторсии объектива), так и по опорным точкам с использованием картографических материалов, измерений в системах геопозиционирования или с привлечением ранее трансформированных снимков. Если полученная геопривязка оказывается недостаточно точной, используют информацию о координатах объектов с крупномасштабных картографических материалов, что позволяет выполнить геометрическую коррекцию с более высокой точностью. В нашем случае для уточнения географической привязки снимков и осуществления коррекции была привлечена геоинформация слоя водных объектов. На рис. 1 представлены фрагменты изображений до и после трансформации.
Рис. 1. Фрагменты изображений до и после процедуры уточнения географической привязки
Существенным этапом интерпретации данных дистанционного зондирования является их визуальный анализ. Для его обеспечения осуществляется синтез видимого изображения с использованием стандартного подхода RGB - трех независимых «слоев», соответствующих красной (R - Red), зеленой (G - Green) и голубой (B - Blue) частям видимого спектра. Синтезированное цветное изображение высокого разрешения получают как результат специальной процедуры слияния панхроматического изображения и RGB-каналов. Синтезированные изображения, представленные как растровые картографические слои (48 фрагментов
мозаики, покрывающей территорию исследования), включены в состав ГИС и доступны для визуального анализа.
Все операции предварительной обработки ДДЗЗ проводились с использованием системы автоматизированной обработки данных дистанционного зондирования ScanEx IMAGE Processor.
3. Вероятностная модель мест НРО на основе априорной геоинформации
В ходе интерпретации данных дистанционного зондирования помимо самих космоснимков привлекается и другая пространственная информация на изучаемую территорию. Комплексный анализ такой дополнительной информации может позволить оптимизировать процесс выделения объектов на снимках, нацелив усилия на более детальный анализ их определенных участков.
С этой целью на основе априорной информации о местоположениях различных типов природных и антропогенных объектов была построена вероятностная модель мест НРО, с использованием которой проведено районирование изучаемой территории. Построение вероятностной модели и последующее районирование основано на комплексной оценке влияния различных факторов на вероятность НРО.
Рассмотрим произвольную «точку» территории как возможное место несанкционированного размещения отходов и оценим ее потенциал как возможного «приемника» отходов. Будем исходить из предположений, что «привлекательность» места для несанкционированного размещения отходов (вероятность такого размещения) зависит от его близости к так называемым объектам-приемникам, то есть объектам определенных типов В1, В2, ..., Bm, в окрестностях которых обычно и располагаются несанкционированные свалки (например, оврагам, опушкам леса, дорогам и пр.). Тогда потенциал точки х как «приемника» НРО можно оценить следующим образом:
m
P(х; B) = X (х; B),, (1)
1=1
где
PB, (х; B) =
при гв, < riB,>
1 _ гт у при гш < B < r2В1, (2)
Г2 Bi riBi
О при rBi > г2bb, ,
тт - кратчайшее расстояние от точки х до объекта типа В, гВ - расстояние от объекта типа В, на котором его влияние можно считать постоянным и максимальным, г2В - расстояние от объекта типа В, начиная с которого влиянием объекта можно пренебречь, - вес объектов типа В ^ как приемников отходов. В рамках вероятностной модели веса рассматриваются как априорные вероятности Р(В,) (сумма их равна единице). В результате Р(х;В) представляет
пространственное распределение вероятности использовать точку (местоположение) х как «приемник» для несанкционированного размещения отходов.
1
Вторым элементом модели являются так называемые объекты-источники, то есть объекты определенных типов Аь А2, ..., Ап, которые можно считать источниками отходов для мест НРО (например, жилые районы, садовые общества, автомобильные дороги, ж/д платформы и т. п.). Потенциал произвольной точки х как «источника» отходов можно оценить как:
Р( х; А) = ^у^, (х; А),, (3)
1=1
где
Рл, (х; А) =
при ГА, < Г1А1'
1 _ ГА1 при Г1А1 < гА1 < г2 А,, , (4)
О при Га, > г2А,,
гл - кратчайшее расстояние от точки х до объекта типа А,, г1Л1 - расстояние от объекта-источника типа А,, на котором влияние источника можно считать постоянным и максимальным, г2Л1 - расстояние от объекта-источника типа А,, начиная с которого влиянием источника можно пренебречь, V, - вес (относительная мощность объектов-источников) типа А,-. В рамках вероятностной модели веса у, рассматриваются как априорные вероятности Р(Л) (их сумма равна единице), а Р (х; А) дает пространственное распределение вероятности образования и возможного перемещения отходов.
Тогда вероятность несанкционированного размещения отходов в точке х можно представить как совместную вероятность их наличия и возможности («привлекательности») размещения:
Р( х; А) = £уРл, (х; А). (5)
,=1
Параметрами такой модели будут: гш, г2В, ^, г1Л, г2Л]-, у, ,= 1, ..., т, у = 1, ..., п, значения которых задаются экспертно.
В табл. 1 приведены типы объектов, представленные в слоях специализированной ГИС, которые рассматривались в нашем случае как объекты-приемники или объекты-источники отходов для мест НРО. Для каждого типа объектов приведены значения экспертных оценок расстояний влияния (в метрах) и весов (не нормированных, приведены в баллах), использованных при построении вероятностной модели.
Для представления результатов пространственного районирования территории на основе модели вероятности мест НРО была использована растровая модель представления пространственных данных (размер ячейки сетки 5^5 м).
Предварительно для каждого типа объектов, используемых в модели в качестве приемников или источников, были построены дистанционные преобразования (растровые слои расстояний до объектов данного типа) на сетках с теми же параметрами, и далее, согласно приведенным выше формулам, были получены значения вероятности НРО в каждой ячейке сетки. Полученная модель пространственного распределения вероятности была «замаскирована» границами территории проекта, водоемов, лесных массивов и зданий.
1
Табл. 1
Экспертные оценки различных типов объектов
№ Тип объекта Свойство Гш Г2Ы wi Г1М Г2Аг Vi
1 Водоемы приемник 100 200 2
2 Реки приемник 100 200 2
3 Лесные массивы приемник 75 150 3
4 Овраги, промоины, обрывы приемник 50 150 5
5 Ж/д дороги приемник 100 150 3
6 Автомобильные дороги приемник + источник 100 150 3 100 150 5
7 Гаражные комплексы приемник + источник 50 150 4 50 150 3
8 Садовые общества приемник + источник 100 200 4 100 200 5
9 Платформы ж/д приемник + источник 75 90 4 75 90 4
10 Застройка источник 20 100 2
Рис. 2. Пространственное распределение вероятности НРО на основе априорной геоинформации (фрагмент)
Фрагмент построенной карты районирования территории исследования на основе модели пространственного распределения вероятности НРО приведен на рис. 2. Соответствующие растровые картографические слои включены в состав ГИС для дальнейшего совместного анализа с ДДЗЗ с целью определения мест НРО.
Очевидно, что на качество результатов существенно влияют полнота и детальность исходной геоинформации.
4. Вероятностная модель мест НРО на основе автоматизированной интерпретации ДДЗЗ
Методы извлечения информации из ДДЗЗ при всем их многообразии сводятся к двум основным:
- визуальному, при работе с изображениями на экране монитора;
- автоматизированному, осуществляемому в рамках систем (пакетов) автоматизированной обработки данных дистанционного зондирования, поддерживающих различные методы спектральной классификации изображений.
Визуальное (или ручное) дешифрирование данных дистанционного зондирования очень трудоемкий процесс, стоимость и длительность которого становятся неприемлемыми в сегодняшней ситуации резкого роста объемов данных, получаемых со спутников и самолетов. Широкое внедрение вычислительной техники вызвало интенсивное развитие методов автоматизированного, или компьютерного, дешифрирования. В основе методов автоматизированной интерпретации ДДЗЗ лежит математическая теория распознавания образов, которая вырабатывает правила классификации объектов по их характерным деталям или признакам. Такие методы реализованы в ряде систем автоматизированной обработки данных дистанционного зондирования, таких, как ERDAS IMAGINE, ScanEx IMAGE Processor и некоторых других.
В настоящей работе рассмотрены два метода многомерного статистического анализа, примененные для анализа данных дистанционного зондирования с целью выявления мест размещения объектов исследования (несанкционированных свалок).
Метод линейного дискриминантного анализа для решения задачи распознавания мест размещения объектов исследования по ДДЗЗ. Линейный дискриминантный анализ [3] данных снимка основан на аппроксимации распределения вероятностей векторов яркостей пикселей тематических классов многомерным нормальным распределением. Для применения дискриминантного анализа необходимо задать априорные вероятности классов, для чего нами использовались вероятности, полученные на основе априорной геоинформации о размещении природных и антропогенных объектов на исследуемой территории (разд. 3). Это завершает определение вероятностной модели мест НРО.
Достоинством данного метода является возможность получения статистически обоснованных выводов, в частности отнесение пикселей к классу «НЕ ОПРЕДЕЛЕНО», если вероятность принадлежности ко всем классам, полученная по формуле Байеса, меньше заданного порога, который определяется уровнем значимости (допустимым значением ошибки первого рода).
Поясним это на примере двух классов, для определения принадлежности которым используется единственный канал изображения: пусть средние яркости для классов равны 12 и 28, дисперсии - 9 и 16 соответственно. Априорная вероятность классов предполагается одинаковой. На рис. 3 представлены функции плотности вероятности для каждого класса. Заштрихованная область с наклонной штриховкой соответствует диапазону значений яркости (доверительному интервалу) от 6.12 до 17.88, в котором находится 95% яркостей пикселей, принадлежащих первому классу. Значения яркости 6.12 и 17.88 называются
Распределение вероятности для двух классов
------
О 10 20 ЭО 40
Яркость в канале
Рис. 3. Пример решающего правила при использовании одного канала
критическими, поскольку если яркость в канале меньше 6.12 или больше 17.88, то пиксель не может быть отнесен к первому классу при заданной вероятности ошибки первого рода (уровне значимости), равной 5%. Аналогичная картина имеет место и для второго класса (область с вертикальной штриховкой), для которого 95%-ный доверительный интервал простирается от 20.16 до 35.84. Таким образом, если значение яркости пикселя принимает значение между 17.88 (правая граница доверительного интервала 1-го класса) и 20.16 (левая граница доверительного интервала 2-го класса), то пиксель не может быть отнесен ни к первому, ни ко второму классу и классифицируется как «НЕ ОПРЕДЕЛЕНО». Он также классифицируется, если значение яркости меньше 6.12 или больше 35.84 (вся незаштрихованная область на рисунке).
При использовании нескольких каналов доверительные интервалы образуют области надежного отнесения пикселей к определенному классу. Надежность (уровень значимости, или вероятность не отнести пиксель к правильному классу, если яркости слишком сильно отличаются от средних в классе) задается параметрами управления классификацией.
Следует помнить, что кроме ошибки первого рода, которой мы можем управлять, существует ошибка второго рода, возникающая за счет перекрытия доверительных интервалов для разных классов (см. рис. 4 для двух классов, средние яркости которых равны 12 и 28, дисперсии - те же, что и раньше, 9 и 16 соответственно); линия раздела классов (вертикальная пунктирная линия) проходит (поскольку априорные вероятности равны) через точку равенства функций плотности вероятности, что соответствует яркости 19.63.
Для применения метода линейного дискриминантного анализа для ДДЗЗ с целью распознавания мест размещения объектов исследования необходимо предварительное создание «эталонов дешифрирования», получаемых по информации о ключевых участках - местах, в которых с выездом на место установлено наличие НРО. Пиксели снимка, входящие в пределы ключевых участков, образуют набор данных, используемый для определения статистики фактических мест размещения объектов исследования.
Распределение вероятности для двух классов
О 10 20 30 J0
Яркость в канале
Рис. 4. Ошибка второго рода при использовании одного канала
Другой источник данных представляют пиксели снимка в границах потенциального расположения мест объектов исследования, определяемых в нашем случае априорной вероятностной моделью мест НРО. Эта информация используется для определения статистики всех возможных мест размещения объектов исследования.
Полученные наборы данных используются для построения дискриминант-ных функций, которые применяются к снимку для вычисления вероятностей наличия мест НРО.
Заметим, что поскольку фотометрические характеристики снимков различны, данная процедура выполняется для каждого снимка отдельно с построением своих дискриминантных функций.
Таким образом, результатом будет модель пространственного распределения вероятности наличия НРО, полученная на основе данных дистанционного зондирования, а также с учетом априорной информации о размещении природных и антропогенных объектов. Карта районирования территории исследования на основе этой модели приведена на рис. 5 (фрагмент).
Применение метода бустинга для решения задачи распознавания мест размещения объектов исследования по ДДЗЗ. Рассмотрим комплекс методов, способствующих повышению точности аналитических моделей распознавания и снижению вероятности ошибок. В терминах науки об извлечении информации из данных (Data Mining) эффективная модель, допускающая мало ошибок классификации, называется «сильной». «Слабая», напротив, не позволяет надежно разделять классы или давать точные предсказания, делает в работе большое количество ошибок. Термин «бустинг» (от англ. boosting - повышение, усиление) был предложен в качестве названия для алгоритмов построения «сильной» модели путем объединения нескольких «слабых», например, за счет присвоения весов прогнозам каждой модели (по результатам прогноза на независимой выборке).
О 0-1 02 03 04 0 5 0.6 0.7 0 8 0-9 I
Рис. 5. Пространственное распределение вероятности НРО на основе линейного дискри-минантного анализа данных космоснимков (фрагмент)
Заметим, что бустинг может быть отнесен к методам с учителем, которые не рассчитывают явно веса (коэффициенты модели). Для повышения качества модели может использоваться создание случайных обучающих выборок на последовательных итерациях метода бустинга, когда вероятность включения данных в «обучающую» подвыборку обратно пропорциональна точности прогноза для них на предыдущей итерации.
В основе использованного нами алгоритма gbm (Generalized Boosted Regression Modeling) лежит машина градиентного бустинга Фридмана [4] и основанная на идеях, описанных в работе Фридмана, Хасти и Тибширани [5].
Принцип бустинга для gbm состоит в том, что для оценки дискриминирующих способностей алгоритма выбирается некоторая «функция потерь» (например, доля неправильно классифицированных пикселей). Затем строится и обучается распознаватель (в нашем случае в качестве базового алгоритма используются классификационные деревья, представляющие собой простейшие дискриминаторы), который после обучения фиксируется и в дальнейшем не изменяется. После этого исследуется «градиент» функции потерь для построенного к данному моменту распознавателя, то есть определяется, что должно быть «добавлено» к распознавателю, чтобы повысить качество дискриминации: например, мы можем использовать остатки (ошибки), полученные для уже построенного распознавателя, как исходные данные для обучения на этих ошибках нового распознавателя, который «добавляется» к существующему.
Повторяя эту процедуру достаточное число раз, мы получим «суммарный» распознаватель, состоящий из «каскада» простых распознавателей (например, линейных дискриминантых функций), каждый из которых исправляет ошибки, допущенные его предшественниками.
Фрагмент результата - модель пространственного распределения вероятности наличия НРО, полученная на основе ДДЗЗ методом бустинга, - приведен на рис. 6.
Рис. 6. Пространственное распределение вероятности НРО на основе анализа данных космоснимков методом бустинга (фрагмент)
Заключение
Сравнение различных методов выявления мест несанкционированного размещения отходов на основе ДДЗЗ высокого пространственного разрешения (QuickBird) показывает, что метод бустинга (gbm) дает наиболее качественный прогноз по сравнению с методом линейного дискриминантного анализа. Метод gbm правильно спрогнозировал расположение около 50% из тех мест несанкционированного размещения отходов, которые были выявлены по результатам полевых проверок. При отсутствии ДДЗЗ высокого пространственного разрешения априорная модель потенциальных мест НРО может быть использована для сужения зоны обследования при проведении плановых проверок (для оптимизации маршрутов инспекторов) и мониторинга мест НРО.
Summary
A.A. Saveliev, S.S. Mukharamova, S.M. Shishkin, S.R. Yausheva, A.I. Gayazov, G.Yu. Osin. A Probabilistic Model for Detection of Unauthorized Waste Disposal Based on Remote Sensing.
The article proposes a GIS approach to the detection of anthropogenically disturbed areas on the basis of Earth remote sensing techniques. The method developed was applied for the detection of unauthorized waste disposal using high resolution remote sensing data.
Key words: GIS analysis, unauthorized waste disposal, high resolution remote sensing
data.
Литература
1. Improving Recycling Markets. - Paris: OECD, 2006. - 186 p.
2. Diaz L.F., Savage G.M., Eggerth L.L. Solid Waste Management. - UNEP, 2005. - 524 p.
3. Ким Дж.-О., Мьюллер Ч.У., Клеша У. Р. и др. Факторный, дискриминантный и кластерный анализ. - М.: Финансы и статистика, 1989. - 215 с.
4. Friedman J. Greedy function approximation: A gradient boosting machine // Ann. Statist. -2001. - V. 29. - P. 1189-1232.
5. Friedman J., Hastie T., Tibshirani R. Additive logistic regression: A statistical view of boosting (with discussion) // Ann. Statist. - 2000. - V. 28. - P. 337-407.
Поступила в редакцию 01.07.10
Савельев Анатолий Александрович - доктор биологических наук, профессор кафедры моделирования экологических систем Казанского (Приволжского) федерального университета.
E-mail: [email protected]
Мухарамова Светлана Саясовна - старший преподаватель кафедры моделирования экологических систем Казанского (Приволжского) федерального университета.
E-mail: [email protected]
Шишкин Сергей Михайлович - старший преподаватель кафедры системного анализа и информационных технологий Казанского (Приволжского) федерального университета.
E-mail: [email protected]
Яушева Светлана Рустемовна - специалист по геоинформационным системам ОАО «НПК «РЕКОД», г. Москва.
E-mail: [email protected]
Гаязов Алмаз Ильфатович - ведущий специалист ОАО «НПК «РЕКОД», г. Москва.
E-mail: [email protected]
Осин Герман Юрьевич - ведущий специалист ОАО «НПК «РЕКОД», г. Москва.
E-mail: [email protected]