Научная статья на тему 'Инфраструктура для выполнения научно-исследовательских работ с использованием данных дистанционного зондирования в ИВТ со РАН'

Инфраструктура для выполнения научно-исследовательских работ с использованием данных дистанционного зондирования в ИВТ со РАН Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
185
59
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИСТАНЦИОННОЕ ЗОНДИРОВАНИЕ / БАЗА ДАННЫХ / REMOTE SENSING / DATABASE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кихтенко Владимир Андреевич, Мамаш Елена Александровна, Смирнов Валентин Валентинович, Чубаров Дмитрий Леонидович

Описывается новая технология доступа к архивам спутниковых данных, основанная на виртуальной интеграции разнородных спутниковых снимков в реляционной базе данных, а также базирующаяся на ней инфраструктура для проведения научных исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кихтенко Владимир Андреевич, Мамаш Елена Александровна, Смирнов Валентин Валентинович, Чубаров Дмитрий Леонидович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SCIENTIFIC RESEARCH INFRASTRUCTURE FOR EFFICIENT REMOTE SENSING DATA UTILIZATION IN ICT SB RAS

We introduce a new approach to querying archives of satellite remote sensing data using virtual data integration in relational database. We exploit this technology to create research infrastructure for remote sensing data studies in ICT SB RAS.

Текст научной работы на тему «Инфраструктура для выполнения научно-исследовательских работ с использованием данных дистанционного зондирования в ИВТ со РАН»

УДК 528.88

ИНФРАСТРУКТУРА ДЛЯ ВЫПОЛНЕНИЯ

НАУЧНО-ИССЛЕДОВАТЕЛЬСКИХ РАБОТ С ИСПОЛЬЗОВАНИЕМ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ В ИВТ СО РАН

Владимир Андреевич Кихтенко

Институт вычислительных технологий СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, младший научный сотрудник, тел. (383)334-91-90 * 1183, e-mail: [email protected]

Елена Александровна Мамаш

Институт вычислительных технологий СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, кандидат физико-математических наук, и. о. зав. лабораторией, тел. (383)334-91-77, е-mail: [email protected]

Валентин Валентинович Смирнов

Институт вычислительных технологий СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, инженер-исследователь, тел. (383)334-91-08, е-mail: [email protected]

Дмитрий Леонидович Чубаров

Институт вычислительных технологий СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, научный сотрудник, тел. (383)334-91-15, е-mail: [email protected]

Описывается новая технология доступа к архивам спутниковых данных, основанная на виртуальной интеграции разнородных спутниковых снимков в реляционной базе данных, а также базирующаяся на ней инфраструктура для проведения научных исследований.

Ключевые слова: дистанционное зондирование, база данных.

SCIENTIFIC RESEARCH INFRASTRUCTURE FOR EFFICIENT REMOTE SENSING DATA UTILIZATION IN ICT SB RAS

Vladimir A. Kikhtenko

Institute of Computational Technologies SB RAS, 630090, Russia, Novosibirsk, 6 Acad. Lavrentjev Ave, tel. (383)334-91-90 * 1183, е-mail: [email protected]

Elena A. Mamash

Institute of Computational Technologies SB RAS, 630090, Russia, Novosibirsk, 6 Acad. Lavrentjev Ave, Ph. D., Laboratory-Center of Monitoring of Social and Economic Processes and Environment , tel. (383)334-91-77, е-mail: [email protected]

Valentin V. Smirnov

Institute of Computational Technologies SB RAS, 630090, Russia, Novosibirsk, 6 Acad. Lavrentjev Ave, tel. (383)334-91-08, е-mail: [email protected]

Dmitri L. Chubarov

Institute of Computational Technologies SB RAS, 630090, Russia, Novosibirsk, 6 Acad. Lavrentjev Ave, tel. (383)334-91-15, е-mail: [email protected]

We introduce a new approach to querying archives of satellite remote sensing data using virtual data integration in relational database. We exploit this technology to create research infrastructure for remote sensing data studies in ICT SB RAS.

Key words: remote sensing, database.

Введение

В последние годы во всем мире интенсивно развиваются технологии прямого доступа к данным дистанционного зондирования и результатам их обработки. Проблема эффективного использования данных дистанционного зондирования осложняется их значительными объёмами, разнообразием форматов их хранения.

Традиционная схема работы с данными дистанционного зондирования Земли подразумевает выгрузку отдельных сцен из архивов и их подключение к геоинформационной системе (ГИС) в виде отдельных слоев. Такая схема обеспечивает возможности фильтрации и последующей визуализации данных в виде наборов тематических слоев, однако, возможности применения более сложных функций, таких как функции трансформации и пространственной агрегации данных ограничены. В результате работа с данными, имеющими не только пространственное, но и временное распределение, затруднена, а к их числу, в частности, относятся все материалы, производимые системами спутникового мониторинга.

Одним из возможных путей преодоления этого ограничения является виртуальная интеграция представленных в архиве данных в реляционной базе данных. Такой подход реализован в разрабатываемой в ИВТ СО РАН системе hVault. Обеспечивая для конечного пользователя абстракцию исходных данных, разработанная система позволяет производить поиск информации, последующее ее извлечение, фильтрацию, агрегацию и сохранение результатов в форматах, используемых в ГИС, для последующей обработки. Генерируемые системой новые наборы данных являются динамическими и могут создаваться многократно с различными вариациями без необходимости их сохранения. Использование такого механизма позволяет интегрировать большие объёмы разнородных данных, что в традиционных ГИС является сложной и ресурсоемкой задачей.

Извлечение и обработка данных

Для обработки и анализа геопространственных данных в ИВТ СО РАН используется программно-аппаратный комплекс на основе сетевой системы хранения Isilon и технологии отображения файлового архива в систему hVault, представляющую собой расширение PostgreSQL. Информационно-вычислительная инфраструктура состоит из нескольких взаимосвязанных блоков (рис. 1) и предоставляет функции доступа ко всему архиву спутниковых данных без привязки к отдельным сценам.

Изображенный в левой части рис. 1. блок комплекса приема и обработки отвечает за своевременное получение спутниковых данных и их обработку до уровня стандартных продуктов уровней L2 и L3. Исходные данные принимаются как непосредственно с космических аппаратов в режиме прямой передачи данных, что обеспечивает минимальные задержки от момента съемки до предоставления обработанных данных исследователю, так и загружаются из удалённых архивов, что расширяет спектр доступной информации для ретроспективных исследований.

Рис. 1. Схема взаимодействия компонент информационно-вычислительной инфраструктуры

Процесс оперативной обработки управляется контроллером на основе системы управления потоковыми процессами Taverna Workbench. За счет представления процесса обработки в виде графа зависимостей по данным между отдельными модулями она автоматически обеспечивает параллельное выполнение обработки в распределенном режиме на узлах кластера, а также эффективную утилизацию пропускной способности систем хранения данных. Тем самым, обеспечивается получение стандартных продуктов глубокой обработки в режиме близком к реальному времени.

К настоящему моменту общий объем доступных данных составляет приблизительно 250 Тбайт и включает в себя продукты высоких уровней обработки MODIS, AIRS и NPP, снимки Landsat, а также метеорологические данные NCEP. Архив содержит ретроспективные данные с 2000 года и постоянно пополняется.

Блок информационной аналитики (рис. 1, правая сторона) предоставляет исследователям средства виртуальной интеграции разнородных данных, а также инструментарий для проведения ретроспективного анализа, статистической обработки и визуализации. В его основе лежит новая технология доступа к архиву спутниковых данных реализованная с использованием СУБД PostgreSQL с дополнительным модулем hVault для прямого доступа к файловому архиву геопространственной информации без необходимости предварительного копирования и преобразования формата данных для СУБД. Модуль hVault реализует прозрачное отображение файлового архива спутниковых снимков в виртуальные таблицы базы данных. Он позволяет выполнять произвольные SQL-запросы к данным файлового архива, при этом планировщик запросов оптимизирует их выполнение на основе доступных метаданных, а применяемые для выполнения вычислений алгоритмы предусматривают работу с объёмами информации превосходящими ёмкость оперативной памяти сервера СУБД.

Разработанную систему извлечения данных из архива спутниковых снимков можно сопоставить с такими системами как NASA Giovanni [1], Google Earth Engine [2] и европейским проектом TELEIOS [3]. Все они нацелены на предоставление доступа к большим объемам спутниковых снимков. Технология hVault в различных аспектах превосходит описанные системы. В ней нет ограничений на вид запросов к данным, так как поддерживаются произвольные SQL запросы в том числе с использованием хранимых процедур. Система hVault рассчитана на работу с произвольными пространственными данными без необходимости их предварительного преобразования и подготовки, что упрощает её развертывание для существующих архивов ДЗЗ.

Предоставление данных

Для предоставления доступа широкому кругу исследователей к архивам спутниковых данных широко используются геопорталы, информационные ресурсы, основанные на веб-технологиях и стандартизированных протоколах взаимодействия с архивами. Первоначально протоколы взаимодействия между архивами и геопорталами строились на основе представления архива как коллекции отдельных сцен, снимков некоторой области пространства, выполненных в определенный момент времени. Дальнейшее развитие технологии позволило перейти от коллекций сцен к пространственным покрытиям. Для этого коллекции заранее преобразовались к виду, оптимизированному для отображения в геопорталах. Ограничением этого подхода является его необходимость заранее определить метод представления многомерного массива спутниковых измерений в виде двумерного покрытия.

Потребности публикации данных для широкого круга пользователей в рамках геопортала требуют обеспечения быстрого отклика на однотипные запросы. Для решения этой задачи предложен подход, основанный на стандартизированных протоколах для подключения hVault в качестве источника данных для геопортала. В рамках предлагаемого подхода результаты выполнения заранее сформированных SQL-запросов предоставляются как WMS и WCS слои,

которые могут быть трансформированы с учётом дескрипторов SLD и ском-плексированы с другими слоями для публикации в рамках геопорталов средствами современных универсальных WMS-серверов. Ключевым элементом предложенного подхода является специализированный WMS-сервер hVault-WMS.

Сервер hVault-WMS обеспечивает представление результатов любого заранее сформированного SQL-запроса в виде географически привязанных изображений по стандартному протоколу WMS. Использование SQL-запросов позволяет организовать произвольную обработку исходных данных ядром СУБД в момент выполнения запроса пользователя, например мультиплексирование спектральных каналов изображения или расчет попиксельных индексов.

Заключение

Разработанная информационно-вычислительная инфраструктура для работы с данными дистанционного зондирования Земли предоставляет исследователю широкий ассортимент инструментов для работы с данными. Использование стандартных протоколов взаимодействия между компонентами позволяет использовать существующий инструментарий для визуализации и обработки данных, в том числе такие свободно распространяемые пакеты программ, как QGIS и GRASS GIS. Этот подход позволил отказаться от разработки полнофункциональных компонент ГИС системы и сосредоточиться на расширении ее функциональных возможностей за счет ее сопряжения с сервисами системы интеллектуального извлечения данных hVault. Также возможно использование такого популярного среди научных работников интерактивного инструмента для совместной работы с данными, как iPython Notebook Server, основанного на языке программирования Python.

Разработанные технологические и инфраструктурные решения предоставляют уникальный механизм доступа к большим объемам разнородной пространственной информации для конечного потребителя. Практика опытной эксплутации компонент разработанной инфраструктуры показала высокую эффективность используемых технологий извлечения, обработки и анализа информации при решении конкретных тематических задач.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. G. Acker and G. Leptoukh, "Online Analysis Enhances Use of NASA Earth Science Data", Eos, Trans. AGU, Vol. 88, No. 2 (9 January 2007).

2. Hansen et al.. High-Resolution Global Maps of 21st-Century Forest Cover Change. Science 342 (15 November): 850-53.

3. M. Koubarakis, TELEIOS: A Database-Powered Virtual Earth Observatory In Proceedings of International Conference on Very Large Data Bases 2012.

4. Ю.И. Шокин, Л.Б. Чубаров, Н.Н. Добрецов, В.А. Кихтенко, В.В. Смирнов, Д.Л. Чу-баров "О распределенной инфраструктуре системы оперативного спутникового мониторинга ЦКП ДДЗ СО РАН" // Вычислительные технологии, 2013, т. 18, Специальный выпуск, С. 79-87.

© В. А. Кихтенко, Е. А. Мамаш, В. В. Смирнов, Д. Л. Чубаров, 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.