Вычислительные технологии
Том 12, Специальный выпуск 2, 2007
ИНТЕГРАЦИЯ ДАННЫХ О СОСТОЯНИИ ОКРУЖАЮЩЕЙ СРЕДЫ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ
Ю. И. Молородов, А. М. Федотов Институт вычислительных технологий СО РАН, Новосибирск, Россия e-mail: yumo@ict. nsc. ru, f edotov@ict. nsc. ru
Governing principles of the distributed media of the "Siberian Atmospheric Aerosols" atlas are considered. The atlas contains the data of observations of the Siberian environment during a very long period of time. Informational and computational resources of the atlas allow access to the data for a wide range of specialists thus providing the tools for an estimation of the global climate change.
Введение
В настоящее время на первый план выходят экологические проблемы, когда знание характеристик, описывающих состояние окружающей среды, становится чрезвычайно важным. Так, измерение, контроль и прогноз различных параметров атмосферных аэрозолей (АА) необходимы при оценке качества окружающей среды и вырабатываемых на этой основе жестких, экологически обоснованных требований к промышленной очистке газов, чистоте промышленных помещений, контролю санитарных и жилых зон индустриальных центров, а также результатов фоновых наблюдений, нацеленных на обнаружение и изучение негативных антропогенных воздействий на атмосферу и окружающую среду.
С ростом научных исследований появилась задача собрать и опубликовать информацию о характеристиках АА в сети Интернет, но для этого необходимо решить несколько серьезных проблем. Информация, хранящаяся по частям в различных системах, с одной стороны, неизбежно дублируется, а с другой — бывает недостаточно полной. Подходы к ее структуризации могут быть различными в разных системах. Приведение всех источников к некоему единому знаменателю — важнейший шаг на пути к общей интеграции. Это объясняет необходимость обеспечить систематизацию и структуризацию исходных данных. Для этого нужно реализовать максимально возможную унификацию доступа к гетерогенным информационным ресурсам (состав которых может со временем изменяться).
Работа выполнена при финансовой поддержке Президентской программы "Ведущие научные школы РФ" (грант № НШ-9886.2006.9), программы междисциплинарных интеграционных исследований СО РАН (гранты № 2006-34, № 2006-115).
© Институт вычислительных технологии Сибирского отделения Российской академии наук, 2007.
Информационные системы, как правило, сильно различаются по применяемым технологиям, производительности, способам доступа к информации и т, п. Это требует индивидуального подхода к каждому источнику. Однако существуют стандарты и технологии, позволяющие унифицировать взаимодействие с разнородными информационными системами, и их применение делает прозрачной общую архитектуру интеграции, В целом распределенная система должна позволить оценить влияние антропогенных и естественных источников на изменение характеристик АА, решив тем самым многие вопросы и задачи экологии,
1. Необходимость создания информационных систем
Одним из наиболее бурно развивающихся направлений информационной индустрии последних лет стала разработка удаленно доступных информационных систем. Причинами такого роста стали достижения одновременно в нескольких областях, К ним можно отнести:
— значительное увеличение пропускной способности каналов связи;
— увеличение производительности компьютеров как по скорости, так и по объемам оперативной и внешней памяти;
— широкое проникновение компьютеров и компьютерных технологий в повседневную и производственную деятельность граждан;
— развитие сети Интернет, обеспечивающей простой и надежный доступ к огромному объему информационных ресурсов;
— развитие самих информационных технологий,
С этой точки зрения можно сказать, что в настоящее время программирование находится на четвертой фазе своего развития. Первой из них можно назвать "классическое" программирование (сначала в кодах, затем на ассемблере, затем на языках высокого уровня) для больших ЭВМ, Потом было "классическое" программирование для персональных ЭВМ, После него появилось программирование с использованием визуальных и CASE-средств, а затем и "сетевое" программирование.
Одновременный рост производительности компьютеров, пропускных способностей каналов связи и технологий программирования дал новую жизнь некоторым старым технологиям, в частности идее интерпретируемого кода. Впервые она была предложена в 70-е годы XX в, как средство машинной реализации языка Паскаль (p-code). Сегодня на этих же идеях строится язык Java с его виртуальной машиной.
Эти общие процессы, естественно, в значительной степени коснулись и науки, В этом смысле хотелось бы отметить три основных направления ее информатизации.
Основным способом доступа к научной информации становится доступ через сеть. На практике это означает, что необходимо обеспечить средства предоставления результатов исследований в сеть, средства эффективного поиска необходимой информации и доступа к ней. Все это означает необходимость создания и развития разнообразных электронных библиотек и перевода традиционных библиотек на обслуживание в удаленном режиме,
В значительной степени деятельность ученых и коллективов ученых перемещается в область создания баз данных, содержащих результаты исследований. Часто при этом создаются не просто базы данных, но и средства доступа к специфическим данным (химическим, астрономическим, физическим и т.д.). Разрабатываются средства визуализации этих данных.
Принципиально важной становится интеграция разнообразных данных и систем, поддерживающих и обеспечивающих научный процесс. Здесь в свою очередь необходимо отметить две проблемы. Первая — научному сотруднику необходимо, чтобы по возможности вся информация была одновременно и легко доступна, т, е, чтобы все компоненты, образующие информационную систему поддержки научных исследований, были интегрированы как по форме (имеются в виду средства, предоставляемые пользователю), так и по содержанию (информационная система должна поддерживать связи по данным между различными компонентами),
2. Технологии создания информационных систем
В настоящее время к древнейшему источнику информации о состоянии экосистем — полевым наблюдениям и экспериментам — добавилось дистанционное аэро- и космическое зондирование больших участков поверхности Земли, Вследствие этого возникла актуальная задача — разработка методов комплексного анализа и интеграции данных многозональных космических съемок с результатами полевых исследований для создания карт экосистем окружающей среды. Создание единого информационного пространства для этого даст качественно новые возможности анализа состояния экосистем.
Данные наблюдений включают в себя числовую информацию (печатную и электронную), графический материал и словесное описание. Сведения о них и записи данных существуют на бумаге, пленке (микрофиши), магнитных дисках, в цифровой оптической среде и т, д. Однако для нас более приемлемы данные, представленные в электронном виде.
Заметим, что данные — это критический ресурс, который необходимо сохранять, защищать и к которому необходимо организовывать доступ для всех пользователей в любое время суток [1], Это обстоятельство существенное, поскольку значимость научных данных — в возможности их использования. Архив данных должен быть расширяемым, вместительным и доступным. Для адекватного восприятия данных человеком, а также осмысленной машинной обработки они должны сопровождаться документацией или метаданными, что необходимо для преодоления барьеров в их коллективном использовании (существующим решением для Интернет-ресурсов является подход Semantic Web [2, 3]), Наконец, приемлемая и эффективная стратегия архивирования данных основана на использовании распределенных архивов, управляемых теми, кто обладает предметным знанием о данных (решение лежит в плоскости подхода Grid [4]).
При коллективной работе с данными существенно задание их форматов, В небольших научных проектах не обращают внимания на форматы данных, так как исследователи планируют и осуществляют работу со своими данными в узком кругу научного сообщества и любые семантические неувязки разрешаются на уровне личного общения. При проведении больших проектов устанавливается единый формат данных. Проблема состоит в такой подготовке структурированных научных данных, при которой их интерпретация доступна всем уровням пользователей. Структура данных должна допускать все возможные пути полного восстановления информации о получении, архивировании и обработке данных.
Продуманная многоуровневая система сбора, обработки и хранения атмосферных данных построена в США, Основной объем данных сосредоточен в центрах активных распределенных архивов (Distributed Active Archive Center — DAAC), Среди них [1]:
— Alaska Synthetic Aperture Radar (SAR) Facility (ASF), Содержит данные о полярных процессах и радарные данные (http: //www. asf . alaska. edu/);
— EROS Data Center (EDC) Land Processes, Описывают поверхностные процессы (http://landcover.usgs.gov/);
— Goddard Space Flight Center (GSFC), Содержит сведения о верхней атмосфере, глобальной биосфере, атмосферной динамике и геофизике (http ://www. gsf с. nasa. gov/) и др.
Например, распределенная информационная система "Наблюдение за Землей" (Earth Observation System/Data Information System — EOS/DIS) создается для сбора и обработки данных и осуществления их связи с данными центров активных распределенных архивов. Инструментальные и научные команды развивают алгоритмы для обработки данных и генерации продуктов данных, а центры обеспечивают сервисы пользователя. EOS/DIS устанавливает требования для создателей информационных систем и координирует работу центров.
В этом огромном потоке информации необходимо быстро ориентироваться. Имеющиеся бумажные каталоги, списки, справки, полученные с технических носителей, уже не отвечают требованиям. Во-первых, информация очень быстро изменяется, массивы пополняются, корректируются и пересчитываются. Во-вторых, объем такой информации весьма велик. Так, базы сведений о характеристиках изучаемой среды того или иного района оцениваются в десятки и сотни мегабайт. В-третьих, справочная информация — это основа для перехода на безбумажную технологию обработки информации о состоянии среды. Для фильтрации данных иногда требуются такие атрибуты, которых нет в исходных массивах. Для успешного поиска качественных данных необходимы сведения о массивах данных, форматах их обмена, программных средствах их обработки, организациях, собирающих и хранящих данные, и др. Все эти сведения называются метаданными,
В основу создания информационных систем положено понятие метаданных, В данном контексте это формализованное описание коллекций, документов или объектов, структурированных сведений об электронных ресурсах, представляющих его свойства или атрибуты. Метаданные используются для каталогизации документов, поиска, вывода результатов поиска, установления связей между отдельными документами, формирования тематических словарей, В набор элементов, использующихся для создания метаданных, входят стандартные наборы MARC21, Dublin Core и др.
Стоит отметить значительную работу с метаданными, выполняемую National Virtual Data System (NVDS) (http://www.nvds.noaa.gov/), обращение к которым существенно облегчает поиск необходимых ресурсов [1].
3. Информационные ресурсы, созданные за рубежом
Задачи численного прогноза о состоянии окружающей среды имеют более чем полувековую историю, но последнее десятилетие стало этапным в подходе к их решению. Прогресс достигнут за счет координации и интеграции усилий многих организаций в области анализа наблюдений и моделирования, а также в значительной мере за счет использования информационных технологий, которые позволяют несколько с иных позиций подойти к решению как климатических задач, так и других проблем фундаментальных наук. Техническая сторона прогресса связана с формированием распределен-
ных информационных ресурсов, содержащих физические характеристики окружающей среды и описывающих связи между ними. Дело в том, что исследователям необходимо все более детальное описание физических процессов в атмосфере, океане, на поверхности суши, что требует привлечения множества организаций и специалистов разных областей наук. Для разработки компонентов математических моделей, решения связанных с ними задач и вычислений, проводимых на их основе, требуются все более производительные ресурсы. Исследования последних лет показали, что изменения климата Земли связаны не только с взаимодействием атмосферы, океана, поверхности суши и морских льдов, но и с их химическим и биологическим составом, более того, на него влияют антропогенные факторы (парниковые газы, землепользование и т.д.). Управление и прогноз изменений климата и погоды возможны на пути дальнейшего уточнения физических, химических, биологических процессов и их интеграции в существующую систему знаний о поведении системы Земля,
Среди множества разномасштабных проектов, выполняемых в настоящее время иностранными учеными и направленных на решение упомянутых проблем, выделим следующие,
1, PRogram for Integrated Earth System Modelling (PRISM) (http://www.enes.org),
2, Earth Frontier Project (http://www.es.jamstec.go.jp/),
3, Earth System Modelling Framework (ESMF) (http://www.esmf.ucar.edu/),
4, Earth System Grid (ESG) (http://www.earthsystemgrid.org/),
В этих проектах решаются задачи увеличения многократного использования кода, обеспечения интероперабельности, простоты использования и компактного выполнения в приложениях климатических, погодных и усвоения данных. Описаны проблемы технического и информационного обеспечения, а также подходы и проблемы, связанные с развитием аппаратного и программного обеспечения и использованием масштабируемых компьютерных архитектур [5].
4. Информационные ресурсы, созданные на территории Сибири
Учеными Сибирского отделения РАН также создаются распределенные базы данных по разным разделам наук об окружающей среде. Конечно, охват тематики здесь пока значительно меньше, однако в настоящее время работы в этом направлении ведутся,
4.1. Базы данных для ГИС "Аэрозоли Алтая"
База данных для ГИС "Аэрозоли Алтая"1 [6] сформирована на основе многолетних наблюдений за характеристиками АА в приземном слое атмосферы, проведенных на территории Алтайского края и Республики Алтай в период 1991-2002 гг. Ее основой служит материал, полученный в ходе разовых и многосуточных наблюдений в экспедициях с помощью передвижной лаборатории (ПЛ),
База данных содержит информацию о микрофизических параметрах аэрозолей: спектрах размеров частиц, элементном и ионном составе, массовой концентрации, а также данные о метеопараметрах в пунктах отбора проб. Кроме того, в базу данных
1http ://iwep.asu.ru/altai/index.php
вошли результаты исследований качества атмосферного воздуха и заболеваемости населения г. Барнаула Алтайского края.
С целью обеспечения доступа как можно большего числа специалистов в области космического мониторинга, физики атмосферных аэрозолей и пр. создана топологическая векторная модель данных ГИС "Аэрозоли Алтая", которая представляет собой интерактивную векторную карту с элементами гипертекстовой разметки.
Для представления информации, содержащейся в многомерной базе данных "Аэрозоли Алтая", разработана концептуальная модель построения ГИС (статичная реализация \\теЬ-сайта). В основе построения модели базы данных лежит ее реляционная модель. На рисунке терм "1" соответствует начальной странице Интернет-проекта, на которой представлены растровые изображения Алтайского края и Республики Алтай, совмещенные между собой посредством инструментов отображения векторной графики.
С целью совмещения позиционной и атрибутивной информации каждая из территорий представлена в виде структур, состоящих из триад термов: двух основных (З-Т-7 и 2-Т-6) и трех дополнительных (типа 4-Т-5). В описываемой структуре термы "2", "3" и "4" — это интерактивные карты территорий; термы "5", "6" и "7" представляют наборы фреймовых структур, объединяющих в себе детальные карты местности пунктов отбора проб, таблицы данных и диаграммы; термы "т" содержат списки пунктов отбора проб для каждой из территорий.
Совокупность термов "З-Т-7" образует интерактивную карту для Республики Алтай. Интернет-страница, соответствующая терму "3", представляет собой растровое изображение карты территории, на которое нанесен слой маркеров по местам отбора проб. Маркеры содержат гиперссылки на наборы фреймовых структур (терм "7") для представления атрибутивной информации (таблицы и диаграммы). Карта дополнена списком, содержащим таблицу мест отбора проб на данной территории (терм "Т"). Каждый список объектов связан с атрибутивной информацией (терм "7").
Совокупность термов "2-т-6" образует интерактивную карту для Алтайского края и имеет аналогичную структуру представления данных. Отметим, что на данной карте с помощью графических маркеров, содержащих гиперссылки, сделаны переходы на карты районных уровней (дополнительные триады термов).
В соответствии с масштабом представления территорий векторную интерактивную карту можно условно разделить на три уровня, которые связаны между собой.
На первом уровне интерактивной карты представлен Алтайский регион: растровые изображения карт Алтайского края и Республики Алтай, совмещенные между собой и имеющие привязку в относительных координатах (см. рисунок). Пользователь может
Граф представления базы данных для ГИС "Аэрозоли Алтая"
выбрать для просмотра информацию по Алтайскому краю или Республике Алтай либо вернуться на Интернет-страницу лаборатории.
На втором уровне находятся карты региональных единиц — Алтайского края и Республики Алтай, Второй уровень векторной карты представляет Интернет-страницу, на которой растровая карта совмещена с позиционным слоем, содержащим относительные координаты точек отбора проб воздуха и гиперссылки на атрибутивную информацию по объекту. Собственно, web-страница является интерактивной картой, на которой пользователь может выбирать отображенные на ней объекты и получать в интерактивном режиме атрибутивную информацию об объекте. Точки отбора проб — объекты карты — обозначены флажками красного цвета. При наведении указателя мышки на один из флажков появляется указатель на гиперссылку (атрибутивный фрейм объекта) в виде подписи к объекту, содержащей дату отбора пробы и условное название пункта. На данной странице имеются также гиперссылки на таблицу, включающую общий список пунктов отбора проб, и таблицу данных по содержанию тяжелых элементов в пробах воздуха.
На третьем уровне представлены растровые фрагменты карт местности отбора проб. Атрибутивная информация объектов (проб) представлена в виде фреймовых структур, содержащих многомерные таблицы спектров размеров частиц, метеопараметров, а также диаграммы, составленные на основе этих таблиц,
4.2. Web-портал ATMOS — основа выполнения исследований по окружающей среде Сибири
Двуязычный научный web-портал Л Г MOS1' разработан специалистами Института оптики атмосферы СО РАН как интегрированное множество распределенных, но согласованных тематических web-сайтов, комбинирующих стандартную мультимедийную информацию с исследовательскими базами данных, моделями и аналитическими инструментами для использования и визуализации on line [7]. Основной темой является физика и химия атмосферы, включая спектроскопию атмосферы, аэрозоли, радиацию, а также прикладные области оценки и управления качеством воздуха, моделирования и оценки воздействия на окружающую среду.
Портал представляет собой интегрированный набор множества распределенных, но координируемых предметных сайтов, содержащих типовую мультимедийную информацию с исследовательскими базами данных, моделями и аналитическим инструментарием для прямого использования и визуализации. Каждый предметный сайт отображает информационную систему средствами Интернет-технологий,
Портал разделен на две группы сайтов, К первой группе3 относятся сайты аналитического направления, большая часть из которых включает в себя информационно-вычислительные системы, В эту группу входят:
1) сайты "Атмосферная химия"4, "Атмосферная спектроскопия"5 и "Атмосферный аэрозоль"6 представляют измерения оптических характеристик аэрозоля, химические
2http://atmos.iao.ru/
3http://atmos.iao.ru/
4http://atchem.atmos.iao.ru/
5http://saga.atmos.iao.ru/
6http://aerosol.atmos.iao.ru/
свойства компонентов атмосферы, микрофизику аэрозоля, описание элементарных химических и физических процессов в атмосфере и т, д;
2) сайт "Данные измерений"7 содержит данные измерений, проводимых в Иркутске и Томске;
3) сайт "Атмосферная радиация"8 используется для вычисления радиационных потоков и изучения влияния аэрозоля, облаков и малых составляющих атмосферы на радиационный режим;
4) сайт "Климат"9 ориентирован на рассмотрение климатических моделей и моделей описания окружающей среды.
Вторая группа сайтов содержит описание подхода к задачам оценки и управления качеством воздуха, физико-географическую информацию о двух географических объектах Сибири, К группе относятся три сайта:
1) сайт "Оценка и управление качеством воздуха"10;
2) сайт "Озеро Байкал"11;
3) сайт "Западно-Сибирская низменность"12,
4.3. Атлас "Атмосферные аэрозоли Сибири"
Основная тема информационно-вычислительного атласа, представленного на сайте Института вычислительных технологий (ИВТ) СО РАН13, — атмосферные аэрозоли Западной Сибири [8]. В атлас вошли результаты регулярных измерений временных характеристик атмосферных аэрозолей, полученные специалистами институтов СО РАН: Института химической кинетики и горения, Института неорганической химии, Лимнологического института, Института водных и экологических проблем, Кемеровского, Красноярского и Томского научных центров.
Мониторинг осуществлялся на территории Западной и Восточной Сибири, Алтайского и Красноярского краев. Наблюдения проводились в лесостепной и степной, лесотундровой и тундровой зонах и в Арктическом бассейне России, Кроме того, в рамках совместных исследований с Сибирским отделением РАН Институт космических исследований РАН (г, Москва) проводит сбор данных со станций приема космической информации на основе низкоорбитальных спутников серии NOAA, "Метеор" с многоканальной аппаратурой, позволяющей получать спутниковые снимки различных участков Земли низкого, среднего и высокого разрешения. При этом используются возможности бортовых радиометров систем наблюдения Earth Observing System (EOS) на платформах MODIS/Terra, MODIS/Aqua, AMSR-E/Aqua, с помощью которых осуществляются измерения атмосферных и поверхностных характеристик, а также и изменения свойств подстилающей поверхности.
Разработанные сервисы позволяют пользователю заносить данные измерений на сервер ИВТ СО РАН, предоставлять результаты обработки в виде документов, не загружая вычислениями его персональный компьютер,
7http://solter.atmos.iao.ru/
8http://atrad.atmos.iao.ru/
9http://climate.atmos.iao.ru/
10http://air.atmos.scert.ru/
nlittp: //baikal. atmos. scert. ru/
12http://west-sib.atmos.scert.ru/
13http://web.ict.nsc.ru/aerosol/
Важным компонентом являются предметные модули, в основу которых положены данные, характеризующие предметную область и математические модели оперирования с ними. Информация и эмпирические данные хранятся преимущественно в файловых системах или в базе данных. Алгоритмы формируют базис для моделей, используемых в вычислениях. Инструментарий для представления данных включает в себя аппаратное и программное обеспечение для передачи и отображения информации.
Реализованы интерфейсы доступа к данным космических наблюдений на основе ГИС-технологии, Усовершенствована и формализована схема данных, чтобы максимально облегчить подключение гетерогенных информационно-вычислительных компонентов, Выработана стратегия перехода на сервисную архитектуру на базе web- и Grid-сервисов с возможностью интеграции с другими информационно-вычислительными системами из области физики атмосферы.
Заключение
Трудно представить организацию коллективной работы без существования сети Интернет и, следовательно, без использования Интернет-технологий, Заметим, что для выбора такого пути развития существуют серьезные экономические и технические факторы. Дело в том, что скорость технологических изменений такова, что производительность устройств удваивается, а цена падает в два раза каждые девять месяцев для сетевых устройств, каждые 12 для устройств хранения данных и каждые 18 для процессоров. Экономически выгодным становится вкладывать деньги в технологии, использующие сетевые устройства. Появление фундаментальных стандартов платформы XML (RDF, EDFS, OWL, SOAP, WSDL и т.д.), а также подходов Semantic Web и GRID создало возможность использования семантических особенностей информационных ресурсов и перехода к глобальной компьютерной обработке типовых информационных ресурсов. Именно на этом пути стоит ожидать очередного прорыва в интеграции усилий исследователей окружающей среды.
Список литературы
[1] фазлиев а.з. Информационные ресурсы и Интернет-технологии для наук об окружающей среде // Тр. Междунар. конф. "Вычислительно-информационные технологии для наук об окружающей среде — CITES 2003" / Под ред. Е.П. Гордова: Вычисл. технологии. 2004. Спецвыпуск. В 2 ч. Ч. 1. С. 11-21.
[2] berners-lee Т., brickley d., connolly d. et al. The Semantic Web. (http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/slide1-0.html).
[3] herman I. Introduction to the Semantic Web.
(http://www.w3.org/2003/Talks/ll12-BeijingSW-IH).
[4] de roure d., jennings n., shadbolt n. A Future e-Science Infrastructure. Report Commissioned for EPSRC/DTI Core e-Science Programme, 2001. 78 p.
[5] гордов Е.п., фазлиев а.з. Научные информационные ресурсы для поддержки исследований атмосферы в сети Интернет // Тр. Междунар. конф. "Вычислительно-
информационные технологии для наук об окружающей среде — CITES 2003" / Под ред. Е.П. Гордова: Вычисл. технологии. 2004. Спецвыпуск. в 2 ч. Ч. 1. С. 123-136.
[6] дмитриев Б.Н., суторихин И.А. Базы данных для ГИС "Аэрозоли Сибири" // Тр. Междунар. конф. "ENVIRONMIS-2002" / Под ред. Е.П. Гордова. Томск: Томский ЦНТИ, 2002. Т. 1. С. 70-77.
[7] гордов Е.П., de rudder A.d., Лыкоеов в.н. и др. Веб-портал ATMOC как основа для выполнения интегрированных исследований по окружающей среде Сибири // Тр. Междунар. конф. "Вычислительно-информационные технологии для наук об окружающей среде — CITES 2003" / Под ред. Е.П. Гордова: Вычисл. технологии. 2004. Спецвыпуск. В 2 ч. Ч. 2. С. 3-13.
[8] молородов ю.и., куценогий к.п. Атлас по атмосферным аэрозолям Сибири как основа обеспечения мониторинга Сибирского региона // Мониторинг окружающей среды, геоэкология, дистанционные методы зондирования земли: Тр. СибГГА, 2005. С. 142-146.
Поступила в редакцию 11 мая 2007 г.