УДК 504.064.37
М.Ю. Катаев, С.Г. Катаев
Эффективный вычислительный метод выявления пространственных структур профилей концентрации углекислого газа
Предлагается описание вычислительного метода выявления пространственных структур профиля концентрации углекислого газа. Предлагаемый подход в автоматическом режиме позволяет выделять центры структур и оценивать параметры их формы и размера, статистические характеристики. Приводятся результаты численной апробации подхода.
Ключевые слова: структуры, метод выявления структур, графы, профили концентрации.
Стремительно развивающийся парниковый эффект на Земле становится важной научной проблемой современности [1]. Основным инструментом для теоретического изучения климатической системы планеты и прогнозирования изменений климата в будущем является численное моделирование различных физических процессов в системе «атмосфера - поверхность» в рамках 3Б-моделей атмосферы. Для решения этих задач необходимы длительные ряды наблюдений климатообразующих факторов по всей территории поверхности Земли за достаточно длительный промежуток времени. По некоторым параметрам (Н2О, температура, ветер) такая информация существует в виде пространственно-структурированных данных, в центрах КСЕР (www.ncep.noaa.gov) и ЕСМЖБ (http://www.ecmwf.int). По другим параметрам (например, СО2, О3) только начинает собираться в подобном виде. Таким образом, информации, необходимой для изучения атмосферы во всем ее пространстве, достаточно для решения отдельных задач климатологии, физики атмосферы и др.
Важным источником информации о различных параметрах атмосферы по всей ее толще и пространству являются спутники [2-4]. Для моделирования разного рода атмосферных ситуаций, прохождения излучения через атмосферы и решения обратных задач необходима априорная информация об изучаемых параметрах. Частично такая информация содержится в указанных выше центрах сбора и анализа данных. Однако объем таких данных достаточно большой, и для преобразования, обработки данных применяются мощные вычислительные устройства, что ограничивает применимость этих данных для большинства исследователей. Альтернативой такому большому набору данных являются модели атмосферы [5-7], которые отвечают основным физическим представлениям об изменении параметра в пространстве и времени и имеют малый объем. Однако такие модели все же описывают атмосферные ситуации достаточно усредненно, что для некоторых задач является существенно грубым приближением.
В данной работе нами предлагается построить локализованные модели пространственных структур поля концентраций углекислого газа на основе метода выделения структур (МВС), в основе которого лежит идея кластерного анализа [8]. Такие модели, в отличие от статистических, являются органически совместимыми с однородными климатическими зонами поверхности Земли как в пространстве, так и времени. Предлагаемые модели отражают естественный ход изменения параметров в пространстве и времени, являются компактными по объему, что позволяет их применять на компьютерах малой мощности.
Метод выделения структур (МВС
Представим далее общее описание метода выделения структур. Алгоритм этого метода наиболее просто может быть описан на языке теории графов. Пусть имеется множество объектов, каждый из которых характеризуется общей системой признаков. Соотнесем с каждым объектом а/,/ =1,..., N вершину х/ некоторого графа О = (Х,Е), а каждому ребру егу = (х/,ху)еЕ,/,у = 1,...,N, связывающему вершины х/ и ху в качестве стоимости Су припишем величину, равную расстоянию А/у между соответствующими объектами в пространстве признаков: Су = А/у. Выделение структур возможно в двух вариантах.
Вариант 1. Начальное состояние - полный граф. Будем последовательно удалять из графа ребра егу со значениями, большими некоторого порога ^ , получая на каждом шаге Ог = (Хг ,ЕГ) -
граф на уровне ґ, множество ребер которого Ег = (егу є Е: Су < ^ }. Будем уменьшать величину ^ , и
Ґ*
тогда, начиная с некоторого значения dр, исходный граф станет несвязным, появится кг подграфов (компонент связности) ,С2>,...,0^ с различным числом вершин, среди которых могут быть
подграфы, состоящие из одной вершины. Повторение процедуры дальнейшего уменьшения порогового значения dp приводит к выделению все более связных подграфов.
Вариант 2. Начальное состояние - граф без ребер. Будем последовательно добавлять в граф ребра егу со значениями, меньшими некоторого порога dp , получая на каждом шаге СГ = (Хг ,ЕГ) -
граф на уровне ґ, множество ребер которого Ег = (егу є Е: егу < dp } , состоящий из кГ компонент связности ,С2),...,0^ с различным числом вершин. Будем увеличивать величину dp . При этом число
компонент связности и число изолированных вершин будет уменьшаться и, начиная с некоторого значения dр , исходный граф станет связным.
Назовем структурой множество вершин графа, образующее на некотором шаге ґ компоненту связности и удовлетворяющее при этом наперед заданным аксиомам структуры (А):
8 = {х:х = Ха,Са = (Ха,Еа); еа < dа,(А)} .
Аксиомы - это набор требований, которые отражают цель исследования. Например, при исследовании полей какого-либо метеорологического параметра можно использовать следующую аксиому:
8={ха: о а=(ха ,Еа); и (ха) > и ошха) < Бо}.
То есть, связность поля каждой структуры должна быть больше определенного значения Ио, а дисперсия - меньше Бо . Или
8 = {ха :0Га= (ха,ЕГа); N0, Щху,хк) є ха, шах|гЛ -гу| < г0}.
То есть, количество элементов структуры не должно быть меньше N0, а максимальное расстояние между объектами из одной структуры в реальном пространстве не должно превышать го .
Описанный метод выделения структур позволяет находить не только сгустки точек в пространстве признаков, но и отыскивать сложные структуры, включающие в себя точки, расположенные далеко друг от друга, но объединяемые в единую структуру в силу их взаимной связанности и изолированности от остальных точек множества.
Введение понятия структуры и поиск именно структур отличает МВС от традиционных кластерных методов. В определенном смысле МВС реализует идеи кластерного анализа, методов классификации и распознавания образов. Отличие МВС от кластерных методов заключается в следующем. Предполагается, что:
1. В массиве экспериментальных данных структуры могут существовать, но не обязательно массив данных должен раскладываться на структуры без остатка. А кластерный анализ, как правило, предполагает проведение полной классификации множества объектов, т.е. фактически раскладывает систему на структуры.
2. В МВС под структурой понимается компонента связности, которая удовлетворяет некоторым дополнительным требованиям - аксиомам структуры, вытекающим из специфики задачи. Каждая структура фиксируется по отдельности в соответствии с внешними требованиями к структуре. При этом есть зависимость от остальных структур, но только очень опосредованно через общую систему расстояний. Надо заметить, что структуры с некоторым набором наперед заданных свойств могут и не существовать! В кластерном анализе требование экстремальности функционала качества приводит к сильной зависимости результирующего разбиения от положения всех точек множества.
3. Допускается существование изолированных точек. Эти изолированные точки можно рассматривать как отдельные структуры, либо как то, что находится между структурами. Информация,
которую несут в себе эти изолированные точки, важна, и терять ее, «загоняя» эти точки в классы, не всегда разумно, а кроме этого, вовлечение в кластер таких вершин портит естественные структуры.
Применение МВС к нахождению пространственной структуры профиля концентрации СО2
Исходные данные рассматриваемой задачи представляют собой временные ряды, содержащие по Nt значений, на NH - высотах концентраций CO2 в Nob - точках, равномерно распределенных по некоторому пространственному ареалу. Под пространственными структурами будем понимать области, в которых поведение (как профильное, так и во времени) концентрации CO2 приблизительно одинаково. Поскольку данная задача трехмерная, выделять объекты и признаки можно по-разному. Для нахождения таких областей в работе используется МВС в двух вариантах.
Введем следующую терминологию. Точки с определенными координатами и на определенной высоте (хг-,xj,Hk),k = 0,...,NH назовем высотными. Профильной точкой назовем точку поверхности
со всеми ее высотными значениями.
I вариант
Будем считать каждую высотную точка объектом, характеризуемым Nt признаками. В итоге имеем NH'Nob объектов и Nt признаков. Осуществляя с помощью МВС классификацию, получаем Nqt классов. Находим усредненные по каждому классу (типовые или классовые) временные ряды. В результате этой процедуры каждая высотная точка получает в соответствие свой номер класса, к которому она принадлежит, а каждая профильная точка - последовательность из NH чисел - номеров классов. Таким образом, любой профиль в точке - это сочетание только типовых рядов.
Далее приводится пример использования данного подхода для территории Западной Сибири, ограниченной географическими координатами: 70.25-84.25 Восточной долготы и 56.25-62.25 Северной широты. Исходные данные: 3-часовые значения профилей концентрации СО2 [9], на пространственной сетке [0,5x0,5]. В указанной области расположено 377 точек сетки. Учитывались данные на следующих 15 стандартных высотах (в MPa): 996, 988, 968, 940, 900, 850, 800, 700, 600, 500, 400, 300, 200, 100, 30. Таким образом, для данного примера количество объектов Nob =377-15 = 5655, а количество признаков Nt = 8.
В результате применения МВС выявилось 102 класса, которые изображены на рис. 1. На рисунке представлены пространственные структуры для различных уровней высот (давлений). Выделение структур проводилось в автоматическом режиме. Находились структуры, удовлетворяющие следующему требованию: средняя дисперсия dcl выделяемых классов не должна превышать 0,25, что составляет величину 0,02 от средней дисперсии всего изучаемого поля концентрации СО2 по всей территории Западной Сибири. Данное условие (порог по дисперсии) вытекает из цели исследования и является физически обусловленным, т.к. вариации профиля концентрации углекислого газа максимальны только около поверхности Земли и с высотой убывают. Это значение порога dc; является в определенном смысле оптимальным, поскольку порождает необходимое и вполне достаточное число классов для достижения нужной точности при восстановлении профилей концентрации. При большем пороговом значении dcl возникает слишком мало классов, и это огрубляет описание, уменьшение значения dcl приводит к резкому возрастанию числа классов, и это сказывается на компактности получаемых моделей. Подчеркнем, что для используемых алгоритмов выделения структур эта информация является стартовой, и число классов так или иначе формируется автоматически из определенных заранее условий (выбора аксиомы). Образовавшиеся изолированные точки были присоединены к ближайшим структурам.
Из рис. 1 видно, что концентрация СО2 на высотах, начиная с P = 600 MPa и выше, до Р = 30 МРа, обладает очень малой дисперсией на данной территории, ее величина не превышает
0,11. По этой причине они и образуют горизонтальные структуры. На высотах P = 996, 988, 968 MPa структуры являются трехмерными, но конфигурация классов практически одинакова.
Затем были получены средние временные ряды для каждого класса (типовые ряды). Каждая профильная точка получила в соответствие свою последовательность (15 чисел) номеров классов рис. 1, что позволило построить результирующие профили. Надо отметить, что в данной модели поведение концентрации СО2 одинаково практически для каждой высотной точки, начиная с P = 600 MPa, поэтому одинакова для этих высот и последовательность номеров классов. Средняя квадратичная ошибка восстановленных таким образом профилей для каждой профильной точки приведена на рис.
2. Видно, что СКО не превышает 0,135, что составляет 0,04% от среднего значения СО2.
400 300 200 100 30
850 800 700 600 500
996 988 968 940 900
Рис. 1. Результат классификации наборов профилей (каждый найденный класс отображается
своим цветом из градации серого)
II вариант
Во втором варианте считаем, что объекты - это только профильные точки, и каждый объект характеризуется последовательным набором всех временных рядов. Порядок признаков не существен, лишь бы он был одинаков для всех объектов. Теперь количество объектов равно Nob, а количество признаков - Nt-NH. Далее проводится классификация, в результате которой каждая профильная точка относится к определенному классу. Всем точкам, принадлежащим одному и тому же классу, присваивается одинаковый средний классовый профиль.
Этот вариант был применен к тому же ареалу Западной Сибири и для того же исходного материала. Количество объектов Nob = 377, количество признаков Nt = 8-15 = 120. В результате применения МВС выделилось 19 классов (рис. 3).
0Д4
о,сл \------1-----1-----1-----1-----1-----1------1-----1-----1-------
1 31 61 91 121 151 181 211 241 271 ЗЭ1 331 361
Номер точки
Рис. 2. Средняя квадратичная ошибка для каждой профильной точки в течение года (ось абсцисс).
Первый вариант
На рис. 4 приведено сравнение среднеквадратичных ошибок, полученных при применении 1-го и 2-го вариантов. Видно, что СКО во втором подходе получается заметно меньше, чем в первом.
62
60
58
72 74 76 78 80 82
Рис. 3. Результат классификации. Второй вариант
84
Увеличение числа классов во втором подходе с 19 до 96 естественно улучшает результат, однако не очень существенно. Также можно отметить, что классификация пространственных структур явно носит широтный характер, что хорошо согласуется с известными представлениями [10, 11].
Рис. 4. Сравнение поведения СКО для каждой профильной точки ареала Западной Сибири. Сплошная линия - первый вариант, пунктирные линии - второй
Таким образом, полученные результаты показывают, что предлагаемые алгоритмы выявления пространственных структур методом МВС позволяют получать для рассматриваемой в статье физической задачи адекватные общим положениям решения.
Заключение
Предлагаемые в статье алгоритмы автоматического выявления структур (МВС) из экспериментальных наборов данных позволяют разбить все исследуемое множество точек на такие подмножества, в каждом из которых временное поведение индивидуального профиля может быть описано с очень хорошей точностью типовым (средним) для данного набора профилем. Указанные алгоритмы позволяют выделять центры структур и оценивать параметры их формы и размера, статистические характеристики. Проведенный численный эксперимент по выделению пространственных структур профилей концентрации углекислого газа показывает эффективность предлагаемых алгоритмов. Дальнейшее развитие метода предполагает уточнение рамок его применимости к другого вида изучаемым объектам.
Литература
1. Голицын Г.С. Оценки возможности «быстрого» метанового потепления 55 млн лет назад / Г.С. Голицын, А.С. Гинзбург // Докл. АН. - 2007. - Т. 143, № 6. - С. 816-819.
2. Тимофеев Ю.М. Глобальная система мониторинга параметров атмосферы и поверхности. -СПб., 2009. - 129 с.
3. Межерис З. Лазерное дистанционное зондирование. - М.: Мир, 1987. - 550 с.
4. Метеорологическое зондирование подстилающей поверхности из космоса / Под ред. К.Я. Кондратьева. - Л.: Гидрометеоиздат, 1979. - 247 с.
5. Зуев В.Е. Статистические модели температуры и газовых компонент атмосферы / В.Е. Зуев, В.С. Комаров. - Л.: Гидрометеоиздат, 1986. - 263 с.
6. Зуев В.Е. Оптические модели атмосферы / В.Е. Зуев, Г.М. Креков. - Л.: Гидрометеоиздат,
1986. - 256 с.
7. Кароль И. Л. Газовые примеси в атмосфере / И. Л. Кароль, В.В. Розанов, Ю.М. Тимофеев. -Л.: Гидрометеоиздат, 1983. - 192 с.
8. Мандель И.Д. Кластерный анализ. - М.: Финансы и статистика, 1988. - 176 с.
9. Maksyutov S. Atmospheric CO2 simulations with a high resolution model and synoptic scale variability of CO2 column / S. Maksyutov, R. Onishi, M. Naja, A. Yaremchuk, P. K. Patra, G. Inoue // CGER-I058-2007. - 2007. - Vol. 14. - P. 49-54.
10. Мохов И.И. Диагностика структуры климатической системы. - СПб.: Гидрометеоиздат, 1993. - 271 с.
11. Хромов С.П. Метеорология и климатология / С.П. Хромов, М. А. Петросянц. - М.: Изд-во МГУ, 2004. - 582 с.
Катаев Михаил Юрьевич
Д-р техн. наук, профессор каф. автоматизированных систем управления (АСУ) ТУСУРа
Тел.: 8 (382-2) 70-15-36
Эл. почта: [email protected]
Катаев Сергей Григорьевич
Канд. физ.-мат. наук, доцент, докторант каф. АСУ ТУСУРа Тел.: 8 (382-2) 70-15-36
Kataev M.Yu., Kataev S.G.
Development of effective computing revealing method of spatial structures of carbon dioxide concentration profiles
Description of computing revealing method of spatial structures of carbon dioxide concentration profile is being offered in an article. The proposed approach, in automated fashion permits to mark structures centers and to estimate parameters their form and size, the statistical characteristics. The results of numerical approbation of approach are presented.
Keywords: structures, revealing method of structures, graphs, concentration profiles.