УДК 504.064.36
Федин Ф.О., Медведева Т. С.
МОДЕЛИРОВАНИЕ И РАЗРАБОТКА ИНФОРМАЦИОННОЙ СИСТЕМЫ ПРОГНОЗИРОВАНИЯ ЛЕСНЫХ ПОЖАРОВ
В работе выполнено моделирование процессов функционирования информационной системы прогнозирования лесных пожаров, функционирующей на основе применения дерева решений. Описана технология проектирования моделей логического и физического уровней модели данных. Работа выполнена с использованием, инструментальных средств фирмы Computer Associates — ERWin Process Modeler и ERWin Data Modeler.
Ключевые слова: информационная система, проектирование, контекстная диаграмма, диаграмма потоков данных, модель данных, хранилище данных, Dimensional.
Fedin F.О., Medvedeva T.S.
MODELING AND DEVELOPMENT OF INFORMATION SYSTEM PREDICTION
OF FOREST FIRES
This paper presents the modeling of the information system, of forest fire forecasting, functioning on the basis of a decision tree. The technology of designing models of mological and physical, data model level. The work with the firm Computer Associates tools — ERWin Process Modeler and ERWin Data Modeler.
Keywords: information system, design, contextual chart, chart of data flows, model of data, storage of data, Dimensional.
Такие опасные явления, как лесные пожары наносят множественный ущерб, выражающийся в человеческих жертвах, затратах на тушение и восстановление пострадавших территорий, стоимости выгоревшей древесины, нарушении экологического баланса, уничтожении мест обитания животных и их миграции в другие районы и др. Это обуславливает потребность в максимально точном прогнозировании лесных пожаров, позволяющем спланировать необходимые меры по предотвращению возможного ущерба и по организации работы различных противопожарных сил.
Существующее научное противоречие
С одной стороны, разработано и продолжает разрабатываться множество научных подходов в области предсказания лесных пожаров, большинство из которых основывается на применении моделей, способных обучаться [1, 2, 3]. Функционирование таких моделей должно осуществляться в рамках автоматизированной информационной системы (или подсистемы информационной системы более высокого уровня). Это обусловлено тем, что только примене-
ние информационной системы позволяет автоматизировать, и тем самым существенно облегчить и ускорить такие взаимосвязанные процессы, как ввод исходных данных для предсказаний лесной пожарной опасности, непосредственно прогнозирование степени пожарной опасности, формирование и передача рекомендаций заинтересованным потребителям, составление различных видов итоговой и аналитической отчетности и др.
С другой стороны, состав и структура информационных систем, в рамках которых должны функционировать модели прогнозирования, определяются группами таких факторов, как способы получения исходных данных, специфика работы прогнозной модели (или ансамбля моделей), особенности вариантов передачи результатов выполненных прогнозов заинтересованным потребителям, потребность в многопользовательском доступе и др.
Наличие множеств разнообразных факторов обуславливает необходимость сугубо индивидуального подхода к проектированию и разработке каждой из информационных систем
прогнозирования лесных пожаров. При этом процесс создания каждой из таких информационных систем предполагает решение ряда обязательных задач, которые определяются существующими стандартами проектирования и разработки программных систем [4, 5].
Применительно к ИСПЛП к таким задачам относятся: исследование предметной области и разработка требований к ИСПЛП; проектирование и реализация в выбранной системе управления базами данных (СУБД) модели данных серверной части ИСПЛП; создание модели прогнозирования лесных пожаров; разработка клиентской части ИСПЛП в выбранной среде программирования.
В целях создания ИСПЛП, предназначенной для участка территории лесничеств Средне-Уральского лесного района Пермского края, ни одна из перечисленных выше задач еще не решалась. В данной статье предложен подход к решению таких задач.
Постановка задачи
Задано множество параметров (лесной пожарной опасности) X, множество допустимых откликов (степеней пожарной опасности) У и существует, но пока неизвестна, целевая функция у* : X ^ У, значения которой у^ = у*(хт) определены только на конечном подмножестве параметров (х\,... ,х{) € X.
Пары «параметр-отклик» (х1,у1) называются прецедентами. Совокупность пар X1 = (хг,уг)'=1 называется обучающей выборкой. Выборка жестко привязана к участку территории лесничеств Средне-Уральского лесного района Пермского края. В соответствии с подходом, представленным в работах [1, 2], в качестве параметров обучающей выборки определены: доступность топлива для сжигания (ИДТС), скорость распространения огня (ИСРО), влажность элювиального горизон-
та (ИВЭГ), влажность гумусового горизонта (ИВГГ), влажность подстилки (ИВП), скорость ветра, относительная влажность воздуха, температура, осадки. В качестве откликов используются степени лесной пожарной опасности -высокая, средняя, низкая.
Требуется решить следующие задачи.
Построить модель прогнозирования, которая по выборке Хг способна восстановить зави-*
цию а : X ^ У, которая приближала бы целевую функцию *(), причём не только на параметрах обучающей выборки, но и на всём множестве X.
Путем расчета функционала качества (эмпирического риска) [6], выполнить оценку точности получения решающей функции на уровне значимости 0,05.
В целях обеспечения возможности применения модели прогнозирования, автоматизации работы с поступающими (с установленной периодичностью) данными, сохранения результатов выполненных прогнозов, формирования и передачи рекомендаций органам местного самоуправления и других задач, выполнить проектирование и разработку ИСПЛА. В соответствии с требованиями действующих стандартов [4, 5] в состав проектных и разработочных работ включить:
— исследование предметной области и разработка требований к ИСПЛП;
— проектирование и реализация в выбранной СУБД модели данных серверной части ИСПЛП;
— создание модели прогнозирования лесных пожаров;
— разработку клиентской части ИСПЛП в выбранной среде программирования.
Исследование предметной области и разработка требований к ИСПЛП
В процессе исследования предметной области, проводимого в целях проектирования и разработки ИСПЛП, авторами была построена модель функционирования ИСПЛП. Для построения модели использовались методологии графического структурного анализа Ш Г) и
IDEF3. В качестве инструментального средства проектирования ИСПЛП применялось инструментальное средство СА ERWin Process Modeler
[7].
Создание модели функционирования ИСПЛП было начато с определения контекста
(построения контекстной диахраммы верхне- функционирования ИСПЛП в целом (рисунок IX) уровня), т.е. наиболее абетрактших) уровня 10).
Рисунок 10 Контекстная диахрамма верхних) уровня
Как видно из диахраммы, ИСПЛП взаимодействует с тремя внешними сущностями: «ГКУ Лесничества», «СПБГУ Пермский лесо-нажарный центр», «ГУ МЧС России но Пермскому краю», «Пермский ЦГМС». В виде стрелок на диаграмме показаны потоки данных, которыми обмениваются информационная система и указанные внешние сущности.
Дальнейшее исследование, в рамках кото-рохх) было выполнено построение контекстной диаграмме уровня «АО» [7], позволило выявить те функциональные области (подсистемы), в рамках которых выполняются основные работы функциональной активности ИСПЛП. К таким подсистемам относятся: подсистема сбора и хранения данных, подсистема прогнозирования лесных пожаров, подсистема генерации рекомендаций и нод!Х)товки отчетов.
Подсистема сбора и хранения данных предназначена для нод!Х)товки исходных данных для прогнозирования и их последующей загрузки в реляционное (или мшнхшерное) хранилище данных. Кроме тхнх), в функции этой под-
системы входит загрузка в хранилище данных результатов прогнозирования, поступающих из подсистемы прогнозирования.
Подсистема прогнозирования функционирует на основе предварительно поетроенших), обу-ченнохх) и протеетированжнх) дерева классификации, с помощью которого осуществляется прогнозирование степени пожарной опасности.
В подсистеме генерации рекомендаций и нод!Х)товки отчетов выполняется формирование необходимых рекомендаций для ГУ МЧС России но Пермскому краю и других заинтересованных потребителей, в зависимости от выявленной степени пожарной опасности. Предусмотрено формирование установленных форм итх)1х)вых отчетов, включая ОЬАР-отчеты.
Аналогичные диаграммы декомпозиций были построены и для двух других подсистем ИСПЛП, которые так же раскрывают детали функционирования этих подсистем.
Таким образом, с применением методологии храфическохх) етруктурших) анализа, было выполнено описание внешних (но отноше-
нию к ИСПЛП) источников и адресатов данных, логических функций, потоков и хранилищ данных, к которым осуществляется доступ. Такое описание стало основой для разработки етруктурограмм данных [7] и формулирования функциональных требований к создаваемой ИСПЛП. Основные функциональные требования следующие:
— прием, предобработка и ввод исходных данных для прогнозирования, выполняемого с заданной периодичностью;
— ведение хранилища данных исходных па-
раметров прогнозирования и результатов прогнозов;
прогнозирование степени лесной пожарной опасности;
автоматизация процесса формирования и рассылки рекомендаций но результатам прогнозирования;
автоматизация процесса формирования отчетной документации по результатам прогнозирования и подготовки макетов печатных форм этой документации.
Проектирование и реализация модели данных серверной части ИСПЛП
В целях создания серверной части хранилища данных ИСПЛП авторами был спроектирован ряд моделей логического и физического уровней представления модели данных. Логический уровень представления модели данных является универсальным и никак не зависит от конкретной СУБД [7]. Проектирование модели данных ИСПЛП этого уровня выполнено с использованием одной из методологий семейства IDEF, предназначенных для построения информационных моделей, методологии IDEF1X. Для проектирования модели логического уровня представления данных использовалось инструментальное средство создания моделей данных и генерации схем баз (хранилищ) данных СА ERWin Data Modeler. С использованием этого инструментального средства были созданы: диаграмма сущность-связь (Entity
Relationship Diagram, ERD); модель данных, основанная на ключах (Key Based model, KB); полная атрибутивная модель (Fully Attributed model, FA).
Далее был выполнен переход к физическому уровню представления модели данных, ориентированному на конкретную целевую СУБД (в нашем случае это MS SQL Server 2008R2). Для этого уровня авторами были разработаны: размерная модель Dimentional (рисунок 11); модель СУБД DBMS, представленная в виде SQL-скрипта.
Размерная модель хранилища данных ИСПЛП построена по схеме «снежинка» [7]. Она имеет денормализованную структуру данных, обеспечивающую высокую производительность при выполнении группы похожих сложных аналитических запросов.
ф ИзмИсточ никДан иых
U Источник integer
ИсточникНаимен: varchar[50) ИсточникОписание: text
ИзмЛата
Ю_Дата: integer
Дата: datetime Год: integer Полугодие: integer Квартал: integer МесяцНаимен: charflO) Месяц: integer
^ФактЛеснойПожар
Ю_ФактЛеснойПажар intege Ю_Источник: integer [FK) Ю_НасПункт integer (FK) IL> Дата: integer (FK)
ИндексИДТ П: float ИндексИРСО: float ИндексИВЭГ: float ИндексИВГГ: float ИндексИВП: float СкоростьВетра: float ОтноситВлажность float Температура: float Осадки float
СтепеньПожОп: varchar[20)
ИзмНасПункт
Ю_НасПункт: integer
Ю_Лесничество: integer [FK) НасПунктНаимен: varchar(50) НасПунктШирота: varchar[20) НасПунктДолгота: varchar[20) НасПунктОписание: text НасПунктСтатус: vatchar[30)
J
ф ИзмЛесничество
Ю_Песничество: integer
ЛесничествоНаимен: char(5Q) Лесничество Описание: text
Рисунок 11 - Размерная модель хранилища данных ИСПЛП
В центре схемы «Снежинка» располагается таблица фактов (fact table), которую окружают таблицами измерений (dimensional table). Соединение таблиц измерений с таблицей фактов производится с использованием радиальных связей, в которых таблицы измерений являются родительскими, а таблица фактов — дочерней. Отношение связей — один ко многим.
Таблица фактов и таблицы измерений связываются идентифицирующими связями, при которых первичные ключи таблиц измерений мигрируют в таблицу фактов в качестве внешних ключей образуя при этом ее составной первичный ключ. Направления связей явно не показываются — они определяются типом таблиц. Составной первичный ключ таблицы фактов целиком состоит из первичных ключей всех таб-
лиц измерении.
Особенностью схемы «Снежинка» является обязательное наличие хотя бы одной консольной таблицы (outrigger table), присоединяемой к таблице измерений и используемой для ее нормализации. Консольные таблицы могут быть связаны только с таблицами измерений, причем консольная таблица в этой связи родительская, а таблица размерности — дочерняя.
Модель СУБД хранилища данных автоматически генерируется из размерной модели и является точным отображением системного каталога СУБД. Инструментальное средство ERwin Data Modeler непосредственно поддерживает эту модель путем генерации системного каталога.
Создание модели прогнозирования лесных пожаров
Задача создания модели прогнозирования лесных пожаров (в представленной в начале статьи постановке) является типичной задачей машинного обучения [8], решение которой выполнено с использованием дерева классификации.
Построение и обучение модели прогнозирования выполнено с использованием выборки данных, которая включает конечное множество ранее имевших место случаев оценивания возможности возникновения лесных пожаров (прецедентов), предоставленное СПБГУ «Пермский лесопажарный центр». По каждому из таких прецедентов собраны (измерены) параметры, используемые для оценивания пожарной опасности. На этих прецедентах выполнено обучение модели прогнозирования, которая поз-
воляет выявить общие зависимости, закономерности, взаимосвязи, присущие не только этой конкретной выборке, но вообще всем прецедентам, в том числе тем, которые ещё не наблюдались.
Построение, обучение и тестирование модели прогнозирования лесных пожаров выполнено в программе IBM SPSS Statistics (Statistical Package for the Social Sciences). Метод построения дерева—QUEST [9] (минимальное количество наблюдений в материнском и в дочернем узлах соответственно равно 4 и 2, уровень значимости для разбиения узлов равен 0,03).
Расчетное значение минимального функционал качества построенного дерева классификации получено на уровне 0,04 (4%), что меньше уровня, заданного при постановке задачи.
Разработка клиентской части ИСПЛП
Далее авторами была выполнена разработка клиентской части ИСПЛП, включающей программное приложение (рисунок 12), реализованное в среде программирования Embarcadero RAD Studio. Для связи этохх) приложения с хранилищем данных использована технология ActiveX Data Objeets (ADO). Эта технология представляет собой интерфейс программирования приложения, позволяющий представ-
лять данные из хранилища данных в объектно-ориентированном виде. ADO базируется на технологии OLE DB, являющейся интерфейсом системнох'о уровня, обеспечивающим доступ к хранилищу данных, изолируя приложение от вида хранилища. ADO содержит набор объектов, используемых для соединения с хранилищем данных, для чтения, добавления, удаления и модификации данных.
Рисунок 12 Форма клиентской части ИСПЛП
Выводы по работе
В результате проделанной авторами работы, выполнено исследование предметной области; впервые сформулированы требования к
ИСПЛП; с применением методологий графи-ческохх) структурно!^ анализа ОГО и ГОЕРЗ спроектирована модель данных серверной части информационной системы; создана, обучена
и протестирована модель прогнозирования лесной пожарной опасности, функционирующая на базе дерева классификации; выполнена разработка клиентской части информационной системы.
Проведенный в результате экспериментального исследования сравнительный анализ временных показателей выполнения операций (при традиционном и автоматизированном способах работы с данными) показал следующее: за счет реализованной на базе СУБД MS SQL Server модели данных ИСПЛП скорость автоматизи-
рованного получения и подготовки исходных данных для прогнозирования лесных пожаров возросла в 3,8 раза; за счет использования построенной и обученной модели прогнозирования, скорость получения прогнозных значений показателей пожарной опасности возросла более, чем в 12 раз; за счет автоматизации отправки сообщений по электронной почте и рассылки ЭМв-оповещений скорость передачи рекомендаций заинтересованным потребителям выросла более, чем в 1,4 раза.
Литература
1. Губенко И.М., Рубенштейн К.Г. Сравнительный анализ методов расчета индексов пожарной опасности [Текст] / И. М. Губенко, К. Г. Рубинштейн // Гидрометцентр России. Труды. Вып. 3 17. 2012. С. 207-222.
2. Lawson, B.D. Armitage, О.В. 2008. Weather guide for the Canadian Forest Fire Danger Rating System. Nat. Resour. Can., Can. For. Serv., North. For. Cent., Edmonton, AB.
3. A presentation made at the Fourth Central Region Fire Weather Committee Scientific and Technical Seminar, April 2, 1987, Winnipeg, Manitoba.
4. ГОСТ 34.602-89. Техническое задание на создание автоматизированной системы.
5. ГОСТ 34.601-90. Информационная техноло-
гия. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Стадии создания.
6. Вьюгин В.В. Математические основы теории машинного обучения и прогнозирования. М.: МЦНМО, 2014. — 304 с.
7. Маклаков С. В. Создание информационных систем с AlIFusion Modeling Suite. М.: ДИАЛОГ-МИФИ, 2003 — 432 с.
8. Федин Ф.О., Федин Ф.Ф. Анализ данных. Часть 1: Подготовка данных к анализу: Учебное пособие. М.: МШУ, 2012.^204 с.
9. Федин Ф.О., Федин Ф.Ф. Анализ данных. Часть 2: Инструменты Data mining: учебное пособие. М.: МПIV. 2012.^308 с.
Рецензент: доктор физико-математических наук, профессор Нестеров А.В.