УДК 556.535.5
А.В. Ильков, Р.Л. Белоусов
ОЦЕНИВАНИЕ И ПРОГНОЗИРОВАНИЕ МАКСИМАЛЬНОГО ЗАТОРНОГО УРОВНЯ ВОДЫ НА РЕКАХ СЕВЕРА ЕВРОПЕЙСКОЙ ЧАСТИ РОССИИ
В статье представлена модель прогнозирования максимального заторного уровня воды с горизонтом прогноза до 4 месяцев на примере города Великий Устюг. Представленная модель построена с использованием методов кластерного анализа, в частности, метод кластеризации k-средних.
Полученная модель оценивалась с реальными данными максимального заторного уровня воды, полученными с гидрологического поста у г. Великий Устюг. Оценка проводилась по следующим параметрам: математическое ожидание, среднее квадратическое отклонение, средняя абсолютная ошибка прогноза, коэффициент детерминации. В результате разработанная модель долгосрочного прогнозирования позволяет определить максимальный заторный уровень воды с горизонтом прогноза до 4 месяцев.
Предлагается использовать данные прогноза максимального заторного уровня воды при планировании комплекса превентивных мероприятий для минимизации возможного ущерба от заторов, а также для снижения риска возникновения заторных наводнений.
Ключевые слова: прогнозирование, риск, заторный уровень воды, кластерный анализ, метод кластеризации k-средних, стохастическая зависимость.
A. Ilkov, R. Belousov
EVALUATION AND PREDICTION OF MAXIMUM MASH WATER LEVEL RIVERS OF
NORTHERN EUROPEAN RUSSIA
The article presents a model for predicting the maximum water level mash with the forecast horizon up to 4 months in the example of the city of Veliky Ustyug. The model presented here is constructed using the methods of cluster analysis, in particular, the method ofk-means clustering.
The resulting model was estimated using real data mash maximum water level obtained by hydrological stations at the city of Veliky Ustyug. The evaluation was conducted on the following parameters: expectation, standard deviation, average absolute forecast error, the coefficient of determination. As a result, long-term forecasting model is developed to determine the maximum water level mash with the forecast horizon up to 4 months.
It is proposed to use the forecast data mash maximum water level in the planning of complex preventive measures to minimize the potential damage from traffic congestion, and to reduce the risk of ice jam flooding.
Keywords: forecasting, risk mash water level, cluster analysis, the method of k-means clustering, stochastic dependence.
Введение
Одной из важнейших проблем социальной и экономической стабильности любого государства является готовность его структур противостоять опасным природным явлениям. Из всех видов стихийных бедствий одно из первых мест по суммарному среднегодовому ущербу занимают наводнения.
Заторные явления - неотъемлемая составная часть процесса вскрытия рек севера европейской территории России. В пределах севера европейской части России повышенная опасность образования заторов характерна для таких северных рек, как Северная Двина, Сухона, Юг и др.
В качестве примера рассмотрим узел рек Сухона - Юг - Малая Северная Двина в Вологодской области, который известен мощными заторами [4, 6, 11]. В условиях весеннего половодья, интенсивного роста уровней воды и одновременного прохождения ледохода на реках Сухона, Юг и Малая Северная Двина происходит формирование затора в районе г. Великий Устюг. При этом большая часть города подвержена затоплению. В целях минимизации возможного ущерба от наводнений на реках Сухона, Юг и Малая Северная Двина у г. Великий Устюг проводятся противозаторные мероприятия, которые ежегодно требуют больших денежных затрат.
При планировании превентивных мероприятий для минимизации возможного ущерба от заторов, а также для снижения риска возникновения заторных наводнений большое значение имеет возможность получения как краткосрочного, так и долгосрочного прогноза максимального заторного уровня воды.
В настоящее время имеются методики краткосрочного прогноза максимальных заторных уровней воды, которые были разработаны в Государственном гидрологическом институте для ряда больших рек севера европейской территории России, и, в частности, для двух участков реки Сухона: у д. Каликино и г. Великий Устюг [1, 2, 11]. Заблаговременность прогноза по таким методикам составляет от одних суток до недели. Однако чем раньше будет спрогнозирован максимальный заторный уровень воды, тем раньше будут сформированы либо уточнены планы привлечения сил и средств РСЧС, объемы финансовых средств для проведения комплекса превентивных мероприятий и т.п. Более того, часто возникают задачи, когда нет необходимости знать точное значение уровня воды, а достаточно знать сам факт возникновения возможности превышения уровня воды над соответствующей критической отметкой. Таким образом, в настоящее время существует необходимость разработки долгосрочного прогноза заторного уровня воды.
Исходные данные
В статье [5] был проведен системный анализ факторов заторообразования. В результате анализа были выявлены основные управляемые факторы, которые влияют на вероятность образования затора Р0 и на максимальный заторный подъем уровня воды в реке Нтах. К таким факторам относятся: уровень воды в период ледостава Нлдст и толщина льда Тлъда.
В таблице 1 содержится фрагмент данных, полученных с гидрологического поста у г. Великий
Устюг [6] с 1950 по 2015 год.
Таблица 1
Данные наблюдений с гидрологического
Год Нлдст см Тльда> см Нтах, см
1950 148 76 340
1951 186 74 520
1952 409 80 969
• • • • • • •
2015 48 60 320
Постановка задачи
Для решения задачи прогнозирования максимального заторного подъема уровня воды необходимо учитывать результаты системного анализа [5]: 1) в качестве объясняющих (независимых) переменных принять уровень воды в период ледостава Н^ст и толщину льда Тльда,, а в качестве зависимой переменной - подъем максимального заторного уровня воды в реке Нтах, 2) связь между зависимой и независимой переменной является нелинейной.
Таким образом, прогнозирование подъема максимального заторного уровня воды Нтах сводится к последовательному решению двух задач:
1. Разработать математическую модель, которая устанавливает зависимость между уровнем воды в период ледостава Нлдст, толщиной льда Тльда и максимальным подъемом заторного уровня воды Нтах.
2. Разработать методику долгосрочного прогнозирования максимального подъема заторного уровня воды Нтах.
Решение задачи №1
1. Оценка качества данных
Для исследования зависимости максимального заторного подъема уровня воды в реке Нтах от таких факторов заторообразования, как уровень воды в период ледостава Нлдст и толщина льда Тльда , проводится оценка качества исходных данных.
Построим графики зависимости между уровнем воды в период ледостава Нлдст , толщиной льда Тлъда и максимальным заторным подъемом уровня воды Нтах:. Коэффициент корреляции между Нтах и Нлдст равен г=0,47 (рис. 1). Коэффициент корреляции между Нтах и Тльда равен г2=0,13 (рис. 2). Из анализа представленных графиков следует, что в данных имеются аномальные значения, удаление которых позволит улучшить качество модели.
...'
О 50 100 150 200 2S0 300 3» 400 430
УроЬсиь Аовы при лсВостаЬс, w
Рис. 1. Зависимость максимального заторного подъема уровня воды от уровня воды в период ледостава
Рис. 2. Зависимость максимального заторного подъема уровня воды от толщины льда
Для поиска аномальных значений построим диаграммы размаха для каждой величины: Нлдст, Тлъда и Нтах (рис. 3).
а)
б)
в)
Рис. 3. Диаграммы размаха: а) Нлдст, б) Тльда, в) Нтах На диаграммах размаха выбросы отмечены круглыми маркерами («о»). В табл. 2 представлены
значения, которые определены как выбросы.
Таблица 2
Выбросы в данных с гидрологического поста у г. Великий Устюг
Год Нлдст, см Тльда, см Hmax, см
1953 409 «о» 80 969 «о»
1970 382 «о» 75 667
2007 382 «о» 49 429
2. Формирование репрезентативной обучающей выборки для идентификации модели Для обеспечения репрезентативности выборки применяется стратифицированный отбор, при котором обследуемая совокупность данных (таблица 1) разбивается на типически однородные группы и выбор осуществляется из каждой такой группы механическим или собственно случайным способом [8].
Для получения однородных групп (страт) применяется метод кластеризации к-средних. Суть метода заключается в следующем. Каждую строку в таблице 1 можно представить вектором с тремя координатами (Нлдст, Тльда, Нтах). Полученное трехмерное пространство разделяется на к кластеров, где каждый кластер характеризуется близостью к центру (ядру кластера). Для решаемой задачи задается к=5 и в качестве меры близости выбирается Декартово расстояние [10]. Результаты кластерного анализа представлены в таблице 3 и в данной статье применяются только лишь для того, чтобы выделить однородные группы данных и сформировать репрезентативную выборочную совокупность.
Таблица 3
Результаты кластерного анализа данных для формирования выборочной совокупности
№ п/п Диапазоны; количество значений в каждом кластере и выборочной совокупности Среднее значение (ядро) кластера
Нлдст Т Т льда Нтах N П/
1 [52; 225] [48; 83] [271; 434] 10 7 (143; 65,3; 382,3)
2 [104; 190] [53; 80] [476; 549] 7 4 (137,14; 70,85; 511,28)
3 [164; 296] [52; 89] [490; 614] 14 11 (211,14; 71,21; 556,64)
4 [58; 235] [46; 95] [604; 756] 17 14 (166,82; 66,76; 661,17)
5 [206; 281] [53; 94] [787; 962] 5 4 (238,4; 67,4; 866,8)
Обучающая выборочная совокупность будет состоять из 75% значений от общего объема данных, т.е. п = 0,75 53 = 40 единиц. На 25% значений будет проводиться верификация модели, т.е. проверка модели на адекватность исходным данным.
Для отбора из каждого кластера единиц в выборочную совокупность использовалось оптимальное размещение по следующей формуле:
П; « П-,-, (1)
где N - число единиц в /-ом кластере; о;г - среднее квадратическое отклонение признака в /-ом кластере. Формула (1) позволяет рассчитать, сколько значений из каждого кластера попадет в обучающую выборку.
Поскольку единица данных представлена вектором с 3-мя координатами (Нлдст, Тльда, Нтах), то оптимальное размещение целесообразно проводить по самому независимому признаку Нтах -максимальному заторному уровню воды (таблица 3) . Кластеры отсортированы по возрастанию этого признака. Результаты вычислений представлены в графе п/ табл. 3. Отбор значений из каждой группы производится случайным образом. Такой подход позволяет добиться репрезентативности выборки с относительной ошибкой Аотн < 5%.
3. Определение зависимости между (Нлдст, Тльда) и Нтах
Для установления зависимости представим данные (Нлдст, Тльда) и Нтах, попадающие в обучающую выборку, как двумерную случайную величину (X, У). Координата X представляет собой однородные группы (кластеры), содержащие значения (Нлдст, Тльда), У - однородные кластеры значений по Нтах. Для разбиения на кластеры снова применим метод к-средних (рис. 4-5). Данные по результатам кластеризации представлены в табл. 4.
• 2 кластер • 3 кластер • 4 кластер • 5 кластер • Ядро 1 л
1 •
1 •
50
1 X» 1 Уровень вод >0 2 в период л » 2 достайо, си Ю 3( ю а
Рис. 4. Кластеризация данных (Нддст, Тлвда)
Рис. 5. Кластеризация данных Нт
Таблица 4
Результаты кластерного анализа данных (Илдст, Тльда) и Нт
№ п/п Диапазоны кластера X Среднее значение (ядро) кластера Диапазоны кластера У Среднее значение (ядро) кластера
Нлдст Тльда Нтах
1 [52; 110] [46; 83] 88,16 61,0 [271; 434] 376,28
2 [128; 169] [52; 93] 153,0 72,27 [476; 567] 527
3 [175; 203] [52; 95] 187,9 72,0 [579; 662] 622,25
4 [206; 245] [50; 76] 224,1 61,11 [677; 787] 720,57
5 [281; 296] [68; 89] 288,7 75,33 [862; 962] 909,33
Проведем интерпретацию полученных результатов кластеризации на примере данных из обучающей выборки. Данные из табл. 5 в строке № 1: по (Нлдст, Тльда) попадают в 1-й кластер (рис. 4), а данные по Нтах попадают во 2-й кластер (рис. 5); в строке № 2: по (Нлдст, Тльда) попадают в 2-й кластер, а данные по Нтах попадают в 1-й кластер и т.д.
Для удобства визуализации каждому кластеру ставится в соответствие цвет: 1-му кластеру -зеленый, 2-му - синий, 3-му - оранжевый, 4-му - фиолетовый, 5-му - красный.
Таблица 5
№ (Нлдств Тльда) см Нтах, см Кластер
п/п Х (Нлдст, Тльда) У {Н-таХ
1 (104, 66) 495 1 2
2 (128, 67) 423 2 1
3 (152, 93) 604 2 3
4 (206, 58) 904 3 5
5 (281, 68) 962 5 5
По результатам кластеризации построено распределение дискретной двумерной случайной величины (X, У) (табл. 6), которое отражает вероятность совместного появления значений двух величин X и У. Элементы табл. 6 определяются формулой р1]=Р(Х=х1; У=у), 1=1, ..., 5, ]=1, ..., 5.
Например, Х=2 и У=3 встречается в обучающей выборке 8 раз, объем обучающей выборки п=40, таким образом,р23=Р(Х=2; У=3) = 8/40 = 0,2.
Таблица 6
Распределение дискретной двумерной случайной величины (X, У)
X У
1 2 3 4 5
1 0,075 0,05 0,025 0 0
2 0,05 0,05 0,15 0,025 0
3 0,05 0,125 0,025 0,075 0
4 0 0,05 0,05 0,075 0,05
5 0 0 0,05 0 0,025
В практике прогнозирования максимальных заторных уровней воды следует понимать, что в двумерной случайной величине (X, У) разница во времени между появлениями х/ и уу может достигать до 4 месяцев. Это достигается за счет того, что значения Нлдст и Тльда устанавливаются в конце осени -начале зимы, а Нтах - весной.
Таким образом, задачу установления зависимости между X и У, т.е. между (Нлдст, Тльда) и Нтах, можно интерпретировать следующим образом: «о значениях параметров (Нлдст, Тльда) становится известно осенью, а Нтах остается случайной величиной, значение которой необходимо спрогнозировать».
С учетом того факта, что случайность величины X можно не учитывать, построим маргинальные (одномерные) распределения для случайной величины У в каждом кластере по X. Для этого проведем нормировку значений в строках по формуле [3]:
Р1] = р(Г = у])=-р1—,] = !*, (2)
¿/=1р(/
где р/ - вероятность величины У попасть ву-ый кластер при попадании величины X в /-ый кластер.
Для X=x/ (попадание Нлдст, Тльда в /-ый кластер) маргинальные распределения У примут следующий вид:
Таблица 7
Маргинальное распределение случайной величины У
X У
у1 У2 у3 у4 у5
х1 0,5 0,33 0,17 0 0
х2 0,18 0,18 0,54 0,1 0
х3 0,18 0,45 0,1 0,27 0
Х4 0 0,22 0,22 0,34 0,22
х5 0 0 0,67 0 0,33
Значения в таблице 7 отражают стохастическую зависимость между (Нл^ст, Тльда) и Нтах. В качестве у/ примем ядро /-го кластера: у1 = 376,28, у2= 527, у3= 622,25, у4= 720,57, у5= 909,33.
Для демонстрации этой зависимости воспользуемся данными, которые не попали в обучающую выборку. Так, значения (Нлдст=139 см и Тльда=72 см) попадают во 2-й кластер, т.е. X=x2 (Нлдст: 128169 см и Тльда: 52-93 см). Этому значению X соответствует четыре значения У: у1, у2, у3, у4 с вероятностями Р(у1)=0,18, Р(у2)=0,18, Р(у3)=0,54, Р(у4)=0,1 соответственно.
Таким образом, в качестве искомой зависимости берется распределение вероятностей случайной величины У при попадании в определенный кластер величины X.
Решение задачи № 2
Полученная модель зависимости между (Нлдст, Тльда) и Нтах носит стохастический характер. Для использования полученной модели в качестве методики прогнозирования необходимо установить правило, которое позволит оценивать уровень Нтах по значениям (Нлдст, Тльда).
1. Правило оценки уровня Нтах
Часто для практических целей нет необходимости знать точное значение уровня воды, а достаточно знать диапазон, в который может попасть значение Нтах. Поэтому в качестве оценки уровня Нтах будем брать математическое ожидание т^ (3) из маргинального распределения У при попадании X в 1-ый кластер. А в качестве диапазона будет браться среднее квадратическое отклонение (4) У от математического ожидания (табл. 8).
к
Ч = ^ У]Р1 (3)
у=1
т;
СТ =
N
7 = 1
02Р]
(4)
Таблица 8
Таблица оценки максимального заторного уровня воды Нтах в районе г. Великий Устюг
к
X У т1 Диапазон Нтах
Нтах
Нлдст Т 1 льда [271;434] [476;567] [579;662] [677;787] [862;962]
376,28 527 622,25 720,57 909,33
[52;110] [46;83] 0,5 0,33 0,17 0 0 467,52 96,60 370,92 564,11
[128;169] [52;93] 0,18 0,18 0,54 0,1 0 569,15 103,48 465,66 672,63
[175;203] [52;95] 0,18 0,45 0,1 0,27 0 561,05 118,38 442,66 679,43
[206;245] [50;76] 0 0,22 0,22 0,34 0,22 697,65 133,67 563,98 831,32
[281;296] [68;89] 0 0 0,67 0 0,33 717,95 135,33 582,61 853,27
2. Верификация методики оценки уровня Нтах
Разработанная методика оценки максимального заторного уровня воды Нтах сравнивалась с реальными данными по следующим характеристикам: математическое ожидание, среднее квадратическое отклонение, средняя абсолютная ошибка прогноза, коэффициент детерминации. На рисунке 6 изображены график реальных данных Нтах и график прогнозных значений Нтах.
,1 л 1 1 ! 1, 1, <
1 1 ( 1 11 1 1 1 1 1 4 'Л1 '/"Л1__ / / 1' 1 / \ 1 Л1 ' /V - - -ч 1 и ' ' 1 V-1,' ^д*-д г
' ~ » - ■74"/'*'- У 1 (V/ 1 - 'II "Ггт"-"-» ' V" 1 1\ 1 1 ' \ 1 1 \ г , / , 1 ' V и^л * II.1' \ -, 1 , ч
» Реальные данные - — верхняя граница
Рис. 6. Оценка максимального заторного уровня воды Н,
Результат сравнения реальных данных максимального заторного уровня воды, полученных с гидрологического поста у г. Великий Устюг, с прогнозными значениями представлен в таблице 9.
Таблица 9
Сравнительный анализ реальных данных максимального заторного уровня воды у г. Великий Устюг с прогнозными значениями
Характеристики сравнения
Математическое ожидание, см Среднее квадратическое отклонение, см Средняя абсолютная ошибка, см коэффициент детерминации
Реальные данные 580,54 142,23 100 0,52
Прогнозные значения 591,76 80,55
аключение
В статье разработана модель прогнозирования максимального заторного уровня воды с горизонтом прогноза до 4-х месяцев. Представленная модель построена с использованием методов кластерного анализа, в частности, метод кластеризации к-средних и использованием статистических распределений. Результаты прогноза максимального заторного уровня воды Нтах применимы для предсказания масштабов возможного наводнения, следовательно специально уполномоченные государственные органы и местные органы власти имеют возможность заблаговременно проводить различные защитные (превентивные) мероприятия, которые должны свести к минимуму опасности ожидаемого наводнения в определенном районе.
Литература
1. Бузин В. А. Факторы образования и прогноз заторов льда на реках Севера европейской территории России // Метеорология и гидрология, 2010, № 4, с. 63-74.
2. Бузин В. А. Заторы льда и заторные наводнения на реках. — СПб, Гидрометеоиздат, 2004, 204 с.
3. Данко П.Е., Попов А.Г., Кожевникова Т.Я. Высшая математика в упражнениях и задачах: В 2 ч. Ч. 2: Учебное пособие для вузов. - 7-е изд., испр. - М.: ООО «Издательство Оникс», 2009. - 448 с.
4. Исследование ледохода и условий заторообразования в узле рек Сухона, Юг и Малая Северная Двина, а также эффективности мероприятий по предотвращению заторов: Отчет Северного УГМС, Архангельск, 1961. - 136 с.
5. Ильков А.В., Белоусов Р.Л. Системный анализ факторов заторообразования на реках севера европейской части России // Научные и образовательные проблемы гражданской защиты. 2015. № 3. С. 64 - 73.
6. Комплексные исследования русловых процессов и формирования заторов льда в узле слияния рек Сухона - Юг - Малая Северная Двина с целью регулирования процессов заторооборазования и разработки противопаводковых мероприятий у г. Великий Устюг. - Отчет ФГБУ «Северное УГМС», Архангельск, 2013.
7. Методические рекомендации по предотвращению образования ледовых заторов на реках Российской Федерации и борьбе с ними. Шахраманьян М.А., Векслер А.Б., Пчелкин В.И, Трегуб Г.Б. и др. - М.: ФЦ ВНИИ ГОЧС, 2004, 234 с., с илл.
8. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям: Учебное пособие. 2-е изд., испр. - СПб.: Питер, 2013. - 704 с.
9. Русловые процессы и водные пути на реках бассейна Северной Двины. - М., ООО «Журнал "РТ"», 2012. - 492 с.
10. Теория статистики: Учебник / Под ред. проф. Г.Л. Громыко. - 3-е изд., перераб. и доп. - М.: ИНФРА-М, 2014. - 476 с. - (Высшее образование: Бакалавриат).
11. Шеломенцев, В.Н. Правовые аспекты освоения разработки и защиты Арктики // Научный вестник Московского государственного технического университета гражданской авиации. - 2015. - №216. С. 113-117.
Рецензент: кандидат технических наук, доцент Рыбаков А.В.