分析训练全球2k+水文站数据，实现无监测数据地区洪水预测

本文约3900字，建议阅读10分钟如何破解无监测数据和缺监测数据地区的径流和洪水预测，一直是水文领域长期面临的难题。

中国科学院成都山地灾害与环境研究所欧阳朝军团队，提出了一种全新的基于 AI 的径流洪水预测模型 ED-DLSTM，利用全球超 2 千个水文站数据进行模型训练，以解决全球范围内有监测数据流域和无监测数据流域径流预测问题。

随着全球气候变化，洪水灾害正变得愈发频繁。联合国减少灾害风险办公室与比利时鲁汶大学灾害流行问题研究中心联合发布的报告指出：过去 20 年间，全球洪水灾害数量从 1,389 起上升到 3,254 起，增加了超两倍，占到灾害总数的 40%，影响人数达 165 万人。

洪灾会带来巨大的人员伤亡和财产损失。今年 4 月，洪涝和地质灾害共造成我国江西、广东等 17 省 (区、市) 159.8 万人不同程度受灾，因灾死亡失踪 24 人，农作物受灾面积 140.3 千公顷，直接经济损失 119.8 亿元，灾害损失为近 10 年同期最重。

如何有效地预测洪水流量对降低洪水灾害风险至关重要。去几十年里，基于水文过程的洪水流量预测取得了显著进步，但当前方法的预测结果依然严重依赖监测数据和参数率定。事实上，全球 95% 以上的流域没有任何监测数据，如何破解无监测数据和缺监测数据地区的径流和洪水预测，一直是水文领域长期面临的难题。

2024 年 4 月，中国科学院成都山地灾害与环境研究所欧阳朝军团队在 The Innovation 发表了题为「Deep learning for cross-region streamflow and flood forecasting at a global scale」的论文，提出了一种基于 AI 的径流洪水预测模型 ED-DLSTM，通过编码流域静态属性和气象驱动，利用全球超 2 千个水文站数据进行模型训练，尝试解决全球范围内有监测数据流域和无监测数据流域径流预测问题。

研究亮点：

ED-DLSTM 模型在有监测数据和无监测数据流域的洪水预报方面均表现优越；首次对多种水文人工智能模型进行了训练，并在全球范围内提供了对比分析；空间属性的编码明显提高了时间序列的预测能力，并且很好地解释了可迁移性。

论文地址：https://doi.org/10.1016/j.xinn.2024.100617

数据集：分布差异性显著的流域数据

该研究采用的训练数据集来自美国 (482 个流域)、英国 (406 个流域)、中欧 (461 个流域)、加拿大 (740 个流域) 等地共计 2,089 个流域，如下图所示：

流域位置分布及1950年至2000年期间若干平均年变量记录

数据集下载地址：

* 美国 CAMELS：https://go.hyper.ai/nCkDT

* 英国 CAMELS-GB：https://go.hyper.ai/DdUEf

* 中欧 LamaH-CE：https://go.hyper.ai/rMHSO

* 智利 CAMELS-CL：https://camels.cr2.cl/

* 加拿大 HYSETS：https://go.hyper.ai/l4etG

总体而言，与美国和加拿大西部地区相比，东部地区总体降水量和土壤含水量普遍较高；英国西部和北部苏格兰高地地区普遍表现出较高的年平均土壤含水量和降水量，而其他变量的变异性相对较低；在中欧，奥地利地区大部分流域地势高、降水多、气温低；落基山脉贯穿美国和加拿大，其附近盆地地势较高，降水量和土壤含水量较高，气温较低，复杂的蒸散和融雪效应使得径流的变异系数更大。

在研究人员看来，上述这些区域流域的分布差异性显著，空间变异性足够大，确保了数据的多样性，足以验证 ED-DLSTM 的跨区域流量预报 (cross-region streamflow forecasting, CSF) 能力。

模型架构：新颖的跨区域时空集成模型 ED-DLSTM

在本论文中，研究人员提出了一种新颖的跨区域时空集成模型 ED-DLSTM，该模型融合了静态空间属性和时间强制属性 (temporal forcing attributes)，以实现跨区域流量预测，下图显示了 ED-DLSTM 模型的整体架构：

ED-DLSTM 模型框架

ED-DLSTM 模型采用了编码器-解码器 (encoder-decoder) 结构，包括 2 个共生 (symbiotic fashion) 方式运行的子模型，更适合通过联合建模捕捉全球和局部流域关系。如上图所示，模型的输入为多模态数据，输入的空间静态网格属性数据 (spatial static grid attribute data) 形成了一个相对稀疏的矩阵。

其中，编码器 (Encoder) 结合了静态信息 (static attributes) 和强制数据 (forcing data)，静态数据包括数字高程模型 (DEMs)、雪覆盖范围、土壤含水量、地下水位深度、潜在蒸散量、干旱指数和河道几何形状，这些属性指导模型区分不同区域的水文行为；强制数据包括降水、太阳辐射、气温、露点温度、地表气压、东风和北风速度，这些数据具有 24 小时的时间分辨率。

静态信息采用普通卷积来整合通道，并使用残差卷积提取空间静态属性。然后，利用空间金字塔池化 (SPP) 将不同区域的矩阵信息映射到一个固定的高维空间，从而对特定区域进行空间编码。随后，编码后的向量被用作 LSTM 单元的初始状态层。

解码器 (Decoder) 负责使用反向 LSTM 层将高级特征映射到预测的流量值。研究人员选择在最后一个 LSTM 单元执行流量映射，因为 Seq2Seq 模型的完整信息应该在最后进行解码，这个解码层可以逆向捕捉信息趋势。研究人员可以分别为不同流域的各种水文响应行为进行编码和解码。

最终，该网络学习到从动态时间序列到区域静态属性下观测流量的映射关系，从而提供一致的 CSF 能力，使得模型能抽象地「意识」到不同流域的水文响应特征。

研究结果：ED-DLSTM 模型具备出色的预测能力和泛化能力

首先，研究人员对 2010 年 1 月 1 日至 2012 年 1 月 1 日期间 ED-DLSTM 模型的预测可信度进行了比较评估，并以 Nash-Sutcliffe 效率 (NSE）进行定量评估。

* NSE (取值范围为（-∞，1]) 用于评估水文模型模拟结果 (NSE 值越接近 1，表示模型模拟结果与实际观测值越吻合，NSE 值小于 0 表示模型模拟结果较差）

ED-DLSTM 在数据集上产生的 NSE 结果

如上图所示：

* 在美国地区，所分析的 482 个流域中，有 438 个流域的 NSE 超过 0，平均 NSE 为 0.78，中位数 NSE 为 0.80。

* 在加拿大地区，所分析的 740 个流域中，有 695 个流域的 NSE 超过 0，平均 NSE 为 0.80，中位数 NSE 为 0.82。

* 在英国地区，所分析的 406 个流域中，有 391 个流域的 NSE 超过 0，平均 NSE 为 0.68，中位数 NSE 为 0.70。

* 在中欧地区，所研究的 461 个流域中，有 433 个流域的 NSE 超过 0，平均 NSE 为 0.73，中位数 NSE 为0.79。

总体而言，那些降雨量较大或径流系数较大的流域通常会产生更好的预测结果。值得注意的是，其中 81.8% 的流域平均 NSE 高于 0.6，凸显了 ED-DLSTM 模型出色的预测能力和泛化能力。

基于上述 4 个区域的预训练模型 (北半球)，研究者对智利 (南半球) 的 160 个全新陌生流域 (未使用任何历史监测数据训练) 进行预测，以检验模型在无监测数据流域的预测能力，得到结果如下图所示：

智利 160 个新流域获得的模型泛化结果

当直接在智利新地区部署 ED-DLSTM 时，在美国预训练的模型显示 76.9% 的流域 NSE 大于 0；在加拿大预训练的模型在 66.2% 的流域中实现了大于 0 的 NSE；在中欧预训练的模型在 53.1% 的流域中实现了大于 0 的 NSE；在英国预训练的模型表现最差，只有 42.5% 的流域的 NSE 大于 0。

不同预训练模型的预测结果显现出了较强的空间分布一致性，展现了 AI 在未计量流域进行水流量及洪水预测的巨大潜力。

当预训练模型在智利 160 个无监测数据流域进行预测时，通过 ED-DLSTM 编码器对每个流域的特征进行可视化 (下图左侧) 和相似性分析 (下图右侧)，发现预训练模型之间的平均编码相似度比随机噪声高 38.4%，说明 ED-DLSTM 的嵌入层不是无序的随机信号，而是模型识别和利用的高维特征信息，证明了 AI 能够在不同流域学习到「水文通识」。

参数可视化和可解释性

AI + 水文，助推智慧水利发展

洪水预测是水文学的重要分支之一，说起水文科学，我国先秦已有雨量、水位的测定；战国时，秦国「田律」规定地方官吏需及时上报雨量及受益、受害田亩；而后的历朝历代都有报汛制度。

水文预报是防汛抗旱决策、水资源合理利用、生态环境保护以及水利水电工程运行管理的重要依据。传统的水文预报方法多采用基于过程驱动的水文模型结合水力学模拟复杂的物理过程，但是高质量的物理数据、复杂的数学工具和大量简化的假设给校准和验证带来了挑战。随着人工智能技术和交叉学科的发展，许多研究者对人工智能水文预报模型展开了深入研究。

2019 年，来自武汉大学水资源与水电工程科学国家重点实验室的研究团队提出了 LSTM 长短期记忆神经网络与 batch-size 学习、正则化、drop out neuron 相结合的深度学习网络，并应用于三峡水库入库洪水预报。从预报合格率、洪峰相对误差、均方根误差和基准拟合度 4 个指标综合评估可知，相比 BPNN 静态神经网络和 NARX 动态神经网络，LSTM 长短期记忆神经网络结合 3 种深度学习的辅助算法，有效提高了三峡水库入库洪水的预报精度。

2020 年，西北工业大学研究团队与黄河水利科学研究院合作，通过电子化黄河水文年鉴，以及汇编土壤、气候、地形及地质等多种要素，建立起国内首个成体系的黄河流域水文大数据。在模型算法方面，他们突破了单站点智能预测模型，首创了站点群智能预测模型，并攻克了水文领域十大难题之一的历史资料缺失区域洪水预测问题，显著提升了洪水预测精度并延长了预见期。智能预测算法已成功应用于黄土高原主要产沙区、黄河中下游三门峡至花园口区间未控区、黄河上游唐乃亥等区域，显著提高了洪水预报能力。

2024 年 3 月，来自 Google Research 洪水预测团队的 Grey Nearing 及其同事开发的人工智能模型，通过利用现有的 5,680 个测量仪进行训练，可预测未测量流域在 7 天预测期内的日径流。随后，他们将该人工智能模型与全球领先的短期和长期洪水预测软件——全球洪水预警系统 (GloFAS) 进行了对比测试。

结果显示，该模型同日预测准确率与当前系统相当甚至更高。此外，该模型在预测重现窗口 (return window) 期为五年的极端天气事件时，其准确性与 GloFAS 预测重现窗口期为一年的事件时的准确性相当或更高。相关研究论文以「Global prediction of extreme floods in ungauged watersheds」为题，已发表在权威科学期刊 Nature 上。（详细报道：击败全球 No.1 系统、覆盖 80+ 国家，谷歌洪水预测模型再登 Nature）

如今，智慧水利已经由最初的物联网升级为了智联网，即物联网设备采集数据，AI 基于数据进行分析预测，并将预测结果实时反馈给相关人员，在洪水事件来临前完成群众疏散、公共财产保护等。未来，基于 AI 技术发展的智慧水利，将持续促进水利规划、工程建设、运行管理和社会服务的智慧化，提升水资源利用效率和水旱灾害防御能力，改善水环境和水生态。

参考资料：

1.https://mp.weixin.qq.com/s/sKPl55AEVf9GoXsLv0-8Hg

2.https://www.hanspub.org/journal/PaperInformation?paperID=28786

3.https://www.nwpu.edu.cn/info/1198/75728.htm

幸福双城资讯网

分析训练全球2k+水文站数据，实现无监测数据地区洪水预测

前沿也要数据派