复旦大学计算与智能创新学院杨卫东团队在AI4S方向取得新进展,结合人工智能和地球科学,提出了基于条件扩散模型的气象数据同化方法,结合人工智能和地球科学,提出基于条件扩散模型的气象数据同化方法,目前已被CVPR 2025会议录用(入选Highlight论文)。实验室的博士生涂思危为第一作者,杨卫东教授为通讯作者,香港中文大学费奔博士后为共同作者,上海人工智能实验室青年科学家白磊参与了该项研究工作。
通过卫星观测得到的气象状态通常以低分辨率网格场的形式提供,而降尺度是一种在更精细尺度上捕获详细气象数据的有效方法,其目的是将ERA5再分析数据集等气象数据的低分辨率地图转换为相应的小尺度高分辨率地图,以获得更准确和详细的气象数据,在环境科学、农业、城市规划、防灾减灾、能源等多个行业有重要应用价值。传统空间插值方法,其获得特定位置的气象状态与实际观测结果相比通会有显著差异。随着人工智能技术的应用,以扩散模型为代表的人工智能模型在候数据降尺度任务中展现出了超越传统数值模型的能力。然而,现有人工智能的高分辨率气象状态获取的降尺度方法,仅依赖于分辨率相对较低的原始气象场数据,直接构建和模拟降尺度过程,通常忽略了与卫星观测数据之间的关联性。 ERA5再分析数据和卫星观测之间存在耦合关系, 卫星观测中的亮温与湿度数据,是影响大气状态的主要因素。对于ERA5再分析数据的降尺度任务,在降尺度过程中将卫星观测作为条件数据有助于模型生成与实际气象场景更为接近的高分辨率ERA5数据。
基于此,杨卫东团队开发了一种基于条件扩散模型的卫星观测引导扩散模型 SGD(Satellite-observations Guided Diffusion Model) 的模型,在 ERA5再分析数据上进行预训练,并以卫星观测(GridSat)为条件输入,用于通过零样本引导采样策略和基于图块的方法生成降尺度后的气象状态。在训练过程中,通过注意力机制将 GridSat卫星观测信息融合进 ERA5地图中,使 SGD能够生成更符合真实气象状况的大气状态。在采样阶段,引入了可优化的卷积核来模拟上采样过程,从而利用低分辨率的 ERA5地图和气象站观测数据作为引导,生成高分辨率的 ERA5地图。SGD能够实现将气象状态准确地降尺度到 6.25公里 的空间分辨率。
基于条件扩散模型的ERA5数据降尺度框架
如图1(b)所示,模型充分考虑了ERA5气象数据与卫星观测变量间的耦合关系。使用预训练的编码-解码结构对GridSat卫星观测的深层特征进行提取作为条件输入。随后,交叉注意力模块被用于进行两者间特征的融合。如图2所示,相较于其他基于超分辨率以及基于插值的降尺度方法,条件数据的引入提供了大气状态的补充视图,使模型能够学习空间和模态之间的复杂关系,确保模型生成结果符合真实气象场景。
图 2降尺度方法的可视化细节对比 图 3 ERA5降尺度的实验结果
多模式引导的高分辨率扩散模块
在采样过程中,模型并非直接对降尺度过程进行建模,而是利用其逆过程来引导高分辨率 ERA5地图的生成。如图1(c)所示,模型利用低分辨率ERA5数据与weather 5k站点数据集的气象站点数据作为引导,通过构建的距离度量函数以实时衡量生成空间中的高分辨率图像的生成质量。引导信息的引入保障了模型生成结果的细节一致性。同时,距离度量也被用于反向更新逆过程模拟中的可优化参数,保障了后续逆扩散过程中的分辨率转化模拟能力。
模型不仅在绝大多数ERA5数据变量上超越了现有基于插值与基于扩散模型的主流方法(如图3所示),通过灵活调整距离度量函数中的引导权重,模型也在气象站点的差异性上实现了有效的优化(如图4所示)。
图 4不同距离度量函数降尺度结果的站点数据差异性对比