上世纪20年代以来,特别是近三十年随着算力的迅速发展,数值天气预报在每日天气预报、极端灾害预警、气候变化预测等领域取得了巨大的成功。但是随着算力增长的趋缓和物理模型的逐渐复杂化,传统数值预报的瓶颈日益突出。研究者们开始挖掘新的气象预报范式如使用深度学习方法预测未来天气。在数值方法应用最广泛的领域如中长期预报中,现有的AI预报方法精度仍然显著低于数值预报方法,并受到可解释性欠缺,极端天气预测不准等问题的制约。
来自华为云的研究人员提出了一种新的高分辨率全球AI气象预报系统:盘古气象大模型。盘古气象大模型是首个精度超过传统数值预报方法的AI方法,1小时-7天预测精度均高于传统数值方法(欧洲气象中心的operational IFS[1]),同时预测速度提升10000倍,能够提供秒级的全球气象预报,包括位势、湿度、风速、温度、海平面气压等。盘古气象模型的水平空间分辨率达到 ,时间分辨率为1小时,覆盖13层垂直高度,可以精准地预测细粒度气象特征。作为基础模型,盘古气象大模型还能够直接应用于多个下游场景。例如,在热带风暴预测任务中,盘古气象大模型的预测精度显著超过欧洲气象中心的高精度预报(ECMWF HRES Forecast)结果。
本文主要介绍盘古气象大模型的技术要点和代表性预测结果。关于技术细节,可以参考发布在arXiv上的完整论文:Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast。
【转载声明】转载此文章请注明出处,并且注明:文章所有内容均只代表作者观点,其中涉及的前沿内容均有可能被推翻。二次转载务必连同声明一起转载。此中文稿的主要作者为毕恺峰、谢凌曦,转载时请标注。
盘古气象大模型由盘古团队发布,主要完成人为毕恺峰、谢凌曦、张恒亨、陈鑫、顾晓韬以及田奇老师。
气象预报是科学计算领域最重要的场景之一,对未来天气变化的预测特别是对极端天气如暴雨、台风、干旱、寒潮的预测至关重要。传统数值预报使用数学物理方程建模大气状态并使用计算机仿真方法求解方程得到未来天气状态,在过去三十年取得了令人瞩目的成功。但是,随着算力增长的趋缓和物理模型的日益复杂,数值气象预报方法也逐渐遇到了瓶颈:一方面,传统数值预报对算力的消耗非常大,如 精度的未来10天数值预报,需在超过3000个节点的超级计算机上花费数小时进行仿真;另一方面,复杂的参数化物理模型始终是不完备的,对物理过程的参数化,不可避免地向数值预报引入系统误差。
AI气象预报首先在短临预报取得了巨大的成功。这得益于AI预报在预测速度上的巨大优势:数值预报方法无法给出分钟级的气象预测,而AI方法拟合雷达回波数据的能力,超过了光流法等外插方法。当把AI预报方法应用于中长期气象预报时(数值气象预报应用最成功的领域之一),尽管AI方法能够大幅提升预测速度,AI预报方法的分辨率和精度均明显落后于数值气象预报方法。2022年3月,英伟达推出FourCastNet模型[2],首次把预报水平分辨率提升到了和数值预报相比拟的水平即 ,但是其预报精度仍然大幅落后于数值预报方法。例如,FourCastNet的5天位势预测的均方根误差(RMSE)为484.5,即使使用100个模型进行集成预报,其均方根误差依然高达462.5,远高于欧洲气象中心operational IFS报告的333.7。在盘古气象模型提出之前,AI气象预报主要是作为数值预报的快速替代模型,并不能直接替代传统数值预报方法。甚至有气象学家指出,AI预报方法超越传统数值方法,还需要一段时间[3]。
盘古气象大模型首次在中长期气象预报上超过了传统数值方法。训练和测试均在ERA5数据集上进行,其包括43年(1979-2021年)的全球实况气象数据。其中,1979-2017年数据作为训练集,2019年数据作为验证集,2018、2020、2021年数据作为测试集。盘古大模型使用的数据,包括垂直高度上13个不同气压层,每层五种气象要素(温度、湿度、位势、经度和纬度方向的风速),以及地球表面的四种气象要素(2米温度、经度和纬度方向的10米风速、海平面气压)。图1展示了盘古气象大模型的一些结果。我们可以看到,盘古气象大模型全方位地超过了现有的数值预报方法(欧洲气象中心的operational IFS)。例如,盘古气象大模型提供的Z500五天预报均方根误差为296.7,显著低于之前最好的数值预报方法(operational IFS:333.7)和AI方法(FourCastNet:462.5)。同时,盘古气象大模型在一张V100显卡上只需要1.4秒就能完成24小时的全球气象预报,相比传统数值预报提速10000倍以上。
盘古气象大模型的思路十分明确:气象数据和图像数据具有很多相似之处,能否利用当前CV领域的大模型,对于气象数据进行分析?在前人工作(如英伟达的FourCastNet)的基础上,盘古研究团队发现:AI气象预报模型的精度不足,主要有两个原因。第一,现有的AI气象预报模型都是基于2D神经网络,无法很好地处理不均匀的3D气象数据。第二,AI方法缺少数学物理机理约束,因此在迭代的过程中会不断积累迭代误差。为此,本文提出了3D Earth-Specific Transformer(3DEST)来处理复杂的不均匀3D气象数据,并且使用层次化时域聚合策略来减少预报迭代次数,从而减少迭代误差。
图2为本文提出的3D Earth-Specific Transformer的示意图。其主要思想是使用一个视觉transformer[4]的3D变种来处理复杂的不均匀的气象要素。由于气象数据分辨率很大,因而相比于常见的vision transformer方法,研究人员将网络的encoder和decoder减少到2级(8个block),同时采用Swin transformer[5]的滑窗注意力机制,以减少网络的计算量。需要注意的是,即使采用了这些方法,当前网络的总体FLOPs依然超过3000G。未来,在算力充足的条件下,可以使用更大的网络以进一步提升预报精度。
在每一个网络block里,最重要的改进是引入了Earth-Specific位置编码。这是团队在对气象数据性质进行仔细分析后,所做出的改进。气象预报数据和普通图像数据最大的区别在于,特征图上的每个像素都对应于地球上的一个绝对位置,而图像上的像素往往只包含相对位置信息。同时,如图3所示,气象要素数据对应的经纬度网格是不均匀的,而不同的要素在不同纬度、高度的分布也是不均匀的。对这些不均匀性的建模,有利于学习气象数据背后潜藏着的复杂物理规律,如科里奥利力等。为此,本文在每一个transformer模块中引入和纬度、高度相关的绝对位置编码来学习每一次空间运算的不规则分量。这样改动后的transformer模块,被称为3D Earth-Specific Transformer。关于更多的技术细节,请参阅论文。
中长期气象预报需要多次迭代模型得到预报结果。例如,FourCastNet需要调用6小时预测间隔的AI模型共计28次,以得到7天的预测结果。由于缺少数学物理机理约束,AI模型的迭代误差随着迭代次数的增加而迅速上升。如图4所示,把盘古气象预报的6小时模型迭代了28次得到的7天预报结果,精度明显低于24小时模型迭代7次的预报结果;而如果使用1小时模型迭代168次,预报误差则呈现超线性上升趋势。
为了缓解迭代误差,本文提出一个简单而有效的策略。研究人员训练了4个不同预报间隔的模型,分别为1小时间隔、3小时间隔、6小时间隔、24小时间隔。进而,研究人员使用贪心算法调用这些模型,使得预测特定时间气象状况的迭代次数最小。例如,对于24小时预测,只需要调用一次24小时间隔的模型;而对于23小时预测,则需要调用三次6小时预报,一次3小时预报和两次1小时预报。通过使用多个不同时间间隔模型捕捉不同时序关系,盘古气象大模型不仅减少了迭代误差,并且避免了由递归训练带来的训练资源消耗。在训练过程中,盘古气象大模型只需要使用单一时间的天气状况监督模型训练,而之前的方法(如FourCastNet)往往监督多个时间点的天气状况以降低迭代误差,从而成倍地增加了显存消耗和训练时间,并且使得训练过程的稳定性下降。
【算力消耗】为了训练每个模型,研究人员使用1979-2021年的气象数据,以小时为单位采样,训练了100个epoch。每个模型需要在192块V100显卡上训练16天。事实上,即使经历100个epoch,这些模型依旧没有完全收敛。也就是说,在计算资源更加充足的情况下,AI预报的精度还能够进一步提升。推理时,盘古气象大模型仅需在一张V100显卡上运行1.4秒,即可完成24小时全球气象预报。相比传统数值预报,计算速度的提升超过10000倍。
本文主要在两个数据集上测试盘古气象大模型。一是从ERA5数据集[6]中划分出的测试集(2018、2020、2021年数据),主要用来测试盘古气象大模型的整体预报精度。二是IBTrACS热带风暴观测数据[7],主要用来测试盘古气象大模型在特定极端天气场景(热带风暴轨迹预测)上的准确度。盘古气象大模型的比较对象,包括当前最先进的数值预报方法(从TIGGE存档下载的欧洲气象中心operational IFS预报结果)和AI方法(英伟达的FourCastNet论文中报告的精度)。
【高空气象变量】如图1和图5所示,盘古气象大模型在高空气象变量Z500、T850、T500、Q500、U500、V500上的测试精度,在所有预测时间均领先于欧洲气象中心的operational IFS。例如,对于Z500,3天和5天operational IFS的预测均方根误差(单位: )为152.8和333.7,盘古气象大模型把误差减少到134.5和296.7。对于T850,3天和5天operational IFS的预测均方根误差(单位: )为1.37和2.06,盘古气象大模型把误差减少到1.14和1.79 。在所有场景中,盘古气象大模型相比operational IFS的均方根误差相对降低都超过10%。使用同等精度下的预报时间间隔来衡量,盘古气象大模型相对欧洲气象中心的operational IFS的精度提升相当于超过10-15小时的“预测时间收益”(即,盘古的预测时间比IFS多10-15小时时,预测精度与IFS相当)。与英伟达的FourCastNet相比,盘古气象大模型有更大的精度优势——在所有场景中,均方根误差相对降低超过30%,“预测时间增益”也扩大到36小时以上。
【地表气象变量】如图5所示,盘古气象大模型在地表气象变量2m温度(T2M),10m经度方向和纬度方向风速(U10和V10)上测试精度稳定的高于欧洲气象中心的operational IFS和英伟达的FourCastNet。使用“预测时间收益”来衡量,盘古气象大模型相对于operational IFS的精度提升相当于超过18小时的“预测时间收益”。例如,对于2m温度(T2M),3天和5天operational IFS的预测均方根误差(单位: )为1.34和1.75,FourCastNet的均方根误差为1.39和 2.00,盘古气象大模型把误差减少到1.05 和1.53。对于10米经度方向风速,3天和5天operational IFS的预测均方根误差(单位: )为1.94和2.90,FourCastNet的均方根误差为2.24和 3.41,盘古气象大模型把误差减少到1.61和2.53 。
【可视化】如图1和图6所示,盘古气象大模型可以很好地预测细粒度气象特征。同时,在可视化中可以观察到,AI预报的结果通常更加平滑,而数值预报则更经常地预测出一些不存在的特征。这反映出AI气象预报和传统气象预报间存在差异性和互补性。
【诊断实验】本文提供两个诊断实验。
【总体极端天气预测趋势】与FourCastNet一样,盘古气象大模型计算了RQE值来衡量不同预报方法的极端天气预测趋势(具体数学定义参见论文)。RQE值小于0表示模型倾向于低估极端天气影响,RQE值大于0表示模型倾向于高估极端天气影响,RQE值接近0表示模型预报更准确。从图8中可以看出,AI方法和数值方法都倾向于低估极端天气影响。盘古气象大模型在Q500上表现的比operational IFS强(低估得更少),在U500上表现的比operational IFS弱(低估得更多),在U10上一开始表现的比operational强,最后表现的比operational IFS略弱。得益于高效的层次化时域聚合算法,盘古气象大模型在U10上的RQE结果明显高于FourCastNet(低估得更少),这也对应于盘古气象大模型在确定性预报上精度更高的事实。
【热带风暴路径预测】如图9所示,通过计算海平面气压、850hPa旋度、10米风速和200hPa-850hPa厚度,盘古气象大模型可以准确地预测热带风暴的路径(具体方法参见论文)。研究人员将预报方法运用于2018年的88个热带风暴(IBTrACS数据集和TIGGE里 ECMWF HRES热带风暴预报的交集)后发现,盘古的预测精度明显高于传统方法。和ECMWF HRES比较,盘古气象大模型在不同地区、不同热带风暴强度、不同预测时间上台风路径预测准确度都有明显优势。例如,盘古气象大模型对88个热带风暴路径预测的三天/五天平均误差为120.29公里/195.65公里,明显低于ECMWF HRES的162.28公里/272.10公里。如图1和图10所示,盘古气象大模型在2018年著名的台风康雷和玉兔(其轨迹被被多个气象预报长时间误判)上,都报告了很高的准确度。特别是台风玉兔,盘古领先传统方法超过48小时,即判断出玉兔的正确登陆地点:菲律宾马里亚纳群岛。
最后,本文还探索了使用盘古气象大模型进行集成预报的简单方法。研究人员向模型的输入中加入随机珀林噪声,得到99组输入扰动的预报和1组输入未扰动的预报。如图11所示,简单的输入扰动形成的集成预报,其短期(<2天)预报精度略低于未经扰动的确定性预报,而其长期(>5天)预报精度明显高于未经扰动的确定性预报。例如,集成预报的平均值把Z500和U10的7天预测均方根误差从500.3和3.48降低至450.6和2.96,相对下降达到10%和15%以上。结合气象知识使用相似的方法可以得到更加有效的集成预报,例如使用奇异向量法扰动盘古气象大模型的输入。受限于作者有限的气象知识,研究人员期待,在经验更丰富的气象专家介入之后,盘古气象大模型的集成预报效果能够得到进一步的提升。
本文介绍了一个基于人工智能的数值天气预报系统:盘古气象大模型。本文的主要技术贡献包括(i)设计3D Earth-Specific(3DEST)网络结构和(ii)应用层次化时域聚合策略。通过在39年的全球天气数据上训练深度神经网络,盘古气象大模型首次在精度和速度方面超越了传统的NWP方法。盘古气象大模型具有极高的预报速度,为气象学家将他们的知识整合到基于人工智能方法中提供了便利。
展望未来,计算资源将成为进一步提高AI气象预报准确性的关键要素。根据本文得到的实验,在(i)使用更多的气象要素训练网络模型,(ii)加入时间维度来训练4D深度神经网络,以及(iii)简单地使用更大的神经网络等方面,AI预报方法还有很大的提升空间。所有这些都需要更多的算力资源:更强力的GPU,更大的内存,更高的浮点数运算能力,等等。
作者感谢欧洲气象中心和美国NOAA国家环境信息中心,他们无私地分享了ERA5和IBTrACS数据集,使得本研究能够顺利进行。作者同时感谢盘古团队的其他成员,以及华为云EI集成验证团队成员在算力上的支持。
文章发布几天以来,许多气象学专业的朋友给我们留下了不少评论。非常感谢大家的关注!以下,我简单回应几个提及比较多的问题。
1. 关于“AI方法能够超过传统NWP方法”的论断
这可能是引起争议最大的一句话,原文是“We end the debate on whether AI-based methods can surpass NWP for global weather forecast”。有气象学专家指出,盘古只是完成了在ERA5(再分析数据)数据上的拟合。而产生ERA5数据的过程很复杂,需要用到同化等技术。在没有覆盖这些技术的情况下,声称盘古超越了NWP方法,有过度宣传之嫌。我们接受这个意见。由于专业所限,我们之前阅读的文章主要是英伟达的FourCastNet以及引用里的几篇文献。在盘古文章中,我们将NWP限定为“基于同化数据进行预测的方法”,而不是指代“整个数值气象预报领域”。盘古确实首次在同化数据上超越了传统方法:我们使用了与英伟达FourCastNet完全相同的测试环境,确保对比的公平性和结论的可信度。
2. 再分析数据也许不能实时获得,因而此类AI算法可能不实用
这是一个很好的问题。ERA5数据集的质量,确实比大部分分析数据集都要好。然而我们看到,英伟达测试过FourCastNet(在ERA5数据上训练)迁移到GFS分析数据的结果[8]。结果显示,在5天预报上,迁移对于预报精度的影响小于“6小时间隔”(见下图),而盘古领先operational IFS的时间在所有变量上都达到10小时以上,说明盘古确实在预报精度上具有优势。
3. 为什么我们坚信AI方法一定是气象预报的未来趋势
AI已经不是新鲜事物,但是对于不从事AI研发的人而言,也许还无法准确地回答“AI究竟强在什么方面”这个问题。总的来说,AI主要擅长做两件事:处理重复任务、拟合未知数据关系——前者对于气象领域或许不太重要(除非将来AI系统被用于各个垂直领域、各个地区,进行精细化的预报),而后者非常重要。当前,气象预报的输入和输出之间,关系非常复杂。气象学家花费了大量的时间,创造了一套复杂度惊人的物理系统来做仿真,但是这套系统并不是完美的:不仅各种观测数据可能有缺陷、有误差,而且许多物理过程也建立在近似的基础上。在这种复杂环境下,人工构建的仿真系统,不仅精度受到限制,而且迭代代价极高。相比而言,AI不需要任何数理假设,只是暴力地学习数据中的关系,完成预报任务。因此,传统仿真方法和AI方法,各有优缺点。当数据噪声小、关系简单、仿真误差低时,确实没必要强行让AI方法介入;但是当数据噪声大、关系复杂、仿真误差高时,AI方法就一定会体现出优势来。换句更简单的话说,人类对于一个领域的认识越不足,AI就越有发挥的空间。很明显,气象预报完美符合AI方法的优势场景,因此AI一旦超越传统方法,就势必会一直领先下去,直到某个划时代的新理论出现(概率很低)。
4. AI方法是否会取代传统方法?
AI进入任何一个领域时,都会有类似的声音和担忧。举例说,AI与医学影像分析已经结合了10年以上,至今AI方法还是起到辅助作用,无法替代医生,特别是高水平专家。在气象领域也是一样:盘古虽然在全球预报上超越了传统方法,但是它也存在一些弊病,例如总是低估台风强度(路径准确、中心气压预估偏高),又例如可解释性不足。因此,我们的结论是明显的。第一,AI在量化评测上超过传统方法,已是不争的事实。第二,AI方法短期内无法彻底取代传统方法,两者需要深度融合。我呼吁气象学家们与AI领域深度合作,共同探索这一激动人心的新方向。
非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。