有了超算和大模型,就能猜测任何一场气候灾害

2023-08-14 10:14 文章来源: 作者:网络 阅读(

难以捕捉的蝴蝶

国际规划内通行的对气候预告的办法被称为数值核算,搜集满意多、满意丰厚的气候数据后,把它们代入杂乱方程,得到的效果便是所谓猜测,重复这个进程,猜测就接连了起来。

这些方程背面是一些巩固的理论,比方流体运动方程,热力学方程和不同介面,气、水、陆冰物质能量交流方程等等,它们代表的物理、化学规则是经过紧密的核算和验证的。

但气候预告仍然做不到*的精确。这种数值猜测,是经过现已产生的气候要素的改动估测未来的趋势,它的精确程度严峻遭到观测数据精度的影响。

更何况,跟着时刻、空间标准的改动,气候体系的杂乱性将会剧烈增加,剖析气候的成因时一方面会挂一漏万,另一方面数据的差错也会更多,这又反过来影响了猜测的效果。

而当标准大到必定程度时,气候会进入一种混沌状况。这不是比方,气候体系是典型的混沌体系,混沌理论最早便是气候学家在1963年提出的。

混沌体系意味着体系非常小的扰动也或许构成巨大不同的效果——它的另一个名字叫蝴蝶效应,加利福尼亚的蝴蝶摇动翅膀,德克萨斯和墨西哥湾将掀起一场风暴。

这就要求对数值最开端的测算有必要非常精确,但是咱们都知道*的精确是不存在的,更何况面临如此杂乱的气候运动,要搜集的数据品种和数量真实太多。

人类对气候的猜测就像努力学习蝴蝶的翅膀同风暴眼移动轨道之间的联系那样,既绚丽,有时又有些失望,乃至还带有一种玄奥的成分。

一面在精确度上构建越来越杂乱的函数方程组,尽或许搜集更多、距离更短的数据,另一面则依托一种近乎是“直觉”的经历。

时至今日,一切的气候预告效果仍然由两部分决议——数值核算的效果,加上预告员的判别。气候预告仍然高度依托人的经历。

某种程度上,人类在用自己的感觉,对立大自然的混沌。

超级核算机

因而气候猜测呈现出一种怪异的特质——因为只需依托人类的经历感觉,那么总会遇到失灵的时分,在一些极点气候中更是如此,因为有关极点气候的数据过分稀疏,导致人对它无法构成连接的经历。

但跟着数值猜测精度几十年来的提高,现在的气候预告在许多时分已能够到达适当精确的程度,中期可用性预告时效现已挨近10天,而短期的猜测——比方说冷空气什么时分到来,会降温多少度,人类已能判别的非常精准。这是因为尽管整体上全球的气候环境改动是混沌的,但在许多微观层面,比方气团的构成,气压的改动,云层运动的轨道,正在被越来越多的函数和公式形象而精确的描绘。

比方最近在京津冀暴虐的暴雨。

7月29日到8月1日,飓风杜苏芮带着丰厚的水汽北上,在华北遭到高压阻拦,京津冀区域呈现了前史稀有的极点暴雨。

极点体现在几个方面,首先是量大。河北邢台临城县降雨量超越1000毫米,也便是1米,等于这儿本来两年降水量的归纳。其次是时刻长,从7月29日开端一向连绵了近四天,连北京都接连下了83小时的雨。河北、陕西、河南等地也接连两天呈现大暴雨。最终是影响规划广,整个华北都被阴雨笼罩。

气候预告简直彻底精确地预告了这场极点降雨的到来。这背面是气候预告几十年来的巨大前进——数值核算现已从简略的方程组开展成国际上最杂乱的算法之一,终究,对莫测的气候的捕捉,数据和算法都是越多越好,而为了处理这海量的数据和杂乱的算法,超级核算机被引进。

许多人或许对气候数据的巨大没什么概念,在这儿能够举一个数字:每一天,我国的气候数据增加高达40TB。我国树立的一整套立体的气候观测网络,有7万多个气候观测站掩盖全国99.6%的城镇,这些数据传输的时刻从曩昔的1小时近年来缩短为1分钟。

如此巨量的数据自身处理起来就已颇有难度,而把它们同数值核算的方程结合起来,则简直是不或许完结的使命——杂乱的偏微分方程和浮点核算都需求耗费许多的算力,特别是气候预告还要求极高的时效性,种种条件束缚下,只要超级核算机能够满意需求。

所幸,我国在这方面走在国际前列。

超算一向是一张我国手刺,比方全国际最快的500台超级核算机,我国就占了162台;再比方我过三次取得国际超算运用最高奖——戈登·贝尔奖,其间的两次获奖内容“大气动力结构”和“地震模仿”都和气候有关。

现在我国运用的超算名叫“派—曙光”,它峰值运算速度到达每秒8189.5万亿次,存储才能到达23088TB,这套彻底国产的超算2018年开端服务后,我国高功能核算机体系整体规划现已跃居气候范畴国际第三位。

这还不算完,跟着数据量快速增加和硬件的磨损,超算的执役年限多在6到8年,因而在“派—曙光”之后,新的超算也在连续上马,本年*批新国家级高功能核算(HPC)子体系1现已装置建造完结,它的功能比较“派—曙光”进一步提高,到达13PFlops,贮存才能也增加到了76PB。

更多的超算还在路上。

国产高功能核算机体系“派—曙光”概念图,图片来自国家气候信息中心。

“阻滞”与新路

总的来说,成百上千颗CPU组成的超算构成了气候预告坚实的根底,但它仍有不能做到、或许很难做到的作业。

比方飓风。咱们对飓风杜苏芮的猜测,远没有到达对特大暴雨猜测的精准程度。国际上干流的飓风猜测办法均选用了动力模型,它依据大气物理规则,包含流体动力学和热力学等来模仿大气运动,然后猜测飓风的改动。

动力模型有许多不精确之处,这让咱们一开端对杜苏芮的途径猜测形形色色,这个范畴公认比较威望精确的欧洲中期气候预告中心一度以为杜苏芮会直冲珠三角。

事实上,飓风预告一向是个国际性难题,因为飓风在很短时刻内能够产生剧烈的强度改动,而它的途径又因为处于非常大的时空标准上,受多种要素影响而显得改动多端。

它是一个典型的混沌体系。

由此数值猜测为主的气候预告成为了一种对立的归纳体,这让它能提高的空间尽管巨大,但又非常受限——人们迫临精确性的办法除了堆集经历,只要尽或许多地搜集数据和构建越来越杂乱的函数,但它的边沿效益正在越来越强的闪现,更多的数据并不能大幅度、全面地提高气候预告在微观和微观标准上的精确性,而通用核算的本钱却在持续增加。

到此处,状况好像陷入了一个僵局。海量数据,杂乱算法以及高算力需求,让数值核算某种程度上走向瓶颈,但这三个条件看上去是不是有点眼熟?

好像有点像大模型的三个要素?

实际上,在品玩看到的某个气候技能内部研讨会资料上,有专家直接声称:人工智能和气候作业在办法论上是相通的。

已然数值核算的公式实际上并不能尽头整个混沌体系里的一切因果,为什么不必神经网络的办法,把海量的数据导入其间,让核算机自己来寻觅和学习其间的规则?

这看上去像是一种不行言说,又反常奥妙合理的解说。

人类的*台电子核算机ENIAC埃尼阿克和*台依据冯·诺依曼结构打造的核算机EDSAC实际上都用来进行过气候学相关的科学核算,气候学的开展一直和核算机科学的前进紧密连接——高功能核算推动了气候科学的杂乱问题的处理,而跳出通用核算的思路后,神经网络和大模型看上去是气候学和气候预告的一个非常风趣且入情入理的方向。

实际上,这次对杜苏芮飓风轨道的猜测,中央气候台就参阅了人工智能大模型的效果。

另辟蹊径

气候大模型并不是跟着去年底生成式AI的火爆才呈现的,一向以来运用强壮算力、巨量数据和各种深度学习架构来猜测气候的大模型就有许多,在国外比较有名的有英伟达FourCastNet,DeepMind和谷歌的GraphCast以及微软的ClimaX,国内最近出圈的则是华为盘古大模型和上海风乌大模型,后者来自上海人工智能实验室。

盘古和风乌都运用了欧洲气候中心名为ERA5的气候再剖析数据集,它供给了过往60余年,掩盖地表37个等压面的各种气候数据共2000TB。

这些数据给大模型供给了发挥的空间——不再运用精准对应的数值核算,而是让AI更灵敏地去发掘数据之间的各种杂乱联系。

盘古构建了一个3D transformer 结构,让海洋、大气和陆地的杂乱交互物理进程融为一体,而过往的气候大模型,比方英伟达的FourCastNet则都选用的2D结构——每个等压面为一层,显着,2D平面没有办法更好反响气候改动的进程。

依据品玩看到的资料,华为在这个3D 结构中运用了*方位编码,由此显着加快了模型的收敛,此外,华为练习了四个根底模型别离对应1小时、3小时、6小时和24小时的猜测,经过时域交融的办法明显削减了过往模型中因为小步长、屡次迭代构成的差错。

关于猜测老大难飓风,盘古运用了平均海平面气压作为猜测基准,其效果比欧洲气候局更好。

风乌大模型的思路则是用6个独立的编码器对不同的气候参数(湿度、风、温度等)进行编码解码,不同变量之间用独立的transformer网络进行学习。

同华为时域交融削减差错的办法不同,风乌规划了一个缓存空间用来贮存和回放练习进程中的效果,以让神经网络习惯其差错,然后完结了更好的猜测作用。

这些新的气候大模型猜测的作用,尽管现在的效果还很开始,发布的成果也是在一些详细目标上好于传统数值猜测办法,需求全面的测验和优化,但毋庸置疑它们代表了一种迥然不同于传统气候猜测的新范式。

现在,华为的盘古大模型现已在欧洲中期气候预告中心完结了开始事务运转,而风乌则声称是现在最精准的全球高分辨率AI气候预告模型,提早24小时对杜苏芮猜测的差错值为38.7公里,精确度优于欧洲中期气候预告中心的54.11公里。

漫漫前路

革新即将来临。气候大模型在许多方面都很有或许推翻气候预告形式,比方说速度。风乌用一张GPU在1分钟内就能生成未来14天全球一切区域37个层级高精度高分辨率气候预告效果,而盘古的7气候候预告生成时刻只需求9.8秒。

为数值核算所树立的实时气候数据传输体系和通用算力根底设施将会因而改动。依据品玩了解到的气候局内部人士观念以为,尽管短期内还只是作为一种预告参阅,但中长时间看,气候大模型潜力无疑非常巨大。

现在,这些气候大模型首要面临的问题或许有两个方面,首先是调优。极点气候等数据如安在大模型中被正确标示是一个问题,AI模型的拟合才能很强,因而在长时间预告中有或许呈现过错,这或许能够称之为气候大模型的“错觉”。

别的,现在的大模型还没有更深的职业 know how 储藏,模型的构建都由核算机科学家,而不是气候专家完结,也便是说这些笔直大模型还缺少“人类反应”调优。

另一个问题则是陈词滥调的算力,尽管我国在超级核算机开展方面位居国际前列,但大模型所运用的并不是传统超级核算机的通用算力,深度网络的运转需求大规划的并行核算,也便是高功能GPU,在这方面咱们仍处于卡脖子状况。

所幸气候大模型所直接触及的算力本钱并不高,依据品玩了解到的状况,几十张英伟达显卡(乃至不需求*进类型)就能够在几周,至多2个月的时刻内完结模型的练习。这也成为它相较于传统数值猜测形式的一个优势。

在气候大模型加持下,“天有不测风云”这句话或许很快将成为一个伪出题,而有一天,或许咱们真的能够一起猜测那摇动的蝴蝶与暴烈的飓风终究来自何处,又要去往何方。

上一篇:AI大模型要革AI的命
下一篇:三位教授团体做VC
我要开户 我要开户 软件下载 客户端