🟢 🤖 模型 发布于: · 2 分钟阅读 ·

Allen Institute:AIMIP基准测试——AI气候模型在历史数据上精度提升2倍,但无法泛化至长期变暖趋势

编辑插图:AI模型曲线与历史数据对比的气候时间序列图表。

AIMIP(AI模型比较项目)是Allen Institute联合NVIDIA、谷歌研究院、华盛顿大学、马里兰大学和ArchesWeather团队于2026年5月13日发布的新型AI气象和气候模型社区基准测试。第一阶段对八个AI模型模拟的评估显示历史数据误差减少了一半——但同时也暴露出在长期变暖趋势上的严重泛化能力不足。

🤖

本文由人工智能基于一手来源生成。

Allen Institute(AI2)于2026年5月13日发布AIMIP——AI模型比较项目,这是一个AI气象和气候预测社区基准测试。第一阶段评估包含六个建模团队的八个模型模拟,揭示了AI模型在泛化至长期气候变暖方面的严重能力缺失。

AIMIP第一阶段有哪些机构参与?

第一阶段汇聚了共提交八个模型模拟的六个团队:Ai2气候建模NVIDIA谷歌研究院华盛顿大学马里兰大学ArchesWeather团队。Allen Institute将该项目定位为「社区工作」——旨在实现可与传统CMIP(气候模型比较项目)框架相媲美的标准化评估。

评估在历史数据上显示了什么?

AI模型表现出色——领先系统在近地面气温等领域将时间平均误差降低了2倍(相较于传统模型)。这表明AI在短中期天气预测方面具有优越性,而传统GCM(大气环流模型)在精细分辨率方面计算成本过高。

AIMIP揭示了哪个严重弱点?

评估发现了显著的泛化弱点:模型在预测训练期之外的长期变暖趋势时表现欠佳。虽然部分模型能够充分跟踪变暖趋势,但其他模型「显著低估了变暖幅度」,表明在不同气候情景间存在泛化差距。这是关键限制——AI气候模型必须能够正确外推至未包含在训练分布中的未来温度情景。

这一弱点对实际应用意味着什么?

AI气候模型目前对历史数据的细粒度重现短期天气预报有用,但对于百年尺度气候预测仍不可靠——而这恰恰是为政策制定提供依据的气候GCM的主要用途。AIMIP将在后续阶段添加更多模型和情景,特别关注分布外泛化能力。

模型架构由「参与建模团队自主决定」——AIMIP不规定架构,只规定输入/输出规范,从而可以在同一基准测试上比较不同方法(变换器、图神经网络、物理-ML混合模型)。这一方式将AIMIP定位为科学比较基础设施,而非推崇某一特定模型解决方案。

常见问题

什么是AIMIP,哪些机构参与?
AIMIP是为AI气象和气候模型标准化评估而设计的社区基准测试;第一阶段汇聚了六个建模团队——Ai2气候建模、NVIDIA、谷歌研究院、华盛顿大学、马里兰大学和ArchesWeather团队,共同提交了八个模型模拟。
评估测试发现了什么?
AI模型在历史数据上表现出色——领先系统在近地面气温等领域将时间平均误差降低了2倍;但在预测训练期之外的长期变暖趋势时表现欠佳,部分模型显著低估了变暖幅度。