AI 気候モデルの相互比較プロジェクト「AIMIP」を発表
Allen AI が発表した AIMIP は、AI 気候モデルの性能を評価する新たなオープンベンチマークであり、既存モデルとの比較や限界を明確に示した。
キーポイント
AIMIP ベンチマークの導入
AI 気候モデルの評価と相互比較を行うための新しいオープンなベンチマークおよびデータセットとして AIMIP が公開された。
既存モデルとの性能比較
一部の歴史的気候指標においては、AI モデルが従来の物理ベースのモデルに匹敵するかそれを超える結果を示した。
一般化能力の限界
長期的な温暖化傾向や未経験の気候シナリオに対する信頼性のある一般化には依然として課題が残っていることが明らかになった。
影響分析・編集コメントを表示
影響分析
このベンチマークは、AI を用いた気候モデリングの現状を客観的に可視化し、過度な期待と現実のギャップを明確に示す役割を果たします。これにより、研究コミュニティは AI モデルの強みと弱みを理解した上で、より堅牢なモデル開発やハイブリッドアプローチへの投資判断を下すことが可能になります。
編集コメント
AI の気候分野への応用が加速する中、その限界を正直に示すこのベンチマークは非常に貴重です。開発者は「どこまでできるか」だけでなく「どこで止まるか」を知ることで、より実用的なソリューションへと歩を進めるべきでしょう。
2026 年 5 月 13 日
ブライアン・ヘン - Ai2
新しい世代の AI モデルは、従来のシステムに比べて地球の気候の側面をはるかに効率的にシミュレートできますが、これらのモデルが正確で信頼性があるかどうかを検証するための厳密かつ共有された方法については、依然として分野全体での必要性が残されています。
このギャップに対処するため、私たちは気象予測における AI モデルの科学的理解とオープンな評価を支援するコミュニティ活動である AIMIP(AI モデル相互比較プロジェクト) を主導しています。AIMIP は、NVIDIA、Google Research など複数のモデリンググループを集め、共通のベンチマーク実験とデータセットを共有することで、システム間の比較を共通の出力と評価基準に基づいて容易にし、これらのモデルがどのように評価されるかに対する信頼性を構築する手助けをしています。
AIMIP フェーズ 1 の一部として、上記のベンチマーク実験用の AI 気象・気候モデル予測データセット と、AI モデルが主要な気候指標において競合可能である一方で特定の分野では依然として課題を抱えていることを示す報告書および評価結果を公開します。
気象・気候予測における革命の活用
AI を用いた気候モデルは比較的新しい技術ですが、これは AI を活用して短期間の気象パターンを予測する分野で過去数年間にわたり急速に進展してきた成果の上に成り立っています。大気全体にわたる長期にわたる歴史的な気象観測データ(ERA5 と呼ばれる)を学習データとして用いることで、AI 駆動型の予測は、AI 気象モデル向けのリーダーボードである WeatherBench で示されている通り、今後 1〜10 日先の予測における主要な技能指標において従来の気象モデルをすでに凌駕する結果を出しています。さらに、これらは従来のモデルに比べてはるかに少ない計算資源で実行できるという驚異的な速度を誇ります。
AI 駆動型の気候モデルの開発においては、AI を用いた気象予測の進展が活用されていますが、同時に独自の課題にも直面しています。つい最近まで、伝統的な気候モデルのように長期的な気候をシミュレーションできる AI モデルはほとんど存在しませんでした。また、WeatherBench と異なり、AI 気候モデルの評価基準や指標については、明確に定まっていない点が多いのが現状です。
なぜこれらの課題が存在するのかを理解するためには、まず気候モデルがどのような役割を果たし、通常どのようにテストされているのかを理解することが役立ちます。
気候モデルと MIPs
過去数十年にわたって開発されてきた物理ベースの気候モデルは、特定のシナリオ下における地球の気候を数十年から数世紀にわたる期間でシミュレーションすることを目的としています。これらは、シミュレーション期間を進めるにつれて、物理法則を用いて短時間スケールでの天気を予測し、それを地球上全体に対して繰り返し実行することで実現されます。その結果得られる天気の平均値や極端な事象が気候を構成します。例えば、特定の地点における平均気温や降水量だけでなく、熱波や熱帯低気圧のような極端現象が発生する確率も含まれます。
気候モデルはまた、時間経過に伴う海洋や海氷の変化(地球システムの他の部分も含む)の影響も考慮する必要があります。なぜなら、これらの長期間スケールでは天気に有意な影響を及ぼすからです。さらに、温室効果ガス(GHG)排出量の増加など、あり得る様々な危険やシナリオの評価も行わなければなりません。
その結果、気候モデリングにおける計算上の要求は莫大なものとなります。歴史的には、大規模高性能コンピューティングシステムへのアクセス権を持つ科学者(例えば国立研究所の研究者など)のみがシミュレーションを実行でき、世界中で開発されるモデルの数も限られていました。この希少性が、共有評価フレームワークが気候科学において極めて重要になった理由の一つです。
気候モデルを評価するために、科学コミュニティは「モデル相互比較プロジェクト(MIPs)」と呼ばれるツールを使用しています。MIP とは、気候モデルが実行し、評価のために共通の出力を提供しなければならない標準化された実験です。現在進行中の Coupled Model Intercomparison Project(CMIP)は、例えば温室効果ガス排出の影響に関する正確なモデル予測を開発するためのコミュニティのキャンペーンを推進する原動力となってきました。
AI 気候モデリングは、AI 天気予報と同じく、物理ベースの気候モデルと比較して革命的な速度と効率で実施される予報という約束を提供します(計算量は最大 3 オーダー少なくて済みます)。これにより、より広範なユーザー層に対して科学発見の可能性を開くことが期待されています。しかし、複数のグループがさまざまな AI アーキテクチャを用いた AI モデルが、数十年から数世紀にわたる安定した高忠実度の予測を行えることを示したのは、ここ 2 年ほど前のことです。また、それらが異なる気候シナリオに対して正しく応答する能力については、依然としてほとんど不明な点が残っています。
既存の相互比較フレームワークは従来の気候モデル向けに構築されたものであり、今日の AI 気候モデルが持つ能力や、それを取り巻く問いに対応していません。そのため、AI モデルと従来の気候モデリングの両方のグループとのコミュニティ対話から生まれた AIMIP を立ち上げるには、まさに好適な時期でした。
AIMIP フェーズ 1:仕様と提出
AIMIP フェーズ 1 は、プロジェクトの最初の共有ベンチマーク実験であり、広範な参加を可能にするために範囲を狭く保ちつつ、共通の設定下で AI 気候モデルを比較することを目的としています。このフェーズでは、モデルが 1979 年から 2024 年までの地球大気の状態を予測し、月次および日次の出力頻度を持つことが必須とされています。モデルは 1979 年から 2014 年の ERA5(再解析データ)の歴史観測データのみを使用して訓練する必要があり、最後の 10 年間をテストデータとして残しますが、AI アーキテクチャの選択については参加するモデリンググループに委ねられています。
海洋および海氷の状態は、歴史的に観測された値で規定されます。これは、AI 気候モデル化の初期段階においては、大気の挙動のみ focuses に焦点を当てることを目的としているためです。しかし、将来の AIMIP フェーズでは、AI が「結合(coupled)」気候モデルを通じて海洋、海氷、および他の地球システムコンポーネントをシミュレートすることも可能になるかもしれません(例:SamudrACE モデル)。その場合、AIMIP もこれを適切に捉えるために進化させる必要があります。
AIMIP フェーズ 1 では、モデルは大気内の 7 レベルにおける温度、湿度、風を出力するとともに、地表における温度、降水、およびその他の主要な気象変数も出力する必要があります。また、従来の気候モデルや評価ツールとの相互比較を容易にするため、出力は一般的な CMIP(気候モデル相互作用プロジェクト)フォーマットの仕様と互換性を持たせる必要があります。
Ai2 Climate Modeling と、アーチズウェザーグループ(ArchesWeather group)、NVIDIA、ワシントン大学、メリーランド大学、Google Research の 5 つの外部組織が、AIMIP フェーズ 1 にモデルシミュレーション計 8 つを提出しました。
歴史的気候の忠実な再現だが、その変化予測には課題が残る
このデータセットを用いることで、AI 気候モデルがいかに過去数十年にわたる歴史的気候とその変化をシミュレートしているかを評価できます。我々の発見によると、アーキテクチャの選択にかかわらず、AI モデルは平均的な歴史的気候パターンのシミュレーションにおいて非常に優れた成果を示しており、通常、従来の物理ベースの気候モデル(physically-based climate model)を上回ります。最も精度の高い AI 気候モデルでは、地表付近の気温(near-surface air temperature)などの分野における時間平均誤差を 2 倍に削減できます。
より厳しいテストは、歴史的記録に明確な長期的温暖化傾向を捉えられるか、特に訓練期間を超えて ERA5 データの最終的な保留期間(held-out final decade)まで含めて予測できるかどうかです。そこでは結果は様々です。一部のモデルは温暖化傾向をよく追跡していますが、他のモデルはそれを大幅に過小評価しています。将来条件への一般化は気候変動予測にとって不可欠ですが、AI モデルの訓練期間中の情報科学や気候リスク要因のサンプリングといった他の用途においては、それほど重要ではない可能性があります。
さらに、提出されたモデルの、エルニーニョ海洋条件に対する大気応答、日々の大気変動、そして全球の海面が瞬時に 2 度または 4 度温暖化するという真にサンプル外(out-of-sample)の「ショック」をシミュレーションする能力も評価しました。後者のシナリオは物理的に起こりうる可能性は低いですが、AI モデルが見知らぬ条件に対してどのように一般化するかを理解するには有用です。おそらく驚くべきことではありませんが、このサンプル外のケースではモデルの予測が大きく分岐し、中には物理的に不自然な結果を生み出すものもあります。
今後の展望:オープンデータセットとコミュニティによる評価
AIMIP フェーズ 1 データセット はドイツ気象計算センター(DKRZ)を通じてホストされており、地球システムグリッド連合(ESGF)への公開を計画することで、気候科学コミュニティ全体に広くアクセス可能にする予定です。すでに科学者たちはこのデータセットを用いて AI 気候モデルのさらなる評価を行っており、私たちの研究は継続的な研究のための入り口として機能しています。
AIMIP フェーズ 1 の結果は、AI 気候モデルの中核的な課題の一つが、さまざまな気候シナリオに対して堅牢に対応できるかどうかであることを示唆しています。つまり、これらのモデルを科学コミュニティによって広く採用されるためには、一般化能力が極めて重要となります。特に、研究者たちは、未経験の温室効果ガス排出シナリオ下における AI 気候モデルの挙動を信頼できるようになる必要があります。従来の気候モデルの出力データは、一部のケースではトレーニングデータとして提供され得ますが、追加的な AI 固有のアプローチが必要となる可能性が高いでしょう。
AIMIP フェーズ 1 がコミュニティにとって価値あるものとなり、かつ AI 気候モデリングが現在のペースで進展し続けるならば、将来の AIMIP フェーズが続くことになります。これらはおそらく、海洋や海氷を含むより複雑な結合モデル(coupled modeling)、温室効果ガス排出経路などより広範なシナリオセット、そしてより包括的な出力要件と評価へと拡大していくでしょう。
AIMIP を可能にするために尽力いただいたモデリンググループおよびパートナーの皆様に感謝申し上げます。初期データセットとそれに対する当社の分析が、AI 気候モデルの評価や異なるアプローチの比較、さらにはさらなる進展が必要な領域の特定において、この分野に有用な基盤を提供することを願っています。
最新の Ai2 ニュースに関する月次更新を受け取るには、購読してください。
原文を表示
May 13, 2026
Brian Henn - Ai2
A new generation of AI models can simulate aspects of Earth’s climate far more efficiently than traditional systems, but the field still needs rigorous, shared ways to test whether those models are accurate and reliable.
To address that gap, we’ve been leading a community effort called AIMIP (AI Model Intercomparison Project) to support scientific understanding and open evaluation of AI models for climate forecasting. AIMIP brings together multiple modeling groups, including NVIDIA, Google Research, and others, around a shared benchmark experiment and dataset—making it easier to compare systems on common outputs and evaluation criteria and helping build confidence in how these models are assessed.
As part of AIMIP Phase 1, we’re releasing a dataset of AI weather and climate model forecasts for the above-mentioned benchmark experiment, along with a report and evaluations showing that AI models are competitive on key climate metrics but continue to struggle in some areas.
Leveraging a revolution in weather and climate forecasts
AI climate models are relatively new, but they build on several years of rapid development in using AI to predict short-term weather patterns. Relying on a large dataset of historical weather observations spanning the entire atmosphere (called ERA5) as training data, AI-driven forecasts now regularly beat conventional weather models at key skill metrics for forecasts 1-10 days in the future as demonstrated on WeatherBench, a leaderboard for AI weather models. And they do so with extraordinary speed, using far less computational power than conventional models.
The development of AI-driven climate models, in turn, has made use of advances in AI weather forecasting—but it faces a unique set of challenges. Until quite recently, there were few AI models that could simulate climate over long timescales in a way that resembles a traditional climate model. And unlike WeatherBench, the benchmarks and metrics around which to evaluate AI climate models are less obvious.
To understand why these challenges exist, it helps to first understand what climate models do and how they’re usually tested.
Climate models and the MIPs
Developed over the last several decades, physically-based climate models aim to simulate Earth's climate under particular scenarios over periods of decades or centuries. They do this by using physical laws to predict the weather on short timescales, over and over for the entire globe, as they advance through a simulation period. The resulting averages and extremes of weather make up the climate—the average temperature and precipitation for a given location, for example, but also its likelihood of experiencing an extreme event such as a heat wave or a tropical storm.
Climate models must also account for the effects of changes in the ocean and sea ice (among other parts of the Earth system) over time, because on these long timescales they meaningfully affect the weather. And they must also evaluate a range of possible hazards and scenarios such as rising greenhouse gas (GHG) emissions.
The computational demands of climate modeling are tremendous as a result. Historically, only scientists with access to large high-performance computing systems – e.g., at national laboratories – were able to execute the simulations and a limited number of models were developed around the world. That scarcity is one reason why shared evaluation frameworks have become so important in climate science.
To evaluate climate models, the scientific community uses a tool called model intercomparison projects, or MIPs. A MIP is a standardized experiment that climate models must execute and from which provide common outputs for evaluation. The ongoing Coupled Model Intercomparison Project, or CMIP, has been the driving force behind the community’s campaign to develop accurate model forecasts of the effects of GHG emissions, for example.
AI climate modeling offers the same promise as AI weather forecasting: forecasts that are made with revolutionary speed and efficiency as compared to physically-based climate models (with up to three orders of magnitude less compute), offering the potential to unlock scientific discovery for a much wider range of users. But only in the last two years or so have AI models from multiple groups, using a variety of AI architectures, demonstrated that they can make stable, high-fidelity predictions for decades and centuries. And their ability to correctly respond to different climate scenarios is still largely unknown.
Existing intercomparison frameworks were built for conventional climate models, and don’t match the capabilities or address the questions surrounding today’s AI climate models. Thus, the time was ripe for AIMIP, which developed out of community conversations with both AI and conventional climate modeling groups.
AIMIP Phase 1: Specification and submissions
AIMIP Phase 1 is the project’s first shared benchmark experiment, designed to compare AI climate models under a common setup while keeping the scope narrow enough for broad participation. It specifies that a model must forecast the state of the global atmosphere over 1979-2024 with monthly and daily output frequencies. Models must be trained only on the ERA5 historical observations from 1979-2014, leaving the last decade as test data, but the choice of AI architecture is up to the participating modeling groups.
The ocean and sea ice states are prescribed with historically observed values, because at this early stage in AI climate modeling the goal is to focus on the behavior of the atmosphere alone. However, in future AIMIP phases, it may be possible for AI to simulate the ocean, sea ice, and other Earth system components via a “coupled” climate model (e.g., like our SamudrACE model), and AIMIP will need to evolve to properly capture this.
In AIMIP Phase 1, models must output temperature, humidity, and winds at seven levels in the atmosphere, as well as temperature and precipitation and other key weather variables at the surface. They must also make their outputs compatible with typical CMIP format specifications to facilitate intercomparison with conventional climate models and evaluation tools.
Ai2 Climate Modeling and five outside organizations – the ArchesWeather group, NVIDIA, the University of Washington, the University of Maryland, and Google Research – submitted eight model simulations to AIMIP Phase 1.
Faithful representation of the historical climate, but challenges in predicting its changes
With the dataset, we can evaluate how well AI climate models are simulating the historical climate and its changes over the past several decades. We find that AI models, almost regardless of architectural choices, do very well at simulating average historical climate patterns—typically beating a conventional physically-based climate model at this task. The most accurate AI climate models can reduce the time-averaged error in fields like near-surface air temperature by a factor of 2.
A more demanding test is whether the models capture the long-term warming trend visible in the historical record, especially beyond their training period and into the held-out final decade of ERA5 data. There, the picture is more mixed. Some models track the warming trend quite well, while others underestimate it significantly. While generalizing to future conditions is essential for climate change projections, it may be less critical for other use cases such as informatics or sampling of climate risk factors during an AI model's training period.
Additionally, we evaluated the submitted models’ ability to simulate atmospheric responses to El Niño ocean conditions, day-to-day atmospheric variability, and a truly out-of-sample “shock” in which the global ocean surface is instantaneously warmed by 2 or 4 degrees Celsius. The latter isn’t a physically likely scenario, but it’s useful to understand how AI models might generalize to unseen conditions. Perhaps not surprisingly, the models’ predictions diverge significantly in this out-of-sample case, with some producing what appear to be physically implausible results.
Going forward: Open dataset and community evaluations
The AIMIP Phase 1 dataset is being hosted through the German Climate Computing Center (DKRZ), with publication to the Earth System Grid Federation (ESGF) planned to make it broadly accessible to the climate science community. Scientists are already using the dataset to carry out further evaluations of AI climate models, with our work serving as an entry point for continued research.
The results from AIMIP Phase 1 suggest that one of the central challenges for AI climate models is responding robustly to a range of climate scenarios. Generalization, in other words, will be critical if these models are to be widely adopted by the scientific community. In particular, researchers need to be able to trust how AI climate models behave under unseen GHG emissions scenarios. Conventional climate model outputs may provide training data for some of these cases, but additional AI-specific approaches will likely be needed.
If AIMIP Phase 1 proves valuable to the community, and if AI climate modeling continues to advance at its current pace, future AIMIP phases will follow. These would likely expand to more complex coupled modeling, including of the ocean and sea ice; a broader set of scenarios such as GHG emissions pathways; and more extensive output requirements and evaluations.
We’re grateful to the modeling groups and partners who helped make AIMIP possible. We hope the initial dataset and our analysis of it will give the field a useful foundation for evaluating AI climate models, comparing different approaches, and identifying where more progress is needed.
Subscribe to receive monthly updates about the latest Ai2 news.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み