OlmoEarth v1.1:より効率的なモデルファミリーの登場
AllenAI は Hugging Face で OlmoEarth v1.1 を公開し、シーケンス長の短縮とトークン設計の最適化により計算効率を大幅に向上させた新しいモデルファミリーを発表した。
キーポイント
効率性の飛躍的向上
シーケンス長を短くする技術的アプローチを採用し、従来のモデルと比較して推論および学習時の計算リソース消費を劇的に削減している。
トークン設計の最適化
言語モデルの性能と効率に直結するトークン化(Tokenization)戦略を見直し、情報密度の高い新しいトークンセットを採用した。
開発者・研究者向けリソース提供
Hugging Face 上のコレクション、技術レポート、および GitHub 上の事前学習コードを公開し、コミュニティによる検証と応用を促進している。
影響分析・編集コメントを表示
影響分析
この発表は、大規模言語モデルの運用コスト削減と環境負荷低減に向けた重要な実証事例であり、特にリソース制約のある環境や研究開発における効率化に寄与します。オープンソースコミュニティがより効率的なアーキテクチャを採用することで、AI の民主化と持続可能な発展を加速させる可能性があります。
編集コメント
計算効率を重視した設計思想は、大規模モデルの普及におけるボトルネック解消に直結する重要なステップです。オープンソースコミュニティへの完全なリソース提供により、実装レベルでの検証とさらなる改良が期待されます。
- シーケンス長を短縮することで効率性を向上させる
- トークンの設計
- 開発者向け
- 研究者向け
- はじめに
🧠 モデル:https://huggingface.co/collections/allenai/olmoearth | 📄 テクニカルレポート:https://allenai.org/papers/olmoearth_v1_1 | 💻 コード:https://github.com/allenai/olmoearth_pretrain
私たちは 2025 年 11 月に OlmoEarth (v1) をリリースしました。それ以来、パートナーはマングローブの変化の追跡から森林減少の原因の分類、数日間で国規模の作物タイプマップの作成に至るまで、幅広いタスクでこのモデルを適用してきました。また、展開規模も国家レベル、大陸レベル、そしてグローバルレベルに拡大されています。すべてのリリースは、私たちのミッションである「人々と地球を守るために活動する組織やコミュニティへ最先端の AI を届ける」ことに一歩ずつ近づいています。
OlmoEarth が衛星画像を処理して数万から数十万平方キロメートルにわたる予測を行う際、効率性が実現可能な範囲を決定づけます。データのエクスポート、前処理、推論、後処理を含む OlmoEarth の運用全体ライフサイクルにおいて、計算リソースのコストが圧倒的に最も高くなります。より効率的なモデルであれば、OlmoEarth Platform 上でより多くのパートナーをサポートでき、また自環境で OlmoEarth を実行する個人や組織も、この技術をより迅速に、かつ低コストで活用できるようになります。
そのため、私たちは OlmoEarth v1.1 を構築しました。これは、研究ベンチマークやパートナーと共同で構築したタスクの組み合わせにおいて OlmoEarth v1 の性能を維持しつつ、計算コストを最大 3 倍削減する新しいモデルファミリーです。
シーケンス長を短縮して効率化を図る
OlmoEarth モデルはトランスフォーマーベースのモデルであり、現在の機械学習において支配的なアーキテクチャの一つです。リモートセンシングデータを処理するには、まずそれをモデルが取り込める *トークン* のシーケンスに変換する必要があります。
トランスフォーマーベースのモデルにおける効率を制御する 2 つの重要なレバーがあります。モデルサイズ(これが私たちがモデルファミリーとしてリリースする理由であり、ユーザーは自身の計算予算に合ったサイズを選べるようにするため)とトークンシーケンス長です。計算コストはトークンシーケンス長の二乗に比例して増加するため、わずかな削減でもモデル実行コストを有意に低下させることができます。
*MACs(Multiply-Accumulate Operations:乗算加算演算)とは、1 回のモデル順伝播に必要な計算量を推定する指標です。一般的に MACs が低いほど、推論は安価かつ高速になります。Y 軸は逆転しており、平均ランクが低いほど優れていることを示しています。ラベルにはモデルファミリーとサイズが表示されています。プロットされたすべての点は、貼り付けられた MAC/ランク値を使用しています。
トークンの設計
これはトランスフォーマーベースのリモートセンシングモデルにとって重要な問いを提起します:トークンは何を表すべきか?
Sentinel-2 の画像データを例に挙げましょう。これは私たちが処理する一般的なモダリティです。Sentinel-2 の入力データは、高さ H と幅 W(それぞれ緯度方向および経度方向のピクセル数を表す)、時間次元 T、そして 12 個の Sentinel-2 チャネルを持つテンソル [H, W, T, D=12] となります。
現在、私たちはデータを「解像度ベースのパッチ」に分割しています。具体的には、ある空間パッチサイズ p を選び、全体の Sentinel-2 画像を p x p のサイズの複数のパッチに分割します:
各パッチに対して、時間ステップごとに解像度ごとのトークンを生成します。したがって、2 つの時間ステップを持つ Sentinel-2 入力の場合、1 パッチあたり 6 トークン(2 つの時間ステップ × 3 種類の解像度:10m、20m、60m)が生成されます。
合計すると、[H, W, T, D=12] の Sentinel-2 入力からは H/p x W/p x T x 3 トークンが得られます。
解像度ごとに固有のトークンを使用する手法は、Sentinel-2 データを処理する際に一般的な技術です。Galileo や SatMAE はこのアプローチを採用しており、特に SatMAE ではこれを行うことで著しく優れた結果を示しています。しかし、これは普遍的な手法ではありません。CROMA は、解像度に関わらずすべてのバンドに対して単一のトークンしか使用しないモデルです。トークン数は乗算的に蓄積するため、解像度を単一のトークンに集約することで、トークン数が 3 分の 1 に減り、事前学習、ファインチューニング、推論のいずれにおいても実質的なコスト削減が可能になります。
このようにトークンを単純に組み合わせると、パフォーマンスが著しく低下し、m-eurosat kNN(リモートセンシングモデルの一般的なベンチマークタスク)で 10 ポイントもの低下が見られます。私たちは、Sentinel-2 のバンドを異なるトークンに分離することが、OlmoEarth が重要なクロスバンド間の関係をモデル化しやすくしているという仮説を立てています。
パフォーマンスに影響を与えることなくトークンをマージするには、事前学習の regimen(訓練手順)を変更する必要がありました。これらの変更の詳細については論文で説明しています。
開発者向け
その結果、より少ないリソースでより多くのことができるモデルファミリーが生まれました。あらゆるサイズにおいて、OlmoEarth v1.1 は OlmoEarth v1 よりも最大 3 倍コストを抑えられ、OlmoEarth を運用するすべてのチームにとって、頻繁な地球規模の地図更新がより手頃になります。もしあなたが元の OlmoEarth ファミリーからモデルを使用しているなら、OlmoEarth v1.1 を試してみてください。計算リソースを 3 分の 1 で済ませながら OlmoEarth v1 と同様のパフォーマンスを提供しますが、いくつかの性能低下(regressions)も確認されています(詳細は技術レポートをご覧ください)。あなたのタスクに適合する場合は、ファインチューニングや推論時に著しい速度向上が期待できます。
研究者向け
事前学習済みリモートセンシングモデルには多くの自由度があり、研究が困難です。パフォーマンスに変化が生じた場合、それはアーキテクチャ(構造)のせいなのか、データセットのせいなのか、それとも事前学習アルゴリズムのせいなのか?
OlmoEarth v1.1 は OlmoEarth v1 と同じデータセットでトレーニングを行っているため、両者の違いは手法の変更による効果のみを抽出したものです。リモートセンシング用の事前学習モデルを開発する際の科学的原理の理解が深まることを願っています。
始め方
OlmoEarth v1.1 の重みとトレーニングコード、さらに Base、Tiny、Nano モデル用の重みもご確認いただけます。
原文を表示
- Increasing efficiency by decreasing sequence lengths
- Designing the token
- For developers
- For researchers
- Get started
🧠 Models: https://huggingface.co/collections/allenai/olmoearth | 📄 Tech Report: https://allenai.org/papers/olmoearth_v1_1 | 💻 Code: https://github.com/allenai/olmoearth_pretrain
We released OlmoEarth (v1) in November 2025. Since then, partners have applied it across a wide range of tasks, from tracking mangrove change to classifying drivers of forest loss to producing country-scale crop-type maps in days, scaling deployments to national, continental, and global areas. Every release moves us closer to our mission: bringing state-of-the-art AI to organizations and communities working to protect people and our planet.
When OlmoEarth processes satellite imagery to make predictions across tens to hundreds of thousands of square kilometers, efficiency shapes what’s possible. Over the full lifecycle of running OlmoEarth – data export, preprocessing, inference, and post-processing – compute is by far the highest cost. A more efficient model means we can support more partners on the OlmoEarth Platform, and that anyone running OlmoEarth on their own can leverage this technology faster and at lower expense.
That’s why we built OlmoEarth v1.1: a new family of models that cuts compute costs by up to 3x while maintaining OlmoEarth v1's performance on a mix of research benchmarks and tasks we’ve constructed with partners.
Increasing efficiency by decreasing sequence lengths
The OlmoEarth models are transformer-based models, one of the dominant architectures in machine learning today. To process remote sensing data, we first convert it into a sequence of *tokens* the model can ingest.
Two important levers control efficiency in transformer-based models: model size (this is why we release a family of models, so users can pick the size that fits their compute budget) and token sequence length. Compute costs scale quadratically with the token sequence length, so even small reductions can meaningfully cut the cost of running the model.
*MACs, or multiply-accumulate operations, estimate the computation needed for one model forward pass; lower MACs generally mean cheaper, faster inference. The y-axis is inverted because lower average rank is better. Labels show model family and size. All plotted points use the pasted MAC/rank values.*
Designing the token
This raises an important question for transformer-based remote sensing models: what should a token represent?
Take Sentinel-2 imagery, a common modality we process. A Sentinel-2 input will be some tensor with a height and width (H, W representing the latitudinal and longitudinal pixels), a temporal dimension T, and 12 Sentinel-2 channels ([H, W, T, D=12]).
Currently, we split the data into *resolution-based patches.* Concretely, this means that we will pick some spatial patch size p, and split our overall Sentinel-2 image into patches of size p x p:
For each patch, we create a token per timestep per resolution. So a Sentinel-2 input with 2 timesteps yields 6 tokens per patch (2 timesteps x 3 resolutions, 10m, 20m, and 60m).
In total, a[H, W, T, D=12] Sentinel-2 input will yield H/p x W/p x T x 3 tokens.
Using a unique token per resolution is a common technique when processing Sentinel-2 data—Galileo and SatMAE both take this approach, and SatMAE shows significantly better results when doing it. However, it is not universal: CROMA is a model that only uses a single token for all bands, regardless of resolution. Because token counts compound multiplicatively, collapsing resolutions into a single token produces three times fewer tokens and material savings across pretraining, fine-tuning, and inference.
Naively combining the tokens in this way leads to significant performance drops, including a 10 ppt drop on m-eurosat kNN (a common benchmark task for remote sensing models). We hypothesize that separating Sentinel-2 bands into different tokens makes it easier for OlmoEarth to model important cross-band relationships.
Merging tokens without impacting performance required us to modify our pre-training regimen. We describe those changes in detail in our paper.
For developers
The result is a model family that does more with less. At every size, OlmoEarth v1.1 runs up to three times cheaper than OlmoEarth v1, making frequent, planet-scale map refreshes more affordable for every team running OlmoEarth. If you're using a model from the original OlmoEarth family, try OlmoEarth v1.1. It provides similar performance to OlmoEarth v1 while requiring one third of the compute, though we have seen some regressions (see our technical report for more details). If it works for your task, you should see a significant speedup during fine-tuning and inference.
For researchers
Pretrained remote sensing models have many degrees of freedom, which makes them hard to study. When performance shifts, is it the architecture, the dataset, or the pre-training algorithm?
We train OlmoEarth v1.1 on the same dataset as OlmoEarth v1, so any differences between the two isolate the effect of methodological changes. We hope this advances understanding of scientific principles when pretraining models for remote sensing.
Get started
Check out the OlmoEarth v1.1 weights and training code, including the weights for our Base, Tiny, and Nano models.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み