AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
TLDR AI·2026年6月23日 09:00·約25分で読める

2023-2031 年のモデルサイズスケーリング

#LLM#Model Scaling#HBM#GPU Architecture#Compute Constraints
TL;DR

TLDR AI は、HBM の読み込み速度やデータ不足といった物理的・計算資源の制約を分析し、2026 年から 2031 年にかけてモデルサイズが 10T から 1.4 兆パラメータへ急拡大する可能性を示唆している。

AI深層分析2026年6月24日 01:06
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
3
革新性10%
4

キーポイント

1

HBM バンド幅によるモデルサイズの物理的制約

トークン生成速度は HBM(高帯域メモリ)からのデータ読み込み速度に依存しており、大規模モデルでは HBM の半分以上を読み込む必要があるため、パイプライン段数や総パラメータ数に明確な上限が生じる。

2

2026-2031 年の予測モデルサイズ推移

計算資源とデータ制約を考慮した結果、2026 年に 10T パラメータ、2028 年に 240T、2031 年には 1.4 兆パラメータ(1.4 quadrillion)に達する可能性が示されている。

3

データ不足によるモデル肥大化の必然性

2027 年以降、十分な事前学習データの枯渇により、同じ性能を達成するためにモデルサイズを強制的に拡大せざるを得なくなり、2031 年のモデルはデータが無限にある場合と比べて 4 倍大きくなる見込み。

4

次世代 GPU アーキテクチャの読み込み時間

H100 から H200、B200/GB200、そして 2026 年の Rubin Ultra に至るまで、各世代の HBM スacks の構成と完全読み込みにかかる時間(13ms〜36ms)が詳細に比較されている。

影響分析・編集コメントを表示

影響分析

この記事は、AI モデル開発が単なるアルゴリズムやデータ量の競争から、ハードウェアの物理的制約(特にメモリ帯域)とデータ枯渇という現実的な壁に直面していることを示しています。業界関係者にとっては、今後のインフラ投資戦略やモデル設計において、単純なスケーリング法則の限界を理解し、HBM やスパース化技術への注力を強化する必要性を痛感させる重要な示唆となります。

編集コメント

ハードウェアの物理的限界とデータ枯渇という「地殻変動」が、今後の AI モデル進化を決定づけるという視点は非常に鋭く、開発者にとって重要な警鐘となっています。

トークン生成速度は、関連する HBM(高帯域幅メモリ)を読み込む速度によって制約されます。これは主に重みと KV キャッシュです。モデルが非常に大きく、単一のパスで重みを走査する際に HBM の半分を超えるデータを読み込む必要がある場合、スケールアップシステム内では並列読み込みが行われ、パイプラインには N 個のそのようなシステムが使用されます。このとき、推測デコーディングを含まないトークン生成にかかる時間は、少なくとも HBM スタックの半分以上を読み込む時間×N になります。特定のトークン生成速度を目標とする場合、これはパイプラインステージ数に制約を与え、それがモデルの総パラメータ数にも制約をもたらします。しかし、事前学習計算リソースが十分でない場合、モデルはこの制約よりも小さく留まることになります(与えられたアクティブパラメータ数におけるスパース性が低いほど、トークン生成速度は高くなるため)。したがって、両方の要因を考慮する必要があります。

これらの考慮事項を積み重ねることで、2023年から2031年の各年において実現可能なモデルサイズが導き出されます。パラメータ数は、2026年には8倍のスパース性(なおもオーバーンラックに制約され、1.3e27 FLOPsで訓練)で10Tから始まり、2028年には30倍のスパース性(利用可能な事前学習計算リソースに対してキバーラックが十分である)で240Tへ、そして2031年には30倍のスパース性(8倍のキバー・ファインマンスケールアップシステムで提供され、2.2e29 FLOPsで訓練)で1.4京(quadrillion)へと拡大します。2027年からは十分な事前学習データの不足によりモデルサイズがさらに膨らみ、2031年のモデルは無限のトレーニングデータが存在した場合に予測されるものよりも4倍大きくなければなりません。これらの推定には多くの仮定が含まれており、それらは随時明記していきます。

HBMスタックを完全に読み込むまでの時間

H100は、各計算ダイあたり5スタックの8-Hi HBM3(DRAMダイあたり2 GB、スタックあたり0.8 TB/s)を搭載し、完全読み込みに20 ms要します。H200は、各計算ダイあたり6スタックの12-Hi HBM3 [[1]](#fn-iN4rjTQjQfPTCYb5o-1) を搭載し、読み込みに30 ms要します。B200/GB200は、各計算ダイあたり4スタックの8-Hi HBM3E(DRAMダイあたり3 GB、スタックあたり1.0 TB/s)を搭載し、読み込みに24 ms要します。GB300は、4スタックの12-Hi HBM3を搭載し、読み込みに36 ms要します。2026年の非ウルトラ・ルービンチップは、各計算ダイあたり4スタックの12-Hi HBM4(DRAMダイあたり3 GB、スタックあたり2.75 TB/s [[2]](#fn-iN4rjTQjQfPTCYb5o-2))を搭載し、読み込みに13 ms要します。

Rubin Ultra はおそらく HBM4E の 12-Hi スacks を使用します [[3]](#fn-iN4rjTQjQfPTCYb5o-3) (DRAM ダイあたり 4 GB、ピン数 2048、ピンあたり 14-16 Gbps。これはスタックあたり 3.6-4.0 TB/s に相当 [[4]](#fn-iN4rjTQjQfPTCYb5o-4))。読み込みには 12-13 ms かかります。HBM4E がピンあたり 16 Gbps で安定して達成されている現状を維持しつつ、スタックが 16-Hi になった場合、2028 年の初年度 Feynman では計算用ダイあたり 2 つのスタックを使用する可能性があります [[5]](#fn-iN4rjTQjQfPTCYb5o-5)。これにより完全な読み込みに 16 ms を要します。2029 年の HBM5(おそらく Feynman の 2 年目に採用される)は、ピン数 4096 を使用し、ピンあたり 8 Gbps から始まる可能性があります。ただし、非 Ultra Rubin の HBM4 に関する状況から判断すると、11 Gbps に基準を合わせるべきでしょう。これによりスタックあたり 5.6 TB/s が得られます。DRAM ダイあたり 5 GB で 16-Hi スacks とした場合、読み込みには 14 ms かかります。

したがって、H100 および H200 はそれぞれ 20 ms と 30 ms、GB200 および GB300 はそれぞれ 24 ms と 36 ms、Rubin と Rubin Ultra はともに 13 ms、初年度および 2 年目の Feynman はそれぞれ 16 ms と 14 ms です。

80 トークン/秒未満の最大パイプライン

GB300 の HBM スタックを完全に読み切るには、非 Ultra Rubin の場合と比較してほぼ 3 倍の時間がかかります。このような違いは、最大規模モデルを収容する能力を持つスケールアップシステムの台数に関する経験則が、HBM に敏感に依存していることを示唆しています。

具体例として、トークン生成速度 をリクエストあたり 80 トークン/秒(HBM の読み込みのみによる制約であり、実際にはさらに低い速度、おそらく 60 トークン/秒になる)に設定し、推測的デコーディング(または マルチトークン予測,MTP)によって生成が 3 倍高速化されると仮定します。この場合、あらゆるリクエストに対して 37.5 ミリ秒ごとにいくつかのトークンを生成・受け入れる必要があります。

パイプラインで GB200 Oberon のラック 3 つを使用し、全 HBM の半分が重み(ウェイト)をホストしていると仮定しましょう。あるラックのもう半分の KV キャッシュは、重みを通過する各パスで実際にすべて読み込まれるわけではありません。なぜなら、パイプラインの現在のフェーズでは 3 つのリクエストのうち 1 つだけがアクティブであり、残りの 2 つは他のラックで処理されているからです。したがって、この構成ではパイプラインステージが HBM の 67%(重み用 50%、KV キャッシュ用 17%)のみを読み込みます。理想的には、これは GB200 のフル HBM スタックを読む時間の 67% に相当し、24 ミリ秒ではなく 16 ミリ秒で済みます。3 つのラックからなる全体のパイプラインを通過するには、リクエストあたり 72 ミリ秒(HBM の読み込みのみ)ではなく 48 ミリ秒で済みます。

N ラックのパイプラインをトラバースするリクエストは、すべてのラックのすべてのウェイトを読み取るために待機します(これは N 個のフル HBM スタックを読み取る時間の半分がかかります)。また、各ラックで KV キャッシュの 1/N を読み取る様子を目撃します(全体として単一の HBM スタックを読み取る時間の半分がかかります)。したがって、GB200 でパイプラインを 37.5 ミリ秒以内に完了させたい場合、パイプラインの長さに関係なく 12 ミリ秒が KV キャッシュの読み取りに費やされ、残りの 25.5 ミリ秒でウェイトの読み取りに使用できます。これはパイプラインステージごとに 12 ミリ秒かかるため、最大で 2 ステージとなります。つまり、75 ミリ秒を 24 ミリ秒で割ると N+1 の上限値が得られます。

この結果、上記の仮定に基づくパイプラインは、最大で H100 サーバー 2 台、H200 サーバー 1 台、GB200 Oberon ラック 2 基、GB300 Oberon ラック 1 基、Rubin または Rubin Ultra ラック 4 基(いずれも Oberon または Kyber)、初年度 Feynman を搭載した 8x Kyber システム 3 基、または 2 年度 Feynman を搭載した 8x Kyber システム 4 基を使用可能です。

Rubin Ultra では 12-Hi HBM スタック、Feynman では計算ダイあたり 2 つの HBM スタック、ラックあたり 576 の計算ダイ を仮定すると、スケールアップシステムあたりの総 HBM 容量は、H100 サーバーで 640 GB、H200 で 1.1 TB、GB200 Oberon で 14 TB、GB300 および Rubin Oberon ラックで 20 TB、Rubin Ultra Kyber で 110 TB、初年度 Feynman チップを搭載した 8x Kyber システムで 590 TB、2 年度 Feynman チップを搭載した 8x Kyber システムで 740 TBとなります。

HBM キャパシティの半分を FP4 重みに使用し、システムリリースから 1 年後に構築が十分に完了すると仮定すると、リクエストあたり最大 80 トークン/秒(MTP による 3 倍高速化あり)で提供可能な最大のモデルの総パラメータ数に対する上限は以下のようになります。パイプラインによる FP4 パラメータ数の制約は、2023 年の H100 で 1.3T、2024 年の H200 で 1.1T、2025 年の GB200 Oberon で 27T、2026 年の GB300 Oberon で 20T、2027 年の Rubin Oberon ラックで 83T、2028 年の Rubin Ultra Kyber ラックで 442T、2029 年の初年度 Feynman チップを搭載した 8x Kyber システムで 1.7 クワドリリオン、2030 年の 2 年目 Feynman チップを搭載した 8x Kyber システムで 2.9 クワドリリオンです。

非常に大規模モデルにおいて FP8 での提供が重要になる場合、スケールアップシステムによって可能となる総パラメータ数は半分になります。もちろん、これはネットワークや計算オーバーヘッド(マスキングできないもの)を無視しているため、実際には 80 トークン/秒で提供可能なモデルサイズに対する過大評価です。ネットワークを完全に無視していない主な理由は、エキスパート並列処理が異なるスケールアップシステム間ではなく、あくまでスケールアップシステム内でのみ行われる必要があるからです。これは例えば DeepSeek-V3(セクション 3.4.2 を参照)には適用されませんが、その結果生じる設計上の制約は、おそらく最大規模のモデルに対して持続可能ではないでしょう。

プリトレーニング計算量

Nvidia の Rubin における FP8 への明確な賭け、すなわち FP8 から BF16 への性能比が 4.4(前世代チップでは 2 であった)に基づき、最大規模のモデルも FP8 で事前学習されると仮定します。また、FLOP/s の利用率を 40% とした上で、3 か月の事前学習期間を想定します。

2023 年の基準は GPT-4 の噂で、20K〜25K 台の A100 で事前学習(IT 電力 20 MW)です。計算チップあたり 0.3e15 BF16 FLOP/s(FP8 なし)で、上記の仮定のもと 2.1e25 FLOPs に相当します。2024 年モデル(2023 年後半または 2024 年初頭に学習)では、H100 が 32K 台(Microsoft のグーディヤーサイトで建設中の 1 つの建物)、IT 電力 50 MW、計算チップあたり 2e15 FP8 FLOP/s、総 FLOPs は 2e26 です。2025 年では H100 が 100K 台、150 MW、FLOPs は 6e26 です。2026 年モデルでは H100 が 200K 台または Trainium 2 Ultra が 300K 台、いずれも IT 電力 300 MW、FLOPs は 1.3e27 です。

2025 年後半の事前トレーニング計算量が 300MW という数値は、2025 年末時点での各 AI 企業の第 1 者(自社)総計算リソースが 1-2GW に相当することを意味し、これは 2026 年末には 3-4GW となり、2027 年末には 10GW に達すると予測されます。したがって、2027 年モデルについては、事前トレーニング計算量を 1GW と推定しており、これは H100 では実現できませんが、B200/GB200 または Trainium 2 Ultra などの新世代チップであれば可能でしょう。GB200/GB300 Oberon ラック(ラックあたり 72 パッケージ、パッケージあたり 2 つの計算ダイ)の IT 電力は 140-180kW と推定され、これにネットワーク機器のオーバーヘッドとしてさらに 10% が加わる可能性があります。この計算により、IT 電力 1GW あたりで 730-930 個の計算ダイが稼働可能となり、具体的な例としては OpenAI の Abilene サイトがあり、そこには 800K 個の計算ダイが設置されています。Blackwell ダイは 2.5e15 FP8 FLOP/s(秒あたりの浮動小数点演算回数)の性能を持ち、上記の仮定に基づけば、2027 年モデルの総計算量は約 6e27 FLOPs に達します。

2028 年のモデルは、AI 企業が保有する総ファーストパーティ計算リソース 10 GW のうち 3 GW を事前トレーニングに使用する可能性があります。これは依然として Blackwell アーキテクチャである可能性があり、演算量は約 2e28 FLOPs(Floating Point Operations)となります。

2028-2030 年の計算リソースについては、SemiAnalysis の推計に基づき グローバル AI 計算リソースの推定値 にアンカー(基準点)を設けます。これにより、2027 年末に 10 GW で開始し、2028 年に 17 GW、2029 年に 28 GW、2030 年に 40 GW と増加する AI 企業が利用可能な総ファーストパーティ計算リソースの推定値が得られます。このシナリオは、2029 年のモデルには事前トレーニングに 5 GW の計算リソースが必要であることを示唆しています(これは 2028 年末に利用可能な 17 GW の約 3 分の 1 に相当します)。おそらく Blackwell アーキテクチャではもはや対応できず、Rubin アーキテクチャである必要があります。17 GW のうち最大 13 GW が Rubin 計算リソースですが、実際にはそれより少ない可能性があり、Oberon ラックに収容されているのはおそらく 5-6 GW に過ぎないでしょう。

1 ラックあたり 225 kW(ネットワークオーバーヘッドとして最大 10% の追加を考慮)と仮定すると、1 GW あたり約 58 万個の計算ダイ(Compute Die)が必要となります。各計算ダイあたりの演算速度が FP8 フォーマットで 8.75e15 FLOP/s である場合、2029 年のモデルには 5 GW の計算リソースにより約 8e28 FLOPs が提供されます。

2029 年末時点で、2028 年製の Rubin Ultra Kyber ラックは 7 GW を有し、2029 年製のより新しい初年度 Feynman 8x Kyber システムの 11 GW が既存の最大規模モデルを処理可能であり、第一世代の計算リソースは合計 28 GW です。したがって、Rubin のうち約 7 GW を事前学習に割り当てることができ、これは 1e29 FLOPs に相当します。

2030 年末には、第一世代の計算リソースが 40 GW に達し、2 年目の Feynman 構築完了後は大規模な 8x Kyber スケールアップシステムも不再稀缺となるため、初年度 Feynman の計算リソース 11 GW を事前学習に充てられる可能性があります。事前学習に必要な FLOPs を推定するには、IT(情報技術)電力の総量と、Feynman 用計算ダイあたりの FP8 フロップス/秒の推定値が必要です。

Rubin よりも 30% 高い電力消費を想定し、TSMC の N3P から A16 への移行を考慮すると、計算ダイあたり 14e15 FP8 FLOPs と推測しています。電力消費が 30% 増となる場合、GW あたりの Feynman 計算ダイ数は約 45 万個となります。これにより、2031 年モデルの事前学習は 2.2e29 FLOPs で実行可能となります。

事前学習計算リソースからの有効パラメータ数

ユニークな事前学習データは最大 200T トークン(その半分程度がテキストデータ)あると仮定します。2025 年 1 月の論文によると、MoE モデルのスパース率が 8 倍の場合、デンスモデルと比較してアクティブパラメータあたりのトークン数における計算最適比は 3 倍高く、スパース率が 30 倍の場合は 6 倍高くなります。詳細は Figure 11 および Figure 12 の左側をご参照ください。2024 年 7 月の Llama 3 405B レポートによると、デンスモデルの計算最適比は約 4e25 FLOPs でパラメータあたり 40 トークンです。詳細は Figure 2 および Figure 3 をご参照ください。これらの基準点を組み合わせると、それぞれ 120 と 240 トークン/パラメータとなります。2026 年 5 月の論文は、ユニークなデータの不足分を反復エポック数と計算最適数を上回るアクティブパラメータ数の増加に均等に配分すべきであると、漠然と示唆していると考えられます。

2023年モデルの場合、2.1e25 FLOPs(浮動小数点演算回数)を要求するには、約8倍のスパース性(sparsity)と20兆トークンのトレーニングデータを用いて、170B(1,700億)のアクティブパラメータが必要です。FP4(4ビット浮動小数点)形式で、H100サーバー2台からなる当時のスケールアップシステムにおける制約は、総パラメータ数1.3T(1兆3千億)で8倍スパース性と完全に一致します。GPT-4に関する噂では総パラメータ数が1.8Tとされていますが、当時RLVR(Reinforcement Learning from Verifiable Rewards:検証可能な報酬からの強化学習)や長期推論は懸念事項ではありませんでした。

2024年モデルの場合、2e26 FLOPsを要求するには、約8倍のスパース性と64兆トークンのトレーニングデータを用いて530B(5,300億)のアクティブパラメータが必要となり、これは総パラメータ数で4.2T(4兆2千億)に相当します。これはFP4形式であっても、H100サーバー2台由来の総パラメータ数1.3Tや、H200サーバー1台由来の総パラメータ数1.1Tという上限を大幅に超えるものです。したがって、2024年モデルは利用可能なスケールアップシステムの制約を強く受け、計算最適化された規模よりも遥かに小さくなるか、あるいは低速かつ高コストになるかのいずれかとなります。

6e26 FLOPs で訓練された 2025 年モデルは、約 8 倍のスパース性(110T のトレーニングトークンを使用)で 900B のアクティブパラメータを必要とし、これは合計 7.2T のパラメータを意味します。これは、GB200 Oberon ラック 2 基からなる NVFP4 パラメータの上限である 27T を十分に下回る範囲です。GPT-4.5 はおそらくこの規模にありましたが、それをサポートする GB200 Oberon ラックが存在する前にリリースされました。B200 NVL8 が十分な数で利用可能だった場合、これを収容するには 5 サーバーが必要となり、パイプラインの 1 ラップあたり HBM の読み込みに 68 ms かかります(各サーバーが 1.53 TB で 5 台分のうち 47% が重みであり、残りの 53% の KV キャッシュの 1/5 をパイプラインの 1 パスで読み込むことになります)。MTP による 3 倍のブーストがあったとしても、最大でも 44 トークン/s です。GPT-4.5 が実際にはもっと高速だった場合(GB200 NVL72 が妥当に利用可能になる前)、それは実はより小型だった可能性があります。なぜか、安価にサポートできる GB200 Oberon ラックがさらに増えた後でも、RLVR を伴ってリリースされませんでした。

1.3e27 FLOPs で訓練された 2026 年モデルは、約 8 倍のスパース性(160T のトレーニングトークンを使用)で 1.3T のアクティブパラメータを必要とし、これは合計 10T のパラメータとなります。これは、当時のスケールアップシステムにおけるパイプライン制約である、GB200 Oberon ラック 2 基からの 27T FP4 パラメータ、または GB300 Oberon ラック 1 基からの 20T FP4 パラメータのいずれかの制約を十分に下回ります。これは NVFP4 で GB200 Oberon ラック 1 基にも収まり、GB200 Oberon ラック 2 基を使用すれば FP8 も利用可能です。もし 8 倍のスパース性で十分であれば、2026 年の最大規模モデルはスケールアップシステムによって制約されません。

2027年モデルにおいて、約8倍のスパース性を仮定した場合、事前学習に必要な6e27 FLOPsを賄うには、350Tトークンのトレーニングデータに対して2.9Tのアクティブパラメータが必要となります。これは、実際に利用可能なユニークデータの推定量である200Tトークンと比較して1.75倍に相当します。不足分をより多くのアクティブパラメータと、より多くの反復エポック(学習サイクル)の間で均等に配分すると、アクティブパラメータは1.32倍必要となり、合計3.8Tとなります(これは200Tのユニークトークンを1.32エポックにわたって訓練した場合に相当)。一方、総パラメータ数は30Tです。これは、4基のRubin Oberonラックからなるパイプラインによる制約である83Tの総パラメータ数よりもはるかに低い水準です。AI企業がより高いスパース性を採用して総パラメータ数を増やすか、あるいはより短いパイプラインによって大幅な速度向上を図るかについては不明ですが、2027年において30倍のスパース性は依然として達成不可能な領域にあります

[[5]](#fn-iN4rjTQjQfPTCYb5o-5)

。

2028 年のモデルは、4 ラックの Rubin Ultra Kyber をパイプライン構成で提供する場合、驚異的な 442T NVFP4 パラメータに制約されます。したがって、30 倍のスパーシティ(疎性)を目標とする場合、2e28 FLOPs の計算には 3.7T のアクティブパラメータと 900T のトレーニングトークンが必要です(このスパーシティにおいて 1 パラメータあたり 240 トークンが計算最適であると仮定)。これは固有データにおいて 4.5 倍の不足であり、これを補うにはアクティブパラメータを 2.1 倍多くし、2.1 エポック繰り返して訓練するモデルが必要です。したがって、2028 年のモデルは 7.9T のアクティブパラメータと(30 倍スパーシティで)合計 240T を持つ可能性があり、4 ラックの Rubin Ultra Kyber では余裕が十分に残るため、より少ないラック数で使用され、トークン生成速度も向上します。2028 年のモデルにおけるアクティブな制約は、スケールアップシステムが小さすぎるという点ではなく、事前学習計算量が不足している点にあります。

2029 年のモデルは 8e28 FLOPs で事前学習を行い、30 倍スパーシティでは 7.4T のアクティブパラメータと 1,800T のトレーニングトークンを要求します。固有データが 200T トークンである場合、これは 8.5 倍の不足となるため、モデルは代わりに 22T のアクティブパラメータと合計 650T を持ち、200T の固有トークンを用いて 2.9 エポック訓練する必要があります。このモデルを 4 ラックの Rubin Ultra Kyber パイプラインで提供することはもはやできず、1 年目に Feynman チップを採用した 8x Kyber システム 3 つのパイプラインからの制約が、1.7 京 NVFP4 パラメータというはるかに高い制約を設定します。したがって、2029 年の 650T パラメータモデルは、FP8 で 8x Kyber システム 2 つ(3 つの代わりに)で提供可能であり、NVFP4 を使用する場合は 1〜2 システムの 8x Kyber でより高速・低コストに提供可能です。

2030 年のモデルは 1e29 FLOPs で事前学習を行うが、30 倍のスパース性(sparsity)と無限のデータを仮定すると、8.3T のアクティブパラメータと 2,000T のトレーニングトークンを必要とする。これは 10 倍の不足である。したがって、このモデルは代わりに 26T のアクティブパラメータを必要とし、30 倍のスパース性において合計 790T のパラメータ(pretrained)となり、200T の固有トークンを 3.1 エポック繰り返して事前学習を行う必要がある。これは、最初の年の Feynman システム(NVFP4 でモデルが HBM の 67% を占有するため、おそらく最初の年の Feynman システム 1 つでは不十分となる)であっても、2029 年のモデルよりもわずかに過酷である程度に過ぎない。一方、パイプラインで 4 システムからなる 2.9 兆 NVFP4 パラメータの制約を持つ 2 年目の Feynman システムを使用する場合、NVFP4 では 1 つ、FP8 では 2 つあれば十分であり、このモデルは 30 倍のスパース性でもハードウェアの制約を受けない。

最後に、2.2e29 FLOPs で事前学習を行う 2031 年のモデルは、30 倍のスパース性と無限のデータを仮定すると、12T のアクティブパラメータと 3,000T のトレーニングトークンを必要とする。これは 15 倍の不足である。したがって、このモデルは代わりに 48T のアクティブパラメータを必要とし、30 倍のスパース性において合計 1.4 兆のパラメータ(pretrained)となり、200T の固有トークンを 3.9 エポック繰り返して学習を行う必要がある。Feynman システム以降のシステムについては推定を行っていないが、最初の年の Feynman チップを 8x Kyber と組み合わせたパイプラインで 3 システム構成であれば、NVFP4 でこのモデルを提供するのに十分である(制約は 1.7 兆パラメータ)。また、2 年目の Feynman システムを 4 つつなげたパイプラインであれば FP8 でもこのモデルを提供可能であり、これは 1 年前のハードウェア上で提供された場合でも、30 倍のスパース性において制約を受けないことを意味する。

2028 年以降、制約となるのは事前学習計算量である

全体として、2024年はモデルがスケールアップシステムによって最も制約された年であり、計算資源を最適に活用して事前学習されたモデルでさえも、8倍のスパース性がある場合でも提供することが不可能でした。2023年および2025年から2026年には、計算資源を最適に活用した事前学習済みモデルが、8倍のスパース性を備えていればスケールアップシステムのパイプラインに収容可能となります。状況は2027年にわずかに改善し、Rubinにおけるより高速なHBM4により長いパイプラインが実用的となり、短いパイプラインもさらに高速化されます。

そして、2028年にRubin Ultra Kyberラックの構築が十分に完了すれば、30倍のスパース性を持つ計算資源最適事前学習済みモデルでさえ提供が可能となります。これは、無制限のデータがあれば必要となるよりも4倍大きくなる必要があるかもしれない事前学習データの不足にもかかわらず、2031年までこの状況は続きます。

  • H200は2023年にリリースされ、2024年のHBM3Eがその完全な仕様へと成長する前でした。したがって、NvidiaがH200でHBM3Eと主張しているものは、H100でも使用されているHBM3の仕様を持っており、主な違いはスタックが12層積み重ねられており、それが6つある点です。 ↩︎
  • RubinにおけるHBM4の帯域幅は、JEDEC規格が要求する2.0 TB/sよりもはるかに高いものです。ピンあたり8 Gbpsではなく、ピンあたり約10.8 Gbpsで、ピン数は2048本です。 ↩︎
  • H200 の状況とは異なり、これは DRAM ダイあたり 3 GB の HBM4 ではなく、DRAM ダイあたり 4 GB という意味での実際の HBM4E です。1 年早く登場しているにもかかわらずです。これは、Nvidia が 16-Hi(16 層)と予想されていた際にパッケージあたり 1024 GB(HBM を 16 スacks 積載)を公表したのに対し、HBM4 は 16-Hi スacks であればパッケージあたり 768 GB となる予定だったためです。↩︎
  • サムスンと SK ハイニックスは、12-Hi スacks で 3.6〜4.0 TB/s の帯域幅を達成できる可能性があります。一方、HBM4E 向けの 16-Hi スacks は現在開発中です(つまり、この帯域幅は 2028 年のハイエンド HBM4E だけでなく、2027 年の Rubin Ultra にも関連する可能性があります)。サンプルに関するニュースは確たる証拠とはなり得ませんが、重要なのは高歩留まりで実現可能な性能(量産準備完了)であり、サンプルの入手可能性は歩留まりに弱くしか依存しないためです。そのため、私はやや低い方の数値である 3.6 TB/s(ピンあたり 14 Gbps)にも一定の信憑性があると見ています。↩︎
  • トークン/パラメータあたりの計算最適化が 30 倍のスパースシティで 240 の場合、アクティブパラメータは 2T、トレーニングトークンは 490T となり、固有データの不足分は 2.45 です。したがって、モデルはアクティブパラメータを 1.56 倍多く必要とし、これは 3.2T を意味します。つまり、30 倍のスパースシティで総パラメータ数は 96T となり、83T という制約を超えてしまいます。↩︎
原文を表示

Token generation speed is constrained by the speed at which the relevant HBM can be read, which is mostly the weights and KV-cache. Suppose a model is large, so that more than half of HBM is read when making a single pass over the weights, it's being read in parallel within a scale-up system, and N such systems are used in a pipeline. Then the time it takes to generate a token (without speculative decoding) is at least the time of reading more than half of an HBM stack times N. If we target a particular speed of token generation, this puts a constraint on the number of pipeline stages, which puts a constraint on the total params of the model. But if there isn't enough pretraining compute, models will remain smaller than this constraint (lower sparsity at a given number of active params buys a higher speed of token generation), so both should be taken into account.

Working through these considerations gives model sizes feasible for each year between 2023 and 2031. The total params go from 10T in 2026 (at 8x sparsity, still constrained by Oberon racks, trained for 1.3e27 FLOPs) to 240T in 2028 (at 30x sparsity, with Kyber racks more than sufficient for the available pretraining compute) and then to 1.4 quadrillion in 2031 (30x sparsity, served with 8x Kyber Feynman scale-up systems, trained for 2.2e29 FLOPs). Starting in 2027, model sizes are further inflated by the lack of sufficient pretraining data, with models of 2031 having to be 4x bigger than unlimited training data would predict. There are many assumptions that go into the estimates, which I will state as they come up.

Time to Fully Read an HBM Stack

H100 has 5 stacks of 8-Hi HBM3 per compute die (2 GB per DRAM die, 0.8 TB/s per stack), 20 ms to fully read. H200 has 6 stacks of 12-Hi HBM3

[[1]](#fn-iN4rjTQjQfPTCYb5o-1)

per compute die, 30 ms to read. B200/GB200 has 4 stacks of 8-Hi HBM3E per compute die (3 GB per DRAM die, 1.0 TB/s per stack), 24 ms to read. GB300 has 4 stacks of 12-Hi HBM3E, 36 ms to read. Non-Ultra Rubin chips of 2026 have 4 stacks of 12-Hi HBM4 per compute die (3 GB per DRAM die, 2.75 TB/s per stack

[[2]](#fn-iN4rjTQjQfPTCYb5o-2)

), 13 ms to read.

Rubin Ultra probably uses 12-Hi stacks of HBM4E

[[3]](#fn-iN4rjTQjQfPTCYb5o-3)

(4 GB per DRAM die, 2048 pins, 14-16 Gbps per pin, which is 3.6-4.0 TB/s per stack

[[4]](#fn-iN4rjTQjQfPTCYb5o-4)

), 12-13 ms to read. If HBM4E stays at 16 Gbps per pin (now reliably achieving it), but the stacks become 16-Hi, first-year Feynman in 2028 might use 2 stacks per compute die, which takes 16 ms to fully read. HBM5 of 2029 (that probably goes into the second year of Feynman) is expected to use 4096 pins and might start at 8 Gbps per pin, though the situation with HBM4 for non-Ultra Rubin suggests anchoring to 11 Gbps instead. This gives 5.6 TB/s per stack. With 5 GB per DRAM die, a 16-Hi stack takes 14 ms to read.

Thus we have 20 ms and 30 ms for H100 and H200, 24 ms and 36 ms for GB200 and GB300, 13 ms for both Rubin and Rubin Ultra, 16 ms and 14 ms for first- and second-year Feynman.

Maximal Pipelines Below 80 Tokens/s

It takes almost 3x more time to fully read an HBM stack of GB300 than that of non-Ultra Rubin. Such differences suggest that the rule of thumb for the number of scale-up systems with the capacity to hold the largest models should be sensitive to their HBM. For concreteness, let's target token generation speed constrained at 80 tokens/s per request (just from reading HBM, forcing even lower speed in practice, maybe 60 tokens/s), assuming speculative decoding (or multi-token prediction, MTP) that speeds up generation by 3x. Then we need to generate/accept some tokens for any given request every 37.5 ms.

Let's say we are using 3 racks of GB200 Oberon in a pipeline, and half of all HBM is hosting weights. The KV cache in the other half of a given rack won't actually be fully read on each pass through the weights, because only 1 out of 3 requests will be active during the current phase of the pipeline (the other 2 out of 3 requests are being processed at the other racks). Thus only 67% of HBM is read by a pipeline stage in this setup (50% for weights, and 17% for KV cache). This ideally takes only 67% of the time of reading a full HBM stack of GB200, 16 ms instead of 24 ms. Going through the whole pipeline of 3 racks would only take a request 48 ms, rather than 72 ms (on reading HBM alone).

As a request traverses a pipeline of N racks, it waits for all weights at all the racks to be read (taking half as much as reading N full HBM stacks), and it witnesses the reading of 1/N of the KV cache in each of the racks (taking half as much time as reading a single HBM stack in total). So if we want the pipeline to complete in 37.5 ms with GB200, 12 ms will be spent reading the KV cache regardless of the length of the pipeline, and the remaining 25.5 ms can be used to read the weights, which takes 12 ms per pipeline stage, meaning at most 2 stages. That is, 75 ms divided by 24 ms gives an upper bound on N+1.

This means a pipeline with the above assumptions can use at most 2 H100 servers, 1 H200 server, 2 GB200 Oberon racks, 1 GB300 Oberon rack, 4 Rubin or Rubin Ultra racks (either Oberon or Kyber), 3 systems of 8x Kyber with first-year Feynman, 4 systems of 8x Kyber with second-year Feynman.

Assuming 12-Hi HBM stacks for Rubin Ultra, 2 HBM stacks per compute die and 576 compute dies per rack for Feynman, total HBM per scale-up system is 640 GB for a H100 server, 1.1 TB for H200, 14 TB for GB200 Oberon, 20 TB for GB300 and Rubin Oberon racks, 110 TB for Rubin Ultra Kyber, 590 TB for 8x Kyber systems with first-year Feynman chips, 740 TB for 8x Kyber systems with second-year Feynman chips.

If half of the HBM capacity is spent on FP4 weights, and the buildout sufficiently completes a year after the system is released, we get the following upper bounds on total params of the largest models that can be served with at most 80 tokens/s per request (with 3x speedup via MTP). The constraint from pipelining on total FP4 params is 1.3T for H100 in 2023, 1.1T for H200 in 2024, 27T for GB200 Oberon in 2025, 20T for GB300 Oberon in 2026, 83T for Rubin Oberon racks in 2027, 442T for Rubin Ultra Kyber racks in 2028, 1.7 quadrillion for 8x Kyber systems with first-year Feynman chips in 2029, 2.9 quadrillion for 8x Kyber systems with second-year Feynman chips in 2030.

If serving in FP8 becomes important for very large models, the number of total params enabled by the scale-up systems is 2x lower. And of course this is an overestimate for model sizes that can actually be served at 80 tokens/s, since I'm ignoring the networking and compute overhead that couldn't be masked. The main way in which the network isn't ignored is that expert parallelism must happen only within scale-up systems rather than across different scale-up systems. This is something that for example doesn't apply to DeepSeek-V3 (see Section 3.4.2), but the resulting design constraints likely can't be sustained for the largest models.

Pretraining Compute

Based on Nvidia's apparent bet on FP8 in Rubin, where the FP8 to BF16 performance ratio is 4.4, which used to be 2 in the previous chips, I'm assuming that even the largest models will be pretrained in FP8. And I'm going to assume 3 months of pretraining at 40% FLOP/s utilization.

For 2023, the anchor is GPT-4 rumors of pretraining on 20K-25K A100s (20 MW of IT power), which at 0.3e15 BF16 FLOP/s (no FP8) per compute die gives 2.1e25 FLOPs under the above assumptions. For models of 2024 (trained in late 2023 or early 2024), that's 32K H100s (one building at the Microsoft Goodyear site), 50 MW of IT power, 2e15 FP8 FLOP/s per compute die, 2e26 FLOPs. For 2025, 100K H100s, 150 MW, 6e26 FLOPs. For 2026 models, 200K H100s or 300K Trainium 2 Ultra, 300 MW in both cases, 1.3e27 FLOPs.

The 300 MW figure for late 2025 pretraining compute anchors to 1-2 GW of total first-party compute per AI company at the end of 2025, which becomes 3-4 GW at the end of 2026, and 10 GW by the end of 2027. So for 2027 models, I'm guessing 1 GW of pretraining compute, which can't be H100s but could be B200/GB200 or Trainium 2 Ultra. IT power of a GB200/GB300 Oberon rack (72 packages per rack, 2 compute dies per package) might be 140-180 kW, possibly with another 10% of networking equipment overhead on top. This gives 730-930 compute dies per 1 GW of IT power, and a concrete example is the OpenAI Abilene site with 800K compute dies. Blackwell dies produce 2.5e15 FP8 FLOP/s, which gives 6e27 FLOPs for a 2027 model under the above assumptions.

A 2028 model might use 3 GW of pretraining compute (out of 10 GW of total first-party compute an AI company has), which can still be Blackwell, so 2e28 FLOPs. For 2028-2030 compute, I'm going to anchor to the SemiAnalysis estimate of global AI compute, obtaining an estimate for the total first-party compute available to an AI company that starts with 10 GW in late 2027, then goes to 17 GW in 2028, to 28 GW in 2029, and 40 GW in 2030. This suggests 5 GW of pretraining compute for a 2029 model (about a third of the 17 GW available in late 2028), which probably can no longer be Blackwell and must be Rubin (up to 13 GW out of the 17 GW is Rubin compute, though probably less, and maybe only 5-6 GW is in Oberon racks). At 225 kW per Oberon rack (possibly plus 10% in networking overhead), this is 580K compute dies per GW. At 8.75e15 FP8 FLOP/s per compute die, 5 GW give 8e28 FLOPs for a 2029 model.

At the end of 2029, there's 7 GW of Rubin Ultra Kyber racks from 2028, the 11 GW of the newer first-year Feynman 8x Kyber systems from 2029 can serve the older largest models, and there's 28 GW of first-party compute in total, so maybe 7 GW of Rubin could go into pretraining, which is 1e29 FLOPs. At the end of 2030, there's 40 GW of first-party compute and after the second-year Feynman buildout the large 8x Kyber scale-up systems are no longer scarce, so maybe the 11 GW of first-year Feynman compute might go into pretraining. To estimate the pretraining FLOPs, I need estimates of total IT power and FP8 FLOP/s per compute die for Feynman. Assuming a 30% higher draw than Rubin, and considering the TSMC N3P to A16 jump, I'm guessing 14e15 FP8 FLOP/s per compute die. At 30% more power, there would be only 450K Feynman compute dies per GW. A 2031 model could then be pretrained for 2.2e29 FLOPs.

Active Params from Pretraining Compute

I'm assuming there are up to 200T tokens of unique pretraining data (maybe half of it text data). Based on this Jan 2025 paper,

the compute optimal ratio of tokens per active param is 3x higher for an MoE model with 8x sparsity compared to a dense model, and 6x higher for an MoE model with 30x sparsity, see Figure 11 and Figure 12, left. Based on the Jul 2024 Llama 3 405B report, the compute optimal ratio for a dense model is about 40 tokens/param at 4e25 FLOPs, see Figure 2 and Figure 3. Putting these anchors together, we get 120 and 240 tokens/param respectively. A May 2026 paper can be taken to vaguely suggest

that the shortfall in unique data should be distributed equally between epochs of repetition and an increase in active params over the compute optimal number.

For 2023 models, 2.1e25 FLOPs ask for 170B active params at about 8x sparsity (with 20T training tokens). The constraint from the contemporary scale-up systems of 1.3T total params with 2 H100 servers in FP4 fits right at the 8x sparsity. The GPT-4 rumors say 1.8T total params, but RLVR and long reasoning weren't a concern then. For 2024 models, 2e26 FLOPs ask for 530B active params at about 8x sparsity (with 64T training tokens), which asks for 4.2T total params, which even in FP4 is way above the bound of 1.3T total params from 2 H100 servers or 1.1T total params from 1 H200 server. Thus 2024 models are significantly constrained by the available scale-up systems and should be much smaller than compute optimal, or else they must be slow and expensive.

A 2025 model trained for 6e26 FLOPs would want 900B active params at about 8x sparsity (with 110T training tokens), which asks for 7.2T total params, well within the bound of 27T total NVFP4 params from 2 racks of GB200 Oberon. GPT-4.5 was probably at that scale, but it was released before there were GB200 Oberon racks to serve it. With B200 NVL8, which might've been available in sufficient numbers, it would require 5 servers to fit, meaning 68 ms of reading HBM in one lap of the pipeline (47% of the 5 servers of 1.53 TB each is weights, 1/5 of the KV cache in the remaining 53% is read on one pass of a pipeline), or at most 44 tokens/s even with a 3x boost from MTP. If GPT-4.5 was actually faster (before GB200 NVL72 were plausibly available), maybe it was actually smaller. For some reason it wasn't released with RLVR after there were more GB200 Oberon racks to serve it cheaply.

A 2026 model trained for 1.3e27 FLOPs wants 1.3T active params at about 8x sparsity (with 160T training tokens), which is 10T total params, fitting well under the constraint from pipelining with the contemporary scale-up systems of either 27T FP4 params from 2 GB200 Oberon racks, or 20T FP4 params from 1 GB300 Oberon rack. This even fits in 1 GB200 Oberon rack in NVFP4, and could use FP8 with 2 GB200 Oberon racks. The largest models of 2026 are not constrained by scale-up systems if they are content with 8x sparsity.

For a 2027 model at around 8x sparsity, the 6e27 FLOPs of pretraining would want 2.9T active params with 350T tokens of training data, which is 1.75x more than the assumed 200T tokens of unique data that is actually available. Splitting the shortfall equally between more active params and more epochs of repetition, we need 1.32x more active params, which is 3.8T (trained for 1.32 epochs on the 200T unique tokens), with 30T total params. This is significantly below the constraint of 83T total params from a pipeline of 4 Rubin Oberon racks. Unclear if the AI companies would elect to go with more sparsity, increasing total params, or much higher speed from shorter pipelines. But in 2027, 30x sparsity remains out of reach

[[5]](#fn-iN4rjTQjQfPTCYb5o-5)

.

A 2028 model is constrained at a staggering 442T NVFP4 params if served with a pipeline of 4 Rubin Ultra Kyber racks. So targeting 30x sparsity, 2e28 FLOPs want 3.7T active params and 900T training tokens (from the assumption of 240 tokens/param being compute optimal at this sparsity). This is a shortfall of 4.5x in unique data, which needs a model with 2.1x more active params trained for 2.1 epochs of repetition. Thus a model of 2028 might have 7.9T active params and 240T total (at 30x sparsity), with a lot of room to spare in 4 Rubin Ultra Kyber racks, meaning it's going to use fewer racks and generate tokens faster. The active constraint for 2028 models is not enough pretraining compute, rather than scale-up systems that are too small.

A 2029 model pretrains for 8e28 FLOPs, which at 30x sparsity asks for 7.4T active params and 1,800T training tokens. The 200T tokens of unique data are a shortfall of 8.5x, so the model instead needs 22T active params and 650T total, trained for 2.9 epochs with the 200T unique tokens. This model can no longer be served with a pipeline of 4 Rubin Ultra Kyber racks, but the constraint from a pipeline of 3 systems of 8x Kyber with first-year Feynman chips sets a much higher constraint at 1.7 quadrillion NVFP4 params. Thus the 650T param model of 2029 could be served even in FP8 on 2 systems of 8x Kyber (instead of 3 systems), or faster/cheaper with 1-2 systems of 8x Kyber when using NVFP4.

A 2030 model pretrains for 1e29 FLOPs, which at 30x sparsity and with infinite data would want 8.3T active params and 2,000T training tokens, a shortfall of 10x. Thus the model would instead need 26T active params, meaning 790T total params at 30x sparsity, pretrained for 3.1 epochs of repeating the 200T unique tokens. This is only slightly more onerous than the 2029 model even for the first-year Feynman systems (perhaps one first-year Feynman system is no longer sufficient in NVFP4, as the model takes up 67% of its HBM), while with second-year Feynman systems (that put a constraint of 2.9 quadrillion NVFP4 params from a pipeline of 4 systems) we need just 1 of them in NVFP4, or 2 of them in FP8.

Finally, a 2031 model that pretrains for 2.2e29 FLOPs would at 30x sparsity and with infinite data ask for 12T active params and 3,000T training tokens, a shortfall of 15x. So the model instead needs 48T active params, meaning 1.4 quadrillion total params at 30x sparsity, trained for 3.9 epochs of repeating the 200T unique tokens. I didn't make estimates for post-Feynman systems, but even a pipeline of 3 systems of 8x Kyber with first-year Feynman chips suffices to serve this model in NVFP4 (the constraint is 1.7 quadrillion params), and a pipeline of 4 second-year Feynman systems can serve this model in FP8, so this model is not constrained at 30x sparsity even when served on hardware that is a year old.

Starting in 2028, the Constraint is Pretraining Compute

Overall, 2024 was the year when models were most constrained by the scale-up systems, with a compute optimally trained model infeasible to serve even at 8x sparsity. In 2023 and 2025-2026, compute optimally pretrained models fit in pipelines of scale-up systems if they have 8x sparsity. The situation marginally improves in 2027, when faster HBM4 in Rubin makes longer pipelines practical, while shorter pipelines get faster.

And then once the buildout of Rubin Ultra Kyber racks sufficiently completes in 2028, compute optimally pretrained models even with 30x sparsity become feasible to serve. This remains the case through 2031, despite the shortage of pretraining data that might require models to get 4x bigger than they would've needed to be with unlimited data.

  • H200 was released in 2023, before HBM3E of 2024 could grow into its full specs. So what Nvidia claims to be HBM3E in H200 has the specs of HBM3 also used in H100, the main difference is that the stacks are 12-Hi and there are 6 of them. ↩︎
  • The bandwidth of HBM4 in Rubin is much higher than the 2.0 TB/s required by the JEDEC standard. It's about 10.8 Gbps per pin instead of 8 Gbps per pin, with 2048 pins. ↩︎
  • Unlike the situation with H200, this is actual HBM4E in the sense of 4 GB per DRAM die rather than the 3 GB per DRAM die of HBM4, even though it's a year early. This is because 1024 GB per package (with 16 stacks of HBM) was announced by Nvidia when it was expected to be 16-Hi, while HBM4 would've been 768 GB per package with 16-Hi stacks. ↩︎
  • Samsung and SK Hynix might be able to achieve 3.6-4.0 TB/s in 12-Hi stacks, with 16-Hi stacks still in the works for HBM4E (meaning this bandwidth is probably relevant for Rubin Ultra of 2027, not just for the high-end HBM4E of 2028). Though news about samples are not a lot of evidence, since what matters is the performance achievable with high yield (ready for ramp), while the availability of samples only weakly depends on yield. So I'm giving some credence to the lower 3.6 TB/s (14 Gbps per pin). ↩︎
  • With 240 tokens/param compute optimal at 30x sparsity, we have 2T active params and 490T training tokens, a shortfall in unique data of 2.45. So the model would need 1.56x more active params, which is 3.2T, meaning 96T total params at 30x sparsity, more than the constraint of 83T. ↩︎
この記事をシェア

関連記事

404 Media★32026年6月24日 22:03

ポッドキャスト:AI に自我があるなら『帝国時代 II』にもあるという論文について

Matthew が、大規模言語モデルに自我があると仮定した場合、古典的ゲーム『帝国時代 II』も同様に自我を持つと主張する興味深い論文を紹介した。

404 Media★42026年6月24日 21:50

トークン終末が到来:企業、AI への支出抑制に躍起

コンサルティング大手のアクセンチュアは、非技術職による PDF からスライド作成などの些細なタスクでの AI トークン予算の浪費を防ぐため、業界全体で急激に増加するトークン支出を抑制しようとしている。

KDnuggets★32026年6月24日 19:00

2026 年にローカルで実行可能なトップ 7 つのコーディングモデル

KDnuggets が選定した、2026 年版のローカル環境で動作する主要な 7 つのコード生成 AI モデルを紹介している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む