推論の転換点:Cerebras の IPO が示す「回答型」と「エージェント型」の分岐
Cerebras の IPO 動向は、トークン速度に最適化された「回答推論」とメモリ階層に最適化された「エージェント推論」の二極化を示唆し、H100 と比較にならないほどのオンチップ SRAM が人間向け低遅延応答と大規模 KV キャッシュ処理の境界を再定義している。
キーポイント
推論アーキテクチャの二極化
「回答推論(Answer Inference)」はトークン速度重視で人間対話に最適化され、「エージェント推論(Agentic Inference)」はメモリ階層と KV キャッシュ容量を重視する方向へ分岐している。
Cerebras WSE-3 の圧倒的メモリ帯域
WSE-3 は 44GB のオンチップ SRAM を搭載し、21 PB/s の帯域幅を誇り、NVIDIA H100 のメモリ帯域比で約 6,000 倍の性能を持つ。
適用範囲と限界の明確化
このアーキテクチャは音声や AI ウェアラブルなどの低遅延応答に極めて有効だが、KV キャッシュやモデル重みがオンチップ容量を超える大規模推論には不向きである。
影響分析・編集コメントを表示
影響分析
このニュースは、AI ハードウェア市場が単一の汎用高性能チップ(H100 など)への依存から、用途特化型アーキテクチャへ多様化する重要な転換点を示しています。特に Cerebras の WSE-3 が示すメモリ帯域の飛躍的向上は、大規模言語モデルの実行におけるボトルネックである「メモリアクセス」の解決策として、低遅延な人間対話型 AI やウェアラブル端末の普及に決定的な役割を果たす可能性があります。
編集コメント
H100 と比較して 6,000 倍のメモリ帯域という数値は業界に衝撃を与えるものであり、これからの AI デバイス設計において「どこで計算し、どこでデータを保持するか」という根本的な問いを再考させる内容です。
この投稿を聴く:
IPO に最適な時期を探しているなら、2026 年 5 月に半導体企業であることほど素晴らしい状況はないでしょう。ロイター通信が週末に報じました:
Cerebras Systems は、人工知能(AI)向け半導体メーカーの株式への需要が引き続き高まっているため、今週月曜にも新規株式公開(IPO: Initial Public Offering)の規模と価格を引き上げる予定である。この件に詳しい2人の関係者が日曜日、ロイター通信に匿名で語ったところによると、同社は1株あたりの新 IPO 価格レンジを現在の115〜125ドルから150〜160ドルへ引き上げ、市場に出す株式数も2800万株から3000万株に増やすことを検討しているという。関係者は情報がまだ非公開であるため匿名での発言を求めた。
半導体株価の継続的な急騰の根本的な要因は、もちろん AI であり、特にエージェントには膨大な計算リソースが必要になるという認識が広がっている点です。しかし、Cerebras が象徴するのはそれよりも広範なものです。AI における計算リソースの物語は主に GPU(グラフィックス・プロセッシング・ユニット)に焦点を当てており、特に Nvidia の製品が中心でしたが、未来はますます多様なアーキテクチャを持つものになっていくでしょう。
GPU の時代
グラフィックス・プロセッシング・ユニット(GPU)がいかにして AI の中心となったかという物語はよく知られていますが、簡単に言えば:
- コンピュータ画面にピクセルを描画するプロセスが並列処理であったように、AI 関連の計算もまた並列処理であり、これは処理ユニットの数と計算速度との間に直接的な関係があることを意味します。
- Nvidia はグラフィックスプロセッサをプログラム可能にすることでこの二重利用を可能にし、このプログラミングを容易にするために CUDA と呼ばれる完全なソフトウェアエコシステムを作成しました。
- グラフィックスと AI の大きな違いは、解決される問題の規模にあります。モデルはビデオゲームのテクスチャよりもはるかに大きいため、GPU あたりの高帯域幅メモリ(HBM)が劇的に拡大し、複数のチップを一つのアドレス指定可能なシステムとして連携させるためのチップ間ネットワークにおいて画期的な革新が生まれました。Nvidia はこの両分野でリーダーシップを発揮しています。
- GPU の最も主要なユースケースはトレーニングであり、これは特に上記の3点目の課題に負荷をかけます。各トレーニングステップ内の計算は大量並列ですが、ステップ自体は逐次的です。次のステップを開始する前に、すべての GPU が他のすべての GPU と結果を共有する必要があります。これが、1 兆パラメータモデルが一つのシステムとして通信できる数万台の GPU の集約メモリに収まる必要がある理由です。Nvidia はまず業界全体よりも先に HBM を確保し、さらにネットワーク分野への投資によってこの両方の問題領域で支配的な地位を築いています。
もちろん、トレーニングだけが AI のワークロードではありません。もう一つは推論です。推論には主に 3 つの部分があります。
- プリフィル(Prefill)では、LLM が理解すべきすべての情報を理解可能な状態にエンコードします。これは高度に並列化可能であり、計算能力が重要となります。
- デコードの最初の部分は、KV キャッシュを読み込むことを伴います。このキャッシュはコンテキストを保存しており、プリフィルステップの出力も含みます。これによりアテンション計算が行われます。これは帯域幅が重要なシリアルステップですが、メモリ要件は可変であり、ますます大きくなっています。
- デコードの2番目の部分は、モデル重みに対するフィードフォワード計算です。これもまた帯域幅が重要なシリアルステップであり、メモリ要件はモデルのサイズによって定義されます。
この 2 つのデコードステップは、モデルの各層に対して交互に実行されます(連続ではなく、インターリーブされています)。つまり、推論はシリアルであり、メモリー・バンド幅制約を受けることになります。生成されるトークンごとに、2 つの異なるメモリプールを読み取る必要があります。1 つ目はコンテキストを保存し、各トークンの生成とともに成長する KV キャッシュです。もう 1 つ目はモデル重みそのものです。単一の出力トークンを生成するには、これら両方を完全に読み込む必要があります。
GPU はこれらすべてのニーズに対応します。すなわち、プリフィルのための高い計算能力、KV キャッシュおよびモデル重み用の豊富な HBM(High Bandwidth Memory)、そして単一の GPU では不十分な場合に複数のチップ間でメモリをプールするためのチップ間ネットワークです。つまり、トレーニングに有効なものは推論にも有効なのです。SpaceX が Anthropic と結んだ契約を見れば明らかでしょう。Anthropic のブログ より:
私たちはSpaceXと、同社のColossus 1データセンターのすべての計算容量を利用する契約を結びました。これにより、今月以内に300メガワットを超える新たな容量(NVIDIA製GPUが22万個以上)へのアクセスが可能になります。この追加容量は、Claude ProおよびClaude Maxのサブスクライバーにとって、直接キャパシティの向上につながります。
SpaceXはColossus 2を保有しており、おそらく将来のモデルのトレーニングと既存モデルの推論(inference)の両方に使用されるでしょう。xAIのモデルがそれほど利用されていないため、同じデータセンターで両方を行うことが可能なのです。より本質的に言えば、この記事の文脈では、トレーニングも推論もGPU上で行えるため、同じデータセンターで両方を実行できるのです。実際、AnthropicがColossus 1で契約しているGPUは、当初はトレーニングにも使用されていました。GPUがこれほど柔軟であるという事実は、大きな利点です。
Understanding Cerebras(Cerebrasの理解)
Cerebrasは全く異なるアプローチを採用しています。シリコンウェーハの直径は300mmですが、「レチクル制限」 — リソグラフィ装置がそのウェーハ上で露光できる最大面積 — は約26mm x 33mmです。これがチップの有効なサイズ限界であり、これを超えると、チップ間インターポーザを介して2つの別々のチップを接続する必要が生じます。これはNvidiaがB200で実現した手法そのものです。一方Cerebrasは、レチクル露光の境界線であるいわゆる「スクライブライン」に配線を敷設する独自の技術を開発し、ウェーハ全体を単一のチップとして機能させることに成功しました。これにより、比較的遅いチップ間接続が不要となっています。
その結果、膨大な計算能力と大量の SRAM を備え、アクセス速度が驚異的に速いチップが生まれました。数値で示すと、WSE-3(Cerebras の最新チップ)は 21 PB/s の帯域幅を持つオンチップ SRAM を 44GB 搭載しています。一方、H100 は 3.35 TB/s の帯域幅を持つ HBM(High Bandwidth Memory)を 80GB 搭載しています。つまり、WSE-3 のメモリ容量は H100 の半分強ですが、メモリ帯域幅は 6,000 倍にも達します。
WSE-3 を H100 と比較する理由は、H100 が推論(Inference)に最も広く使用されているチップであり、推論こそが Cerebras が最も得意とする分野だからです。Cerebras チップはトレーニングにも利用可能ですが、チップ間ネットワークのストーリーはそれほど魅力的ではありません。つまり、膨大な計算能力とオンチップメモリはほとんど遊んでしまっている状態になりがちなのです。より興味深いのは、GPU から得られるよりも劇的に高速なトークンのストリームを取得するというアイデアです。
ただし、トレーニングにおける制限が推論においても潜在的に適用される点に注意が必要です。すべてのデータがオンチップメモリに収まる限り、Cerebras の速度は驚異的な体験をもたらします。しかし、より大きなモデルや、より可能性が高いのはより大きな KV キャッシュ(Key-Value Cache)のために追加のメモリが必要になった瞬間、特に価格を考慮すると Cerebras を採用する意味は大きく薄れます。ウェーハ全体をチップとして使用するこの技術は、歩留まりが極めて高いハードルであり、それがコストを劇的に押し上げる要因となっています。
同時に、Cerebras スタイルのチップにも市場が存在すると私は考えています:現在 同社はコーディングにおける速度の有用性を強調しています — 推論には多くのトークンが必要であり、これは秒間あたりのトークン数を劇的に拡大することで思考速度が向上することを意味します — しかし、私はこれが後ほど説明する理由から一時的なユースケースであると考えています。重要なのは人間が回答を待つ時間であり、AI ウェアラブル製品などがより一般的になるにつれて、特に音声におけるインタラクションの速度(これはトークン生成速度に依存する機能です)がユーザーエクスペリエンスに実質的な影響を与えることになります。
エージェント型推論
私は以前、Agents Over Bubbles においても主張した通り、LLM(大規模言語モデル)の時代において私たちが3つの転換点を通過してきたと述べています:
- ChatGPT がトークン予測の実用性を示しました。
- o1 が推論の概念を導入し、より多くのトークンがより良い回答をもたらすことを示しました。
- Opus 4.5 と Claude Code が、推論モデルとツールを活用し作業を検証するなどのハーン(枠組み)を組み合わせることで、実際にタスクを達成可能な最初の使用可能なエージェントを紹介しました。
これらすべては「推論」という大枠の下に位置づけられますが、次第にはっきりしてくることは、「回答を提供する」こと(私が「回答推論」と呼ぶもの)と、「タスクを実行する」こと(私が「エージェント推論」と呼ぶもの)の間には明確な違いがあるということです。Cerebras のターゲット市場は「回答推論」です。長期的に見れば、「エージェント推論」のためのアーキテクチャは、Cerebras のアプローチだけでなく、GPU アプローチとも大きく異なるものになるでしょう。
上記で述べたように、コーディングにおける高速推論は一時的なユースケースに過ぎません。具体的には、LLM を用いたコーディングには人間がループ(プロセス)に参加する必要があります。何をコード化するかを定義し、作業をチェックし、プルリクエストをコミットするのは人間です。しかし、これらすべてを完全に機械が処理する未来も十分に想像できます。これは広範なエージェント業務にも当てはまります:エージェントの真の力は、人間のために仕事をする点にあるのではなく、むしろ人間の関与なしに仕事を遂行できる点にあります。
これは、拡張的に言えば、エージェント推論を解決するための最も適切なアプローチは、回答推論のそれとは大きく異なるものになることを意味します。回答推論において最も重要な側面はトークンの速度ですが、エージェント推論においてはむしろメモリが最重要となります。エージェントにはコンテキスト、状態、履歴が必要です。その一部はアクティブな KV キャッシュとして保存され、一部はホストメモリや SSD に格納され、多くはデータベース、ログ、埋め込みベクトル、オブジェクトストレージに存在します。重要な点は、エージェント推論が GPU が質問に答えることよりも、モデルを取り巻くメモリ階層構造に焦点を当てるものになるということです。
決定的なことに、このエージェント固有のメモリ階層という概念は、速度と容量の間で必要なトレードオフを暗示しています。しかし、ここで重要な点は、人間がループ(プロセス)に含まれていない場合、速度が遅いことはそれほど重要な考慮事項ではないということです。エージェントが夜間に実行されるジョブを待機している場合、そのエージェントはユーザー体験への影響を知りませんし、気にもしません。最も重要なのはタスクを完了できるかどうかであり、メモリに関する全く新しいアプローチによってそれが可能になるなら、遅延は許容されます。
一方、遅延に問題がないのであれば、純粋な計算能力と高帯域メモリへのすべての注目は場違いなものになります:レイテンシが最優先事項でないのであれば、従来の DRAM などのより低速で安価なメモリの方がはるかに理にかなっています。また、システム全体が主にメモリの待ち状態にある場合、チップも最先端ほど高速である必要はありません。これは将来のアーキテクチャにおける劇的な転換点を示していますが、現在のアーキテクチャが消滅するわけではありません:
- トレーニングは引き続き重要であり、Nvidia の現在のアーキテクチャ(高速計算、大量の高帯域メモリ、高速ネットワークを含む)は、おそらく引き続き支配的な地位を維持するでしょう。
- 回答推論は意味のある市場となりますが、比較的小規模なものであり、Cerebras や Groq などのチップからの速度(Nvidia が Groq の LPUs をどのように展開しているかについてはここで説明しました)は非常に有用です。
- エージェント型推論は、GPU を徐々にバラバラにしていきます。これは、プリフェッチ処理中に高帯域メモリを遊ばせたり、デコード処理中に計算リソースを遊ばせたりする交替的な動作から、より高度なメモリ階層へと移行し、そこでは大容量で比較的安価なメモリタイプが支配的となり、「十分良好」な計算能力が採用されます。実際、ツール使用などの分野においては、GPU の速度よりも CPU の速度の方が重要になるでしょう。
同時に、これらのカテゴリのサイズや重要性は均等ではありません。具体的には、エージェント型推論が圧倒的に最大の市場となります。なぜなら、この市場は人間や時間によって制限されないからです。現在のエージェントは高度な回答生成に過ぎませんが、将来のエージェント型推論とは、他のコンピュータからの指示に従ってコンピュータが行う作業を指し、その市場規模は人間の数ではなく計算リソースの規模に応じて拡大します。
エージェント型推論が計算リソースに与える影響
現在まで、「計算リソースに応じたスケーリング」という言葉は、暗黙的に Nvidia への楽観視を意味してきました。しかし、これまでの Nvidia の相対的な優位性の多くはレイテンシ(遅延)に起因するものでした。Nvidia のチップは高速な計算能力を持ちますが、その計算リソースを常に稼働させるためには、拡大し続ける HBM メモリとネットワークへの巨額の投資が必要でした。しかし、もしレイテンシが主要な制約要因でないのであれば、Nvidia のアプローチにプレミアムを支払う価値は相対的に低下します。
Nvidia もこの転換を認識しており、推論の異なる部分を切り離すのに役立つ「Dynamo」という推論フレームワークを発表しました。また、より大規模な KV キャッシュ(Key-Value Cache)の実装や高速なツール利用を可能にし、高価な GPU を常に稼働させるために、スタンドアロンのメモリラックや CPU ラックなどの製品を出荷しています。しかし究極的には、GPU に依存しないエージェント型推論において、コストとシンプルさがハイパースケール企業にとってますます魅力的になることは容易に想像がつきます。
一方、中国は最先端の計算リソースに欠けているものの、エージェント型推論に必要なものはすべて揃っています。十分速い(ただし最先端ではない)GPU、十分速い(ただし最先端ではない)CPU、DRAM、ハードドライブなどです。もちろん課題は学習のための計算リソースですが、少なくとも軍事応用においては、回答推論の方が国家安全保障にとって重要である可能性もあります。
もう一つの興味深い側面は宇宙空間です。いくつかの理由から、低速チップの方が宇宙データセンターの実現性を高めます。第一に、メモリをオフロードできれば、チップをよりシンプルに設計でき、発熱も大幅に抑えられます。第二に、物理的に大きい旧世代ノードは、宇宙放射線に対してより耐性があります。第三に、旧世代ノードは消費電力が少なく、放射による放熱が必要な熱量も少なくて済みます。第四に、最先端を追求しないことは信頼性の向上につながります。衛星は修理不可能であるため、これは重要な考慮事項です。
Nvidia のCEO ジェンソン・ファン氏は「ムーアの法則は死んだ」とよく発言しますが、彼が意味するのは、計算速度の向上の未来はシステムイノベーションに依存するようになるということです。まさに Nvidia はその道を進んでいます。しかし、人間を介在させずに動作するエージェントのもっとも深い含意の一つは、ムーアの法則自体が重要でなくなる点かもしれません。つまり、より多くの計算リソースを得る方法は、すでに持っている計算リソースが十分であるという事実を認識することにあるのです。
原文を表示
Listen to this post:
If you were looking for the ideal time to IPO, being a chip company in May 2026 is hard to beat. Reuters reported over the weekend:
Cerebras Systems is set to raise the size and price of its initial public offering as soon as Monday, as demand for the artificial intelligence chipmaker’s shares continues to climb, two people familiar with the matter told Reuters on Sunday. The company is considering a new IPO price range of $150-$160 a share, up from $115-$125 a share, and raising the number of shares marketed to 30 million from 28 million, said the sources, who asked not to be identified because the information isn’t public yet.
The fundamental driver of the ongoing surge in semiconductor stocks is, of course, AI, particularly the realization that agents are going to need a lot of compute. What Cerebras represents, however, is something broader: while the compute story for AI has been largely about GPUs, particularly from Nvidia, the future is going to look increasingly heterogeneous.
The GPU Era
The story of how Graphics Processing Units became the center of AI is a well-trodden one, but in brief:
- Just as drawing pixels on a computer screen was a parallel process, which meant there was a direct connection between the number of processing units and graphics speed, making AI-related calculations was a parallel process, which meant there was a direct connection between the number of processing units and calculation speed.
- Nvidia enabled this dual-usage by making its graphics processors programmable, and created an entire software ecosystem called CUDA to make this programming accessible.
- The big difference between graphics and AI has been the size of the problem being solved — models are a lot bigger than video game textures — which has led to a dramatic expansion in high-bandwidth memory (HBM) per GPU, and dramatic innovations in terms of chip-to-chip networking to allow multiple chips to work together as one addressable system. Nvidia has been the leader in both.
The number one use case for GPUs has been training, which stresses the third point in particular. While the calculations within each training step are massively parallel, the steps themselves are serial: every GPU has to share its results with every other GPU before the next step can begin. This is why a trillion-parameter model needs to fit in the aggregate memory of tens of thousands of GPUs that can communicate as one system. Nvidia dominates both problem spaces, first by securing HBM ahead of the rest of the industry, and second thanks to its investments in networking.
Of course training isn’t the only AI workload: the other is inference. Inference has three main parts:
- Prefill encodes everything the LLM needs to know into an understandable state; this is highly parallelizable and compute matters.
- The first part of decode entails reading the KV cache — which stores context, including the output of the prefill step — to make an attention calculation. This is a serial step where bandwidth matters, but the memory requirements are variable and increasingly large.
- The second part of decode is the feed-forward computation over the model weights; this is also a serial step where bandwidth matters, and the memory requirements are defined by the size of the model.
The two decode steps alternate for every layer of the model (they’re interleaved, not in sequence), which is to say that decode is serial and memory-bandwidth bound. For every token generated, two distinct memory pools must be read: the KV cache, which stores context and grows with each token, and the model weights themselves. Both must be read in full to produce a single output token.
GPUs handle all three needs: high compute for prefill, abundant HBM for KV cache and model weights, and chip-to-chip networking to pool memory across multiple chips when a single GPU isn’t enough. In other words, what works for training works for inference — look no further than the deal SpaceX made with Anthropic. From Anthropic’s blog:
We’ve signed an agreement with SpaceX to use all of the compute capacity at their Colossus 1 data center. This gives us access to more than 300 megawatts of new capacity (over 220,000 NVIDIA GPUs) within the month. This additional capacity will directly improve capacity for Claude Pro and Claude Max subscribers.
SpaceX retains Colossus 2 — presumably for both training of future models and inference of existing ones — and can afford to do both in the same data center precisely because xAI’s models aren’t getting much usage; more pertinently to this piece, they can do both in the same data center because both training and inference can be done on GPUs. Indeed, the GPUs Anthropic is contracting for at Colossus 1 were originally used for training as well; the fact that GPUs are so flexible is a big advantage.
Understanding Cerebras
Cerebras makes something completely different. While a silicon wafer has a diameter of 300mm, the “reticle limit” — the maximum area that a lithography tool can expose on that wafer — is around 26mm x 33mm. This is the effective size limit for chips; going beyond that entails linking two separate chips together over a chip-to-chip interposer, which is exactly what Nvidia has done with the B200. Cerebras, on the other hand, has invented a way to lay down wiring across the so-called “scribe lines” that are the boundary between reticle exposures, making the entire wafer into a single chip with no need for relatively slow chip-to-chip linkages.
The net result is a chip with a lot of compute and a lot of SRAM that is blisteringly fast to access. To put it in numbers, the WSE-3 (Cerebras’ latest chip) has 44GB of on-chip SRAM at 21 PB/s of bandwidth; an H100 has 80GB of HBM at 3.35 TB/s. In other words, the WSE-3 has just over half the memory of an H100, but 6,000 times the memory bandwidth.
The reason to compare the WSE-3 to an H100 is that the H100 is the chip most used for inference — and inference is clearly what Cerebras is most well-suited for. You can use Cerebras chips for training, but the chip-to-chip networking story isn’t very compelling, which is to say that all of that compute and on-chip memory is mostly just sitting around; what is much more interesting is the idea of getting a stream of tokens at dramatically faster speed than you can from a GPU.
Note, however, that the limitation in terms of training also potentially applies in terms of inference: as long as everything fits in on-chip memory Cerebras’ speed is an incredible experience; the moment you need more memory, whether that be for a larger model or, more likely, a larger KV cache, then Cerebras doesn’t make much sense, particularly given the price. That whole-wafer-as-chip technique means high yields are a massive challenge, which hugely drives up costs.
At the same time, I do think there will be a market for Cerebras-style chips: right now the company is highlighting the usefulness of speed for coding — reasoning means a lot of tokens, which means that dramatically scaling up tokens-per-second equals faster thinking — but I think this is a temporary use case, for reasons I’ll explain in a bit. What does matter is how long humans are waiting for an answer, and as products like AI wearables become more of a thing, the speed of interaction, particularly for voice — which will be a function of token generation speed — will have a tangible effect on the user experience.
Agentic Inference
I have previously made the case, including in Agents Over Bubbles, that we have gone through three inflection points in the LLM era:
- ChatGPT demonstrated the utility of token prediction.
- o1 introduced the idea of reasoning, where more tokens meant better answers.
- Opus 4.5 and Claude Code introduced the first usable agents, which could actually accomplish tasks, using a combination of reasoning models and a harness that utilized tools, verified work, etc.
All of this falls under the banner of “inference”, but I think it will be increasingly clear that there is a difference between providing an answer — what I will call “answer inference” — and doing a task — what I will call “agentic inference.” Cerebras’ target market is “answer inference”; in the long run, I think the architecture for “agentic inference” will look a lot different, not just from Cerebras’ approach, but from the GPU approach as well.
I mentioned above that fast inference for coding is a temporary use case. Specifically, coding with LLMs requires a human in the loop. It’s the human that defines what is to be coded, checks the work, commits the pull request, etc.; it’s not hard to envision a future, however, where all of this is completely handled by machines. This will apply to agentic work broadly: the true power of agents will not be that they do work for humans, but rather that they do work without human involvement at all.
This, by extension, will mean that the likely best approach to solving agentic inference will look a lot different than answer inference. The most important aspect for answer inference is token speed; the most important aspect for agentic inference, however, is memory. Agents need context, state, and history. Some of that will live as active KV cache; some will live in host memory or SSDs; much of it will live in databases, logs, embeddings, and object stores. The important point is that agentic inference will be less about GPUs answering a question and more about the memory hierarchy wrapped around a model.
Critically, this articulation of an agentic-specific memory hierarchy implies a necessary trade-off of speed for capacity. Here’s the thing, though: lower speed isn’t nearly as important a consideration if there isn’t a human in the loop. If an agent is waiting around for a job that is being run overnight, the agent doesn’t know or care about the user experience impact; what is most important is being able to accomplish a task, and if entirely new approaches to memory make that possible, then delays are fine.
Meanwhile, if delays are fine, then all of the focus on pure compute power and high-bandwidth memory seems out of place: if latency isn’t the top priority, then slower and cheaper memory — like traditional DRAM, for example — makes a lot more sense. And if the entire system is mostly waiting on memory, then chips don’t need to be as fast as the cutting edge either. This represents a profound shift in future architectures, but it also doesn’t mean that current architectures are going away:
- Training will continue to matter, and Nvidia’s current architecture, including high-speed compute, large amounts of high-bandwidth memory, and high-speed networking, will likely continue to dominate.
- Answer inference will be a meaningful market, albeit a relatively small one, and speed from chips like Cerebras or Groq (I explained how Nvidia is deploying Groq’s LPUs here) will be very useful.
- Agentic inference will gradually unbundle the GPU, which alternates between stranding high-bandwidth memory (during the prefill process) and stranding compute (during the decode process), in favor of increasingly sophisticated memory hierarchies dominated by high capacity and relatively lower cost memory types, with “good enough” compute; indeed, if anything it will be the speed of CPUs for things like tool use that will matter more than the speed of GPUs.
At the same time, these categories won’t be equal in size or importance. Specifically, agentic inference will be the largest market by far, because that is the market that won’t be limited by humans or time. Today’s agents are fancy answer inference; in the future true agentic inference will be work done by computers according to dictates given by other computers, and the market size scales not with humans but with compute.
The Implications of Agentic Inference on Compute
To date the invocation of “scaling with compute” has implicitly meant Nvidia bullishness. However, much of Nvidia’s relative advantage to date has been a function of latency: Nvidia chips have fast compute, but keeping that compute busy has required big investments in ever-expanding HBM memory and networking. If latency isn’t the key constraint, however, then Nvidia’s approach seems less worth paying a premium for.
Nvidia does recognize this shift: the company launched an inference framework called Dynamo that helps disaggregate different parts of inference, and is shipping products like standalone memory and CPU racks to enable increasingly large KV caches and faster tool use, the better to keep their expensive GPUs busy. Ultimately, however, it’s easy to see cost and simplicity being increasingly attractive to hyperscalers for agentic inference that isn’t remotely GPU-bound.
China, meanwhile, for all of its lack of leading edge compute, has everything it needs for agentic inference: fast-enough (but not leading-edge) GPUs, fast-enough (but not leading-edge) CPUs, DRAM, hard drives, etc. The challenge, of course, is compute for training; it’s also possible that answer inference is more important for national security, at least when it comes to military applications.
The other interesting angle is space: slower chips actually make space data centers more viable for a number of reasons. First, if memory can be offloaded, chips can be made much simpler and run much cooler. Second, older nodes, by virtue of being physically larger, will better withstand space radiation. Third, older nodes require less power, which means there will be less heat to dissipate via radiation. Fourth, not being on the bleeding edge will mean higher reliability, an important consideration given that satellites won’t be repairable.
Nvidia CEO Jensen Huang regularly says that “Moore’s Law is Dead”; what he means is that the future of computing speed-ups will be a function of systems innovation, which is exactly what Nvidia has done. Maybe the most profound implication of agents that act without humans in the loop, however, will be that Moore’s Law doesn’t matter, and that the way we get more compute is by realizing that the compute we have is already good enough.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み