AI ハードウェアに関する考察(7 分読了)
本記事は、現代の GPU が LLM 推論において演算能力よりもメモリ帯域幅がボトルネックとなっている根本的な課題を分析し、SRAM やウェハスケールチップといった新しいアーキテクチャによる解決策と市場の再編成を解説している。
キーポイント
推論時のボトルネックはメモリ帯域幅
H100 のような高性能 GPU でも、自己回帰的デコード時には演算ユニットが待機状態となり、HBM(高帯域幅メモリ)へのアクセス速度が最大の制約要因となっている。
SRAM によるアーキテクチャ転換
Groq や Cerebras は HBM を排除し、チップ内部に大容量の高速 SRAM を配置することでメモリ待ち時間を解消するアプローチを採用している。
NVIDIA の戦略的参入と市場再編
NVIDIA が Groq と提携し、自社の次期プラットフォーム「Vera Rubin」に SRAM 型推論アクセラレータを組み込むことで、この技術がスタートアップの域を超えた主流化を示唆している。
市場の整理と競争軸の変化
AI ハードウェア市場は、NVIDIA と直接競合するのではなく、メモリ問題のどの層(チップ内、キャッシュ階層、パッケージなど)を解決するかによって再編成されつつある。
影響分析・編集コメントを表示
影響分析
この記事は、AI ハードウェア開発の根本的なパラダイムシフトを明確に示しており、従来の「より大きな GPU」から「メモリ効率と帯域幅の最適化」への転換が加速していることを示唆しています。特に NVIDIA の戦略的動きは、SRAM 型アーキテクチャが単なるニッチな技術から、次世代データセンターの標準的な選択肢の一つへと昇格したことを意味しており、投資家や開発者にとって重要な指針となります。
編集コメント
NVIDIA が競合の技術的優位性を自社のプラットフォームに組み込むという事実は、業界全体がメモリボトルネック解決へ本格的に取り組んでいる証拠です。このトレンドは、今後数年間の AI インフラ投資先を決定づける重要な転換点となるでしょう。
現代の GPU 内部にある演算ユニットは、LLM(大規模言語モデル)推論の多くの時間を待機状態に費やしています。
H100 は膨大なテンソル処理能力を持ち、精度やスパース性をカウントするかどうかによって異なりますが、そのスループットは毎秒 2〜4 ペタフロップス(PFLOP/s)のオーダーです。しかし、自己回帰的デコード(autoregressive decode)においては、ボトルネックとなるのは通常乗算演算ではありません。バッチサイズが低から中程度のデコードでは、新しいトークンごとにシステムはアクティブなモデル重みを読み込み、蓄積された状態に対してアテンション(attention)を計算する必要があり、GPU の HBM(ハイバンド幅メモリ)帯域幅(H100 SXM 版では約 3.35 TB/s)には限界があります。メモリから取得したバイトあたり数百回の有用な演算を実行しない限り、テンソルコアは完全に稼働し続けることができません。
¹ 正確な比率は精度や会計基準に依存しますが、重要な点は安定しています。現代の GPU は、HBM から読み出せるバイトあたり数百単位の計算リソースを備えています。自己回帰的デコードはこの閾値を大幅に下回っています。
この問題は GPU の世代を超えて継続しています。デコードフェーズにおけるピークテンソル処理能力は、外部メモリ帯域幅よりも速く成長しているため、演算強度(operational intensity)のギャップは解消されていません。むしろ拡大する一方です。
これが現在、最も興味深い AI ハードウェア市場の背景にある基本的な事実です。この分野の企業にとって有益な問いは、どの部分でメモリ問題を解決しようとしているか、そしてその解決策が NVIDIA と正面から競合することを回避できるかどうかです。市場は、その制約にどこを攻撃するかによって整理されつつあります:チップ内部、サービングエンジン内部、キャッシュ階層内部、あるいは物理パッケージおよびラック内部です。
断片的なチップの景観
Groq ↗ は HBM を全く搭載しないチップを開発し、代わりにオンチップ SRAM(プロセッサダイに直接組み込まれたメモリで、DRAM よりもはるかに高速ですが密度が低いため、単位面積あたりの容量は大幅に少なくなります)を置き換えました。実行モデル全体が決定的でした。コンパイラはすべてのサイクルを静的にスケジューリングし、キャッシュも動的スケジューリングも存在しません。大規模なモデルを保持するには多くのチップが必要になりますが、HBM を待つ必要はありません。NVIDIA との Groq の提携により競争の枠組みが変化しました:SRAM 型推論はもはやスタートアップへの賭けだけでなく、NVIDIA 自身のプラットフォームロードマップの一部となっています。その結果、Groq 3 LPX 推論アクセラレータが開発され、メイン GPU と並んで NVIDIA の Vera Rubin ↗ プラットフォームに統合されました。
Cerebras ↗ は、H100 デバイスの面積の 50 倍以上に及ぶ単一のチップをシリコンウェーハ全体にわたって構築し、オンチップ SRAM を 44 GB、内部メモリ帯域幅を 21 PB/s 搭載しています。同じ基本理念ですが、実現メカニズムは異なります。同社は 2026 年 5 月に上場しました。
MatX ↗ は、トランスフォーマー推論のアクセスパターンに最適化されたスクラッチパッドメモリ(ハードウェア管理型キャッシュではなくソフトウェア管理型の高速メモリ)を中心に構築を進めています。d-Matrix ↗ は、演算をメモリ配列自体内に移動させるインメモリーコンピューティングを実現しています。
これらすべては、データが存在する場所と演算が行われる場所との間のギャップを縮小または解消しようとする異なる試みです。
推論エンジン
不完全なハードウェアであっても、ソフトウェアによってボトルネックを迂回することが可能です。これに基づいて、有用な簡易的な屋根線(roofline)ヒューリスティックが導き出されます。粗い屋根線ヒューリスティックによれば、デコード時のバッチサイズはおよそ 300×(Ntotal/Nactive) に比例してスケーリングします。ここで、300 という値は現在のハードウェアにおけるピーク演算能力とメモリ帯域幅の比を反映したものです。密結合モデルの場合、これは約 300 トークンに相当します。一方、DeepSeek ↗ (https://www.deepseek.com/) スタイルの MoE(Mixture of Experts)では、1 トークンあたり総パラメータ数 700B のうち約 37B がアクティブとなるため、近似バッチサイズは約 6,000 に近づきます。実際には、真の値は精度、KV キャッシュの圧力、並列化戦略、レイテンシ目標、およびサービングスタックによって変動しますが、重要なのは方向性です。この点より下では帯域幅が制限要因となり、上では計算能力が次第に制限要因となります。大まかなハードウェアレベルでは、システムは数十ミリ秒オーダーのサイクルで動作していると考えることができます。これは HBM(High Bandwidth Memory)をストリーミングするのにかかる時間とほぼ同等であり、各サイクルでアクティブなシーケンスごとに 1 つ新しいトークンを生成します。
これに基づいて生じるスケジューリング問題は、レイテンシ目標を満たしつつスループットを最大化するために、リクエストをこれらのサイクルにどのように詰め込むかという点にあります。プリフィル(Prefill)は通常計算集約型であり、デコード(Decode)は通常メモリ帯域幅に敏感です。これらはハードウェアから異なる要求を持ち、効率的に混合することは困難です。
RadixArk ↗ と Inferact ↗ は、この分野に最近参入しました。RadixArk は SGLang ↗](https://github.com/sgl-project/sglang) チームであり、推論(inference)のために SGLang 上に商用インフラを構築し、強化学習(RL)トレーニングのために Miles ↗](https://github.com/radixark/miles) を開発しています。Inferact は vLLM ↗](https://github.com/vllm-project/vllm) チームであり、vLLM を用いて同様の取り組みを行っています。両者ともカリフォルニア大学バークレー校のプロジェクトで広く展開されており、現在は企業として互いに競い合っています。
なぜこれが興味深いのでしょうか?それは問題が複合化しているからです。新しいモデルアーキテクチャや新しいハードウェアプラットフォームが登場するたびに、最適化の範囲(optimization surface)が変化します。Roofline-aware scheduling に深い専門知識を蓄えたチームは、ハードウェアが多様化し、ワークロードが多様化するにつれて問題がより困難になるため、成長する優位性を獲得します。より目立たない質問は、この市場が一つの支配的なエンジンに集約されるのか、それとも内部フォーク、マネージドサービス、オープンソースのデフォルト設定 across 断片化されるのかという点です。RadixArk は Miles を通じてある程度の差別化を図っており、これにより強化学習トレーニングという第二の領域を獲得しています。しかし、推論における直接対決は熾烈なものとなるでしょう。
KV cache インフラストラクチャ
メモリ問題は重みの読み出しよりも深い問題を含んでいます。推論中、コンテキスト内のすべての過去トークンに対する保存されたアテンション状態である KV キャッシュ(KV cache)も読み出されます。重みは固定されていますが、KV キャッシュはコンテキスト長とバッチサイズに比例して線形に増加します。
大規模なトランスフォーマーモデルにおいて、すべての層、KV ヘッド、ヘッド次元、および精度を考慮すると、1 トークンあたりの KV キャッシュは容易に数百 KB に達します。約 100B のアクティブパラメータを持ち、トークンあたり総 KV フットプリントが約 500 KB のモデルの場合、200,000 トークンで KV キャッシュは 100 GB に達し、重みのフットプリントと一致します。これより少ない場合は、主に重み読み出しに対して支払っている状態です。これを超えると KV キャッシュが支配的となり、コストは直線的に上昇します。これは、200K トークンなどの閾値を過ぎた際に長文コンテキストの価格設定が段階的に上がるという、妥当な技術的理由の一つですが、価格設定には製品セグメンテーションやキャパシティプランニングも反映されています。
Reiner Pope の講義 ↗ からの興味深い観察として、メモリ階層がこれにどのようにマッピングされるかがあります。各階層の「排水時間」(容量を帯域幅で割った値)が、その自然な保持期間を設定します。HBM は約 20 ミリ秒で排水され、DDR は数秒、Flash は約 1 分、スピンドルディスクは約 1 時間で排水されます。アイドル状態の会話で KV キャッシュを保持している場合、HBM を独占するのではなく、この階層を下に移動させるべきです。
TensorMesh ↗ はこれを基盤に構築を進めています。彼らのオープンソースプロジェクト LMCache ↗ は、KV キャッシュを GPU、CPU RAM、NVMe、S3 にわたって保存するため、再利用可能な KV 状態は最初から再計算されるのではなく、呼び戻されます。私の推測では、これは大規模なスタンドアロンプラットフォームとして残るよりも、サービングエンジンに吸収される可能性が高いですが、その間 LMCache は、まだエンジンが直接引き受けようとしていない作業を遂行しています。
パッケージングと相互接続
チップおよびサーバーレベルでメモリとスケジューリングを限界まで押し上げると、制約はパッケージ、基板、そして最終的にはラックへと外側へ移行します。
CoWoS(TSMC の先進的なパッケージング技術であり、インターポーザ上で GPU デイスを HBM スタックに物理的に接続するもの)は、真の供給ボトルネックとなっています。72-GPU システムから 500+ GPU のスケールアップドメインへの移行は、単なるネットワークの問題ではありません。コネクタ密度、ケーブルの曲げ半径、電力供給、液体冷却、HBM アタッチ歩留まりといった問題に直面します。これらの問題は機械工学および材料科学の領域であり、チップ企業が得意とする分野から実質的な距離を生み出しています。
考えるべき並行事例は、すべての先進ファブが依存するリソグラフィ装置を製造する ASML です。同社は競合他社と競合することなく、すべてのチップ設計者を支援しています。パッケージングや相互接続のボトルネックを突破した企業は、ASML のような市場ポジションに立つ可能性があります。ただし、独占性は低くなるでしょう:ここでの価値は、EUV リソグラフィがシステム・オブ・システムとして単一企業に集中するのとは異なり、TSMC、基板ベンダー、光相互接続サプライヤー、ODM の間で分散される可能性が高いです。
The picture
市場はメモリに関する問題のスタックへと変化しています。チップは重みを計算ユニットに近い位置に保とうとします。サービング・エンジンは帯域幅を回避してバッチ処理とスケジューリングを試みます。KV キャッシュ・システムは、アテンション状態を HBM に放置するのではなく、階層を通じて移動させようとします。パッケージングと相互接続は、ラックがより一つのマシンのように動作するように目指しています。
LMCache ↗ は、オープンソースプロジェクト TensorMesh の基盤となっているものであり、同社がスタンドアロン版の販売を試みている最中にもかかわらず、主要なサービング・エンジンやランタイムに取り込まれ始めています。おそらくこれがテンプレートとなるでしょう。有用なプリミティブは統合され、スタンドアロンのラッパーは別の役割を見つける必要があります。
そして、Transformer アーキテクチャが固定機能シリコンに焼き付けるのに十分確立されたと賭ける全く異なる種類の賭けをしているのが Etched ↗ です。もし彼らが正しければ、すべてのトランジスタがまさに正しいことを実行します。しかし間違っていれば、汎用アクセラレータの場合よりもはるかに少ない余地しか残されません。そして現在、NVIDIA の Rubin プラットフォームが Groq 買収を通じて独自の SRAM ベースの推論アクセラレータ(SRAM-based inference accelerator)を含んでいるため、Etched はもはやレガシー GPU とだけ競合しているわけではありません。
主要な対抗勢力はアルゴリズムの進歩です。ハードウェアの変化は緩やかですが、サービング技術やモデルアーキテクチャは急速に進化します。推測的デコーディング(speculative decoding)、KV キャッシュ圧縮(KV-cache compression)、スパース性(sparsity)、蒸留(distillation)、ネイティブ低ビットモデル(native low-bit models)はいずれも、有用なトークンあたりに必要なメモリアクセス量を削減し、これらの技術がきれいにスケーリングすれば、一部の特殊なハードウェアアプローチに対する必要性を弱めます。しかし、それらが根本的な制約を取り除くわけではありません。その形状を変えるだけです。低精度化はパラメータあたりのバイト数を減らしますが、ネイティブ低ビット演算(native low-bit arithmetic)への需要を生み出します。推測的デコーディングは重みの読み出しを分散させますが、ドラフトモデルの採用率に依存し、KV キャッシュへの負荷はそのまま残ります。スパース性はアクティブなパラメータ数を減らしますが、ルーティングと相互接続の複雑さを増大させます。目標は移動しており、そのため持続可能なハードウェア企業には、ボトルネックがシフトしても有用であり続けるアーキテクチャが必要です。
私は、各レイヤーにおいて持続可能な企業が構築されると信じています。しかし、これらの企業が独立したまま存続できるかどうかは、まだ明確ではありません。AI インフラストラクチャにおける最も有用なプリミティブ(基本構成要素)は、サービングエンジン、クラウド、研究所、あるいは NVIDIA 自体によってすぐに吸収されてしまう傾向があります。難しいのは、ボトルネックが重要であることを証明することではなく、スタックの他のどこでも内部化できない制御ポイントを所有することです。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "翻訳全文"}
原文を表示
The arithmetic units inside a modern GPU spend much of LLM inference waiting.
An H100 has enormous tensor throughput, on the order of 2 to 4 PFLOP/s depending on precision and whether you count sparsity. But during autoregressive decode, the bottleneck is usually not multiplication. In low-to-moderate batch decode, each new token effectively requires the system to stream through the active model weights and attend over accumulated state, while the GPU’s HBM bandwidth (about 3.35 TB/s on an H100 SXM) is finite. Unless a workload performs hundreds of useful operations per byte fetched from memory, the tensor cores can’t stay fully occupied.¹
¹ The exact ratio depends on precision and accounting conventions, but the important point is stable: modern GPUs have hundreds of units of compute available for every byte they can pull from HBM. Autoregressive decode is far below that threshold.
And this problem has persisted across GPU generations. Peak tensor throughput has grown faster than external memory bandwidth for the decode phase, so the operational-intensity gap hasn’t closed. If anything it has widened.
That is the basic fact underneath most of the interesting AI hardware market right now. The useful question for any company in this space is which part of the memory problem they’re attacking, and whether solving it lets them avoid competing head-on with NVIDIA. The market is starting to organize around where you attack that constraint: inside the chip, inside the serving engine, inside the cache hierarchy, or inside the physical package and rack.
A (truncated) chip landscape
Groq ↗ built a chip with no HBM at all, replacing it with on-chip SRAM (memory built directly into the processor die, much faster than DRAM but also much less dense, so you get far less capacity per unit area). The whole execution model was deterministic. The compiler scheduled every cycle statically, no caches, no dynamic scheduling. You need many more chips to hold a large model, but you never wait for HBM. NVIDIA’s Groq deal changed the competitive frame: SRAM-style inference is no longer just a startup bet, it is now part of NVIDIA’s own platform roadmap. The result is the Groq 3 LPX inference accelerator, integrated into NVIDIA’s Vera Rubin ↗ platform alongside the main GPU.
Cerebras ↗ built a single chip that spans an entire silicon wafer, over 50x the area of an H100 die, with 44 GB of on-chip SRAM and 21 PB/s of internal memory bandwidth. Same thesis, different mechanism. They went public in May 2026.
MatX ↗ is building around scratchpad memories (software-managed fast memory, as opposed to hardware-managed caches) designed for the access patterns of transformer inference. d-Matrix ↗ is doing in-memory compute, moving the arithmetic into the memory array itself.
Every one of these is a different attempt to shrink or eliminate the gap between where data lives and where arithmetic happens.
Inference engines
Even with imperfect hardware, software can route around the bottleneck. A useful back-of-the-envelope roofline heuristic falls out of this. A crude roofline heuristic says the approximate batch size for decode scales like 300×(Ntotal/Nactive)300 \times (N_{total} / N_{active}), where the 300 reflects the approximate ratio of peak compute to memory bandwidth on current hardware. For a dense model that’s about 300 tokens. For a DeepSeek ↗-style MoE where roughly 37B of 700B total parameters are active per token, the approximate batch is closer to 6,000. In practice, the true number moves around with precision, KV pressure, parallelism strategy, latency targets, and the serving stack, but the direction is what matters. Below that point, you are bandwidth-limited. Above it, you are increasingly compute-limited. At a rough hardware level, you can think of the system as running in cycles on the order of tens of milliseconds, roughly the time it takes to stream through HBM, with each cycle producing one new token per active sequence.
The scheduling problem that falls out of this is how to pack requests into these cycles to maximize throughput while hitting latency targets. Prefill is usually compute-heavy. Decode is usually memory-bandwidth-sensitive. They want different things from the hardware, and mixing them efficiently is hard.
RadixArk ↗ and Inferact ↗ have both recently launched into this. RadixArk is the SGLang ↗ team, building commercial infrastructure on top of SGLang for inference and Miles ↗ for RL training. Inferact is the vLLM ↗ team doing the same with vLLM. Both Berkeley projects, both widely deployed, now racing each other as companies.
Why is this interesting? Because the problem compounds. Every new model architecture, every new hardware platform changes the optimization surface. A team that builds deep expertise in roofline-aware scheduling accumulates an advantage that grows, because the problem keeps getting harder as hardware gets more heterogeneous and workloads get more varied. The less obvious question is whether this market consolidates around one dominant engine, or fragments across internal forks, managed services, and open-source defaults. RadixArk has some differentiation through Miles, which gives them RL training as a second surface area. But the head-to-head on inference will be intense.
KV cache infrastructure
The memory problem goes deeper than weight reads. During inference, you also read the KV cache, the stored attention state for every previous token in the context. The weights are fixed. The KV cache grows linearly with context length and batch size.
For a large transformer model, the KV cache can easily be hundreds of KB per token once you account for all layers, KV heads, head dimensions, and precision. For a model with roughly 100B active parameters and a total KV footprint of around 500 KB per token, the KV cache reaches 100 GB at about 200,000 tokens, matching the weight footprint. Below that, you're mostly paying for the weight read. Above it, KV cache dominates and costs climb linearly. This is a plausible technical reason long-context pricing often steps up past thresholds like 200K tokens, though pricing also reflects product segmentation and capacity planning.
There's a nice observation from Reiner Pope's lecture ↗ about how the memory hierarchy maps onto this. The "drain time" of each tier (capacity divided by bandwidth) sets its natural retention horizon. HBM drains in about 20 milliseconds. DDR drains in seconds. Flash in about a minute. Spinning disk in about an hour. If you're holding KV cache for an idle conversation, it should migrate down this hierarchy rather than hogging HBM.
TensorMesh ↗ is building around this. Their open-source project LMCache ↗ stores KV caches across GPU, CPU RAM, NVMe, and S3, so reusable KV state gets pulled back in rather than recomputed from scratch. My guess is that this is more likely to be absorbed into serving engines than remain a large standalone platform, but in the meantime LMCache is doing work the engines don't yet seem to want to own directly.
Packaging and interconnect
Once you push memory and scheduling hard enough at the chip and server level, the constraint moves outward to the package, the board, and eventually the rack.
CoWoS (TSMC's advanced packaging technology, the thing that physically connects GPU dies to HBM stacks on an interposer) has been a genuine supply bottleneck. And the jump from 72-GPU systems to 500+ GPU scale-up domains is not just a networking problem. It runs into connector density, cable bend radius, power delivery, liquid cooling, and HBM attach yield. The problems are mechanical engineering and materials science, which creates real distance from what the chip companies are good at.
The parallel worth thinking about is ASML, which makes the lithography machines every advanced fab depends on. They enable all chip designers without competing with any of them. A company that cracks a packaging or interconnect bottleneck could be in an ASML-like market position, though likely less monopolistic: the value here may be split across TSMC, substrate vendors, optical interconnect suppliers, and ODMs rather than concentrating in a single system-of-systems the way EUV lithography has.
The picture
The market is becoming a stack of memory problems. Chips try to keep weights closer to compute. Serving engines try to batch and schedule around bandwidth. KV cache systems try to move attention state through a hierarchy instead of leaving it stranded in HBM. Packaging and interconnect try to make the rack behave more like one machine.
LMCache ↗, the open-source project TensorMesh is built on, is already being pulled into the major serving engines and runtimes even as the company tries to sell it standalone. That's probably the template. The useful primitive gets integrated, and the standalone wrapper has to find something else to be.
And then there's Etched ↗, which is making a different kind of bet entirely, wagering that the transformer architecture is settled enough to burn into fixed-function silicon. If it's right, every transistor does exactly the right thing. If it's wrong, there's much less room to maneuver than there is in a general-purpose accelerator. And now that NVIDIA's Rubin platform includes its own SRAM-based inference accelerator via the Groq deal, Etched isn't just competing against legacy GPUs anymore.
The major counterweight is algorithmic progress: hardware changes slowly, while serving techniques and model architectures can move quickly. Speculative decoding, KV-cache compression, sparsity, distillation, and native low-bit models all reduce the amount of memory movement required per useful token, and if those techniques scale cleanly, they weaken the case for some exotic hardware approaches. But they do not remove the underlying constraint. They change its shape. Lower precision reduces bytes per parameter, but creates demand for native low-bit arithmetic. Speculative decoding amortizes weight reads, but depends on draft-model acceptance rates and leaves KV-cache pressure intact. Sparsity reduces active parameters, but increases routing and interconnect complexity. The target is moving, which is why durable hardware companies need architectures that remain useful as the bottleneck shifts.
I believe durable companies will be built at each layer. What's less clear is whether those companies remain independent. The most useful primitives in AI infrastructure tend to get absorbed quickly by serving engines, clouds, labs, or NVIDIA itself. The hard part isn't proving that the bottleneck matters, but owning a control point that can't be internalized somewhere else in the stack.
関連記事
[AINews] 今日特に大きな出来事はありませんでした
Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
社内データ分析エージェントの構築方法について
GitHub は、大規模なデータ組織が直面する自己完結型のデータアクセスと洞察提供の課題に対し、AI を活用した信頼性の高い解決策として、社内でデータ分析エージェントを構築したことを発表した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み