推論が AI チップ新興企業に再び市場参入の機会をもたらす
AI 推論(Inference)への焦点シフトにより、Nvidia の独占的支配に対する多様なハードウェアアーキテクチャの台頭と、スタートアップがニッチ市場で生き残る新たな機会が生まれている。
キーポイント
推論ワークロードの多様化による参入障壁の低下
トレーニングから推論へのシフトにより、大規模バッチ処理とリアルタイムアシスタントなど用途ごとに最適なハードウェア要件が分岐し、スタートアップが特定領域でニッチを確立できる機会となった。
ハイブリッドアーキテクチャの台頭
Nvidia の Groq 買収や AWS、Intel の事例に見られるように、事前計算(prefill)には GPU を使い、デコード(decode)に専用アクセラレータを使用する組み合わせが業界標準となりつつある。
光学推論など次世代技術の実用化
Lumai のようなスタートアップが光を用いた行列演算で電力効率を劇的に向上させる光学アクセラレータを開発し、2029 年までの exaOPS 達成を目指すなど、技術的革新が続いている。
SRAM と専用チップのデコード優位性
SRAM の高速性を活かしたチップや Cerebras のウェーハスケールアーキテクチャが、帯域制限のある推論デコード処理において GPU を凌駕する性能を発揮している。
影響分析・編集コメントを表示
影響分析
この記事は、AI ハードウェア業界が NVIDIA の一極集中から脱却し、用途特化型の多様化段階へと移行したことを示す重要な転換点です。スタートアップ企業にとっては、汎用 GPU に依存せず、推論の特定の工程(デコードや事前計算)に特化した技術で市場参入する道が開けたことを意味します。今後は、ハイブリッドアーキテクチャや光学計算などの新技術が実用化され、業界全体の電力効率とコスト構造が大きく変化する可能性があります。
編集コメント
推論市場の多様化は、AI ハードウェア業界にとって「勝者総取り」から「役割分担」へのパラダイムシフトを意味します。スタートアップにとっては、汎用 GPU と一線を画す独自の技術で生き残る最後のチャンスであり、投資家も注目すべき転換点です。
AI の採用は、新しいモデルのトレーニングからそれらの提供へと焦点が移ることで転換点に達しています。Nvidia のパイの一部を分け合おうと競う AI スタートアップにとって、今がその時か永遠にないかの局面です。トレーニングと比較すると、推論(inference)ははるかに多様なワークロードであり、チップスタートアップが自分たちのニッチを切り開く機会を提供しています。バッチ処理による大規模な推論には、AI アシスタントやコードエージェントとは異なる計算、メモリ、帯域幅の組み合わせが必要です。このため、推論はますます異質化しており、その特定の側面は GPU や他のより専門的なハードウェアにより適している可能性があります。Nvidia が昨年 12 月に Groq を 200 億ドルで買収した事例がこれの良い例です。スタートアップの SRAM(静電容量メモリ)を多用するチップアーキテクチャにより、十分な数のチップがあれば、Groq の LPUs はどの GPU よりも高速にトークンを生成できました。しかし、限られた計算能力と陳腐化したチップ技術のため、それらを効率的にスケールさせることはできませんでした。Nvidia はこの問題を回避し、推論パイプラインの計算集約的なプリフィル(prefill)部分を自社の GPU に移動させながら、帯域幅制約のあるデコード(decode)演算を新しい LPUs 上で実行しました。
この組み合わせは Nvidia 固有のものではありません。GTC の翌週、AWS は独自の分離型計算プラットフォームを発表し、プリフィルには独自開発の Trainium アクセラレータを、デコードには Cerebras Systems の夕食皿サイズのウェーハスケールアクセラレータを使用しました。Intel もまたこの動きに参加し、GPU(おそらく昨年の北半球の秋に予告されたもの)をプリフィルに、AI チップスタートアップである SambaNova の新しい RDUs をデコードに使用するリファレンスデザインを発表しています。これまでのところ、AI チップスタートアップの勝利のほとんどは、方程式のデコード側にありました。SRAM は容量が特に大きいわけではありませんが、驚くほど高速です。したがって、十分な数のチップがあれば(Cerebras の場合は少なくとも大きな 1 つのチップがあれば)、デコード演算を加速するのに適していますが、チップスタートアップがこの領域に限定されているわけではありません。
今週、Lumai は光学的推論アクセラレータの詳細を発表しました。これは電子ではなく光を用いて、純粋なデジタルアーキテクチャの几分の一の電力で、機械学習ワークロードの中核をなす行列乗算演算を実行します。Lumai は、2029 年までに次世代の Iris Tetra システムが 10kW の電力予算内で AI パフォーマンスのエクサ OPS を達成すると期待しています。技術的にはチップはハイブリッド電光アーキテクチャを使用していますが、推論中に実行される計算の大部分はチップの光学テンソルコアによって処理されます。当初、同社はこのチップを、バッチ処理などの計算集約型推論ワークロードに対する GPU の代替品として位置付けています。長期的には、同社は光学的アクセラレータをプリフィルプロセッサとしても使用する計画です。アーキテクチャはまだ初期段階にありますが、Llama 3.1 8B や 70B などの数十億パラメータモデルを実行可能であり、英国のスタートアップはすでに評価のために新クラウド企業やハイパースケール企業に対してチップを公開しています。
ただし、すべての AI チップスタートアップがプリフィルとデコードに異なるチップを使用することに熱心なわけではありません。先週、Tenstorrent は RISC-V ベースの Galaxy Blackhole 計算プラットフォームを発表し、同社のジム・ケラー CEO が分離型推論方式を支持していないことは言うまでもありません。「業界のすべての企業が、アクセラレータを作るためのアクセラレータを作るために連携しています。CPU はコードを実行します。GPU は CPU を加速します。TPU は GPU を加速します。LPU は TPU を加速します。そしてその通りです。これにより複雑なソリューションが生まれますが、AI モデルや用途の変化との互換性は低いでしょう。Tenstorrent では、より一般的で単純なものが機能すると考えました」と彼は声明で述べています。®
原文を表示
AI adoption is reaching an inflection point as the focus shifts from training new models to serving them. For the AI startups vying for a slice of Nvidia's pie, it's now or never. Compared to training, inference is a much more diverse workload, which presents an opportunity for chip startups to carve out a niche for themselves. Large batch inference requires a different mix of compute, memory, and bandwidth than an AI assistant or code agent. Because of this, inference has become increasingly heterogeneous, certain aspects of which may be better suited to GPUs and other more specialized hardware. Nvidia's $20 billion acquihire of Groq back in December is a prime example. The startup's SRAM-heavy chip architecture meant that, with enough of them, Groq's LPUs could churn out tokens faster than any GPU. However, their limited compute capacity and aging chip tech meant they couldn't scale all that efficiently. Nvidia side stepped this problem by moving the compute heavy prefill bit of the inference pipeline to its GPUs while it kept the bandwidth-constrained decode operations on its shiny new LPUs. This combination isn't unique to Nvidia. The week after GTC, AWS announced a disaggregated compute platform of its own that used its custom Trainium accelerators for prefill and Cerebras Systems' dinner-plate sized wafer-scale accelerators for decode. Even Intel has gotten in on the fun, announcing a reference design that'll use GPUs — presumably the one they teased last northern hemisphere fall — for prefill and AI chip startup SambaNova's new RDUs for decode. So far, most of the AI chip startups' wins have been on the decode side of the equation. SRAM, while not particularly capacious, is stupendously fast. So with enough chips, or at least a big enough chip in the case of Cerebras, they're well suited to accelerating decode operations, but chip startups aren't limited to this regime. This week, Lumai detailed its optical inference accelerator, which uses light, rather than electrons, to perform the matrix multiplication operations at the heart of most machine learning workloads using a fraction of the power of a purely digital architecture. Lumai expects its next-gen Iris Tetra systems will achieve an exaOPS of AI performance in a 10kW power budget by 2029. Technically, the chips use hybrid electro-optical architecture, but the bulk of the compute done during inference is handled by the chip's optical tensor core. Initially, the company is positioning the chip as a standalone alternative to GPUs for compute-bound inference workloads, such as batch processing. Longer-term, the company also plans to use its optical accelerators as prefill processors. The architecture is still in its infancy, capable of running billion parameter models like Llama 3.1 8B or 70B today, but it's far enough along that the UK-based startup has opened its chips up to neoclouds and hyperscalers for evaluation. Having said that, not every AI chip startup is keen on using different chips for prefill and decode. Earlier this week Tenstorrent unveiled its RISC-V-based Galaxy Blackhole compute platforms, and suffice to say the company's CEO Jim Keller isn't a fan of the disaggregated inference formula. "Every company in the industry is pairing up to build the accelerator accelerator accelerator. CPUs run code. GPUs accelerate CPUs. TPUs accelerate GPUs. LPUs accelerate TPUs. And so on. This leads to complex solutions which are unlikely to be compatible with changes in AI models and uses. At Tenstorrent, we thought something more general and simpler would work," he said in a statement. ®
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み