推論が AI チップ新興企業に再び市場参入の機会をもたらす
AI 推論市場がトレーニングからサービス提供へ転換する中、Nvidia の Groq 買収や AWS、Intel の戦略的提携などにより、スタートアップ企業が推論の特定領域でニッチを確立し、業界の再編が進んでいる。
キーポイント
推論ワークロードの多様化とニッチの創出
トレーニングに比べ推論は用途が多岐にわたり、バッチ処理やリアルタイム応答など要件が異なるため、スタートアップ企業が特定の領域で差別化を図る機会となっている。
Nvidia の Groq 買収とアーキテクチャの統合
Nvidia が高速な推論に特化した Groq を買収し、計算集約型のプリフィルを GPU で処理し、帯域制約のあるデコードを LPUs で行うハイブリッド構成へ移行した。
大手クラウドと半導体メーカーの分散型プラットフォーム戦略
AWS は Trainium と Cerebras の組み合わせを、Intel は GPU と SambaNova の RDU を組み合わせた参照設計を発表し、推論パイプラインの最適化を進めている。
スタートアップ企業の技術的優位性と光計算への展開
SRAM 高速性を活かしたデコード処理で成功を収めるスタートアップが増える中、Lumai は光計算を用いた新アーキテクチャでリアルタイム推論への挑戦を開始している。
Intel と SambaNova の協業
Intel が GPU を事前計算(prefill)に、SambaNova の新 RDUs をデコードに使用する参照設計を発表し、インフラストラクチャの分業が進んでいる。
Lumai の光演算技術
Lumai は電子ではなく光を用いて行列計算を行う光学推論アクセラレータを開発しており、2029 年までに 10kW の電力予算で exaOPS の性能達成を目指す。
AI チップスタートアップの多様化
従来の SRAM を活用したデコード加速に加え、光演算やハイブリッドアーキテクチャなど、スタートアップが推論の異なる側面や新技術領域で競争を繰り広げている。
影響分析・編集コメントを表示
影響分析
この記事は、AI ハードウェア市場が Nvidia の一極集中から、推論の多様な要件に応じた分散型・特化型アーキテクチャへの再編へと移行していることを示唆しています。大手企業がスタートアップの技術を統合・買収する動きや、クラウドプロバイダーによる異種ハードウェアの組み合わせ戦略は、今後の AI インフラ設計における「汎用性」から「最適化」へのパラダイムシフトを加速させるでしょう。
編集コメント
推論市場の成熟に伴い、スタートアップ企業が「汎用 GPU」への依存から脱却し、独自のアーキテクチャでニッチを確立する動きが加速しています。大手企業の買収や提携戦略は、技術の標準化よりも「用途別最適化」を重視する新たな業界の方向性を示しています。
AI の導入は、新しいモデルのトレーニングからそれらの提供へと焦点が移ることで転換点に達しています。Nvidia の市場シェアを巡って争っている AI スタートアップにとって、今がそのチャンスです。
トレーニングと比較すると、推論(inference)ははるかに多様なワークロードであり、これはチップスタートアップが独自のニッチを切り開く機会となります。大規模バッチの推論には、AI アシスタントやコードエージェントとは異なる計算、メモリ、帯域幅の組み合わせが必要です。
このため、推論はますます異種混合化しており、その一部の側面は GPU や他のより専門的なハードウェアにより適している可能性があります。
Nvidia が昨年 12 月に Groq を 200 億ドルで買収した事例(acquihire)は、その好例です。スタートアップの SRAM に依存するチップアーキテクチャにより、十分な台数を揃えれば、Groq の LPUs は GPU よりも高速にトークンを生成できました。しかし、限られた計算能力と陳腐化したチップ技術のため、効率的にスケールさせることはできませんでした。
Nvidia は この問題を回避 するために、推論パイプラインの計算集約的なプリフィル(prefill)部分を GPU に移動させつつ、帯域幅制約のあるデコード(decode)操作を新しい LPUs に維持しました。
この組み合わせは Nvidia に固有のものではありません。GTC の翌週、AWS は独自のアグリゲート型計算プラットフォームを発表し、事前処理(prefill)には独自の Trainium アクセラレータを、デコード(decode)には Cerebras Systems の Dinner-プレートサイズのウェーハスケール・アクセラレータを使用しました。
Intel もまたこの動きに参加しており、GPU を使用したリファレンスデザインを発表しました。おそらくこれは昨年の北半球の秋に示唆されたもので、事前処理には GPU を、AI チップスタートアップである SambaNova の新しい RDUs(Reconfigurable Dataflow Units)をデコードに使用するものです。
これまでに AI チップスタートアップが獲得した成果の多くは、方程式のデコード側におけるものです。SRAM は容量が大きくはありませんが、驚くほど高速です。したがって、十分な数のチップ、あるいは Cerebras の場合のように十分に大きなチップがあれば、デコード演算の加速に適していますが、チップスタートアップがこの方式に限定されているわけではありません。
今週、Lumai は光学推論アクセラレータの詳細を公開しました。これは電子ではなく光を用いて、純粋なデジタルアーキテクチャのほんの一部の電力で、機械学習ワークロードの中核である行列乗算演算を実行するものです。
Lumai は、2029 年までに次世代の Iris Tetra システムが 10kW の電力予算内で AI パフォーマンスの exaOPS(10^18 オペレーション/秒)を達成すると期待しています。
技術的には、チップはハイブリッド電気光学アーキテクチャを採用していますが、推論中に実行される計算の大部分は、チップ内の光学テンソルコアによって処理されます。
当初、同社はこのチップを、バッチ処理などの計算集約型推論ワークロードに対する GPU の代替品として位置付けています。長期的には、光学アクセラレータをプリフィル(prefill)プロセッサとしても活用する計画です。
アーキテクチャはまだ初期段階にありますが、Llama 3.1 8B や 70B といった数十億パラメータモデルを実行できるまでに発展しており、英国のスタートアップである同社はすでに評価のために、ネオクラウドやハイパースケール企業向けにチップを公開しています。
- バンド幅を大量消費するワークロードを持つ方々へ朗報です。Celestica の最新スイッチは 1.6 Tbps イーサネットポートを 64 基も備えています
- Google は一部の顧客に対して TPUs を販売し、これらの顧客はまたビッグ G の GPU も好んでいます
- Amazon のチップはもはやサイドディッシュではなく、200 億ドル規模のビジネスとなっています
- Tenstorrent の Galaxy Blackhole AI サーバーがイベントホライズンを脱出しました
とはいえ、すべての AI チップスタートアップがプリフェッチとデコードに異なるチップを使用することに熱心なわけではありません。先週、テンストーレン unveiled は RISC-V ベースの Galaxy Blackhole 計算プラットフォームを発表し、同社のジム・ケラー CEO が分散型推論方式を好まないことは言うまでもありません。
「業界のすべての企業が、アクセラレーターを加速するアクセラレーターを構築するために連携しています。CPU はコードを実行します。GPU は CPU を加速します。TPU は GPU を加速します。LPU は TPU を加速します。そしてその通りです。これにより複雑なソリューションが生み出されますが、AI モデルや用途の変化との互換性は低いでしょう。テンストーレンでは、より一般的で単純なものが機能すると考えました」と、同氏は statement で述べています。®
原文を表示
AI adoption is reaching an inflection point as the focus shifts from training new models to serving them. For the AI startups vying for a slice of Nvidia's pie, it's now or never.
Compared to training, inference is a much more diverse workload, which presents an opportunity for chip startups to carve out a niche for themselves. Large batch inference requires a different mix of compute, memory, and bandwidth than an AI assistant or code agent.
Because of this, inference has become increasingly heterogeneous, certain aspects of which may be better suited to GPUs and other more specialized hardware.
Nvidia's $20 billion acquihire of Groq back in December is a prime example. The startup's SRAM-heavy chip architecture meant that, with enough of them, Groq's LPUs could churn out tokens faster than any GPU. However, their limited compute capacity and aging chip tech meant they couldn't scale all that efficiently.
Nvidia side stepped this problem by moving the compute heavy prefill bit of the inference pipeline to its GPUs while it kept the bandwidth-constrained decode operations on its shiny new LPUs.
This combination isn't unique to Nvidia. The week after GTC, AWS announced a disaggregated compute platform of its own that used its custom Trainium accelerators for prefill and Cerebras Systems' dinner-plate sized wafer-scale accelerators for decode.
Even Intel has gotten in on the fun, announcing a reference design that'll use GPUs — presumably the one they teased last northern hemisphere fall — for prefill and AI chip startup SambaNova's new RDUs for decode.
So far, most of the AI chip startups' wins have been on the decode side of the equation. SRAM, while not particularly capacious, is stupendously fast. So with enough chips, or at least a big enough chip in the case of Cerebras, they're well suited to accelerating decode operations, but chip startups aren't limited to this regime.
This week, Lumai detailed its optical inference accelerator, which uses light, rather than electrons, to perform the matrix multiplication operations at the heart of most machine learning workloads using a fraction of the power of a purely digital architecture.
Lumai expects its next-gen Iris Tetra systems will achieve an exaOPS of AI performance in a 10kW power budget by 2029.
Technically, the chips use hybrid electro-optical architecture, but the bulk of the compute done during inference is handled by the chip's optical tensor core.
Initially, the company is positioning the chip as a standalone alternative to GPUs for compute-bound inference workloads, such as batch processing. Longer-term, the company also plans to use its optical accelerators as prefill processors.
The architecture is still in its infancy, capable of running billion parameter models like Llama 3.1 8B or 70B today, but it's far enough along that the UK-based startup has opened its chips up to neoclouds and hyperscalers for evaluation.
- Bandwidth hogs rejoice, Celestica's latest switch is bristling with 64 ports of 1.6 Tbps Ethernet
- Google to sell its TPUs to some customers, who also fancy big-G GPUs
- Amazon chips no longer just a side dish, they're a $20B biz
- Tenstorrent's Galaxy Blackhole AI servers escape the event horizon
Having said that, not every AI chip startup is keen on using different chips for prefill and decode. Earlier this week Tenstorrent unveiled its RISC-V-based Galaxy Blackhole compute platforms, and suffice to say the company's CEO Jim Keller isn't a fan of the disaggregated inference formula.
"Every company in the industry is pairing up to build the accelerator accelerator accelerator. CPUs run code. GPUs accelerate CPUs. TPUs accelerate GPUs. LPUs accelerate TPUs. And so on. This leads to complex solutions which are unlikely to be compatible with changes in AI models and uses. At Tenstorrent, we thought something more general and simpler would work," he said in a statement. ®
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み