テンストーレントのGalaxy Blackhole AIサーバーがイベントホライズンを脱出
Tenstorrent は、NVIDIA の DGX シリーズと比較して約 3〜5 分の 1 の価格で同等の高性能を提供する「Galaxy Blackhole」AI サーバーを一般販売開始し、大規模モデルへのスケーリング能力も実証した。
キーポイント
圧倒的なコストパフォーマンスの実現
110,000 ドルの単体システムで 23 petaFLOPS の FP8 パフォーマンスと 1TB メモリを提供し、競合の NVIDIA DGX シリーズ(3〜5 倍の高価格)に対し明確な価格優位性を確立した。
大規模クラスターへの拡張性
単一ノードから最大 32 ノード、1,000 チップを超える構成まで拡張可能で、Tensor Parallelism と Pipeline Parallelism の比率調整により大規模モデルや高スループット処理に対応する。
ソフトウェアスタックの大幅改善
以前のテストで課題となっていたモデルサポート不足とパフォーマンススケーリングの問題が解消され、DeepSeek V3 などの最新モデルでも高速な推論が可能になった。
具体的な性能指標の提示
4 ノード構成で 10 万トークンのプロンプトを 4 秒未満で処理し、ユーザーあたり最大 300 トークン/秒(将来 350 へ向上予定)の生成速度を実現したと発表している。
動画生成への対応
Galaxy Blackhole は大規模言語モデルだけでなく、4 ノードのスーパークラスター上でリアルタイムより高速に 720p 動画を生成できるプラットフォームとして位置づけられています。
プログラミング環境と新モデル対応
Moonshot AI の Kimi K2 などの次世代モデルに対応するため、最適化されたカーネル記述を可能にする Python ベースのプログラミングインターフェースが開発されています。
Hugging Face モデルの互換性
同社は Hugging Face にあるモデルの 90% がそのまま Tenstorrent で動作すると主張しており、これは実証が待たれる大きな claim です。
影響分析・編集コメントを表示
影響分析
この記事は、AI インフラ市場における NVIDIA の独占的な価格設定に対する最初の重大な挑戦として機能し、特に予算制約のある企業や研究機関にとって新たな選択肢を提供する。Tenstorrent がソフトウェアスタックの改善と大規模クラスターの実証に成功したことは、同社が単なるハードウェアベンダーから、本格的な AI エコシステムプレイヤーへと成長したことを示唆している。
編集コメント
NVIDIA の高価格帯に対する明確なアンチテーゼとして、Tenstorrent が「Galaxy Blackhole」で実用レベルの性能とコスト優位性を両立させた点は業界に大きな衝撃を与える。特にソフトウェアスタックの改善が先行して課題となっていた点を解消したことは、同社の成熟度を示す重要な転換点である。
Tenstorrent は火曜日に、Galaxy Blackhole AI 計算プラットフォームの一般提供を開始したと発表した。
同スタートアップの各 6U システムには、昨秋にレビューした Blackhole アクセラレーターが 32 基も搭載されている。これらのチップは、合計帯域幅 100 Tbps の高密度イーサネットメッシュ(Ethernet mesh)によって相互接続されている。
Tenstorrent によると、Galaxy システム全体では GDDR6 が 1 TB、メモリ帯域幅が 16 TB/s、高密度 FP8 演算性能が 23 petaFLOPS を実現しており、システム価格はわずか 11 万ドルである。
これを比較すると、Nvidia の 8 ウェイ DGX シリーズはより高速で大容量ではあるものの、その価格は同価格の 3 倍から 5 倍に達する。
しかし、Tenstorrent のメッシュネットワークは単一ノードに限定されない。Google の TPU や Amazon の Trainium2 クラスターと同様に、システムを追加してテンソル並列処理とパイプライン並列処理の比率を調整することで、より大規模なモデルや高いスループット、あるいはよりインタラクティブなユーザー体験をサポートできるよう拡張可能である。
Tenstorrent の基本となる Galaxy Supercluster は 44 万ドルで、Blackhole システムが 4 基搭載されているが、このアーキテクチャは最大 32 ノード、チップ数では 1000 基以上に対応可能である。
Tenstorrent のシニアフェローである Jasmina Vasiljevic は、ハードウェアを初めて実際に触った時点からソフトウェアスタックが大幅に改善されたと語っています。その当時、モデルのサポートは非常に限定的であり、動作するものもまだハードウェア向けに最適化されていませんでした。この不一致により、私たちのテストでは一般的にパフォーマンスのスケーリングが悪化する結果となりました。
現在では状況が変わり、数ヶ月前にチップのパフォーマンスを実際には低下させたにもかかわらず、新しいモデルのポートだけでなく、パフォーマンス向上にも多大な努力が払われたと伝えられています。
少なくとも DeepSeek V3 については、Tenstorrent は自社の 4 ノード構成 Blackhole Galaxy スーパークラスターが、10 万トークン(約 166 ページ分のテキストに相当)のプロンプトを 4 秒未満で処理できると主張しています。
一方、システムはユーザーあたり毎秒最大 300 トークンを生成可能であり、近い将来のソフトウェア改良を通じてこれを 350 に引き上げる見込みだと伝えられています。
Tenstorrent はこれらのテストで使用されたバッチサイズを明記していませんが、これは AI システムが生産環境でどのようにスケーリングするかを評価する上で重要な指標です。単一ユーザーに対して毎秒 350 トークンを達成するのは、そのパフォーマンスを 32 または 64 にスケールさせることと比較すると、それほど印象的なものではありません。
Tenstorrent は、スループットと相互運用性の要件に応じて、プラットフォーム上でバッチ 8 から最大 64 まで効果的にスケール可能であると述べています。
- 一枚のチップで全てを支配する時代は終わり:TPU 8 を持つ Google は AI 軍拡競争での勝利を目指している
- NVIDIA 以外の相互接続クラブが、v1.0 シリコン出荷前に 2.0 仕様を実現
- アリババは 47 万個の AI チップを生産したが、それらが劣っていることを認め、今後もそうである可能性があると認めた
- NVIDIA の Groq 搭載 LPX およびその他の新ラックシステムの解読
大規模言語モデルに加え、Tenstorrent は Galaxy Blackhole を動画生成のための理想的なプラットフォームとして位置付けています。4 ノードのスーパークラスター上で、同社はリアルタイムよりも速く 720p の動画を生成できると述べています。
Vasiljevic 氏は、Moonshot AI の Kimi K2 などのさらなるフロンティアモデルも開発中であり、新しいモデルをプラットフォームに継続的に導入するために、最適化されたカーネル記述用の Python ベースのプログラミングインターフェースを開発したと語りました。
「Hugging Face 上のモデルの 90% は Tenstorrent で動作します」と同社はリリースで記しました。これは大きな主張であり、私たちはこれを検証することを楽しみにしています。
購入前に試したい場合は、Tenstorrent のハードウェアは Cirrascale、Equinix、日本の ai& など、複数の大規模データセンター、コロケーション、およびネオクラウドプロバイダによって採用されています。同チップスタートアップは 5 月 1 日の TT-Deploy イベントでさらに多くの情報を共有すると予想されます。®
原文を表示
Tenstorrent on Tuesday announced the general availability of its Galaxy Blackhole AI compute platform.
Each of the startup's 6U systems is packed with 32 of the Blackhole accelerators we looked at last fall. The chips are interconnected in a dense Ethernet mesh by 100 Tbps of aggregate bandwidth.
Combined, Tenstorrent says each Galaxy system features 1 TB of GDDR6, 16 TB/s of memory bandwidth, and 23 petaFLOPS of dense FP8 performance, all in a system that'll set you back only $110,000.
To put that in perspective, Nvidia's eight-way DGX boxes, while faster and higher capacity, will set you back somewhere between three and five times that.
However, Tenstorrent's mesh network isn't limited to a single node. Much like Google's TPU or Amazon's Trainium2 clusters, it can be extended to support larger models, higher throughput, or more interactive user experiences by adding more systems and adjusting the ratio of tensor and pipeline parallelism.
Tenstorrent's base Galaxy Supercluster will set you back $440,000 and features four Blackhole systems, but the architecture can support up to 32 nodes with more than a thousand chips.
Jasmina Vasiljevic, senior fellow at Tenstorrent, tells us the software stack has improved considerably since we first went hands-on with the hardware. At the time, model support was quite limited and what did run hadn't been optimized for the hardware yet. This mismatch resulted in generally poor performance scaling in our testing.
We're told this is no longer the case, and that considerable effort has not only been made to port new models to the hardware but also to improve performance, despite actually downgrading the chip's performance just a few months earlier.
At least for DeepSeek V3, Tenstorrent claims its four-node Blackhole Galaxy Superclusters can process a 100,000 token prompt — the equivalent of 166 pages of text — in less than four seconds.
Meanwhile, we're told the systems can churn out up to 300 tokens a second per user, and that they expect to increase that to 350 through software refinements in the near future.
We'll note that Tenstorrent doesn't specify the batch size used in these tests, which is an important metric for evaluating how an AI system will scale in production. Achieving 350 tokens a second for a single user is a lot less impressive than it is to scale that performance to 32 or 64.
Tenstorrent does say that it's able to scale effectively from batch eight all the way up to 64 on the platform, depending on throughput and interactivity demands.
- Forget one chip to rule them all: With TPU 8, Google has an AI arms race to win
- No-Nvidia interconnect club delivers 2.0 spec before v1.0 silicon ships
- Alibaba has made 470,000 AI chips, admits they're inferior and may always be
- Decoding Nvidia's Groq-powered LPX and the rest of its new rack systems
In addition to large language models, Tenstorrent is positioning Galaxy Blackhole as an ideal platform for video generation. On a four-node supercluster, the startup says it can generate 720p video faster than real-time.
Vasiljevic tells us additional frontier models like Moonshot AI's Kimi K2 are in the works, and her team has developed a Python-based programming interface for writing optimized kernels in order to keep bringing new models to the platform.
"Ninety percent of models from Hugging Face just run on Tenstorrent," the company wrote in a release. This is a big claim and one we look forward to putting to the test.
If you'd prefer to try before you buy, Tenstorrent's hardware is seeing adoption by several large datacenter, colocation, and neocloud providers, including Cirrascale, Equinix, and Japan's ai&. We expect the chip startup to share more during its TT-Deploy event on May 1. ®
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み