2年で4つのMTIAチップ:数十億人のAI体験をスケーリング
Meta は Broadcom と共同開発する独自 AI チップ「MTIA」の第 3 世代以降(300〜500 シリーズ)を 2026-27 年に展開し、大規模モデルへの対応とコスト削減を加速させる戦略を発表した。
キーポイント
MTIA チップの高速な世代進化
Meta は MTIA 100/200 に続き、300, 400, 450, 500 と 4 世代にわたるチップを短期間で開発・展開する計画を示し、従来のハードウェアサイクルの遅延問題を克服する。
ワークロード範囲の拡大と最適化
新世代チップはレコメンデーション推論からトレーニング、そして Llama などの大規模言語モデル(LLM)を用いた生成 AI の推論までをカバーし、特定ワークロード向けに最適化される。
モジュール型アプローチによる柔軟性
2 年後の生産開始時にワークロードが変化することを想定し、モジュラーなチップレット(chiplets)を採用して設計を継続的に更新するアジャイルな開発手法を採用している。
コスト効率とグローバル展開
既存の外部製ハードウェアに依存せず、自社開発チップで数十億人のユーザーを支える AI 体験のコストを最小化し、インフラストラクチャ戦略の中核として位置づけている。
影響分析・編集コメントを表示
影響分析
この記事は、大手テック企業が自社製 AI ハードウェアの開発スピードを劇的に加速させ、外部ベンダーへの依存度を下げつつ、急速に進化する生成 AI ワークロードに対応する具体的な戦略を示した点で業界に大きな影響を与える。特に「モジュール型チップレット」を活用したアジャイルな開発手法は、ハードウェアの陳腐化リスクを低減し、AI インフラ設計のパラダイムシフトを示唆している。
編集コメント
Meta は「2 年間の遅延」を許容しない開発サイクルへ転換し、AI チップの進化速度をソフトウェアサイドに追従させる戦略を明確化しました。これは業界全体が直面する「ハードウェアとモデル進化のギャップ」に対する重要な解決策の一つと言えます。
毎日、Meta のプラットフォームを利用する数十億の人々が、パーソナライズされたレコメンデーションから AI アシスタントに至るまで、多様な AI 駆動型体験を楽しんでいます。一方、次世代コンピューティングの時代を定義する AI モデルは、単一のハードウェア世代が予測できる速度よりも急速に進化しています。グローバル規模で幅広い AI モデルを提供しつつ、可能な限り低コストを維持することは、業界における最も過酷なインフラ課題の一つです。私たちが取り組むべき道筋を示すために、現在のニーズに応じた柔軟なソリューションを提供し、必要に応じて継続的に改善していく方針を定めています。
私たちは多様なシリコンポートフォリオへのコミットメントと、社内・社外を問わず利用可能な最良のソリューションの活用を堅持しつつも、Broadcom と緊密に協力して開発した自社製 AI チップである Meta Training and Inference Accelerator (MTIA) は、Meta の AI インフラストラクチャ戦略 [https://engineering.fb.com/2025/09/29/data-infrastructure/metas-infrastructure-evolution-and-the-advent-of-ai/] において重要な役割を果たし続けることを確認しています。MTIA は、Meta の製品を利用する数十億の人々に対して、AI 体験をコスト効果高く実現する上で中心的な役割を担っています。
MTIA の過去と未来
私たちは、MTIA チップの最初の 2 つ世代である MTIA 100 および MTIA 200(旧称:MTIA 1 および MTIA 2i)の詳細を記した研究論文を ISCA'23 と ISCA'25 で発表しました。さらに重要なのは、生産環境において数十万個の MTIA チップを展開し、多数の内部向け生産モデルをオンボーディングし、Llama などの大規模言語モデル(LLM)を用いて MTIA をテストしてきたことです。
MTIA 100 および 200 の導入以降、私たちは MTIA の開発を 4 つの連続する世代にわたって加速させてきました。これらは MTIA 300、400、450、および 500 です。これらの新チップはすでに展開済みか、2026 年または 2027 年の展開が予定されており、ランキングおよび推薦(R&R)推論から R&R 学習、一般的な生成 AI ワークロード、そしてターゲットを絞った最適化を施した生成 AI 推論へと、処理対象となるワークロードのカバレッジを広げています。
AI モデルは、従来のチップ開発サイクルよりも急速に進化しています。チップ設計は予測されたワークロードに基づいていますが、ハードウェアが実際に生産に到達する頃には(通常 2 年後)、そのワークロードは大幅に変化している可能性があります。賭けをして長い期間待つのではなく、私たちは意図的に反復的なアプローチを採用しています。各 MTIA の世代は前世代を基盤とし、モジュール式チップレットを活用し、最新の AI ワークロードの洞察とハードウェア技術を組み込み、より短いサイクルで展開されます。このより緊密なループにより、ハードウェアは進化し続けるモデルに常に適合した状態を保ちつつ、新技術の導入も迅速に行うことが可能になります。
MTIA ファミリーには現在、以下のものが含まれています:
- MTIA 300:当初は R&R モデル向けに最適化されており、これは生成 AI が台頭する前における Meta の主要なワークロードでした。このチップの構成要素が、その後の生成 AI モデル向けに最適化された次世代チップのための堅固な基盤を築きました。現在、R&R 学習用として本番環境で稼働しています。
- MTIA 400:生成 AI が急成長する中、MTIA 300 は生成 AI モデルをよりよくサポートするために MTIA 400 へと進化し、同時に R&R ワークロードをサポートする能力も維持しました。72 アクセラレータのスケーリングドメインを特徴とする MTIA 400 は、主要な商用製品と競合する高いパフォーマンスを提供します。私たちは実験室での MTIA 400 のテストを終了しており、データセンターへの展開に向けて進んでいます。
- MTIA 450:生成 AI 推論需要の増加を見越し、MTIA 400 は生成 AI 推論に特化した最適化を施して MTIA 450 へと移行しました。高帯域幅メモリ(HBM)の帯域幅が生成 AI の推論パフォーマンスに影響を与える最も重要な要因であるため、MTIA 400 から MTIA 450 へ移行する際に HBM の帯域幅を倍増させ、既存の主要な商用製品よりもはるかに高い値を実現しました。さらに、推論ワークロード向けに共同設計された低精度データ型も導入されました。MTIA 450 は 2027 年初頭に量産展開される予定です。
- MTIA 500:生成 AI 推論への焦点を継続し、MTIA 500 は MTIA 450 に比べて HBM の帯域幅をさらに 50% 向上させ、低精度データ型においてさらなる革新をもたらしました。MTIA 500 は 2027 年に量産展開される予定です。
MTIA チップの進化
MTIA 300 から MTIA 500 へ移行すると、HBM バンド幅は 4.5 倍に、計算能力の FLOPS は 25 倍(MTIA300 の MX8 から MTIA500 の MX4 へ)向上します。これは以下のチップ仕様図に示されています。この 2 年未満での急速な進展は、当社の「速度戦略」がもたらす恩恵を浮き彫りにしています。
MTIA 300: コスト効果の高い基盤
以前の世代と比較して、MTIA 300 の特徴的な機能には、組み込み NIC チップレット(ネットワークインターフェースチップ)、通信集合処理をオフロードするための専用メッセージエンジン、および集約ベースの集合処理のためのメモリ近傍計算が含まれます。当初は R&R 学習向けに最適化されていましたが、これらの低遅延・高帯域幅の通信コンポーネントが、その後の MTIA チップにおける効率的な生成 AI の推論と学習の基盤を提供しています。
MTIA 300 は、1 つの計算チップレット、2 つのネットワークチップレット、および複数の HBM スタックで構成されています。各計算チップレットは、処理要素(PE)のグリッドからなり、歩留まり向上のために一部の冗長な PE を備えています。
各 PE には以下の構成要素が含まれます:
- RISC-V ベクトルコアが 2 つ。
- 行列乗算用のドット積エンジン。
- アクティベーションおよび要素ごとの演算用の特殊機能ユニット(Special Function Unit)。
- 集約および PE 間通信用のリダクションエンジン。
- ローカルスクラッチメモリへのデータ転送および外部へのデータ転送用の DMA エンジン。
上記の PE コンポーネントの詳細については、ISCA'25 の論文をご参照ください。
MTIA 400: 競争力のある純粋な性能
生成AIが急成長する中で、私たちはMTIA 300をMTIA 400へと進化させ、R&Rワークロードに加え、生成AIワークロードもより効果的にサポートできるようにしました。MTIA 400はMTIA 300に比べて大幅な改善が見られ、FP8 FLOPS(浮動小数点演算性能)が400%向上し、HBM帯域幅(高帯域メモリ)も51%増加しています。MTIA 300がコストパフォーマンスに優れた製品であるのに対し、MTIA 400はコスト削減だけでなく、主要な商用製品と競合するほどの純粋な性能も提供するように設計された最初のMTIAチップです。2つの計算用チップレットを組み合わせることで計算密度を倍増させ、効率的な生成AI推論に重要な低精度フォーマットであるMX8およびMX4の強化版にも対応しています。スイッチドバックプレーンで接続された72台のMTIA 400デバイスをラック構成とすることで、単一のスケールアップドメインが形成されます。
MTIA 450: 生成AI推論への飛躍
生成AI推論需要の急速な成長を見据え、私たちはMTIA 400をさらに進化させてMTIA 450へと発展させました。これは生成AI推論に最適化するため、以下の4つの領域で進展を図ったものです:
- 前世代から HBM バンド幅を倍増させてデコードを加速。
- MX4 FLOPS を 75% 向上させ、混合専門家 (MoE) の順方向ネットワーク (FFN: Feed-Forward Network) 計算を高速化。
- アテンションおよび FFN 計算の効率を高めるハードウェアアクセラレーションを導入(例:Softmax および FlashAttention のボトルネック解消)。
- 低精度データ型におけるイノベーション。
MTIA 450 は FP8/MX8 を超え、FP16/BF16 に比べて MX4 FLOPS を 6 倍提供し、推論における低精度 FLOPS の重要性を反映しています。また、MTIA 450 はデータ型変換に伴うソフトウェアオーバーヘッドを伴わずに混合低精度計算をサポートします。さらに、モデル品質を維持しつつ FLOPS を向上させ、チップ面積への影響を最小限に抑える独自のデータ型イノベーションを導入しました。
MTIA 500: GenAI 推論において、より少ないリソースでより多くの成果を
GenAI 推論の需要が継続して拡大する中、私たちは MTIA 450 を発展させて MTIA 500 を実現し、GenAI 推論をさらにコスト効果高く実行可能としました。MTIA 500 は HBM バンド幅を 50% 向上させ、HBM キャパシティを最大で 80% 増強し、MX4 FLOPS を 43% 向上させています。MTIA 500 はモジュラー哲学をさらに推し進め、複数の HBM スacks と 2 つのネットワークチップレットに囲まれた、より小型の計算用チップレットを 2x2 構成で採用するとともに、ホスト CPU およびスケールアウト NIC に PCIe コネクティビティを提供する SoC チップレットも搭載しています。MTIA 450 と同様に、MTIA 500 も GenAI 推論で観測されたボトルネックに対処するため、追加のハードウェアアクセラレーションとデータ型のイノベーションを導入しました。
私たちの戦略:高速度、推論優先、PyTorch ネイティブ
非常に競争の激しい AI チップ市場において、当社の MTIA 戦略は成功のための3つの柱に支えられています。
- 高速な反復的なチップ開発。
- 推論(Inference)への集中。
- PyTorch などの業界標準をネイティブに構築することで、摩擦のない採用を実現すること。
高速度
AI イノベーションの急速なペースを踏まえ、私たちは約6ヶ月ごとに新しいチップをリリースする能力を構築しました。この高速なペースには2つの利点があります。
- 進化し続ける AI 技術への迅速な適応:新しいモデルアーキテクチャ、低精度データ型、推論手法が登場するたびに、最新のチップをこれらの進歩に合わせて最適化し、重要な演算子のためのハードウェアアクセラレーションを導入し、計算、メモリ、I/O の間のボトルネックのシフトに対応できます。
- 最新ハードウェア技術の迅速な採用:例としては、最新のプロセスノード、HBM(High Bandwidth Memory)、パッケージング技術などがあります。
私たちは、チップレット、シャーシ、ラック、ネットワークインフラストラクチャに至るまで、すべてのレベルで再利用可能かつモジュール性の高い設計を実現することで、高速度を達成しています。当社のアクセラレータは、計算、I/O、およびネットワーキングのための個別の再利用可能なビルディングブロックであるチップレットのシステムとしてアーキテクチャされています。各チップレットを別々にアップグレードできるため、改善を実施するのに数年ではなく数ヶ月で済みます。さらに、異なるチップレットは、性能と電力要件を満たしつつ最もコスト効果の高いプロセスノードで製造することができます。
システムレベルでは、MTIA 400、450、および 500 はすべて同じシャーシ、ラック、ネットワークインフラストラクチャを利用しています。そのため、新しいチップ世代は同じ物理的なフットプリントにそのまま挿入可能であり、シリコンから本番環境への移行を加速します。また、モジュール化され再利用可能な設計により、複数のチップ世代の開発および展開に必要なリソースを最小限に抑えることができます。さらに、これらの高度に最適化されたチップの恩恵は、開発や展開に要するリソースを相殺するほど大きくなります。
推論ファースト
主流の GPU は通常、最も負荷の高いワークロードである大規模な生成 AI(GenAI)事前学習のために設計されており、その後、コスト効果の低い形で他のワークロード、例えば生成 AI 推論などに適用されることが多いです。私たちは異なるアプローチを採用しています:MTIA 450 と 500 はまず生成 AI 推論のために最適化されており、必要に応じて R&R(リカバリーと回復)トレーニングおよび推論、さらには生成 AI トレーニングなど他のワークロードをサポートするために使用できます。これにより、MTIA は予想される生成 AI 推論需要の成長に常に適応した状態を維持します。
摩擦のない導入
MTIA は、採用や互換性を後付けの課題として扱うのではなく、最初から業界標準のソフトウェアおよびハードウェアエコシステム(PyTorch、vLLM、Triton、Open Compute Project (OCP))をネイティブに構築しています。PyTorch は Meta で誕生し、現在最も広く使用されている機械学習フレームワークとなっているため、MTIA は当然ながら PyTorch ネイティブのアプローチを採用しています。これら 3 つの技術(PyTorch、vLLM、Triton)を組み合わせることで、開発者に馴染みのあるソフトウェアスタックを提供し、オープンソースコミュニティからの資産の再利用を可能にし、モデルの移行を簡素化します。業界標準のソフトウェアに加え、MTIA のシステムおよびラックソリューションは OCP 基準に準拠しており、データセンターへのシームレスな展開を実現しています。
MTIA ソフトウェアスタック:PyTorch ネイティブアプローチ
すべてのチップ世代において、MTIA のソフトウェアスタックは一貫したプログラミング体験を提供します。これは PyTorch ネイティブのアプローチを採用し、開発者に馴染みがあり完全なエコシステムをもたらすものです。
ソフトウェアスタックの主な特徴は以下の通りです:
シームレスなモデル導入: MTIA は eager モードと graph モードの両方をサポートしています。graph モードでは、PyTorch 2.0 のコンパイルパイプライン に直接統合されます。開発者は、torch.compile や torch.export という馴染み深いツールを使用してモデルグラフのキャプチャと最適化を行います。モデルを有効にするために MTIA 固有のリワークは不要です。この移植性により、本番環境のモデルを GPU と MTIA の両方で同時にデプロイすることが可能になります。
コンパイラ: PyTorch フロントエンドの下層では、MTIA 固有のコンパイラが高レベルなグラフ表現を高度に最適化されたデバイスコードに変換します。グラフコンパイラは Torch FX IR と TorchInductor を基盤として構築されています。カーネルコンパイラおよび低レベルバックエンドは、Triton、MLIR(中間表現言語)、LLVM に基づいており、MTIA 向けに強化・最適化されています。私たちは MTIA 向けの TorchInductor の Triton コード生成とカーネル融合を改善・調整し、MTIA を意識した MLIR ダイアレクトおよび Triton DSL 拡張を導入しました。これらの拡張は、パフォーマンスがクリティカルなカーネルに対してオプションで使用できます。コンパイラスタックには自動チューニング機能があり、複数のコンパイル戦略を使用してワークロードを自動的に最適化します。
カーネル作成: MTIA は、コンパイラ駆動型のカーネル生成と融合をサポートし、Triton と C++ を用いた自動生成およびユーザー主導の手動カーネル作成の両方を可能にします。また、カーネルの自動チューニングと最適化も提供しています。さらに、カーネル生成を自動化するエージェント型 AI システムを構築しました。詳細については、TritorX および KernelEvolve に関する論文をご覧ください。
通信と転送: MTIA の通信ライブラリである Hoot Collective Communications Library (HCCL) は GPU 用通信ライブラリに似ていますが、いくつかの差別化要素を備えています。これは、MTIA チップに組み込まれたネットワークチップレットを活用して効率的な通信を実現し、集合演算を専用メッセージエンジンへオフロードします。また、メモリ近傍計算(near-memory compute)を用いて、集約処理が重い集合演算を高速化します。HCCL はさらに、計算カーネルと集合カーネルの融合をサポートしてレイテンシを最小限に抑えます。最後に、そのトランスポートスタックは低遅延トランザクション向けに最適化されており、データパス全体をオフロードすることでホストスタックの実行時オーバーヘッドを削減します。
ランタイムとファームウェア: MTIA ランタイムは、デバイスメモリ、カーネルスケジューリング、および複数デバイスにわたる実行調整を管理します。イージ実行モードとグラフ実行モードの両方をサポートしています。さらに、Inductor ネイティブでイージスタイルのグラフモードにおいて、計算操作と集合操作をオーケストレーションします。このアプローチにより、計算と通信をまとめてキャプチャしてスケジューリングすることが可能となり、最小限のオーバーヘッドで GPU に似た体験を提供します。ランタイムは従来のカーネル内 Linux ドライバではなく、Rust ベースのユーザー空間ドライバとインターフェースします。ファームウェアはベアメタル Rust で記述されており、低レイテンシと高性能を実現し、組み込みのメモリおよびスレッド安全性を備えています。
vLLM サポート: vLLM のプラグインアーキテクチャにより、MTIA との統合が容易になります。当社の MTIA プラグインは、FlashAttention や融合 LayerNorm などの重要な演算子を、MTIA 固有のカーネルに置き換えます。グラフモードでの実行は、カスタム torch.compile バックエンドを介してサポートされます。MTIA は、prefill-decode の分離や連続バッチ処理など、vLLM の機能を引き継ぎ、その恩恵を受けます。
生産用ツール: 本番環境で数十万個の MTIA チップを確実に運用するために、MTIA は主要な GPU で利用可能なものと同水準の生産グレードの監視、プロファイリング、デバッグツールを提供します。さらに、ソフトウェア、ファームウェア、ハードウェアにまたがるホストとデバイスの両方におけるフルスタックかつ大規模な観測性など、独自の機能も備えています。そのデバッガは PE レベルでのブレークポイント設定や協調的なステップ実行など、きめ細かい制御を可能にします。
MTIA: 世代ごとに進化
大規模な本番環境における MTIA チップの展開が堅牢な R&R(Retrieval & Reasoning)推論能力を実証している一方で、最新の 4 つの世代(直近で発売されたもの、または 2026 年または 2027 年の発売を予定したもの)は、GenAI(生成 AI)推論の限界を引き伸ばし、R&R トレーニングを可能にし、将来の GenAI トレーニングの基盤を整えることを期待しています。各世代の MTIA は、先行する世代からの教訓を踏襲し、当社のソフトウェアスタックと共設計されており、将来の AI モデルの軌跡によって導かれています。そのモジュール化されたマルチチップレット設計と垂直統合型の共設計アプローチは、システムレベルの互換性を維持しながら、急速かつ複合的な性能向上をもたらすことができます。これらにより、当社のプラットフォーム上で今日および明日の最も強力な AI 体験をすべてのユーザーに提供するという目標に、さらに近づいています。
*執筆者:*
*Yee Jiun Song, Andrew Tulloch, Harikrishna Reddy, CQ Tang, Vijay Thakkar*
原文を表示
Every day, billions of people on Meta’s platforms enjoy an array of AI-powered experiences ranging from personalized recommendations to AI assistants. Meanwhile, the AI models that will define the next era of computing are evolving faster than any single hardware generation can anticipate. Serving a wide range of AI models on a global scale, while maintaining the lowest possible costs, is one of the most demanding infrastructure challenges in the industry. Our response is to define the path forward — delivering flexible solutions today and improving them continuously as needs evolve.
While we remain committed to a diverse silicon portfolio and to leveraging the best solutions available — both internally and externally — the Meta Training and Inference Accelerator (MTIA), our family of homegrown AI chips developed in close partnership with Broadcom, has remained and will continue to be an important part of Meta’s AI infrastructure strategy. MTIA plays an important role in cost-effectively powering AI experiences for the billions of people who use Meta’s products.
The Past and Future of MTIA
We have published research papers at ISCA’23 and ISCA’25 detailing the first two generations of MTIA chips: MTIA 100 and MTIA 200 (formerly known as MTIA 1 and MTIA 2i). More importantly, we have deployed hundreds of thousands of MTIA chips in production, onboarded numerous internal production models, and tested MTIA with large language models (LLMs) like Llama.
Since introducing MTIA 100 and 200, we have accelerated MTIA development across four successive generations: MTIA 300, 400, 450, and 500. These new chips have either already been deployed or are scheduled for deployment in 2026 or 2027, expanding workload coverage from ranking and recommendation (R&R) inference to R&R training, general GenAI workloads, and GenAI inference with targeted optimizations.
AI models are evolving faster than traditional chip development cycles. Chip designs are based on projected workloads, but by the time the hardware reaches production — often two years later — those workloads may have shifted substantially. Rather than placing a bet and waiting for a long period of time, we deliberately take an iterative approach: Each MTIA generation builds on the last, using modular chiplets, incorporating the latest AI workload insights and hardware technologies, and deploying on a shorter cadence. This tighter loop keeps our hardware better aligned with evolving models while enabling faster adoption of new technology.
The MTIA family now includes:
- MTIA 300: Initially optimized for R&R models — the dominant Meta workload before GenAI took off — its building blocks established a strong foundation for subsequent chips optimized for GenAI models. It is in production for R&R training.
- MTIA 400: As GenAI surged, MTIA 300 evolved into MTIA 400 to better support GenAI models, while maintaining the capabilities for supporting R&R workloads. Featuring a 72-accelerator scale-up domain, MTIA 400 delivers high performance that is competitive with leading commercial products. We have finished testing MTIA 400 in our labs and are on the path to deploying it in our data centers.
- MTIA 450: Anticipating the rise in GenAI inference demand, MTIA 400 transitioned into MTIA 450, with specific optimizations for GenAI inference. Since the bandwidth of high-bandwidth memory (HBM) is the most important factor affecting GenAI inference performance, we doubled HBM bandwidth from MTIA 400 to 450, making it much higher than that of existing leading commercial products. Additionally, we introduced low-precision data types co-designed for inference workloads. MTIA 450 is scheduled for mass deployment in early 2027.
- MTIA 500: Continuing the focus on GenAI inference, MTIA 500 increased HBM bandwidth by an additional 50% compared to MTIA 450 and introduced further innovations in low-precision data types. MTIA 500 is scheduled for mass deployment in 2027.
The Evolution of MTIA Chips
From MTIA 300 to MTIA 500, the HBM bandwidth increases by 4.5x and the compute FLOPS increases by 25x (from MTIA300’s MX8 to MTIA500’s MX4), as shown in the chip specifications below. This rapid advancement in less than two years highlights the benefits of our velocity strategy.
MTIA 300: A Cost-Effective Foundation
Compared with earlier generations, MTIA 300’s distinguishing features include built-in NIC chiplets, dedicated message engines for offloading communication collectives, and near-memory compute for reduction-based collectives. Although initially optimized for R&R training, these low-latency, high-bandwidth communication components have provided the foundation for efficient GenAI inference and training in subsequent MTIA chips.
MTIA 300 comprises one compute chiplet, two network chiplets, and several HBM stacks. Each compute chiplet comprises a grid of processing elements (PEs), with some redundant PEs to improve yield.
Each PE contains:
- Two RISC-V vector cores.
- Dot Product Engine for matrix multiplication.
- Special Function Unit for activations and elementwise operations.
- Reduction Engine for accumulation and inter-PE communication.
- DMA engine for data movement in and out of local scratch memory.
Please refer to our ISCA’25 paper for more details on the aforementioned PE components.
MTIA 400: Competitive Raw Performance
As GenAI took off, we evolved MTIA 300 into MTIA 400 to better support GenAI workloads in addition to R&R workloads. MTIA 400 is a major improvement over MTIA 300, with 400% higher FP8 FLOPS and 51% higher HBM bandwidth. While MTIA 300 is a cost-effective product, MTIA 400 is the first MTIA chip designed to deliver not only cost savings but also raw performance competitive with leading commercial products. It combines two compute chiplets to double compute density, and also supports enhanced versions of MX8 and MX4, which are important low-precision formats for efficient GenAI inference. A rack with 72 MTIA 400 devices, connected via a switched backplane, forms a single scale-up domain.
MTIA 450: A Leap Forward for GenAI Inference
Anticipating the rapid growth in GenAI inference demand, we evolved MTIA 400 into MTIA 450, optimizing it for GenAI inference by advancing four areas:
- Doubling HBM bandwidth from the prior version to accelerate decode.
- Increasing MX4 FLOPS by 75% to speed up mixture-of-experts (MoE) feed-forward network (FFN) computation.
- Introducing hardware acceleration that makes both attention and FFN computation more efficient (e.g., by alleviating Softmax and FlashAttention bottlenecks).
- Innovating in low-precision data types.
MTIA 450 goes beyond FP8/MX8 and delivers 6x the MX4 FLOPS of FP16/BF16, reflecting the importance of low-precision FLOPS for inference. MTIA 450 also supports mixed low-precision computation without incurring the software overhead associated with data type conversion. Finally, it introduces our custom data-type innovations that preserve model quality and boost FLOPS, with minimal impact on chip area.
MTIA 500: Delivering More with Less for GenAI Inference
As GenAI inference demand continued to grow, we advanced MTIA 450 into MTIA 500 to power GenAI inference even more cost-effectively, with 50% higher HBM bandwidth, up to 80% higher HBM capacity, and 43% higher MX4 FLOPS. MTIA 500 pushes the modular philosophy further by using a 2x2 configuration of smaller compute chiplets surrounded by several HBM stacks and two network chiplets, along with an SoC chiplet that provides PCIe connectivity to the host CPU and scale-out NICs. Like MTIA 450, MTIA 500 also introduces additional hardware acceleration and data-type innovation to address bottlenecks observed in GenAI inference.
Our Strategy: High Velocity, Inference First, and PyTorch Native
In the highly competitive AI chip landscape, our MTIA strategy rests on three pillars for success:
- High-velocity iterative chip development.
- Inference‑first focus.
- Frictionless adoption by building natively on industry standards like PyTorch.
High Velocity
Given the rapid pace of AI innovation, we have built the capability to ship a new chip roughly every six months. This fast pace offers two advantages:
- Fast adaptation to evolving AI techniques: As new model architectures, low-precision data types, and serving techniques emerge, we can optimize our latest chips for these advancements, introduce hardware acceleration for important operators, and address bottleneck shifts among compute, memory, and I/O.
- Fast adoption of the latest hardware technologies: Examples include the latest process nodes, HBM, and packaging technologies.
We achieve high velocity through a reusable and modular design across all levels: chiplets, chassis, racks, and network infrastructure. We architect our accelerators as systems of chiplets — discrete, reusable building blocks for compute, I/O, and networking. Because each chiplet can be upgraded separately, we can implement improvements in months rather than years. Moreover, different chiplets can be manufactured at different process nodes that are most cost-effective while meeting performance and power requirements.
At the system level, MTIA 400, 450, and 500 all utilize the same chassis, rack, and network infrastructure. Therefore, each new chip generation can be dropped into the same physical footprint, accelerating the transition from silicon to production deployment. Our modular, reusable designs also minimize the resources needed to develop and deploy multiple chip generations, and the benefits of these highly optimized chips can offset the resources used for development and deployment.
Inference First
Mainstream GPUs are typically built for the most demanding workload — large-scale GenAI pre-training — and then applied, often less cost-effectively, to other workloads such as GenAI inference. We take a different approach: MTIA 450 and 500 are optimized first for GenAI inference, and can then be used to support other workloads as needed, including R&R training and inference, as well as GenAI training. This keeps MTIA well-tuned to the anticipated growth in GenAI inference demand.
Frictionless Adoption
MTIA is built natively on industry‑standard software and hardware ecosystems — PyTorch, vLLM, Triton, and the Open Compute Project (OCP) — from the outset rather than treating adoption and compatibility as an afterthought. Since PyTorch originated at Meta and has become the most widely used ML framework, MTIA naturally takes a PyTorch-native approach. Together, PyTorch, vLLM, and Triton provide developers with a familiar software stack, enable reuse of assets from the open source community, and simplify model migration. Beyond industry-standard software, MTIA’s system and rack solutions align with OCP standards, enabling MTIA to be seamlessly deployed in data centers.
The MTIA Software Stack: A PyTorch-Native Approach
Across all chip generations, the MTIA software stack delivers a consistent programming experience. It takes a PyTorch-native approach, giving developers a familiar and complete ecosystem.
Key attributes of the software stack include:
Seamless model onboarding: MTIA supports both eager and graph modes. In graph mode, it integrates directly with PyTorch 2.0’s compilation pipeline. Developers use familiar tools — torch.compile and torch.export — to capture and optimize model graphs. No MTIA-specific rewrites are required to enable models. This portability enables our production models to be deployed simultaneously on both GPUs and MTIA.
Compilers: Beneath the PyTorch frontend, MTIA-specific compilers translate high-level graph representations into highly optimized device code. The graph compiler is built on Torch FX IR and TorchInductor. The kernel compiler and lower-level backends are based on Triton, MLIR, and LLVM, enhanced and optimized for MTIA. We improved and tailored TorchInductor’s Triton code generations and kernel fusion for MTIA, and introduced MTIA-aware MLIR dialects and Triton DSL extensions. These extensions can be used optionally for performance-critical kernels. The compiler stack has autotuning capabilities that automatically optimize workloads using multiple compilation strategies.
Kernel authoring: MTIA supports compiler-driven kernel generation and fusion, enables both auto-generated and user-driven manual kernel authoring using Triton and C++, and provides kernel auto-tuning and optimizations. Furthermore, we have built agentic AI systems to automate kernel generation; see our papers on TritorX and KernelEvolve for details.
Communication and transport: MTIA’s communication library, Hoot Collective Communications Library (HCCL), is similar to GPU communication libraries but offers several differentiators. It leverages the MTIA chips’ built-in network chiplets for efficient communication, offloads collective operations to dedicated message engines, and uses near-memory compute to accelerate reduction-heavy collectives. HCCL also supports fusing compute and collective kernels to minimize latency. Finally, its transport stack is optimized for low-latency transactions and offloads the entire data path to reduce host-stack runtime overhead.
Runtime and firmware: The MTIA runtime manages device memory, kernel scheduling, and execution coordination across multiple devices. It supports both eager and graph execution modes. Additionally, it orchestrates compute and collective operations in an Inductor-native, eager-style graph mode. This approach enables compute and communication to be captured and scheduled together, providing a GPU-like experience with minimal overhead. The runtime interfaces with a Rust-based user-space driver, rather than a traditional in-kernel Linux driver. The firmware is written in bare-metal Rust, delivering low latency and high performance, with built-in memory and thread safety.
vLLM support : vLLM's plugin architecture allows easy integration with MTIA. Our MTIA plugin replaces important operators, such as FlashAttention and fused LayerNorm, with MTIA-specific kernels. Graph-mode execution is supported via a custom torch.compile backend. MTIA inherits and benefits from vLLM’s features such as prefill-decode disaggregation and continuous batching.
Production tools: To reliably operate hundreds of thousands of MTIA chips in production, MTIA offers production-grade monitoring, profiling, and debugging tools comparable to those available for mainstream GPUs, while providing unique capabilities such as full-stack, at-scale observability across both host and device, spanning software, firmware, and hardware. Its debugger enables fine-grained control, including breakpoints and coordinated stepping at the PE level.
MTIA: Advancing With Each Generation
While our large-scale production deployments of MTIA chips have demonstrated strong R&R inference capabilities, we expect the latest four generations — either recently launched or planned for launch in 2026 or 2027 — to push the boundaries of GenAI inference, enable R&R training, and lay the groundwork for future GenAI training. Each generation of MTIA has built on the lessons of the one before, is co-designed with our software stack, and is guided by the trajectory of future AI models. Their modular, multi-chiplet design and vertically integrated co-design approach can deliver rapid, compounding performance gains while maintaining system-level compatibility. Together, they bring us closer to our goal to deliver today and tomorrow’s most powerful AI experiences to everyone on our platforms.
*Written by:*
*Yee Jiun Song, Andrew Tulloch, Harikrishna Reddy, CQ Tang, Vijay Thakkar*
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み