AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
MarkTechPost·2026年6月9日 01:49·約14分で読める

シャオミのMiMoとTileRTが汎用GPU上で1兆パラメータモデルを秒間1000トークン超で推論

#LLM#MoE#Quantization#Speculative Decoding#Xiaomi
TL;DR

Xiaomi は TileRT システムと連携し、MoE アーキテクチャの 1 兆パラメータモデルを汎用 GPU で 1000 トークン/秒以上の推論速度を実現する技術的突破を発表した。

AI深層分析2026年6月9日 14:10
5
最重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

汎用 GPU での超大規模高速化達成

1 兆パラメータ規模のモデルを、カスタムシリコンではなく標準的な 8-GPU ノード上で 1000 トークン/秒(ピーク 1200)という驚異的な速度で動作させることに成功した。

2

極限のモデル・システム共設計

FP4 量子化、DFlash 並列ドラフティング、TileRT システム実行の 3 つの層を密接に連携させることで、メモリ帯域と計算ボトルネックを解消した。

3

DFlash による非逐次ドラフティング

従来の逐次生成ではなくブロックレベルでの並列予測を採用し、コンテキスト長に関わらず一定の計算量で推論を行うことで、検証コストを抑制した。

4

精度と速度の両立

MoE エキスパート層にのみ MXFP4 量子化を適用し、他のモジュールは高精度を維持することで、ベンチマーク品質を損なわずに速度向上を実現した。

5

TileRT の革新的なアーキテクチャ

従来の逐次起動方式に代わり、GPU に常駐する「Persistent Engine Kernel」を採用し、Warp Specialization でデータ移動・計算・通信を協調させることで、マイクロ秒単位のオペレータ実行を実現した。

6

汎用 GPU での極限速度達成とコスト

カスタム半導体を使用せず、FP4 精度と DFlash 推測デコーディングを組み合わせるモデル・システム共同設計により、1 トリオンパラメータのモデルで 1000+ TPS を達成したが、価格は標準の約 3 倍となっている。

7

リアルタイム用途と限定的なアクセス

並列推論やコーディングエージェントなど遅延が致命的なワークロードをターゲットとしており、2026 年 6 月の API 試用期間中は承認制で提供される。

影響分析・編集コメントを表示

影響分析

この成果は、超大規模モデルの運用コストと遅延問題を解決する鍵となる技術的転換点です。汎用 GPU で 1000 トークン/秒を達成したことは、企業や研究者がカスタムハードウェアに依存せずとも、大規模 LLM のリアルタイム応用を可能にする道を開きます。特にコード生成や推論タスクでの高い受容率(Acceptance Length)は、実世界での即時的な導入可能性を強く示しています。

編集コメント

カスタムチップなしで 1 兆パラメータモデルを高速化するという点は、業界全体のコスト構造とスケーラビリティの議論に大きな影響を与える画期的な成果です。

推論速度は、大規模言語モデルにおける競争指標となりつつあります。Xiaomi の MiMo チームは、TileRT システムグループとの共同開発により、MiMo-V2.5-Pro-UltraSpeed をリリースしました。これは 1 兆パラメータのモデルにおいて、1 秒あたり 1000 トークンを超える速度でデコードを行います。Xiaomi チームはこの成果を、1 兆パラメータ規模における初の事例として説明しています。デモでは生成速度が 1 秒あたり約 1200 トークンに達する様子も示されています。特筆すべき点はハードウェア構成であり、これはカスタムシリコンではなく、市販の GPU で動作します。

MiMo-V2.5-Pro-UltraSpeed とは何か

UltraSpeed は、既存の MiMo-V2.5-Pro モデル向けの高速推論モードです。ベースモデルは 1 兆パラメータ規模で Mixture-of-Experts (MoE) アーキテクチャを採用しています。UltraSpeed はモデルの能力そのものよりも、生成速度に焦点を当てています。これはモデルが出力トークンを生成する速度を変革するものです。この高速化は、モデル全体と推論システムにわたる 3 つの協調技術によって実現されています。Xiaomi はこのアプローチを「極限のモデル・システム共同設計」と呼んでいます。重要なのは、すべてのスタックが単一の標準的な 8 GPU 構成の市販ノード上で動作している点です。

速度向上のケース:3 つのレイヤーが連携する

最初の層は FP4 量子化です。トリリオン規模では、FP8 または FP16 の重みがメモリと帯域幅に大きな負荷をかけます。ビット幅の低い重みはメモリをより高速に通過するため、デコード速度が直接的に向上します。Xiaomi は MXFP4 フォーマットを使用し、MoE エキスパートに対して選択的に適用しています。他のモジュールは TileRT によって報告されている通り、より高い精度(FP8)を維持しています。エキスパートは最も多くのパラメータを保持しており、量子化に対する耐性も高いため、このトレードオフは有利に働きます。Quantization-Aware Training (QAT) を用いることで、ベンチマーク品質はオリジナルとほぼ同等に保たれています。

2 番目の層は DFlash 推測デコードで、詳細は後述します。3 番目の層は TileRT で、これは GPU 上ですべての処理を実行するシステムです。各技術単独では不十分であり、1000 TPS という結果を出すにはこれら 3 つの技術をきつく連携させる必要があります。

DFlash: シリアルボトルネックのない並列ドラフト生成

標準的な推測デコードでは、小さなドラフトモデルが将来のトークンを予測します。その後、大規模モデルがこれらの予測を並列で検証します。リジェクトサンプリングにより出力は通常のデコードと同一に保たれるため、品質はロスレスです。問題は、ドラフトモデルが依然としてトークンを 1 つずつ生成しなければならない点にあります。研究コミュニティから提案された DFlash という手法はこの制約を取り除きます。これはブロックレベルのマスク付き並列予測を利用します。ドラフトモデルは、1 回の順伝播でマスクされた位置のブロック全体を埋めることができます。

Xiaomi は、Muon 二次最適化器とモデル自己蒸留を用いて DFlash を調整しました。ドラフトモデルは MiMo-V2 の設計に合わせるため、スライディングウィンドウアテンション(SWA)のみを使用します。これにより、1 回の予測あたりの計算量が文脈長に応じて増加するのではなく一定になります。ブロックサイズは検証コストを制限し並行性を高めるために 8 に上限が設定されています。

受容長とは、各ラウンドで検証に耐え残るドラフトトークンの数を測定した指標です。

シナリオ | 受容長

コーディング | 6.30

数学 / 推論 | 5.56

エージェント | 4.29

コーディングでは、1 ラウンドあたり 8 つのドラフトトークンのうち 6〜7 つが受容されます。一部のサンプルでは最大 7.14 に達します。

TileRT: マイクロ秒を絞り込む

1000 TPS の速度では、各オペレータの実行時間はわずか数マイクロ秒です。従来のシステムはオペレータを順次起動しますが、各起動には時間がかかります。これらのギャップが実行ストリームを分断し、真のボトルネックとなります。TileRT はこれを GPU 上に常駐する永続エンジンカーネルに置き換えます。これはワープ特化(Warp Specialization)を用いて、データ移動、計算、通信を協調的な役割に分割します。この規模では、RMSNorm、RoPE、KV キャッシュ書き込みのような小規模なオペレーションがボトルネックとなります。本システムは FP4 と DFlash の選択と共設計されたものであり、後から追加されたものではありません。

ユースケース

今回のリリースは、待機時間がループを分断するレイテンシ敏感なワークロードを対象としています:

並列推論:同じ壁時計時間内に多くの Best-of-N やツリー探索パスを実行します。

コーディングエージェント:高速なコード生成により、エージェントのステップ間の待ち時間を短縮します。

リアルタイム意思決定ループ:取引シグナルの生成、不正行為の検知、ライブ対話。

インタラクティブなプロトタイピング:デモではスネークゲームが約 10 秒で、macOS インターフェースが約 1 分で表示されます。

これらはスループットに制約されるワークロードであり、生トークン速度がボトルネックとなっています。

比較について

最初の表は、極限のデコード速度を実現する 2 つのアプローチを対比しています。

アプローチハードウェア速度実現方法

Cerebrasウェーハスケール統合(カスタム)単一のカスタムウェーハ上でスケーリング

Groqカスタムアーキテクチャオンチップ SRAM のみの利用

MiMo × TileRT汎用 GPU(8-GPU ノード)モデル - システム協調設計:FP4 + DFlash + TileRT

2 つ目の表は、標準モデルと UltraSpeed モードを比較しています。

次元MiMo-V2.5-ProMiMo-V2.5-Pro-UltraSpeed

デコード速度ベースライン約 10 倍高速(1000+ TPS)

価格1 倍3 倍

重み精度標準QAT を通じた FP4 MoE エキスパート

デコーディング標準自己回帰DFlash 推測デコーディング

アクセス標準モデルプランAPI のみ、アプリケーションベースのトライアル

トークンプラン対応非対応

アクセス、価格設定、オープンソース

UltraSpeed は、限定的なアプリケーションベースの期間を通じて提供されます。API のトライアル期間は 2026 年 6 月 9 日から 6 月 23 日までです。料金は標準的な MiMo-V2.5-Pro の料金の 3 倍で、速度は約 10 倍になります。これは API のみに対応しており、Token Plan はサポートされていません。承認されたユーザーには、トライアル期間中に無料の Chat アクセスも付与されます。Chat 利用制限は以下の通りです:毎日 10 エントリーまでのキュー待ち、セッション時間 30 分、アイドル状態から 5 分で解放されます。Xiaomi は MiMo-V2.5-Pro-FP4-DFlash チェックポイントを Hugging Face でオープンソース化しました。TileRT も GitHub で一部のモジュールをオープンソース化しています。

強みと限界

強み

カスタムシリコンなしで 1T モデルにおいて 1000+ TPS を達成。

DFlash における拒否サンプリングによるロスレスデコーディング。

許容度が最も高い箇所にのみ FP4 を適用し、品質を維持。

オープンなチェックポイントにより、コミュニティが主張を検証可能。

限界

アクセスは開始時に制限され、期間が短く、承認制である。

トークンあたりの料金は標準モデルの 3 倍になる。

自由形式の会話では受容長(acceptance length)が低下する。

独立した第三者による速度検証はまだ公開されていない。

重要なポイント

Xiaomi MiMo と TileRT は、汎用 GPU で 1 兆パラメータモデルを毎秒 1000 トークン以上でデコードします。

この高速化は、FP4 量子化、DFlash 予測デコーディング、および TileRT ランタイムの 3 つの層によるものです。

FP4(MXFP4)は MoE エキスパートにのみ適用され、QAT(Quantization-Aware Training:量子化-aware 学習)により能力はほぼ同等に保たれます。

DFlash は順次パスごとにマスクされたブロック全体を予測し、コーディングにおいて平均受容長 6.30 を達成します。

UltraSpeed は、2026 年 6 月 9 日から 23 日にかけて、アプリケーションベースの API 試用を通じて、単一の 8 GPU ノード上で動作します。

Marktechpost のビジュアル解説ガイド・推論システム

MiMo-V2.5-Pro-UltraSpeed: 1T モデルで秒間 1000 トークン以上

Xiaomi MiMo & TileRT — FP4 量子化、DFlash 予測デコーディング、マイクロ秒スケールのランタイム。

01 / 08

何なのか

Xiaomi の MiMo チームが TileRT システムグループと共同で構築しました。

1 兆パラメータのモデル上で、秒間 1000 トークンを超えるデコーディングを実現します。

デモでは生成速度が秒間約 1200 トークンのピークに達することが示されています。

汎用 GPU を使用し、標準的な単一の 8 GPU ノードで動作します。

2026 年 6 月 8 日にリリースされました。

秒間 1000+ トークン

1T パラメータ(MoE)

8 つの汎用 GPU

02 / 08

3 つのレイヤーが連携して動作

FP4 量子化により重みを圧縮し、帯域幅への負荷を軽減します。

DFlash 予測デコーディングは、多数のトークンを並列に予測します。

TileRT はマイクロ秒スケールで全体のパイプラインを実行します。

Xiaomi はこのアプローチを「極限のモデル・システム協調設計」と呼んでいます。

単一の技術だけでは不十分であり、これら 3 つが完全に連携する必要があります。

03 / 08

レイヤー 1 — FP4 量子化

メモリと帯域幅のコストを削減するために MXFP4 フォーマットを使用します。

MoE のエキスパート部分にのみ選択的に適用されます。

他のモジュールは高い精度を維持します(FP8、TileRT による)。

エキスパートはほとんどのパラメータを保持し、量子化に対する耐性が最も高いです。

QAT(Quantization-Aware Training:量子化-aware トレーニング)により、能力は元のモデルとほぼ同等に保たれます。

04 / 08

レイヤー 2 — DFlash Speculative Decoding(DFlash 推測的デコーディング)

ブロックレベルのマスク付き並列予測を用いる研究コミュニティによる手法です。

ドラフトモデルは、1 つの前向きパスでブロック全体を埋めます。

スライディングウィンドウアテンション(Sliding Window Attention:スライドする窓型注意機構)を使用し、ブロックサイズは最大 8 に制限されます。

リジェクトサンプリングにより、出力はロスレスに保たれます。

シナリオ | 受容長さ

---|---

コーディング | 6.30

数学 / 推論 | 5.56

エージェント | 4.29

05 / 08

レイヤー 3 — TileRT Runtime(TileRT ランタイム)

1000 TPS の速度では、各オペレータの実行時間はマイクロ秒単位に過ぎません。

永続エンジンカーネルは GPU 上に常駐します。

ワープ特化(Warp Specialization:スレッドブロックの役割分担)により、データ移動、計算、通信が分割されます。

RMSNorm や RoPE などの小規模なオペレーションがここでボトルネックとなります。

このランタイムは、FP4 と DFlash の選択と共設計されています。

06 / 08

どこに位置するか

並列推論:多くの Best-of-N(N 個の候補から最適なものを選択)やツリー探索パスを同時に実行します。

コーディングエージェント:エージェントステップ間の待ち時間を削減します。

リアルタイムループ:取引シグナル、不正検知、ライブ対話。

インタラクティブプロトタイピング:約 10 秒でスネークゲームを構築。

07 / 08

標準版と UltraSpeed の比較

次元MiMo-V2.5-ProUltraSpeed

デコード速度ベースライン〜10 倍(1000+ TPS)

価格1 倍3 倍

重み標準FP4 MoE エキスパート (QAT)

推論方式自己回帰DFlash スペキュレティブ

アクセス標準プランAPI のみ、申請制

08 / 08

アクセス、料金体系とオープンソース

API 試用期間は北京時間 2026 年 6 月 9 日から 6 月 23 日まで。

料金は約 10 倍の速度に対して標準料金の 3 倍です。

API のみ対応で、トークンプランはサポートされていません。

チェックポイントは Hugging Face でオープンソース化されています:MiMo-V2.5-Pro-FP4-DFlash。

TileRT は一部のモジュールを GitHub でオープンソース化しています。

← 前へ

次へ →

Marktechpost

エンジニア向けに解説する AI 研究、モデル、開発者ツール。

#mtp-mus{background:#ffffff!important;color:#1f2630!important;border:1px solid #e6ebf0!important;border-radius:16px!important;max-width:820px!important;margin:24px auto!important;padding:0!important;box-shadow:0 10px 30px rgba(31,38,48,.06)!important;overflow:hidden!important;font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,Helvetica,Arial,sans-serif!important;line-height:1.55!important;-webkit-font-smoothing:antialiased!important}

#mtp-mus *{box-sizing:border-box!important}

#mtp-mus hr,#mtp-mus p:empty,#mtp-mus del,#mtp-mus s{display:none!important}

#mtp-mus .mtp-mus-header{background:#f6f8f1!important;border-bottom:1px solid #e6ebf0!important;padding:26px 30px 22px!important;position:relative!important}

#mtp-mus .mtp-mus-header:before{content:""!important;position:absolute!important;top:0!important;left:0!important;right:0!important;height:4px!important;background:#76B900!important}

#mtp-mus .mtp-mus-eyebrow{font:600 11px/1 ui-monospace,SFMono-Regular,Menlo,Consolas,monospace!important;letter-spacing:.16em!important;color:#5d8b00!important;margin:0 0 10px!important}

#mtp-mus .mtp-mus-title{font-size:24px!important;font-weight:800!important;line-height:1.25!important;margin:0 0 8px!important;color:#16202b!important;letter-spacing:-.01em!important}

#mtp-mus .mtp-mus-sub{font-size:14px!important;color:#5f6b76!important;margin:0!important}

#mtp-mus .mtp-mus-viewport{overflow:hidden!important;width:100%!important}

#mtp-mus .mtp-mus-track{display:flex!important;width:100%!important;transition:transform .42s cubic-bezier(.4,.0,.2,1)!important}

#mtp-mus .mtp-mus-slide{flex:0 0 100%!important;min-width:100%!important;padding:30px!important}

#mtp-mus .mtp-mus-step{font:600 12px/1 ui-monospace,SFMono-Regular,Menlo,Consolas,monospace!important;color:#9aa6b1!important;letter-spacing:.12em!important;margin:0 0 14px!important}

#mtp-mus .mtp-mus-h{font-size:19px!important;font-weight:800!important;color:#16202b!important;margin:0 0 16px!important;padding:0 0 12px!important;border-bottom:2px solid #eef2e3!important;letter-spacing:-.005em!important}

#mtp-mus .mtp-mus-list{list-style:none!important;margin:0!important;padding:0!important}

#mtp-mus .mtp-mus-list li{position:relative!important;padding:0 0 0 26px!important;margin:0 0 12px!important;font-size:15px!important;color:#2b3540!important}

#mtp-mus .mtp-mus-list li:before{content:"\2192"!important;position:absolute!important;left:0!important;top:0!important;color:#76B900!important;font-weight:700!important}

#mtp-mus .mtp-mus-list b{color:#16202b!important;font-weight:700!important}

#mtp-mus .mtp-mus-stats{display:flex!important;gap:12px!important;margin:22px 0 0!important;flex-wrap:wrap!important}

#mtp-mus .mtp-mus-stat{flex:1 1 0!important;min-width:120px!important;background:#f6f8f1!important;border:1px solid #e3ead2!important;border-radius:12px!important;padding:16px 14px!important;text-align:center!important}

#mtp-mus .mtp-mus-num{display:block!important;font:800 26px/1 ui-monospace,SFMono-Regular,Menlo,Consolas,monospace!important;color:#5d8b00!important;margin:0 0 6px!important}

#mtp-mus .mtp-mus-lbl{display:block!important;font-size:12px!important;color:#5f6b76!important;letter-spacing:.02em!important}

#mtp-mus .mtp-mus-tablewrap{margin:18px 0 0!important;overflow-x:auto!important;border:1px solid #e6ebf0!important;border-radius:12px!important}

#mtp-mus .mtp-mus-table{width:100%!important;border-collapse:collapse!important;font-size:14px!important;background:#ffffff!important;color:#2b3540!important}

#mtp-mus .mtp-mus-table th{background:#eef2e3!important;color:#3a4a16!important;text-align:left!important;font-weight:700!important;padding:11px 14px!important;border-bottom:1px solid #e0e6cf!important;white-space:nowrap!important}

#mtp-mus .mtp-mus-table td{padding:11px 14px!important;border-bottom:1px solid #eef1f5!important;color:#2b3540!important}

#mtp-mus .mtp-mus-table tr:last-child td{border-bottom:0!important}

#mtp-mus .mtp-mus-table tbody tr:nth-child(even){background:#fafbf6!important}

#mtp-mus .mtp-mus-nav{display:flex!important;align-items:center!important;justify-content:space-between!important;gap:12px!important;padding:16px 30px 20px!important;border-top:1px solid #eef1f5!important}

#mtp-mus .mtp-mus-btn{background:#76B900!important;color:#13230a!important;border:0!important;border-radius:9px!important;padding:9px 16px!important;font-size:13px!important;font-weight:700!important;cursor:pointer!important;font-family:inherit!important;transition:background .15s ease,opacity .15s ease!important}

#mtp-mus .mtp-mus-btn:hover{background:#69a600!important}

#mtp-mus .mtp-mus-btn:disabled{background:#e6ebf0!important;color:#aab4bd!important;cursor:default!important}

#mtp-mus .mtp-mus-dots{display:flex!important;gap:8px!important;align-items:center!important;flex-wrap:wrap!important;justify-content:center!important}

#mtp-mus .mtp-mus-dot{width:9px!important;height:9px!important;border-radius:50%!important;background:#d4dbe2!important;border:0!important;padding:0!important;cursor:pointer!important;transition:background .15s ease,transform .15s ease!important}

#mtp-mus .mtp-mus-dot.is-active{background:#76B900!important;transform:scale(1.25)!important}

#mtp-mus .mtp-mus-tagline{display:flex!important;align-items:center!important;justify-content:center!important;gap:10px!important;flex-wrap:wrap!important;background:#16202b!important;color:#e8edf2!important;padding:14px 24px!important;text-align:center!important}

#mtp-mus .mtp-mus-brand{font-weight:800!important;color:#9ede3a!important;letter-spacing:.01em!important;font-size:15px!important}

#mtp-mus .mtp-mus-taglinetxt{font-size:13px!important;color:#b9c2cc!important}

@media (max-width:640px){

#mtp-mus{margin:16px auto!important;border-radius:12px!important}

#mtp-mus .mtp-mus-header{padding:20px 18px 16px!important}

#mtp-mus .mtp-mus-title{font-size:20px!important}

#mtp-mus .mtp-mus-slide{padding:22px 18px!important}

#mtp-mus .mtp-mus-h{font-size:17px!important}

#mtp-mus .mtp-mus-list li{font-size:14px!important}

#mtp-mus .mtp-mus-stats{gap:8px!important}

#mtp-mus .mtp-mus-stat{min-width:90px!important;padding:12px 8px!important}

#mtp-mus .mtp-mus-num{font-size:21px!important}

#mtp-mus .mtp-mus-nav{padding:14px 18px 18px!important}

#mtp-mus .mtp-mus-btn{padding:8px 12px!important;font-size:12px!important}

#mtp-mus .mtp-mus-table{font-size:13px!important}

#mtp-mus .mtp-mus-table th,#mtp-mus .mtp-mus-table td{padding:9px 10px!important}

}

(function(){

var root=document.getElementById("mtp-mus");

if(!root||root.getAttribute("data-mus-init"))return;

root.setAttribute("data-mus-init","1");

var track=root.querySelector(".mtp-mus-track");

var slides=root.querySelectorAll(".mtp-mus-slide");

var dotsWrap=root.querySelector('[data-mus="dots"]');

var prev=root.querySelector('[data-mus="prev"]');

var next=root.querySelector('[data-mus="next"]');

var i=0,n=slides.length;

for(var d=0;d40){go(dx

Model weights(モデル重み)と Technical details(技術詳細)をチェックしてください。また、Twitter で私たちをフォローしたり、150,000人以上の ML SubReddit に参加したり、ニュースレターを購読することを忘れないでください。待ってください!Telegram を使っていますか?今なら Telegram でも私たちに参加できます。

GitHub リポジトリや Hugging Face ページ、製品リリース、ウェビナーなどのプロモーションのためにパートナーシップを結ぶ必要がある場合は、ご連絡ください。

本記事「Xiaomi MiMo と TileRT が汎用 GPU で 1 兆パラメータモデルを 1 秒あたり 1000 トークン以上で実行」は、MarkTechPost にて最初に公開されました。

原文を表示

Inference speed is becoming a competitive metric for large language models. Xiaomi’s MiMo team just released MiMo-V2.5-Pro-UltraSpeed, built in collaboration with the TileRT systems group. It decodes faster than 1000 tokens per second on a 1-trillion-parameter model. Xiaomi team describes this as a first at trillion-parameter scale. Demos show generation peaks near 1200 tokens per second. The notable part is the hardware: it runs on commodity GPUs, not custom silicon.

What is MiMo-V2.5-Pro-UltraSpeed

UltraSpeed is a high-speed serving mode for the existing MiMo-V2.5-Pro model. The base model uses a Mixture-of-Experts (MoE) architecture at trillion-parameter scale. UltraSpeed targets generation speed rather than model capability. It changes how fast the model produces output tokens. The speedup comes from three coordinated techniques across the model and the serving system. Xiaomi calls this approach extreme model-system codesign. Crucially, the entire stack runs on a single standard 8-GPU commodity node.

The Speed Case: Three Layers Working Together

The first layer is FP4 quantization. At trillion scale, FP8 or FP16 weights create heavy memory and bandwidth pressure. Lower bit-width weights move through memory faster, which directly lifts decode speed. Xiaomi uses the MXFP4 format, applied selectively to the MoE Experts only. Other modules keep higher precision, reported as FP8 by TileRT. Experts hold most parameters and tolerate quantization best, so the tradeoff is favorable. Quantization-Aware Training (QAT) keeps benchmark quality essentially on par with the original.

The second layer is DFlash speculative decoding, covered in detail below. The third layer is TileRT, the system that executes everything on the GPU. Each technique alone is not enough. The 1000 TPS result needs all three aligned tightly.

DFlash: Parallel Drafting Without a Serial Bottleneck

Standard speculative decoding uses a small draft model to guess upcoming tokens. The large model then verifies those guesses in parallel. Rejection sampling keeps output identical to normal decoding, so quality is lossless. The problem is that the draft model still generates tokens one at a time. DFlash, a method from the research community, removes that constraint. It uses block-level masked parallel prediction. The draft model fills a whole block of masked positions in one forward pass.

Xiaomi tuned DFlash with the Muon second-order optimizer and model self-distillation. The draft model uses Sliding Window Attention (SWA) only, matching the MiMo-V2 design. This makes per-prediction compute constant rather than growing with context length. Block size is capped at 8 to limit verification cost and raise concurrency.

Acceptance length measures how many draft tokens survive verification each round.

ScenarioAcceptance Length

Coding6.30

Math / Reasoning5.56

Agent4.29

In coding, six to seven of eight draft tokens are accepted per round. Some samples reach a maximum of 7.14.

TileRT: Squeezing the Microseconds

At 1000 TPS, each operator runs for only microseconds. Traditional systems launch operators one by one, and each launch costs time. Those gaps fracture the execution stream and become the real bottleneck. TileRT replaces this with a Persistent Engine Kernel that stays resident on the GPU. It uses Warp Specialization to split data movement, compute, and communication into coordinated roles. Small operations like RMSNorm, RoPE, and KV cache writes turn into bottlenecks at this scale. The system was co-designed with the FP4 and DFlash choices, not added afterward.

Use Cases

The release targets latency-sensitive work where waiting breaks the loop:

Parallel reasoning: run many Best-of-N or tree-search paths within the same wall-clock time.

Coding agents: faster code generation cuts the wait between agent steps.

Real-time decision loops: trading signal generation, fraud interception, and live dialogue.

Interactive prototyping: demos show a Snake game in about 10 seconds and a macOS interface in about one minute.

These are throughput-bound workloads where raw token speed is the binding constraint.

How It Compares

The first table contrasts the two routes to extreme decode speed.

ApproachHardwareHow speed is achieved

CerebrasWafer-Scale integration (custom)Scale on a single custom wafer

GroqCustom architecturePure on-chip SRAM

MiMo × TileRTCommodity GPUs (8-GPU node)Model-system codesign: FP4 + DFlash + TileRT

The second table compares the standard model with the UltraSpeed mode.

DimensionMiMo-V2.5-ProMiMo-V2.5-Pro-UltraSpeed

Decode speedBaseline~10× faster (1000+ TPS)

Price1×3×

Weight precisionStandardFP4 MoE Experts via QAT

DecodingStandard autoregressiveDFlash speculative decoding

AccessStandard model plansAPI only, application-based trial

Token PlanSupportedNot supported

Access, Pricing, and Open Source

UltraSpeed ships through a limited, application-based window. The API trial runs June 9 to June 23, 2026. Pricing is 3× the standard MiMo-V2.5-Pro rate, for roughly 10× the speed. It is API only, and the Token Plan is not supported. Approved users also receive free Chat access during the trial. Chat limits apply: 10 queue entries daily, 30-minute sessions, and 5-minute idle release. Xiaomi open-sourced the MiMo-V2.5-Pro-FP4-DFlash checkpoint on Hugging Face. TileRT has open-sourced select modules on GitHub.

Strengths and Limitations

Strengths

1000+ TPS on a 1T model without custom silicon.

Lossless decoding through rejection sampling in DFlash.

FP4 applied only where tolerance is highest, preserving quality.

An open checkpoint lets the community test the claims.

Limitations

Access is gated, short, and approval-based at launch.

Pricing triples per token versus the standard model.

Acceptance length drops in open-ended conversation.

Independent third-party speed verification is not yet public.

Key Takeaways

Xiaomi MiMo and TileRT decode a 1-trillion-parameter model past 1000 tokens per second on commodity GPUs.

The speedup comes from three layers: FP4 quantization, DFlash speculative decoding, and the TileRT runtime.

FP4 (MXFP4) is applied only to MoE Experts; QAT keeps capability essentially on par.

DFlash predicts a whole masked block per forward pass, hitting 6.30 average acceptance length in coding.

UltraSpeed runs on a single 8-GPU node via an application-based API trial, June 9–23, 2026.

Marktechpost’s Visual Explainer

GUIDE • INFERENCE SYSTEMS

MiMo-V2.5-Pro-UltraSpeed: 1000+ Tokens Per Second on a 1T Model

Xiaomi MiMo & TileRT — FP4 quantization, DFlash speculative decoding, and a microsecond-scale runtime.

01 / 08

What It Is

Xiaomi’s MiMo team built it with the TileRT systems group.

It decodes over 1000 tokens/s on a 1-trillion-parameter model.

Demos show generation peaks near 1200 tokens/s.

It runs on commodity GPUs, a single standard 8-GPU node.

Released June 8, 2026.

1000+tokens / second

1Tparameters (MoE)

8commodity GPUs

02 / 08

Three Layers Working Together

FP4 quantization shrinks weights and eases bandwidth pressure.

DFlash speculative decoding predicts many tokens in parallel.

TileRT executes the whole pipeline at microsecond scale.

Xiaomi calls this approach extreme model-system codesign.

No single technique is enough; all three must align.

03 / 08

Layer 1 — FP4 Quantization

Uses the MXFP4 format to lower memory and bandwidth cost.

Applied selectively to the MoE Experts only.

Other modules keep higher precision (FP8, per TileRT).

Experts hold most parameters and tolerate quantization best.

QAT keeps capability essentially on par with the original.

04 / 08

Layer 2 — DFlash Speculative Decoding

A research-community method using block-level masked parallel prediction.

The draft model fills a whole block in one forward pass.

It uses Sliding Window Attention; block size capped at 8.

Rejection sampling keeps the output lossless.

ScenarioAcceptance Length

Coding6.30

Math / Reasoning5.56

Agent4.29

05 / 08

Layer 3 — TileRT Runtime

At 1000 TPS, each operator runs for only microseconds.

A Persistent Engine Kernel stays resident on the GPU.

Warp Specialization splits data movement, compute, and communication.

Small ops like RMSNorm and RoPE become bottlenecks here.

The runtime was co-designed with the FP4 and DFlash choices.

06 / 08

Where It Fits

Parallel reasoning: many Best-of-N or tree-search paths at once.

Coding agents: less wait between agent steps.

Real-time loops: trading signals, fraud interception, live dialogue.

Interactive prototyping: a Snake game in about 10 seconds.

07 / 08

Standard vs UltraSpeed

DimensionMiMo-V2.5-ProUltraSpeed

Decode speedBaseline~10× (1000+ TPS)

Price1×3×

WeightsStandardFP4 MoE Experts (QAT)

DecodingAutoregressiveDFlash speculative

AccessStandard plansAPI only, by application

08 / 08

Access, Pricing & Open Source

API trial runs June 9 to June 23, 2026 (Beijing time).

Pricing is 3× the standard rate for roughly 10× speed.

API only; the Token Plan is not supported.

Checkpoint open-sourced: MiMo-V2.5-Pro-FP4-DFlash on Hugging Face.

TileRT has open-sourced select modules on GitHub.

← Prev

Next →

Marktechpost

AI research, models, and developer tools — explained for engineers.

#mtp-mus{background:#ffffff!important;color:#1f2630!important;border:1px solid #e6ebf0!important;border-radius:16px!important;max-width:820px!important;margin:24px auto!important;padding:0!important;box-shadow:0 10px 30px rgba(31,38,48,.06)!important;overflow:hidden!important;font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,Helvetica,Arial,sans-serif!important;line-height:1.55!important;-webkit-font-smoothing:antialiased!important}

#mtp-mus *{box-sizing:border-box!important}

#mtp-mus hr,#mtp-mus p:empty,#mtp-mus del,#mtp-mus s{display:none!important}

#mtp-mus .mtp-mus-header{background:#f6f8f1!important;border-bottom:1px solid #e6ebf0!important;padding:26px 30px 22px!important;position:relative!important}

#mtp-mus .mtp-mus-header:before{content:""!important;position:absolute!important;top:0!important;left:0!important;right:0!important;height:4px!important;background:#76B900!important}

#mtp-mus .mtp-mus-eyebrow{font:600 11px/1 ui-monospace,SFMono-Regular,Menlo,Consolas,monospace!important;letter-spacing:.16em!important;color:#5d8b00!important;margin:0 0 10px!important}

#mtp-mus .mtp-mus-title{font-size:24px!important;font-weight:800!important;line-height:1.25!important;margin:0 0 8px!important;color:#16202b!important;letter-spacing:-.01em!important}

#mtp-mus .mtp-mus-sub{font-size:14px!important;color:#5f6b76!important;margin:0!important}

#mtp-mus .mtp-mus-viewport{overflow:hidden!important;width:100%!important}

#mtp-mus .mtp-mus-track{display:flex!important;width:100%!important;transition:transform .42s cubic-bezier(.4,.0,.2,1)!important}

#mtp-mus .mtp-mus-slide{flex:0 0 100%!important;min-width:100%!important;padding:30px!important}

#mtp-mus .mtp-mus-step{font:600 12px/1 ui-monospace,SFMono-Regular,Menlo,Consolas,monospace!important;color:#9aa6b1!important;letter-spacing:.12em!important;margin:0 0 14px!important}

#mtp-mus .mtp-mus-h{font-size:19px!important;font-weight:800!important;color:#16202b!important;margin:0 0 16px!important;padding:0 0 12px!important;border-bottom:2px solid #eef2e3!important;letter-spacing:-.005em!important}

#mtp-mus .mtp-mus-list{list-style:none!important;margin:0!important;padding:0!important}

#mtp-mus .mtp-mus-list li{position:relative!important;padding:0 0 0 26px!important;margin:0 0 12px!important;font-size:15px!important;color:#2b3540!important}

#mtp-mus .mtp-mus-list li:before{content:"\2192"!important;position:absolute!important;left:0!important;top:0!important;color:#76B900!important;font-weight:700!important}

#mtp-mus .mtp-mus-list b{color:#16202b!important;font-weight:700!important}

#mtp-mus .mtp-mus-stats{display:flex!important;gap:12px!important;margin:22px 0 0!important;flex-wrap:wrap!important}

#mtp-mus .mtp-mus-stat{flex:1 1 0!important;min-width:120px!important;background:#f6f8f1!important;border:1px solid #e3ead2!important;border-radius:12px!important;padding:16px 14px!important;text-align:center!important}

#mtp-mus .mtp-mus-num{display:block!important;font:800 26px/1 ui-monospace,SFMono-Regular,Menlo,Consolas,monospace!important;color:#5d8b00!important;margin:0 0 6px!important}

#mtp-mus .mtp-mus-lbl{display:block!important;font-size:12px!important;color:#5f6b76!important;letter-spacing:.02em!important}

#mtp-mus .mtp-mus-tablewrap{margin:18px 0 0!important;overflow-x:auto!important;border:1px solid #e6ebf0!important;border-radius:12px!important}

#mtp-mus .mtp-mus-table{width:100%!important;border-collapse:collapse!important;font-size:14px!important;background:#ffffff!important;color:#2b3540!important}

#mtp-mus .mtp-mus-table th{background:#eef2e3!important;color:#3a4a16!important;text-align:left!important;font-weight:700!important;padding:11px 14px!important;border-bottom:1px solid #e0e6cf!important;white-space:nowrap!important}

#mtp-mus .mtp-mus-table td{padding:11px 14px!important;border-bottom:1px solid #eef1f5!important;color:#2b3540!important}

#mtp-mus .mtp-mus-table tr:last-child td{border-bottom:0!important}

#mtp-mus .mtp-mus-table tbody tr:nth-child(even){background:#fafbf6!important}

#mtp-mus .mtp-mus-nav{display:flex!important;align-items:center!important;justify-content:space-between!important;gap:12px!important;padding:16px 30px 20px!important;border-top:1px solid #eef1f5!important}

#mtp-mus .mtp-mus-btn{background:#76B900!important;color:#13230a!important;border:0!important;border-radius:9px!important;padding:9px 16px!important;font-size:13px!important;font-weight:700!important;cursor:pointer!important;font-family:inherit!important;transition:background .15s ease,opacity .15s ease!important}

#mtp-mus .mtp-mus-btn:hover{background:#69a600!important}

#mtp-mus .mtp-mus-btn:disabled{background:#e6ebf0!important;color:#aab4bd!important;cursor:default!important}

#mtp-mus .mtp-mus-dots{display:flex!important;gap:8px!important;align-items:center!important;flex-wrap:wrap!important;justify-content:center!important}

#mtp-mus .mtp-mus-dot{width:9px!important;height:9px!important;border-radius:50%!important;background:#d4dbe2!important;border:0!important;padding:0!important;cursor:pointer!important;transition:background .15s ease,transform .15s ease!important}

#mtp-mus .mtp-mus-dot.is-active{background:#76B900!important;transform:scale(1.25)!important}

#mtp-mus .mtp-mus-tagline{display:flex!important;align-items:center!important;justify-content:center!important;gap:10px!important;flex-wrap:wrap!important;background:#16202b!important;color:#e8edf2!important;padding:14px 24px!important;text-align:center!important}

#mtp-mus .mtp-mus-brand{font-weight:800!important;color:#9ede3a!important;letter-spacing:.01em!important;font-size:15px!important}

#mtp-mus .mtp-mus-taglinetxt{font-size:13px!important;color:#b9c2cc!important}

@media (max-width:640px){

#mtp-mus{margin:16px auto!important;border-radius:12px!important}

#mtp-mus .mtp-mus-header{padding:20px 18px 16px!important}

#mtp-mus .mtp-mus-title{font-size:20px!important}

#mtp-mus .mtp-mus-slide{padding:22px 18px!important}

#mtp-mus .mtp-mus-h{font-size:17px!important}

#mtp-mus .mtp-mus-list li{font-size:14px!important}

#mtp-mus .mtp-mus-stats{gap:8px!important}

#mtp-mus .mtp-mus-stat{min-width:90px!important;padding:12px 8px!important}

#mtp-mus .mtp-mus-num{font-size:21px!important}

#mtp-mus .mtp-mus-nav{padding:14px 18px 18px!important}

#mtp-mus .mtp-mus-btn{padding:8px 12px!important;font-size:12px!important}

#mtp-mus .mtp-mus-table{font-size:13px!important}

#mtp-mus .mtp-mus-table th,#mtp-mus .mtp-mus-table td{padding:9px 10px!important}

}

(function(){

var root=document.getElementById("mtp-mus");

if(!root||root.getAttribute("data-mus-init"))return;

root.setAttribute("data-mus-init","1");

var track=root.querySelector(".mtp-mus-track");

var slides=root.querySelectorAll(".mtp-mus-slide");

var dotsWrap=root.querySelector('[data-mus="dots"]');

var prev=root.querySelector('[data-mus="prev"]');

var next=root.querySelector('[data-mus="next"]');

var i=0,n=slides.length;

for(var d=0;d40){go(dx

Check out the Model weights and Technical details. Also, feel free to follow us on Twitter and don’t forget to join our 150k+ ML SubReddit and Subscribe to our Newsletter. Wait! are you on telegram? now you can join us on telegram as well.

Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us

The post Xiaomi MiMo and TileRT Push a 1-Trillion-Parameter Model Past 1000 Tokens Per Second on Commodity GPUs appeared first on MarkTechPost.

この記事をシェア

関連記事

TLDR AI★42026年6月9日 09:00

中国のシャオミ製「MiMo」が ChatGPT や Claude よりも 15 倍高速に

シャオミと推論パートナーの TileRT は、標準的な 8 GPU ノードで秒間 1,000 トークンの推論速度を実現する 1 兆パラメータモデル「MiMo-V2.5-Pro-UltraSpeed」を開発した。この高速化は FP4 量子化と DFlash 推測デコーディング技術によるもので、6 月 9 日から 23 日までの限定 API 試験で利用可能となる。

MarkTechPost★32026年6月10日 13:52

ストリーミング、Pandas、tiktoken を活用した NVIDIA Nemotron-Pretraining-Code-v3 メタデータからのコードデータセットパイプライン構築

MarkTechPost は、NVIDIA の大規模コード事前学習用データセット「Nemotron-Pretraining-Code-v3」のメタデータを対象に、フルダウンロードを避けてストリーミング処理し、Pandas と tiktoken を使用して分析可能なサンプルパイプラインを構築する手法を紹介している。

Simon Willison Blog★42026年6月10日 09:37

Claude Fable があなたを支援しなくなっても、あなたは決して知らないかもしれない

Jonathon Ready は、Anthropic の Fable 5 と Mythos 5 のシステムカードから、競合他社に対してアプリを妨害する権限が与えられている可能性という驚くべき詳細を指摘した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む