シャオミのMiMoとTileRTが汎用GPU上で1兆パラメータモデルを秒間1000トークン超で推論

推論速度は、大規模言語モデルにおける競争指標となりつつあります。Xiaomi の MiMo チームは、TileRT システムグループとの共同開発により、MiMo-V2.5-Pro-UltraSpeed をリリースしました。これは 1 兆パラメータのモデルにおいて、1 秒あたり 1000 トークンを超える速度でデコードを行います。Xiaomi チームはこの成果を、1 兆パラメータ規模における初の事例として説明しています。デモでは生成速度が 1 秒あたり約 1200 トークンに達する様子も示されています。特筆すべき点はハードウェア構成であり、これはカスタムシリコンではなく、市販の GPU で動作します。 MiMo-V2.5-Pro-UltraSpeed とは何か UltraSpeed は、既存の MiMo-V2.5-Pro モデル向けの高速推論モードです。ベースモデルは 1 兆パラメータ規模で Mixture-of-Experts (MoE) アーキテクチャを採用しています。UltraSpeed はモデルの能力そのものよりも、生成速度に焦点を当てています。これはモデルが出力トークンを生成する速度を変革するものです。この高速化は、モデル全体と推論システムにわたる 3 つの協調技術によって実現されています。Xiaomi はこのアプローチを「極限のモデル・システム共同設計」と呼んでいます。重要なのは、すべてのスタックが単一の標準的な 8 GPU 構成の市販ノード上で動作している点です。 速度向上のケース：3 つのレイヤーが連携する 最初の層は FP4 量子化です。トリリオン規模では、FP8 または FP16 の重みがメモリと帯域幅に大きな負荷をかけます。ビット幅の低い重みはメモリをより高速に通過するため、デコード速度が直接的に向上します。Xiaomi は MXFP4 フォーマットを使用し、MoE エキスパートに対して選択的に適用しています。他のモジュールは TileRT によって報告されている通り、より高い精度（FP8）を維持しています。エキスパートは最も多くのパラメータを保持しており、量子化に対する耐性も高いため、このトレードオフは有利に働きます。Quantization-Aware Training (QAT) を用いることで、ベンチマーク品質はオリジナルとほぼ同等に保たれています。 2 番目の層は DFlash 推測デコードで、詳細は後述します。3 番目の層は TileRT で、これは GPU 上ですべての処理を実行するシステムです。各技術単独では不十分であり、1000 TPS という結果を出すにはこれら 3 つの技術をきつく連携させる必要があります。 DFlash: シリアルボトルネックのない並列ドラフト生成 標準的な推測デコードでは、小さなドラフトモデルが将来のトークンを予測します。その後、大規模モデルがこれらの予測を並列で検証します。リジェクトサンプリングにより出力は通常のデコードと同一に保たれるため、品質はロスレスです。問題は、ドラフトモデルが依然としてトークンを 1 つずつ生成しなければならない点にあります。研究コミュニティから提案された DFlash という手法はこの制約を取り除きます。これはブロックレベルのマスク付き並列予測を利用します。ドラフトモデルは、1 回の順伝播でマスクされた位置のブロック全体を埋めることができます。 Xiaomi は、Muon 二次最適化器とモデル自己蒸留を用いて DFlash を調整しました。ドラフトモデルは MiMo-V2 の設計に合わせるため、スライディングウィンドウアテンション（SWA）のみを使用します。これにより、1 回の予測あたりの計算量が文脈長に応じて増加するのではなく一定になります。ブロックサイズは検証コストを制限し並行性を高めるために 8 に上限が設定されています。 受容長とは、各ラウンドで検証に耐え残るドラフトトークンの数を測定した指標です。 シナリオ | 受容長 コーディング | 6.30 数学 / 推論 | 5.56 エージェント | 4.29 コーディングでは、1 ラウンドあたり 8 つのドラフトトークンのうち 6〜7 つが受容されます。一部のサンプルでは最大 7.14 に達します。 TileRT: マイクロ秒を絞り込む 1000 TPS の速度では、各オペレータの実行時間はわずか数マイクロ秒です。従来のシステムはオペレータを順次起動しますが、各起動には時間がかかります。これらのギャップが実行ストリームを分断し、真のボトルネックとなります。TileRT はこれを GPU 上に常駐する永続エンジンカーネルに置き換えます。これはワープ特化（Warp Specialization）を用いて、データ移動、計算、通信を協調的な役割に分割します。この規模では、RMSNorm、RoPE、KV キャッシュ書き込みのような小規模なオペレーションがボトルネックとなります。本システムは FP4 と DFlash の選択と共設計されたものであり、後から追加されたものではありません。 ユースケース 今回のリリースは、待機時間がループを分断するレイテンシ敏感なワークロードを対象としています： 並列推論：同じ壁時計時間内に多くの Best-of-N やツリー探索パスを実行します。 コーディングエージェント：高速なコード生成により、エージェントのステップ間の待ち時間を短縮します。 リアルタイム意思決定ループ：取引シグナルの生成、不正行為の検知、ライブ対話。 インタラクティブなプロトタイピング：デモではスネークゲームが約 10 秒で、macOS インターフェースが約 1 分で表示されます。 これらはスループットに制約されるワークロードであり、生トークン速度がボトルネックとなっています。 比較について 最初の表は、極限のデコード速度を実現する 2 つのアプローチを対比しています。 アプローチハードウェア速度実現方法 Cerebrasウェーハスケール統合（カスタム）単一のカスタムウェーハ上でスケーリング Groqカスタムアーキテクチャオンチップ SRAM のみの利用 MiMo × TileRT汎用 GPU（8-GPU ノード）モデル - システム協調設計：FP4 + DFlash + TileRT 2 つ目の表は、標準モデルと UltraSpeed モードを比較しています。 次元MiMo-V2.5-ProMiMo-V2.5-Pro-UltraSpeed デコード速度ベースライン約 10 倍高速（1000+ TPS） 価格1 倍3 倍 重み精度標準QAT を通じた FP4 MoE エキスパート デコーディング標準自己回帰DFlash 推測デコーディング アクセス標準モデルプランAPI のみ、アプリケーションベースのトライアル トークンプラン対応非対応 アクセス、価格設定、オープンソース UltraSpeed は、限定的なアプリケーションベースの期間を通じて提供されます。API のトライアル期間は 2026 年 6 月 9 日から 6 月 23 日までです。料金は標準的な MiMo-V2.5-Pro の料金の 3 倍で、速度は約 10 倍になります。これは API のみに対応しており、Token Plan はサポートされていません。承認されたユーザーには、トライアル期間中に無料の Chat アクセスも付与されます。Chat 利用制限は以下の通りです：毎日 10 エントリーまでのキュー待ち、セッション時間 30 分、アイドル状態から 5 分で解放されます。Xiaomi は MiMo-V2.5-Pro-FP4-DFlash チェックポイントを Hugging Face でオープンソース化しました。TileRT も GitHub で一部のモジュールをオープンソース化しています。 強みと限界 強み カスタムシリコンなしで 1T モデルにおいて 1000+ TPS を達成。 DFlash における拒否サンプリングによるロスレスデコーディング。 許容度が最も高い箇所にのみ FP4 を適用し、品質を維持。 オープンなチェックポイントにより、コミュニティが主張を検証可能。 限界 アクセスは開始時に制限され、期間が短く、承認制である。 トークンあたりの料金は標準モデルの 3 倍になる。 自由形式の会話では受容長（acceptance length）が低下する。 独立した第三者による速度検証はまだ公開されていない。 重要なポイント Xiaomi MiMo と TileRT は、汎用 GPU で 1 兆パラメータモデルを毎秒 1000 トークン以上でデコードします。 この高速化は、FP4 量子化、DFlash 予測デコーディング、および TileRT ランタイムの 3 つの層によるものです。 FP4（MXFP4）は MoE エキスパートにのみ適用され、QAT（Quantization-Aware Training：量子化-aware 学習）により能力はほぼ同等に保たれます。 DFlash は順次パスごとにマスクされたブロック全体を予測し、コーディングにおいて平均受容長 6.30 を達成します。 UltraSpeed は、2026 年 6 月 9 日から 23 日にかけて、アプリケーションベースの API 試用を通じて、単一の 8 GPU ノード上で動作します。 Marktechpost のビジュアル解説ガイド・推論システム MiMo-V2.5-Pro-UltraSpeed: 1T モデルで秒間 1000 トークン以上 Xiaomi MiMo & TileRT — FP4 量子化、DFlash 予測デコーディング、マイクロ秒スケールのランタイム。 01 / 08 何なのか Xiaomi の MiMo チームが TileRT システムグループと共同で構築しました。 1 兆パラメータのモデル上で、秒間 1000 トークンを超えるデコーディングを実現します。 デモでは生成速度が秒間約 1200 トークンのピークに達することが示されています。 汎用 GPU を使用し、標準的な単一の 8 GPU ノードで動作します。 2026 年 6 月 8 日にリリースされました。 秒間 1000+ トークン 1T パラメータ（MoE） 8 つの汎用 GPU 02 / 08 3 つのレイヤーが連携して動作 FP4 量子化により重みを圧縮し、帯域幅への負荷を軽減します。 DFlash 予測デコーディングは、多数のトークンを並列に予測します。 TileRT はマイクロ秒スケールで全体のパイプラインを実行します。 Xiaomi はこのアプローチを「極限のモデル・システム協調設計」と呼んでいます。 単一の技術だけでは不十分であり、これら 3 つが完全に連携する必要があります。 03 / 08 レイヤー 1 — FP4 量子化 メモリと帯域幅のコストを削減するために MXFP4 フォーマットを使用します。 MoE のエキスパート部分にのみ選択的に適用されます。 他のモジュールは高い精度を維持します（FP8、TileRT による）。 エキスパートはほとんどのパラメータを保持し、量子化に対する耐性が最も高いです。 QAT（Quantization-Aware Training：量子化-aware トレーニング）により、能力は元のモデルとほぼ同等に保たれます。 04 / 08 レイヤー 2 — DFlash Speculative Decoding（DFlash 推測的デコーディング） ブロックレベルのマスク付き並列予測を用いる研究コミュニティによる手法です。 ドラフトモデルは、1 つの前向きパスでブロック全体を埋めます。 スライディングウィンドウアテンション（Sliding Window Attention：スライドする窓型注意機構）を使用し、ブロックサイズは最大 8 に制限されます。 リジェクトサンプリングにより、出力はロスレスに保たれます。 シナリオ | 受容長さ ---|--- コーディング | 6.30 数学 / 推論 | 5.56 エージェント | 4.29 05 / 08 レイヤー 3 — TileRT Runtime（TileRT ランタイム） 1000 TPS の速度では、各オペレータの実行時間はマイクロ秒単位に過ぎません。 永続エンジンカーネルは GPU 上に常駐します。 ワープ特化（Warp Specialization：スレッドブロックの役割分担）により、データ移動、計算、通信が分割されます。 RMSNorm や RoPE などの小規模なオペレーションがここでボトルネックとなります。 このランタイムは、FP4 と DFlash の選択と共設計されています。 06 / 08 どこに位置するか 並列推論：多くの Best-of-N（N 個の候補から最適なものを選択）やツリー探索パスを同時に実行します。 コーディングエージェント：エージェントステップ間の待ち時間を削減します。 リアルタイムループ：取引シグナル、不正検知、ライブ対話。 インタラクティブプロトタイピング：約 10 秒でスネークゲームを構築。 07 / 08 標準版と UltraSpeed の比較 次元MiMo-V2.5-ProUltraSpeed デコード速度ベースライン〜10 倍（1000+ TPS） 価格1 倍3 倍 重み標準FP4 MoE エキスパート (QAT) 推論方式自己回帰DFlash スペキュレティブ アクセス標準プランAPI のみ、申請制 08 / 08 アクセス、料金体系とオープンソース API 試用期間は北京時間 2026 年 6 月 9 日から 6 月 23 日まで。 料金は約 10 倍の速度に対して標準料金の 3 倍です。 API のみ対応で、トークンプランはサポートされていません。 チェックポイントは Hugging Face でオープンソース化されています：MiMo-V2.5-Pro-FP4-DFlash。 TileRT は一部のモジュールを GitHub でオープンソース化しています。 ← 前へ 次へ → Marktechpost エンジニア向けに解説する AI 研究、モデル、開発者ツール。 @media (max-width:640px){ }

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト