NVIDIA 加速インフラ上で MiniMax M3 を活用した長文脈推論とエージェントワークフローの展開
NVIDIA は、中国の AI 企業 MiniMax が開発した「M3」モデルを自社の加速インフラ上で活用し、長文脈推論と自律型エージェントワークフローの効率的な展開手法を発表しました。
キーポイント
MiniMax M3 モデルの NVIDIA インフラでの最適化
中国の AI 企業 MiniMax が開発した「M3」モデルが、NVIDIA の加速インフラ上で長文脈推論とエージェントワークフローを効率的に実行できるよう最適化されました。
長文脈推論と自律型エージェントの実現
本手法により、複雑なタスクを処理する長文脈の理解能力や、自律的に行動するエージェントワークフローの展開が可能になります。
グローバル AI エコシステムの連携強化
NVIDIA と中国の AI 企業との技術連携により、異なる開発環境間での高性能な AI モデル運用の新たな標準が示されました。
影響分析・編集コメントを表示
影響分析
この発表は、特定のモデル(M3)の性能だけでなく、NVIDIA のインフラが世界中の多様な AI モデルを柔軟にサポートする基盤としての地位を再確認させるものです。特に長文脈推論と自律型エージェントという次世代 AI の重要課題に対する実用的な解決策を示すことで、開発現場での導入加速が期待されます。
編集コメント
NVIDIA のインフラが中国発の先進モデルも支えることを示した点は、地政学的な文脈を超えた技術的相互依存の強さを象徴しています。長文脈推論の実用化において、ハードウェアとソフトウェアの最適化連携がいかに重要かを示す好例です。
エンタープライズ AI の導入が拡大するにつれ、開発者は断片化されたパイプラインをつなぎ合わせることを余儀なくされ、テキスト用、ビジョン用、コード用の別々のモデルを組み合わせることで、複雑さが増し、コストが高騰し、反復速度が遅くなっています。
NVIDIA Blackwell を含む NVIDIA 加速インフラ上で利用可能な MiniMax M3 は、長文脈推論、エージェントワークフロー、創造的タスクを可能にする単一のマルチモーダルシステムを実現することで、この状況を劇的に変えます。
4280 億パラメータの MoE(Mixture of Experts)アーキテクチャは最大 100 万トークンのコンテキストとネイティブなマルチモーダル入力をサポートします。開発者は、長編ビデオ理解、長時間にわたるコーディングセッション(8 時間以上)、高品質なデザインワークフローなどのアプリケーションを構築でき、これらはすべて統一されたモデル上で動作し、NVIDIA プラットフォーム上で本番環境への展開が可能なパスを提供します。
名称 MiniMax M3
入力モダリティ ビデオ、画像、テキスト
総パラメータ数 4280 億
ビジョンエンコーダーパラメータ数 6 億
アクティブパラメータ数 220 億
コンテキスト長 100 万トークン
エキスパート数 合計 128、トークンあたり 4 エキスパートが活性化
精度形式 BF16, MXFP8
*表 1. MiniMax M3 の VLM MoE モデル仕様*
MiniMax M3 の核心的なアーキテクチャ上の革新は、MiniMax Sparse Attention (MSA) です。これは標準的な二次計算量の注意機構を置き換え、関連するコンテキストブロックを事前にフィルタリングして、それらのブロックのみに対して注意を向ける前処理段階を導入しています。演算子レベルでは、各 KV キャッシュブロックが連続メモリアクセスで一度だけ読み込まれ、既存のスパースアテンション実装よりも 4 倍以上高速です。これにより、100 万トークンのコンテキストにおいて M2 の 1/20 に相当するトークンあたりの計算量を実現しつつ、事前処理(prefill)が 9 倍、デコーディングが 15 倍高速化されています。これはキーバリューの圧縮や精度の犠牲を伴うものではありません。また、このモデルは多様性を後から追加するのではなく、ステップ 0 からテキスト、画像、動画をネイティブに学習し、約 100 トリリオンのインタリーブされたトークン全体でトレーニングを行います。
*Video 1. NVIDIA API カタログにおける MiniMax M3。開発者はここでプロンプトのテストやパラメータ調整、推論制御の確認を行い、モデル構築を進めることができます*
オープンソース推論
開発者は、NVIDIA TensorRT LLM(テキスト専用)、SGLang、vLLM など、お好みのオープンソース推論エンジンを用いて加速計算を利用できます。
NVIDIA TensorRT LLM でのデプロイ
これらの最適化機能は、NVIDIA の TensorRT LLM GitHub リポジトリ で利用可能です。Hugging Face からのモデルチェックポイントのダウンロード、すぐに実行可能な Docker コンテナ、低レイテンシおよび最大スループット向けのサービング設定オプションを含む、高性能サーバーを構築するための クイックスタートガイド をご覧ください。NVIDIA はまた、Transformers ライブラリを通じて開発者体験の向上にも協力しています。
SGLang によるデプロイ
SGLang サービングフレームワークを使用してモデルをデプロイするユーザーは、以下の手順を使用できます。詳細情報や設定オプションについては、SGLang ドキュメント をご覧ください。
8 GPU ノードの場合
$ python -m sglang.launch_server \
--model-path MiniMaxAI/MiniMax-M3 \
--dtype bfloat16 \
--tp-size 8 \
--ep-size 8 \
--trust-remote-code \
--mem-fraction-static 0.8 \
--enable-multimodal \
--quantization mxfp8 \
--attention-backend flashinfer \
--mm-attention-backend flashinfer_cudnn \
--moe-runner-backend deep_gemm \
--chunked-prefill-size 8192 \
--reasoning-parser minimax-m3 \
--tool-call-parser minimax-m3-nom
--tr
vLLM によるデプロイ
vLLM サービングフレームワークを使用してモデルをデプロイする場合は、以下の手順に従ってください。詳細については、vLLM レシピをご覧ください。
vllm serve MiniMaxAI/MiniMax-M3 \
--tensor-parallel-size 8 \
--enable-expert-parallel \
--block-size 128 \
--mm-encoder-attn-backend FLASHINFER \
--mm-processor-cache-type shm \
--tool-call-parser minimax_m3 \
--enable-auto-tool-choice \
--reasoning-parser minimax_m3 \
--trust-remote-code
NVIDIA Dynamo を用いたスケーリング
Dynamo は、MiniMax M3 などの最先端モデルを大規模アプリケーション向けにデプロイするための開発者向けのオープンソース分散推論サービングプラットフォームです。TensorRT LLM(TensorRT Large Language Model)を使用して Dynamo で MiniMax M3 をデプロイすると、スループットを犠牲にしたり GPU バジェットを増やしたりすることなく、長い入力シーケンス長に対するパフォーマンスが向上します。32k の入力シーケンス長(ISL: Input Sequence Length)において、Dynamo は非集約型サービング(disaggregated serving:推論のプリフェッチとデコードフェーズを別々の GPU に分離してシステム効率を高める手法)を通じて、NVIDIA Blackwell 上で対話性を 4 倍向上させます。
Dynamo は PyTorch、SGLang、TensorRT LLM、vLLM を含む主要な推論エンジンおよびフレームワークと統合されており、LLM 対応のルーティング、弾力的な自動スケーリング、低遅延データ転送を提供します。開発者は、デプロイガイドに従って Dynamo で MiniMax M3 を実行できます。
NVIDIA NeMo Framework によるカスタマイズ
MiniMax M3 は、オープンソースの NVIDIA NeMo Framework を用いてカスタマイズやファインチューニングが可能です。ユーザーは以下のようなことができます:
- NVIDIA NeMo AutoModel を使用して、変換を一切行わずに Hugging Face チェックポイントに対して SFT(Supervised Fine-Tuning: 教師あり微調整)および LoRA(Low-Rank Adaptation: 低ランク適応)の両方を含むアウト・オブ・ザ・ボックスでのファインチューニングを行い、N-D パラレルism(並列処理)によるフルスループット加速を実現します。具体的には、シーケンス長が最大 128k の場合にもコンテキストパラレルサポートが利用可能です。
- NVIDIA NeMo RL を使用して、以下のサンプル精度曲線を参照しながら MiniMax M3 上で強化学習(Reinforcement Learning: RL)を実行できます。
これらのライブラリは、開発者に対して最新のフロンティアモデルに対する迅速な実験を行うための軽量ツールスイートを提供します。
今日から始めましょう
開発者は、build.nvidia.com 上の GPU アクセラレーション API を使用して MiniMax M3 のプロトタイプ作成や評価を行ったり、Hugging Face から重み(ウェイト)をダウンロードしたりすることができます。
著者について
原文を表示
As enterprise AI adoption scales, developers are increasingly forced to stitch together fragmented pipelines—separate models for text, vision, and code—leading to added complexity, higher costs, and slower iteration.
MiniMax M3—available on NVIDIA accelerated infrastructure including NVIDIA Blackwell—changes this by enabling a single multimodal system capable of long-context reasoning, agentic workflows, and creative tasks.
The 428B parameter MoE supports up to 1M tokens and native multimodal input. Developers can build applications like long video understanding, extended coding sessions (8+ hours), and high-quality design workflows—all with a unified model and production-ready deployment paths on NVIDIA platforms.
MiniMax M3’s core architectural innovation is MiniMax Sparse Attention (MSA), which replaces standard quadratic attention with a pre-filtering stage that identifies relevant context blocks and attends only to those. At the operator level, each KV cache block is read once with contiguous memory access—more than 4x faster than existing sparse attention implementations. This yields 1/20th the per-token compute of M2 at 1M-token context, with 9x faster prefill and 15x faster decoding, all without compressing key-values or sacrificing precision. The model also trains text, images, and video natively from step 0 across ~100 trillion interleaved tokens, rather than adding multimodality post-training.
Open source inference
Developers can use accelerated computing with their open source inference engine of choice, such as NVIDIA TensorRT LLM (text-only), SGLang or vLLM.
Deploying with NVIDIA TensorRT LLM
The optimizations are available on the NVIDIA TensorRT LLM GitHub repository. Follow the quick start guide to stand up a high-performance server—it covers downloading model checkpoints from Hugging Face, a ready-to-run Docker container, and configuration options for both low-latency and max-throughput serving. NVIDIA also collaborated on the developer experience through the Transformers library.
Deploying with SGLang
Users deploying models with the SGLang serving framework can use the following instructions. See the SGLang documentation for more information and configuration options.
# 8 GPUs node case
$ python -m sglang.launch_server \
--model-path MiniMaxAI/MiniMax-M3 \
--dtype bfloat16 \
--tp-size 8 \
--ep-size 8 \
--trust-remote-code \
--mem-fraction-static 0.8 \
--enable-multimodal \
--quantization mxfp8 \
--attention-backend flashinfer \
--mm-attention-backend flashinfer_cudnn \
--moe-runner-backend deep_gemm \
--chunked-prefill-size 8192 \
--reasoning-parser minimax-m3 \
--tool-call-parser minimax-m3-nom
--tr
Deploying with vLLM
When deploying models with the vLLM serving framework, use the following instructions. For more information, see the vLLM Recipe.
vllm serve MiniMaxAI/MiniMax-M3 \
--tensor-parallel-size 8 \
--enable-expert-parallel \
--block-size 128 \
--mm-encoder-attn-backend FLASHINFER \
--mm-processor-cache-type shm \
--tool-call-parser minimax_m3 \
--enable-auto-tool-choice \
--reasoning-parser minimax_m3 \
--trust-remote-code
Scaling with NVIDIA Dynamo
Dynamo is an open source distributed inference serving platform for developers to deploy frontier models like MiniMax M3 for large-scale applications. Deploying MiniMax M3 using Dynamo with TensorRT LLM improves performance for long input sequence lengths without sacrificing throughput or increasing GPU budget. At 32k ISL, Dynamo delivers a 4x improvement in interactivity on NVIDIA Blackwell through disaggregated serving—a technique that separates the prefill and decode phases of inference across distinct GPUs to increase system efficiency.
Dynamo integrates with all major inference engines and frameworks, including PyTorch, SGLang, TensorRT LLM, and vLLM, and offers LLM-aware routing, elastic autoscaling, and low-latency data transfer. Developers can follow the deployment guide to run MiniMax M3 with Dynamo.
Customize with NVIDIA NeMo Framework
MiniMax M3 can be customized and fine-tuned with the open source NVIDIA NeMo Framework. Users can:
- Use NVIDIA NeMo AutoModel for out-of-the-box fine-tuning (both SFT and LoRA) over Hugging Face checkpoints without any conversion, with high-throughput acceleration from full N-D parallelism. Specifically, context parallel support is available for sequence lengths up to 128k.
- Use NVIDIA NeMo RL to conduct reinforcement learning on top of Minimax M3, referencing the following sample accuracy curves.
These libraries provide developers with a suite of lightweight tools for rapid experimentation on the latest frontier models.
Get started today
Developers can prototype and evaluate MiniMax M3 by using the GPU-accelerated API on build.nvidia.com or by downloading the weights from Hugging Face.
About the Authors
関連記事
独自の脆弱性ハーンを構築する
クラウドフレアは、最先端セキュリティモデルを企業コードベースに適用した「グラスウィング・プロジェクト」の初期調査結果を発表し、AI 脅威からインフラと顧客を守るための防御構造の適応について解説している。
エージェント型インターフェースの進化:Claude Managed Agents を活用した構築(13 分読了)
TLDR AI は、Claude Managed Agents を用いてエージェント型インターフェースをどのように構築し進化させるかについて解説している。
エージェント型インターフェースの進化:Claude Managed Agents を活用した構築
Anthropic は、Claude Managed Agents という新機能を導入し、開発者が自律的な AI エージェントを容易に構築・管理できる環境を提供すると発表した。これにより、複雑なタスク処理におけるエージェント型のインタラクションがさらに進化すると期待される。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み