NVIDIA 加速インフラ上で MiniMax M3 を活用した長文脈推論とエージェントワークフローの展開

エンタープライズ AI の導入が拡大するにつれ、開発者は断片化されたパイプラインをつなぎ合わせることを余儀なくされ、テキスト用、ビジョン用、コード用の別々のモデルを組み合わせることで、複雑さが増し、コストが高騰し、反復速度が遅くなっています。 NVIDIA Blackwell を含む NVIDIA 加速インフラ上で利用可能な MiniMax M3 は、長文脈推論、エージェントワークフロー、創造的タスクを可能にする単一のマルチモーダルシステムを実現することで、この状況を劇的に変えます。 4280 億パラメータの MoE（Mixture of Experts）アーキテクチャは最大 100 万トークンのコンテキストとネイティブなマルチモーダル入力をサポートします。開発者は、長編ビデオ理解、長時間にわたるコーディングセッション（8 時間以上）、高品質なデザインワークフローなどのアプリケーションを構築でき、これらはすべて統一されたモデル上で動作し、NVIDIA プラットフォーム上で本番環境への展開が可能なパスを提供します。 **名称** **MiniMax M3** 入力モダリティ ビデオ、画像、テキスト 総パラメータ数 4280 億 ビジョンエンコーダーパラメータ数 6 億 アクティブパラメータ数 220 億 コンテキスト長 100 万トークン エキスパート数 合計 128、トークンあたり 4 エキスパートが活性化 精度形式 BF16, MXFP8 *表 1. MiniMax M3 の VLM MoE モデル仕様* MiniMax M3 の核心的なアーキテクチャ上の革新は、MiniMax Sparse Attention (MSA) です。これは標準的な二次計算量の注意機構を置き換え、関連するコンテキストブロックを事前にフィルタリングして、それらのブロックのみに対して注意を向ける前処理段階を導入しています。演算子レベルでは、各 KV キャッシュブロックが連続メモリアクセスで一度だけ読み込まれ、既存のスパースアテンション実装よりも 4 倍以上高速です。これにより、100 万トークンのコンテキストにおいて M2 の 1/20 に相当するトークンあたりの計算量を実現しつつ、事前処理（prefill）が 9 倍、デコーディングが 15 倍高速化されています。これはキーバリューの圧縮や精度の犠牲を伴うものではありません。また、このモデルは多様性を後から追加するのではなく、ステップ 0 からテキスト、画像、動画をネイティブに学習し、約 100 トリリオンのインタリーブされたトークン全体でトレーニングを行います。 *Video 1. NVIDIA API カタログにおける MiniMax M3。開発者はここでプロンプトのテストやパラメータ調整、推論制御の確認を行い、モデル構築を進めることができます* ## オープンソース推論 開発者は、NVIDIA TensorRT LLM（テキスト専用）、SGLang、vLLM など、お好みのオープンソース推論エンジンを用いて加速計算を利用できます。 **NVIDIA TensorRT LLM でのデプロイ** これらの最適化機能は、NVIDIA の [TensorRT LLM GitHub リポジトリ](https://github.com/NVIDIA/TensorRT-LLM) で利用可能です。Hugging Face からのモデルチェックポイントのダウンロード、すぐに実行可能な Docker コンテナ、低レイテンシおよび最大スループット向けのサービング設定オプションを含む、高性能サーバーを構築するための [クイックスタートガイド](https://nvidia.github.io/TensorRT-LLM/quick-start-guide.html) をご覧ください。NVIDIA はまた、Transformers ライブラリを通じて開発者体験の向上にも協力しています。 **SGLang によるデプロイ** SGLang サービングフレームワークを使用してモデルをデプロイするユーザーは、以下の手順を使用できます。詳細情報や設定オプションについては、[SGLang ドキュメント](https://docs.sglang.io/cookbook/autoregressive/MiniMax/MiniMax-M3) をご覧ください。 # 8 GPU ノードの場合 $ python -m sglang.launch_server \ --model-path MiniMaxAI/MiniMax-M3 \ --dtype bfloat16 \ --tp-size 8 \ --ep-size 8 \ --trust-remote-code \ --mem-fraction-static 0.8 \ --enable-multimodal \ --quantization mxfp8 \ --attention-backend flashinfer \ --mm-attention-backend flashinfer_cudnn \ --moe-runner-backend deep_gemm \ --chunked-prefill-size 8192 \ --reasoning-parser minimax-m3 \ --tool-call-parser minimax-m3-nom --tr **vLLM によるデプロイ** vLLM サービングフレームワークを使用してモデルをデプロイする場合は、以下の手順に従ってください。詳細については、[vLLM レシピ](https://recipes.vllm.ai/MiniMaxAI/MiniMax-M3)をご覧ください。 vllm serve MiniMaxAI/MiniMax-M3 \ --tensor-parallel-size 8 \ --enable-expert-parallel \ --block-size 128 \ --mm-encoder-attn-backend FLASHINFER \ --mm-processor-cache-type shm \ --tool-call-parser minimax_m3 \ --enable-auto-tool-choice \ --reasoning-parser minimax_m3 \ --trust-remote-code ## NVIDIA Dynamo を用いたスケーリング Dynamo は、MiniMax M3 などの最先端モデルを大規模アプリケーション向けにデプロイするための開発者向けのオープンソース分散推論サービングプラットフォームです。TensorRT LLM（TensorRT Large Language Model）を使用して Dynamo で MiniMax M3 をデプロイすると、スループットを犠牲にしたり GPU バジェットを増やしたりすることなく、長い入力シーケンス長に対するパフォーマンスが向上します。32k の入力シーケンス長（ISL: Input Sequence Length）において、Dynamo は非集約型サービング（disaggregated serving：推論のプリフェッチとデコードフェーズを別々の GPU に分離してシステム効率を高める手法）を通じて、NVIDIA Blackwell 上で対話性を 4 倍向上させます。 Dynamo は PyTorch、SGLang、TensorRT LLM、vLLM を含む主要な推論エンジンおよびフレームワークと統合されており、LLM 対応のルーティング、弾力的な自動スケーリング、低遅延データ転送を提供します。開発者は、[デプロイガイド](https://github.com/ai-dynamo/dynamo/tree/release/1.3.0-minimax-m3-dev.1/recipes/minimax-m3)に従って Dynamo で MiniMax M3 を実行できます。 ## NVIDIA NeMo Framework によるカスタマイズ MiniMax M3 は、オープンソースの NVIDIA [NeMo Framework](https://github.com/NVIDIA-NeMo/) を用いてカスタマイズやファインチューニングが可能です。ユーザーは以下のようなことができます： - NVIDIA NeMo AutoModel を使用して、変換を一切行わずに Hugging Face チェックポイントに対して SFT（Supervised Fine-Tuning: 教師あり微調整）および LoRA（Low-Rank Adaptation: 低ランク適応）の両方を含むアウト・オブ・ザ・ボックスでのファインチューニングを行い、N-D パラレルism（並列処理）によるフルスループット加速を実現します。具体的には、シーケンス長が最大 128k の場合にもコンテキストパラレルサポートが利用可能です。 - NVIDIA NeMo RL を使用して、以下のサンプル精度曲線を参照しながら MiniMax M3 上で強化学習（Reinforcement Learning: RL）を実行できます。 これらのライブラリは、開発者に対して最新のフロンティアモデルに対する迅速な実験を行うための軽量ツールスイートを提供します。 ## 今日から始めましょう 開発者は、[build.nvidia.com](https://build.nvidia.com/minimaxai/minimax-m3) 上の GPU アクセラレーション API を使用して MiniMax M3 のプロトタイプ作成や評価を行ったり、[Hugging Face](https://huggingface.co/MiniMaxAI) から重み（ウェイト）をダウンロードしたりすることができます。 ## 著者について

背景や根拠まで確認しますか？

調べる

選ぶ

サイト