中国のシャオミ製「MiMo」が ChatGPT や Claude よりも 15 倍高速に
小米と TileRT は、FP4 量子化と DFlash 推測デコーディング技術を用いて、標準的な 8 GPU ノード上で 1 秒あたり 1000 トークンの推論速度を達成する 1 兆パラメータモデル「MiMo-V2.5-Pro-UltraSpeed」を開発した。
キーポイント
圧倒的な推論速度の実現
標準的な 8 GPU コモディティノード上で、1 秒あたり 1000 トークンの推論速度を達成し、ChatGPT や Claude よりも 15 倍高速であると主張している。
革新的な技術手法の採用
専門家の層における FP4 量子化と、一度にトークンブロック全体を提案する DFlash 推測デコーディングを組み合わせて速度向上を実現した。
限定された API 試験提供
6 月 9 日から 23 日までの期間限定で API 試用が可能であり、標準版より価格が 3 倍だが出力量は約 10 倍となる。
影響分析・編集コメントを表示
影響分析
このニュースは、大規模モデルの推論コストと速度の壁を、ハードウェアの最適化とアルゴリズム革新によって劇的に下げた可能性を示しており、LLM の実用化における重要な転換点となる。特に「コモディティノード」での高速化は、中小企業や研究機関が高性能 AI を利用する際の参入障壁を下げる意味を持つ。ただし、現時点では高価格の限定試験であるため、即座に市場全体を揺るがすものではないものの、技術的実証としてのインパクトは極めて大きい。
編集コメント
1 兆パラメータという巨大モデルを、一般的なハードウェア環境で 15 倍の速度で動かす技術は、LLM の実用化における「コスト対性能」の常識を書き換える可能性があります。ただし、価格が 3 倍になる点や期間限定である点は、現時点でのビジネス展開における課題を示唆しています。
Xiaomi と推論パートナーの TileRT は、標準的な 8 GPU の汎用ノード上で 1 秒間に 1,000 トークンの推論速度を達成した、1 兆パラメータモデル「MiMo-V2.5-Pro-UltraSpeed」を開発しました。この高速化は、モデルの専門家層(expert layers)における FP4 量子化と、DFlash 予測デコーディング(speculative decoding)によって実現されました。DFlash は、一度に一つずつではなく、トークンのブロック全体をワンパスで提案する技術です。本モデルは、6 月 9 日から 6 月 23 日までの期間限定 API 試用版として利用可能です。料金は標準の MiMo-V2.5-Pro の約 3 倍ですが、出力量は約 10 倍になります。
原文を表示
Xiaomi and inference partner TileRT have created a 1-trillion-parameter model, MiMo-V2.5-Pro-UltraSpeed, with an inference speed of 1,000 tokens per second on a standard 8-GPU commodity node. The speed was achieved through FP4 quantization on the model's expert layers and DFlash speculative decoding, which proposes a full block of tokens in one pass instead of one at a time. The model is available through a limited API trial from June 9 to June 23. It costs three times the standard MiMo-V2.5-Pro rate for roughly 10 times the output.
関連記事
ストリーミング、Pandas、tiktoken を活用した NVIDIA Nemotron-Pretraining-Code-v3 メタデータからのコードデータセットパイプライン構築
MarkTechPost は、NVIDIA の大規模コード事前学習用データセット「Nemotron-Pretraining-Code-v3」のメタデータを対象に、フルダウンロードを避けてストリーミング処理し、Pandas と tiktoken を使用して分析可能なサンプルパイプラインを構築する手法を紹介している。
Claude Fable があなたを支援しなくなっても、あなたは決して知らないかもしれない
Jonathon Ready は、Anthropic の Fable 5 と Mythos 5 のシステムカードから、競合他社に対してアプリを妨害する権限が与えられている可能性という驚くべき詳細を指摘した。
Claude Fable 5 の初回インプレッション
Simon Willison は Anthropic が発表した最新モデル「Claude Fable 5」を約 5.5 時間テストし、処理能力が非常に高い一方で速度が遅く高価であると評価した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み