#inference optimization のAIニュース
12件の記事
DFlash、NVIDIA Blackwell で最大 15 倍のスループット向上を実現する並列トークンブロックドラフト方式を提案
研究チームが開発した DFlash は、推論のボトルネックである逐次生成を改善し、小規模モデルで未来のトークンを並列にドラフトして大規模モデルが検証する手法により、NVIDIA Blackwell 上で最大 15 倍のスループット向上を実現しました。
AI Gateway で GLM 5.2 Fast が Wafer を経由して利用可能に
Vercel は、Zai の提供する GLM 5.2 Fast モデルを AI Gateway 上で Wafer を介して提供開始した。ベンチマークによると、サーバーレス環境でのスループットは他社より 2 倍高く、小・大コンテキストともに高速な生成を実現している。
Amazon SageMaker AI にコンテナキャッシュ機能を導入し、モデルのスケーリングを高速化
AWS は生成 AI モデルのスケールアウト時にエンドツーエンドのレイテンシを最大 2 倍短縮する「コンテナイメージキャッシング」機能を Amazon SageMaker AI 推論に追加した。
DiffusionGemma:開発者向けガイド
Google が、Gemma 4 アーキテクチャを基盤に拡散モデルに基づく並列生成を採用した実験的テキスト生成モデル「DiffusionGemma」を開発し、消費者用 GPU でも動作する高速推論と双方向文脈理解を実現したと発表した。
モデル量子化:NVIDIA TensorRT で FP8 チェックポイントを高性能推論エンジンに変換する方法
NVIDIA は、TensorRT を活用して FP8 チェックポイントを高性能な推論エンジンへ変換する手法を公開した。これにより、AI モデルの推論速度と効率性が向上する。
効率的な推論のための MiniMax-M3 の提供:後悔のない 100 万トークンコンテキストとマルチモーダル性の解放
Together AI は、MiniMax-M3 モデルの提供を開始し、100 万トークンのコンテキスト長とマルチモーダル機能を効率的に実現した。
AI ゲートウェイ上で Claude Opus 4.7 の高速モードが研究プレビューとして利用可能に
Anthropic は AI ゲートウェイにおいて、Claude Opus 4.7 の出力トークン生成速度を約 2.5 倍向上させる実験的機能「高速モード」の研究プレビューを開始した。
Gemma 4 の推論速度を加速:マルチトークン予測ドラフターによる高速化
Google が開発した Gemma 4 モデルは、専用のスペキュレーティブ・デコーディングアーキテクチャを採用し、出力品質や推論ロジックを損なうことなく最大3倍の速度向上を実現しました。これにより、開発者向けの遅延ボトルネックが解消され、応答性が大幅に改善されています。
Mamba-3:推論専用SSMの登場
Mambaチームは、推論に特化した状態空間モデル「Mamba-3」を発表した。このモデルはTransformerよりデコード速度が速く、前版Mamba-2よりも性能が高い。また、初日からオープンソースとして公開されている。
最大40%高速化を実現するキャッシュ対応プリフィル・デコード分離(CPD)
Together AIは、LLMの長文コンテキスト処理におけるCPDアーキテクチャを発表した。この手法は暖系と冷系の推論作業を分離し、スループットを40%向上させ、最初のトークン生成までの時間を大幅に短縮する。
Amazon SageMaker AI 2025年レビュー第2部:SageMaker AIモデルのカスタマイズとホスティングにおける改善された可観測性と拡張機能
Amazonが2025年にSageMaker AIを改善し、生成AIワークロードのトレーニング、チューニング、ホスティングを支援する機能を強化した。
Stable Diffusion、AMD Radeon GPUおよびRyzen AI APU向けに最適化
Stability AIはAMDと協力し、Stable Diffusion 3.5やXLなどのモデルをAMD製GPUおよびAPU向けに最適化したONNX版を提供した。これにより、処理速度と効率性が向上し、ユーザーはAmuse 3.0を通じてこれらのモデルを試すことができる。