#inference optimization のAIニュース

12件の記事

DFlash、NVIDIA Blackwell で最大 15 倍のスループット向上を実現する並列トークンブロックドラフト方式を提案

研究チームが開発した DFlash は、推論のボトルネックである逐次生成を改善し、小規模モデルで未来のトークンを並列にドラフトして大規模モデルが検証する手法により、NVIDIA Blackwell 上で最大 15 倍のスループット向上を実現しました。

Vercel は、Zai の提供する GLM 5.2 Fast モデルを AI Gateway 上で Wafer を介して提供開始した。ベンチマークによると、サーバーレス環境でのスループットは他社より 2 倍高く、小・大コンテキストともに高速な生成を実現している。

AWS は生成 AI モデルのスケールアウト時にエンドツーエンドのレイテンシを最大 2 倍短縮する「コンテナイメージキャッシング」機能を Amazon SageMaker AI 推論に追加した。

Google が、Gemma 4 アーキテクチャを基盤に拡散モデルに基づく並列生成を採用した実験的テキスト生成モデル「DiffusionGemma」を開発し、消費者用 GPU でも動作する高速推論と双方向文脈理解を実現したと発表した。

NVIDIA は、TensorRT を活用して FP8 チェックポイントを高性能な推論エンジンへ変換する手法を公開した。これにより、AI モデルの推論速度と効率性が向上する。

Together AI は、MiniMax-M3 モデルの提供を開始し、100 万トークンのコンテキスト長とマルチモーダル機能を効率的に実現した。

Anthropic は AI ゲートウェイにおいて、Claude Opus 4.7 の出力トークン生成速度を約 2.5 倍向上させる実験的機能「高速モード」の研究プレビューを開始した。

Google が開発した Gemma 4 モデルは、専用のスペキュレーティブ・デコーディングアーキテクチャを採用し、出力品質や推論ロジックを損なうことなく最大3倍の速度向上を実現しました。これにより、開発者向けの遅延ボトルネックが解消され、応答性が大幅に改善されています。

Mambaチームは、推論に特化した状態空間モデル「Mamba-3」を発表した。このモデルはTransformerよりデコード速度が速く、前版Mamba-2よりも性能が高い。また、初日からオープンソースとして公開されている。

Together AIは、LLMの長文コンテキスト処理におけるCPDアーキテクチャを発表した。この手法は暖系と冷系の推論作業を分離し、スループットを40%向上させ、最初のトークン生成までの時間を大幅に短縮する。

Amazonが2025年にSageMaker AIを改善し、生成AIワークロードのトレーニング、チューニング、ホスティングを支援する機能を強化した。

Stability AIはAMDと協力し、Stable Diffusion 3.5やXLなどのモデルをAMD製GPUおよびAPU向けに最適化したONNX版を提供した。これにより、処理速度と効率性が向上し、ユーザーはAmuse 3.0を通じてこれらのモデルを試すことができる。