#inference optimization のAIニュース

12件の記事

DFlash、NVIDIA Blackwell で最大 15 倍のスループット向上を実現する並列トークンブロックドラフト方式を提案

研究チームが開発した DFlash は、推論のボトルネックである逐次生成を改善し、小規模モデルで未来のトークンを並列にドラフトして大規模モデルが検証する手法により、NVIDIA Blackwell 上で最大 15 倍のスループット向上を実現しました。

MarkTechPost·6月24日·★★★★★

AI Gateway で GLM 5.2 Fast が Wafer を経由して利用可能に

Vercel は、Zai の提供する GLM 5.2 Fast モデルを AI Gateway 上で Wafer を介して提供開始した。ベンチマークによると、サーバーレス環境でのスループットは他社より 2 倍高く、小・大コンテキストともに高速な生成を実現している。

Vercel Blog·6月24日

Amazon SageMaker AI にコンテナキャッシュ機能を導入し、モデルのスケーリングを高速化

AWS は生成 AI モデルのスケールアウト時にエンドツーエンドのレイテンシを最大 2 倍短縮する「コンテナイメージキャッシング」機能を Amazon SageMaker AI 推論に追加した。

AWS Machine Learning Blog·6月17日·★★★★

DiffusionGemma:開発者向けガイド

Google が、Gemma 4 アーキテクチャを基盤に拡散モデルに基づく並列生成を採用した実験的テキスト生成モデル「DiffusionGemma」を開発し、消費者用 GPU でも動作する高速推論と双方向文脈理解を実現したと発表した。

Google Developers AI·6月10日·★★★★

モデル量子化:NVIDIA TensorRT で FP8 チェックポイントを高性能推論エンジンに変換する方法

NVIDIA は、TensorRT を活用して FP8 チェックポイントを高性能な推論エンジンへ変換する手法を公開した。これにより、AI モデルの推論速度と効率性が向上する。

NVIDIA Developer Blog·6月10日·★★★★

効率的な推論のための MiniMax-M3 の提供:後悔のない 100 万トークンコンテキストとマルチモーダル性の解放

Together AI は、MiniMax-M3 モデルの提供を開始し、100 万トークンのコンテキスト長とマルチモーダル機能を効率的に実現した。

Together AI Blog·6月2日·★★★★

AI ゲートウェイ上で Claude Opus 4.7 の高速モードが研究プレビューとして利用可能に

Anthropic は AI ゲートウェイにおいて、Claude Opus 4.7 の出力トークン生成速度を約 2.5 倍向上させる実験的機能「高速モード」の研究プレビューを開始した。

Vercel Blog·5月12日·★★★★

Gemma 4 の推論速度を加速:マルチトークン予測ドラフターによる高速化

Google が開発した Gemma 4 モデルは、専用のスペキュレーティブ・デコーディングアーキテクチャを採用し、出力品質や推論ロジックを損なうことなく最大3倍の速度向上を実現しました。これにより、開発者向けの遅延ボトルネックが解消され、応答性が大幅に改善されています。

TLDR AI·5月6日·★★★★

Mamba-3:推論専用SSMの登場

Mambaチームは、推論に特化した状態空間モデル「Mamba-3」を発表した。このモデルはTransformerよりデコード速度が速く、前版Mamba-2よりも性能が高い。また、初日からオープンソースとして公開されている。

Together AI Blog·3月17日·★★★★

最大40%高速化を実現するキャッシュ対応プリフィル・デコード分離(CPD)

Together AIは、LLMの長文コンテキスト処理におけるCPDアーキテクチャを発表した。この手法は暖系と冷系の推論作業を分離し、スループットを40%向上させ、最初のトークン生成までの時間を大幅に短縮する。

Together AI Blog·3月4日·★★★★

Amazon SageMaker AI 2025年レビュー第2部:SageMaker AIモデルのカスタマイズとホスティングにおける改善された可観測性と拡張機能

Amazonが2025年にSageMaker AIを改善し、生成AIワークロードのトレーニング、チューニング、ホスティングを支援する機能を強化した。

AWS Machine Learning Blog·2月21日

Stable Diffusion、AMD Radeon GPUおよびRyzen AI APU向けに最適化

Stability AIはAMDと協力し、Stable Diffusion 3.5やXLなどのモデルをAMD製GPUおよびAPU向けに最適化したONNX版を提供した。これにより、処理速度と効率性が向上し、ユーザーはAmuse 3.0を通じてこれらのモデルを試すことができる。

Stability AI·4月16日·★★★★