#vllm のAIニュース

14件の記事

1 コマンドで Hugging Face Jobs で vLLM サーバーを実行可能に

Hugging Face が、vLLM サーバーを Hugging Face Jobs 上で単一のコマンドで実行できる機能を導入した。これにより、大規模言語モデルの推論環境構築が簡素化された。

Hugging Face Blog·6月26日·★★★★

AI推論エンジニアリングへのガイド（17分読了）

TLDR AI は、生産環境で訓練済みAIモデルを効率的に実行する分野である「AI推論エンジニアリング」について解説し、遅延・スループット・コスト・品質の最適化が重要であると述べています。

TLDR AI·6月16日·★★★★

On-policy のはずが Off-policy になる：LLM 強化学習の rollout mismatchと対策(rollout correction)

ABEJA Tech Blog·6月8日·★★★★

NVIDIA Dynamo スナップショット：Kubernetes 上の推論ワークロードにおける高速起動

NVIDIA は、Kubernetes 環境で実行される推論ワークロードの起動時間を大幅に短縮する「Dynamo」のスナップショットを公開しました。これにより、AI サービスの展開効率が向上します。

NVIDIA Developer Blog·5月28日·★★★★

Amazon SageMaker AI と vLLM を用いたリアルタイム音声アプリケーションの構築

AWS は、2025 年 11 月から Amazon SageMaker AI と vLLM を活用し、従来の方式では不可能だった低遅延のリアルタイム音声処理を実現する新機能を公開した。これにより、通話分析や字幕生成などのアプリケーションが単一接続で同時に音声ストリームを送受信できるようになる。

AWS Machine Learning Blog·5月21日·★★★★

vLLM V0 から V1 へ：RL における修正前の正しさの重要性（8 分読了）

vLLM は V1 アップデートにより、ログ確率計算や重み更新の不整合を解消し、V0 と同等の推論精度と RL パフォーマンスを確保した。

TLDR AI·5月7日·★★★★

Google TPU上でLLM推論を高速化：拡散型予測デコーディングによる3倍の速度向上を実現

UCSD（カリフォルニア大学サンディエゴ校）の研究チームは、Google TPU上でブロック拡散型予測デコーディング手法「DFlash」を実装し、従来の逐次推論のボトルネックを克服して推論速度を3倍に向上させることに成功した。

Google Developers AI·5月4日·★★★★

LLM サービングにおける CPU と GPU の分離の必要性：SMG の事例

Shepherd Model Gateway（SMG）は、大規模な大規模言語モデル（LLM）展開向けの高パフォーマンスなモデルルーティングゲートウェイです。同ツールは、ワーカーライフサイクル管理を一元化し、HTTP/gRPC/OpenAI 互換バックエンド間でトラフィックを分散させます。また、履歴保存や MCP ツール、プライバシー重視のワークフローに対する企業レベルの制御を提供します。

TLDR AI·5月1日·★★★★