#vllm のAIニュース
14件の記事
1 コマンドで Hugging Face Jobs で vLLM サーバーを実行可能に
Hugging Face が、vLLM サーバーを Hugging Face Jobs 上で単一のコマンドで実行できる機能を導入した。これにより、大規模言語モデルの推論環境構築が簡素化された。
AI推論エンジニアリングへのガイド(17分読了)
TLDR AI は、生産環境で訓練済みAIモデルを効率的に実行する分野である「AI推論エンジニアリング」について解説し、遅延・スループット・コスト・品質の最適化が重要であると述べています。
On-policy のはずが Off-policy になる:LLM 強化学習 の rollout mismatchと対策(rollout correction)
NVIDIA Dynamo スナップショット:Kubernetes 上の推論ワークロードにおける高速起動
NVIDIA は、Kubernetes 環境で実行される推論ワークロードの起動時間を大幅に短縮する「Dynamo」のスナップショットを公開しました。これにより、AI サービスの展開効率が向上します。
Amazon SageMaker AI と vLLM を用いたリアルタイム音声アプリケーションの構築
AWS は、2025 年 11 月から Amazon SageMaker AI と vLLM を活用し、従来の方式では不可能だった低遅延のリアルタイム音声処理を実現する新機能を公開した。これにより、通話分析や字幕生成などのアプリケーションが単一接続で同時に音声ストリームを送受信できるようになる。
vLLM V0 から V1 へ:RL における修正前の正しさの重要性(8 分読了)
vLLM は V1 アップデートにより、ログ確率計算や重み更新の不整合を解消し、V0 と同等の推論精度と RL パフォーマンスを確保した。
Google TPU上でLLM推論を高速化:拡散型予測デコーディングによる3倍の速度向上を実現
UCSD(カリフォルニア大学サンディエゴ校)の研究チームは、Google TPU上でブロック拡散型予測デコーディング手法「DFlash」を実装し、従来の逐次推論のボトルネックを克服して推論速度を3倍に向上させることに成功した。
LLM サービングにおける CPU と GPU の分離の必要性:SMG の事例
Shepherd Model Gateway(SMG)は、大規模な大規模言語モデル(LLM)展開向けの高パフォーマンスなモデルルーティングゲートウェイです。同ツールは、ワーカーライフサイクル管理を一元化し、HTTP/gRPC/OpenAI 互換バックエンド間でトラフィックを分散させます。また、履歴保存や MCP ツール、プライバシー重視のワークフローに対する企業レベルの制御を提供します。
本日は特に目立った出来事なし
AIニュース配信「AINews」は、2026年4月27日から28日にかけて12のサブレッドと544件のツイートを調査したが、特筆すべき技術進展や業界動向は見られず、静かな一日であったと報告している。
AWS TrainiumとvLLMを用いた推測的デコードによるデコード負荷の高いLLM推論の高速化
AWS TrainiumとvLLMを用いた推測的デコードにより、Qwen3モデルのトークン生成速度が最大3倍向上し、出力品質を維持したままトークンあたりのコスト削減とスループット向上が実現された。
P-EAGLE: vLLMにおける並列投機的デコーディングによる高速なLLM推論
研究者らは、大規模言語モデル推論のための並列投機的デコーディング手法P-EAGLEを開発した。従来のEAGLE手法の逐次処理のボトルネックを解消し、複数のドラフトトークンを単一のフォワードパスで生成することで、推論速度を最大1.8倍向上させた。
Amazon SageMaker AIとAmazon BedrockでvLLMを使用して数十のファインチューニングモデルを効率的に提供
vLLMでMixture of ExpertsモデルのマルチLoRA推論を実装し、カーネルレベルの最適化を行い、効率的なモデル提供方法を解説。GPT-OSS 20Bを例に使用。
LLM推論における非決定性の克服
Horace Heらによる、大規模言語モデルの推論における非決定性を克服する研究についての記事。
vLLMと大規模モデル
vLLMは大規模言語モデルの推論速度と効率を向上させる推論エンジンであり、AI業界で注目されている技術です。