#vllm のAIニュース

14件の記事

1 コマンドで Hugging Face Jobs で vLLM サーバーを実行可能に

Hugging Face が、vLLM サーバーを Hugging Face Jobs 上で単一のコマンドで実行できる機能を導入した。これにより、大規模言語モデルの推論環境構築が簡素化された。

Hugging Face Blog·6月26日·★★★★

AI推論エンジニアリングへのガイド(17分読了)

TLDR AI は、生産環境で訓練済みAIモデルを効率的に実行する分野である「AI推論エンジニアリング」について解説し、遅延・スループット・コスト・品質の最適化が重要であると述べています。

TLDR AI·6月16日·★★★★

On-policy のはずが Off-policy になる:LLM 強化学習 の rollout mismatchと対策(rollout correction)

ABEJA Tech Blog·6月8日·★★★★

NVIDIA Dynamo スナップショット:Kubernetes 上の推論ワークロードにおける高速起動

NVIDIA は、Kubernetes 環境で実行される推論ワークロードの起動時間を大幅に短縮する「Dynamo」のスナップショットを公開しました。これにより、AI サービスの展開効率が向上します。

NVIDIA Developer Blog·5月28日·★★★★

Amazon SageMaker AI と vLLM を用いたリアルタイム音声アプリケーションの構築

AWS は、2025 年 11 月から Amazon SageMaker AI と vLLM を活用し、従来の方式では不可能だった低遅延のリアルタイム音声処理を実現する新機能を公開した。これにより、通話分析や字幕生成などのアプリケーションが単一接続で同時に音声ストリームを送受信できるようになる。

AWS Machine Learning Blog·5月21日·★★★★

vLLM V0 から V1 へ:RL における修正前の正しさの重要性(8 分読了)

vLLM は V1 アップデートにより、ログ確率計算や重み更新の不整合を解消し、V0 と同等の推論精度と RL パフォーマンスを確保した。

TLDR AI·5月7日·★★★★

Google TPU上でLLM推論を高速化:拡散型予測デコーディングによる3倍の速度向上を実現

UCSD(カリフォルニア大学サンディエゴ校)の研究チームは、Google TPU上でブロック拡散型予測デコーディング手法「DFlash」を実装し、従来の逐次推論のボトルネックを克服して推論速度を3倍に向上させることに成功した。

Google Developers AI·5月4日·★★★★

LLM サービングにおける CPU と GPU の分離の必要性:SMG の事例

Shepherd Model Gateway(SMG)は、大規模な大規模言語モデル(LLM)展開向けの高パフォーマンスなモデルルーティングゲートウェイです。同ツールは、ワーカーライフサイクル管理を一元化し、HTTP/gRPC/OpenAI 互換バックエンド間でトラフィックを分散させます。また、履歴保存や MCP ツール、プライバシー重視のワークフローに対する企業レベルの制御を提供します。

TLDR AI·5月1日·★★★★

本日は特に目立った出来事なし

AIニュース配信「AINews」は、2026年4月27日から28日にかけて12のサブレッドと544件のツイートを調査したが、特筆すべき技術進展や業界動向は見られず、静かな一日であったと報告している。

Smol AI News·4月28日·★★★★

AWS TrainiumとvLLMを用いた推測的デコードによるデコード負荷の高いLLM推論の高速化

AWS TrainiumとvLLMを用いた推測的デコードにより、Qwen3モデルのトークン生成速度が最大3倍向上し、出力品質を維持したままトークンあたりのコスト削減とスループット向上が実現された。

AWS Machine Learning Blog·4月16日·★★★★

P-EAGLE: vLLMにおける並列投機的デコーディングによる高速なLLM推論

研究者らは、大規模言語モデル推論のための並列投機的デコーディング手法P-EAGLEを開発した。従来のEAGLE手法の逐次処理のボトルネックを解消し、複数のドラフトトークンを単一のフォワードパスで生成することで、推論速度を最大1.8倍向上させた。

AWS Machine Learning Blog·3月14日·★★★★

Amazon SageMaker AIとAmazon BedrockでvLLMを使用して数十のファインチューニングモデルを効率的に提供

vLLMでMixture of ExpertsモデルのマルチLoRA推論を実装し、カーネルレベルの最適化を行い、効率的なモデル提供方法を解説。GPT-OSS 20Bを例に使用。

AWS Machine Learning Blog·2月26日·★★★★

LLM推論における非決定性の克服

Horace Heらによる、大規模言語モデルの推論における非決定性を克服する研究についての記事。

Thinking Machines Lab·9月10日·★★★★

vLLMと大規模モデル

vLLMは大規模言語モデルの推論速度と効率を向上させる推論エンジンであり、AI業界で注目されている技術です。

Hamel Husain·10月28日