#llm推論 のAIニュース
9件の記事
G7eインスタンスでAmazon SageMaker AI上の生成AI推論を加速
AWSはAmazon SageMaker AI上で生成AI推論を加速するG7eインスタンスを発表した。同製品はNVIDIA RTX PRO 6000 GPUを搭載し、開発者や企業のコスト削減と柔軟な運用ニーズに対応する。
AWS TrainiumとvLLMを用いた推測的デコードによるデコード負荷の高いLLM推論の高速化
AWS TrainiumとvLLMを用いた推測的デコードにより、Qwen3モデルのトークン生成速度が最大3倍向上し、出力品質を維持したままトークンあたりのコスト削減とスループット向上が実現された。
トレーニングプランを使用して設定済みGPU容量でSageMaker AI推論エンドポイントをデプロイ
AWSは、Amazon SageMaker AIのトレーニングプランを使用して、指定期間のGPU容量を予約し、大規模言語モデルの推論デプロイを効率化する方法を発表した。
Kubernetes上での分散型LLM推論ワークロードのデプロイ
NVIDIAが、大規模言語モデル(LLM)推論ワークロードの複雑化に対応するため、Kubernetes上でプリフィル段階とデコード段階を分離した分散型推論アーキテクチャを提案している。
NVIDIA Blackwellが金融分野におけるLLM推論でSTAC-AI記録を樹立
NVIDIAのBlackwellプラットフォームが、金融取引向け大規模言語モデルの推論性能でSTAC-AIベンチマーク記録を達成した。同技術は大量の非構造化データを分析し、金融取引の意思決定を支援する。
NVIDIA Run:aiとNIMによるGPU利用率の最大化
NVIDIAは、異なるリソース要件を持つ推論ワークロードに直面する組織向けに、Run:aiとNIMを活用してGPU利用率を最適化するソリューションを提供している。
Amazon SageMaker AI 2025年振り返り第1部:柔軟なトレーニングプランと推論ワークロードのコストパフォーマンス向上
Amazonは2025年にSageMaker AIの基盤インフラを容量・コストパフォーマンス・可観測性・使いやすさの4分野で改善し、第1部では柔軟なトレーニングプランの導入と推論ワークロードのコストパフォーマンス向上を発表した。
LLM推論における非決定性の克服
Horace Heらによる、大規模言語モデルの推論における非決定性を克服する研究についての記事。
LLM推論のための強化学習の現状
OpenAIがGPT-4.5を、MetaがLlama 4をリリースしたが、従来型モデルのため反応は控えめだった。一方、xAIやAnthropicは強化学習による推論機能を強化している。