#llm推論のAIニュース

9件の記事

G7eインスタンスでAmazon SageMaker AI上の生成AI推論を加速

AWSはAmazon SageMaker AI上で生成AI推論を加速するG7eインスタンスを発表した。同製品はNVIDIA RTX PRO 6000 GPUを搭載し、開発者や企業のコスト削減と柔軟な運用ニーズに対応する。

AWS TrainiumとvLLMを用いた推測的デコードにより、Qwen3モデルのトークン生成速度が最大3倍向上し、出力品質を維持したままトークンあたりのコスト削減とスループット向上が実現された。

AWSは、Amazon SageMaker AIのトレーニングプランを使用して、指定期間のGPU容量を予約し、大規模言語モデルの推論デプロイを効率化する方法を発表した。

NVIDIAが、大規模言語モデル（LLM）推論ワークロードの複雑化に対応するため、Kubernetes上でプリフィル段階とデコード段階を分離した分散型推論アーキテクチャを提案している。

NVIDIAのBlackwellプラットフォームが、金融取引向け大規模言語モデルの推論性能でSTAC-AIベンチマーク記録を達成した。同技術は大量の非構造化データを分析し、金融取引の意思決定を支援する。

NVIDIAは、異なるリソース要件を持つ推論ワークロードに直面する組織向けに、Run:aiとNIMを活用してGPU利用率を最適化するソリューションを提供している。

Amazonは2025年にSageMaker AIの基盤インフラを容量・コストパフォーマンス・可観測性・使いやすさの4分野で改善し、第1部では柔軟なトレーニングプランの導入と推論ワークロードのコストパフォーマンス向上を発表した。

Horace Heらによる、大規模言語モデルの推論における非決定性を克服する研究についての記事。

OpenAIがGPT-4.5を、MetaがLlama 4をリリースしたが、従来型モデルのため反応は控えめだった。一方、xAIやAnthropicは強化学習による推論機能を強化している。