メインコンテンツへスキップ

#llm推論 のAIニュース

9件の記事

G7eインスタンスでAmazon SageMaker AI上の生成AI推論を加速

AWSはAmazon SageMaker AI上で生成AI推論を加速するG7eインスタンスを発表した。同製品はNVIDIA RTX PRO 6000 GPUを搭載し、開発者や企業のコスト削減と柔軟な運用ニーズに対応する。

AWS Machine Learning Blog·4月21日·★★★★

AWS TrainiumとvLLMを用いた推測的デコードによるデコード負荷の高いLLM推論の高速化

AWS TrainiumとvLLMを用いた推測的デコードにより、Qwen3モデルのトークン生成速度が最大3倍向上し、出力品質を維持したままトークンあたりのコスト削減とスループット向上が実現された。

AWS Machine Learning Blog·4月16日·★★★★

トレーニングプランを使用して設定済みGPU容量でSageMaker AI推論エンドポイントをデプロイ

AWSは、Amazon SageMaker AIのトレーニングプランを使用して、指定期間のGPU容量を予約し、大規模言語モデルの推論デプロイを効率化する方法を発表した。

AWS Machine Learning Blog·3月25日·★★★★

Kubernetes上での分散型LLM推論ワークロードのデプロイ

NVIDIAが、大規模言語モデル(LLM)推論ワークロードの複雑化に対応するため、Kubernetes上でプリフィル段階とデコード段階を分離した分散型推論アーキテクチャを提案している。

NVIDIA Developer Blog·3月23日·★★★★

NVIDIA Blackwellが金融分野におけるLLM推論でSTAC-AI記録を樹立

NVIDIAのBlackwellプラットフォームが、金融取引向け大規模言語モデルの推論性能でSTAC-AIベンチマーク記録を達成した。同技術は大量の非構造化データを分析し、金融取引の意思決定を支援する。

NVIDIA Developer Blog·3月6日·★★★★

NVIDIA Run:aiとNIMによるGPU利用率の最大化

NVIDIAは、異なるリソース要件を持つ推論ワークロードに直面する組織向けに、Run:aiとNIMを活用してGPU利用率を最適化するソリューションを提供している。

NVIDIA Developer Blog·2月28日·★★★★

Amazon SageMaker AI 2025年振り返り第1部:柔軟なトレーニングプランと推論ワークロードのコストパフォーマンス向上

Amazonは2025年にSageMaker AIの基盤インフラを容量・コストパフォーマンス・可観測性・使いやすさの4分野で改善し、第1部では柔軟なトレーニングプランの導入と推論ワークロードのコストパフォーマンス向上を発表した。

AWS Machine Learning Blog·2月21日·★★★★

LLM推論における非決定性の克服

Horace Heらによる、大規模言語モデルの推論における非決定性を克服する研究についての記事。

Thinking Machines Lab·9月10日·★★★★

LLM推論のための強化学習の現状

OpenAIがGPT-4.5を、MetaがLlama 4をリリースしたが、従来型モデルのため反応は控えめだった。一方、xAIやAnthropicは強化学習による推論機能を強化している。

Sebastian Raschka·4月19日·★★★★