#llm推論最適化 のAIニュース
12件の記事
エンドツーエンドFP8精度による高スループット強化学習トレーニングの実行
NVIDIAは、大規模言語モデルの複雑な推論支援のため、エンドツーエンドFP8精度を活用した高スループット強化学習トレーニング手法を提供する。
Unweight: 品質を犠牲にせずLLMを22%圧縮した方法
Unweight社は、LLMの推論速度向上のため、モデル重みの圧縮技術を開発し、品質を維持しながら22%の圧縮を実現した。
超大規模言語モデル実行の基盤構築
Cloudflareが、MoonshotのKimi K2.5などの大規模オープンソースモデルをホストするWorkers AIを発表し、モデル速度を3倍向上させた。同社は、これらのモデルを基盤としたエージェント製品やツールを今週リリースしている。
Aurora:推論効率を向上させるオープンソース強化学習フレームワーク
Auroraは、推論効率を1.25倍向上させるオープンソースの強化学習フレームワークです。これは、推論を単なるオフライン設定から、リクエストごとに自己改善するシステムへと変革します。
SPEED-Benchの紹介:投機的デコーディングのための統一かつ多様なベンチマーク
研究者がSPEED-Benchを発表した。これは投機的デコーディングの性能を評価するための統一的なベンチマークであり、多様なタスクとモデルを網羅している。
AWS上での分散推論の導入:llm-dを活用
llm-dチームは、エージェントAIワークフローにおける推論プロセスの課題を解決するため、AWS上で分散推論を導入した。これにより、複雑な推論チェーンによる計算負荷の増大と可変需要に対応し、ユーザー体験の向上を目指す。
P-EAGLE: vLLMにおける並列投機的デコーディングによる高速なLLM推論
研究者らは、大規模言語モデル推論のための並列投機的デコーディング手法P-EAGLEを開発した。従来のEAGLE手法の逐次処理のボトルネックを解消し、複数のドラフトトークンを単一のフォワードパスで生成することで、推論速度を最大1.8倍向上させた。
OpenAIのCodex-Spark、Cerebrasハードウェアで超高速コーディングを実現
OpenAIはハードウェア戦略を転換し、従来のNVIDIA GPUではなくCerebrasのウェハースケールチップ上で動作する初の本番AIモデル「GPT-5.3-Codex-Spark」を発表した。同社によると、この新モデルはスループット向上と低遅延を実現し、リアルタイムで対話的なコーディング体験を可能にする。
キーバリューキャッシュからの効率的なエビクション学習
大規模言語モデルの推論効率化に向け、従来のヒューリスティック手法に依存しない、キーバリューキャッシュの効率的なエビクション手法の研究。
NVIDIA Run:aiにおけるGPU分割による大規模トークン処理能力の解放
NVIDIA Run:aiのGPU分割技術により、AIワークロードのトークン処理能力を大幅に向上させる方法を紹介。
NVIDIAの極端なハードウェア・ソフトウェア協調設計がSarvam AIの主権モデルに大規模な推論向上をもたらした方法
NVIDIAのハードウェアとソフトウェアの協調設計により、Sarvam AIの主権AIモデルの推論性能が大幅に向上した。
NVIDIA TensorRT LLM AutoDeployによる推論最適化の自動化
NVIDIAがTensorRT LLM AutoDeployを発表し、大規模言語モデルの推論最適化とデプロイを自動化するツールを提供。AI開発の効率化を目指す。