メインコンテンツへスキップ

#llm推論最適化 のAIニュース

12件の記事

エンドツーエンドFP8精度による高スループット強化学習トレーニングの実行

NVIDIAは、大規模言語モデルの複雑な推論支援のため、エンドツーエンドFP8精度を活用した高スループット強化学習トレーニング手法を提供する。

NVIDIA Developer Blog·4月21日·★★★★

Unweight: 品質を犠牲にせずLLMを22%圧縮した方法

Unweight社は、LLMの推論速度向上のため、モデル重みの圧縮技術を開発し、品質を維持しながら22%の圧縮を実現した。

Cloudflare Blog·4月17日·★★★★

超大規模言語モデル実行の基盤構築

Cloudflareが、MoonshotのKimi K2.5などの大規模オープンソースモデルをホストするWorkers AIを発表し、モデル速度を3倍向上させた。同社は、これらのモデルを基盤としたエージェント製品やツールを今週リリースしている。

Cloudflare Blog·4月16日·★★★★

Aurora:推論効率を向上させるオープンソース強化学習フレームワーク

Auroraは、推論効率を1.25倍向上させるオープンソースの強化学習フレームワークです。これは、推論を単なるオフライン設定から、リクエストごとに自己改善するシステムへと変革します。

Together AI Blog·3月31日·★★★★

SPEED-Benchの紹介:投機的デコーディングのための統一かつ多様なベンチマーク

研究者がSPEED-Benchを発表した。これは投機的デコーディングの性能を評価するための統一的なベンチマークであり、多様なタスクとモデルを網羅している。

Hugging Face Blog·3月19日·★★★★

AWS上での分散推論の導入:llm-dを活用

llm-dチームは、エージェントAIワークフローにおける推論プロセスの課題を解決するため、AWS上で分散推論を導入した。これにより、複雑な推論チェーンによる計算負荷の増大と可変需要に対応し、ユーザー体験の向上を目指す。

AWS Machine Learning Blog·3月17日·★★★★

P-EAGLE: vLLMにおける並列投機的デコーディングによる高速なLLM推論

研究者らは、大規模言語モデル推論のための並列投機的デコーディング手法P-EAGLEを開発した。従来のEAGLE手法の逐次処理のボトルネックを解消し、複数のドラフトトークンを単一のフォワードパスで生成することで、推論速度を最大1.8倍向上させた。

AWS Machine Learning Blog·3月14日·★★★★

OpenAIのCodex-Spark、Cerebrasハードウェアで超高速コーディングを実現

OpenAIはハードウェア戦略を転換し、従来のNVIDIA GPUではなくCerebrasのウェハースケールチップ上で動作する初の本番AIモデル「GPT-5.3-Codex-Spark」を発表した。同社によると、この新モデルはスループット向上と低遅延を実現し、リアルタイムで対話的なコーディング体験を可能にする。

InfoQ·3月3日·★★★★

キーバリューキャッシュからの効率的なエビクション学習

大規模言語モデルの推論効率化に向け、従来のヒューリスティック手法に依存しない、キーバリューキャッシュの効率的なエビクション手法の研究。

Apple Machine Learning·2月23日·★★★★

NVIDIA Run:aiにおけるGPU分割による大規模トークン処理能力の解放

NVIDIA Run:aiのGPU分割技術により、AIワークロードのトークン処理能力を大幅に向上させる方法を紹介。

NVIDIA Developer Blog·2月19日·★★★★

NVIDIAの極端なハードウェア・ソフトウェア協調設計がSarvam AIの主権モデルに大規模な推論向上をもたらした方法

NVIDIAのハードウェアとソフトウェアの協調設計により、Sarvam AIの主権AIモデルの推論性能が大幅に向上した。

NVIDIA Developer Blog·2月19日·★★★★

NVIDIA TensorRT LLM AutoDeployによる推論最適化の自動化

NVIDIAがTensorRT LLM AutoDeployを発表し、大規模言語モデルの推論最適化とデプロイを自動化するツールを提供。AI開発の効率化を目指す。

NVIDIA Developer Blog·2月10日·★★★★