#llm推論最適化のAIニュース

12件の記事

エンドツーエンドFP8精度による高スループット強化学習トレーニングの実行

NVIDIAは、大規模言語モデルの複雑な推論支援のため、エンドツーエンドFP8精度を活用した高スループット強化学習トレーニング手法を提供する。

Unweight: 品質を犠牲にせずLLMを22%圧縮した方法

Unweight社は、LLMの推論速度向上のため、モデル重みの圧縮技術を開発し、品質を維持しながら22%の圧縮を実現した。

超大規模言語モデル実行の基盤構築

Cloudflareが、MoonshotのKimi K2.5などの大規模オープンソースモデルをホストするWorkers AIを発表し、モデル速度を3倍向上させた。同社は、これらのモデルを基盤としたエージェント製品やツールを今週リリースしている。

Cloudflare Blog·4月16日·★★★★

Aurora：推論効率を向上させるオープンソース強化学習フレームワーク

Auroraは、推論効率を1.25倍向上させるオープンソースの強化学習フレームワークです。これは、推論を単なるオフライン設定から、リクエストごとに自己改善するシステムへと変革します。

Together AI Blog·3月31日·★★★★

SPEED-Benchの紹介：投機的デコーディングのための統一かつ多様なベンチマーク

研究者がSPEED-Benchを発表した。これは投機的デコーディングの性能を評価するための統一的なベンチマークであり、多様なタスクとモデルを網羅している。

Hugging Face Blog·3月19日·★★★★

AWS上での分散推論の導入：llm-dを活用

llm-dチームは、エージェントAIワークフローにおける推論プロセスの課題を解決するため、AWS上で分散推論を導入した。これにより、複雑な推論チェーンによる計算負荷の増大と可変需要に対応し、ユーザー体験の向上を目指す。

AWS Machine Learning Blog·3月17日·★★★★

P-EAGLE: vLLMにおける並列投機的デコーディングによる高速なLLM推論

研究者らは、大規模言語モデル推論のための並列投機的デコーディング手法P-EAGLEを開発した。従来のEAGLE手法の逐次処理のボトルネックを解消し、複数のドラフトトークンを単一のフォワードパスで生成することで、推論速度を最大1.8倍向上させた。

AWS Machine Learning Blog·3月14日·★★★★

OpenAIのCodex-Spark、Cerebrasハードウェアで超高速コーディングを実現

OpenAIはハードウェア戦略を転換し、従来のNVIDIA GPUではなくCerebrasのウェハースケールチップ上で動作する初の本番AIモデル「GPT-5.3-Codex-Spark」を発表した。同社によると、この新モデルはスループット向上と低遅延を実現し、リアルタイムで対話的なコーディング体験を可能にする。

InfoQ·3月3日·★★★★