#推論高速化 のAIニュース
2件の記事
ワープデコードによるMoEモデル推論の改善
研究チームが、Mixture of Experts(MoE)モデルの推論効率を向上させる「ワープデコード」技術を開発した。この技術は、複数の専門家モデルを効率的に処理することで、推論速度とリソース使用率を改善する。
Cursor Blog·4月6日·★★★★
NVIDIA Blackwell UltraによるSoftmaxの効率化
NVIDIAの次世代アーキテクチャBlackwell Ultraが、AI計算の重要な関数Softmaxを効率化し、大規模言語モデルの性能向上に貢献する技術革新について。
NVIDIA Developer Blog·2月26日·★★★★