#inference efficiency のAIニュース
2件の記事
カーネルの手動調整を止める:Neuron エージェント開発が AWS Trainium の最適化を加速する方法
AWS は、大規模化する最先端 AI モデル向けに、ハードウェアの性能限界を引き出すための従来の手動カーネル調整に代わり、「Neuron エージェント開発」を活用することで、Trainium プロセッサの最適化効率とパフォーマンスを大幅に向上させる手法を発表した。
AWS Machine Learning Blog·6月11日·★★★★
確率的 KV ルーティング:適応型深層別キャッシュ共有を実現
研究者らは、トランスフォーマー言語モデルの推論コスト削減のため、時間軸以外の「深さ」次元に焦点を当てた新しい手法「確率的 KV ルーティング」を提案し、キーバリューキャッシュのメモリ使用量を大幅に削減できることを示した。
Apple Machine Learning·5月5日·★★★★