#inference efficiency のAIニュース

2件の記事

カーネルの手動調整を止める：Neuron エージェント開発が AWS Trainium の最適化を加速する方法

AWS は、大規模化する最先端 AI モデル向けに、ハードウェアの性能限界を引き出すための従来の手動カーネル調整に代わり、「Neuron エージェント開発」を活用することで、Trainium プロセッサの最適化効率とパフォーマンスを大幅に向上させる手法を発表した。

AWS Machine Learning Blog·6月11日·★★★★

確率的 KV ルーティング：適応型深層別キャッシュ共有を実現

研究者らは、トランスフォーマー言語モデルの推論コスト削減のため、時間軸以外の「深さ」次元に焦点を当てた新しい手法「確率的 KV ルーティング」を提案し、キーバリューキャッシュのメモリ使用量を大幅に削減できることを示した。

Apple Machine Learning·5月5日·★★★★