#prometheus のAIニュース
2件の記事
NCCL Inspector と Prometheus を用いたリアルタイムパフォーマンス監視と高速デバッグ
NVIDIA は、分散深層学習の GPU 間通信を最適化する「NCCL Inspector」と「Prometheus」を組み合わせたツールを発表し、トレーニング時の遅延問題を迅速に特定・解決する手法を提供した。
NVIDIA Developer Blog·5月8日·★★★★
Fastlyがメトリクス基盤をGKEに移行し精度を改善した事例
Fastlyはメトリクス基盤をGKEに移行し、精度を改善した。同社はこの移行により、システムの信頼性と監視能力を向上させた。
CyberAgent Developers Blog·3月4日