#分散学習 のAIニュース

6件の記事

NCCL Inspector と Prometheus を用いたリアルタイムパフォーマンス監視と高速デバッグ

NVIDIA は、分散深層学習の GPU 間通信を最適化する「NCCL Inspector」と「Prometheus」を組み合わせたツールを発表し、トレーニング時の遅延問題を迅速に特定・解決する手法を提供した。

NVIDIA Developer Blog·5月8日·★★★★

サブサンプリングとランダム割り当てにおける効率的なプライバシー損失計算

著者らは、tステップ中からkステップをランダムに選択するサンプリング手法のプライバシー増幅特性を検討し、差分学習やプライベート集約において標準手法より有用性が高いことを示した。

Apple Machine Learning·4月13日·★★★★

TorchTPU:GoogleスケールのTPU上でPyTorchをネイティブ実行

GoogleがTorchTPUを発表。同社のTPUインフラ上でPyTorchワークロードを最小限のコード変更でネイティブ実行できる新エンジニアリングスタックを提供する。

Google Developers AI·4月8日·★★★★

ユリシーズ・シーケンス並列処理:100万トークンのコンテキストでのトレーニング

研究者らが、ユリシーズ・シーケンス並列処理という手法を開発し、100万トークンの長いコンテキストで大規模言語モデルを効率的にトレーニングできるようにした。

Hugging Face Blog·3月9日·★★★★

ウルリセス解放:通信と計算の重なりに関する実験

動画拡散モデルのコンテキスト長増大に対応するため、Ulysses手法を用いたコンテキスト並列処理が提案された。これはシーケンス全体をシャードし、高密度アテンションと高スループット通信を両立させる。

fal.ai Blog·2月24日·★★★★

Kubernetesスケジューラのベンチマークテスト

Preferred Networks(PFN)の上田蒼一朗氏が、PFNが開発するKubernetesスケジューラのプラグイン(例:Gangスケジューリング)に対するパフォーマンステストの取り組みを紹介している。

Preferred Networks·12月8日