#分散学習のAIニュース

6件の記事

NCCL Inspector と Prometheus を用いたリアルタイムパフォーマンス監視と高速デバッグ

NVIDIA は、分散深層学習の GPU 間通信を最適化する「NCCL Inspector」と「Prometheus」を組み合わせたツールを発表し、トレーニング時の遅延問題を迅速に特定・解決する手法を提供した。

著者らは、tステップ中からkステップをランダムに選択するサンプリング手法のプライバシー増幅特性を検討し、差分学習やプライベート集約において標準手法より有用性が高いことを示した。

GoogleがTorchTPUを発表。同社のTPUインフラ上でPyTorchワークロードを最小限のコード変更でネイティブ実行できる新エンジニアリングスタックを提供する。

研究者らが、ユリシーズ・シーケンス並列処理という手法を開発し、100万トークンの長いコンテキストで大規模言語モデルを効率的にトレーニングできるようにした。

動画拡散モデルのコンテキスト長増大に対応するため、Ulysses手法を用いたコンテキスト並列処理が提案された。これはシーケンス全体をシャードし、高密度アテンションと高スループット通信を両立させる。

Preferred Networks（PFN）の上田蒼一朗氏が、PFNが開発するKubernetesスケジューラのプラグイン（例：Gangスケジューリング）に対するパフォーマンステストの取り組みを紹介している。