Decoupled DiLoCo:堅牢な分散型AI学習の新たな最前線
Google DeepMindの研究者が分散型AI学習向けの新アルゴリズム「Decoupled DiLoCo」を開発し、耐障害性と通信効率の大幅な向上を実現した。
キーポイント
分散学習の通信効率向上
従来の分散最適化手法と比較し、モデル更新と通信ステップを分離する設計により、ネットワーク帯域の消費を大幅に削減した。
耐障害性の強化
ノードの故障やネットワーク遅延が発生しても学習が継続・回復可能な仕組みを実装し、大規模分散環境での信頼性を高めた。
大規模モデル学習への適用可能性
計算リソースの制約が厳しいLLMや基盤モデルの分散トレーニングにおいて、スケーラビリティとコスト効率を両立させる新基準となる。
影響分析・編集コメントを表示
影響分析
このアルゴリズムは、大規模言語モデルや基盤モデルの学習において不可欠な分散環境の実用性を飛躍的に高める。通信効率と耐障害性の両立は、クラウド事業者や研究機関のコスト削減とトレーニング成功率向上に直結し、分散AI開発のハードルを大きく下げる。
編集コメント
分散学習の通信オーバーヘッドは長年の課題であり、計算と通信を解耦する発想は実装コスト削減に直結する。今後はベンチマーク結果やオープンソース化の動向を注視したい。
2026年4月23日 リサーチ
アーサー・デュイヤールとDiLoCoチーム
当社の新しい分散アーキテクチャは、より低い帯域幅と高いハードウェア耐障害性を実現し、遠隔地のデータセンター間で大規模言語モデル(LLM)のトレーニングを可能にします。
最先端AIモデルのトレーニングは従来、同一のチップがほぼ完璧な同期状態を維持する必要がある大規模で密結合されたシステムに依存してきました。このアプローチは現在の最先端モデルには非常に効果的ですが、将来のスケール世代を見据えると、数千ものチップ間でこのレベルの同期を維持することは重大な物流上の課題となります。
本日、私たちはこの問題に対する新しいアプローチとして、分離型DiLoCo(分散低通信:Decoupled DiLoCo)を提案する新しい論文を公開いたします。このアーキテクチャは、大規模なトレーニング実行を分離された計算「アイランド」に分割し、それらの間で非同期データフロー(asynchronous data flow)が流れるようにすることで、ローカルな障害を隔離します。これにより、システムの他の部分は効率的に学習を継続できます。
その結果、世界中に分散されたデータセンター間で高度なモデルをトレーニングするための、より耐障害性が高く柔軟な方法が実現します。そして重要なのは、Decoupled DiLoCoが、データ並列(Data-Parallel)などの以前の分散手法をグローバルスケールで実用的ではなかった通信遅延の影響を受けないことです。
最先端モデルがスケールと複雑さを増し続ける中、私たちはより多くの計算リソース、場所、多様なハードウェアを活用してモデルをトレーニングするさまざまなアプローチを探求しています。
図1:トレーニング実行を分離された計算「アイランド」(ラーニングユニット)に分割することで、同じレベルのハードウェア障害が発生してもその影響が隔離されるため、ほぼ中断のないトレーニングが可能になります。
スケールでのより耐障害性の高い非同期トレーニングの開発
Decoupled DiLoCoは、非同期データフローに基づく分散AIシステムを導入したPathwaysと、分散データセンター間で必要な帯域幅を劇的に削減し、遠隔地での大規模言語モデルのトレーニングを実用的にしたDiLoCoという2つの先行する進歩の上に構築されています。
Decoupled DiLoCoはこれらのアイデアを統合し、スケールでのAIモデルトレーニングをより柔軟に行えるようにします。Pathwaysの上に構築され、分離された計算アイランド(ラーニングユニットとして知られる)間で非同期トレーニングを可能にするため、ある領域でのチップ障害が他の領域の進捗を中断することはありません。
このインフラストラクチャは自己修復機能も備えています。テストでは、「カオスエンジニアリング(chaos engineering)」と呼ばれる手法を用いて、トレーニング実行中に人工的なハードウェア障害を導入しました。Decoupled DiLoCoはラーニングユニット全体が失われた後もトレーニングを継続し、それらがオンラインに戻るとシームレスに再統合しました。
Gemma 4モデルを用いたDecoupled DiLoCoのテストにより、ハードウェア障害が発生した場合でも、従来のトレーニング手法よりも学習クラスタの利用可能性を高く維持できることが示されました。その上で最終的には、ベンチマークで測定された同等のマシンラーニング(ML)パフォーマンスを実現しています。
Figure 2: Left: Decoupled DiLoCoのアプローチは、従来のトレーニング手法よりも桁違いに少ない帯域幅を必要とするため、非常に効率的です。Middle: ハードウェア障害のレベルが増加しても、Decoupled DiLoCoは「goodput」(有益なトレーニング)の高いレベルを引き続き提供し続けるのに対し、他のアプローチは急落します。(最初の2つのグラフはシミュレーションされたトレーニング実行に基づいています)。Right: 実際の環境での実験では、Decoupled DiLoCoを使用してトレーニングされたGemma 4モデルのベンチマークMLパフォーマンスが、従来のトレーニング手法で得られたパフォーマンスと同等であることを確認しました。
Decoupled DiLoCoは障害に対してより耐性があるだけでなく、本番レベルの完全に分散された事前トレーニング(pre-training)を実行する際にも実用的です。私たちは、2〜5 Gbpsのワイドエリアネットワーク(wide-area networking)(既存のデータセンター施設間のインターネット接続で比較的達成可能なレベルであり、施設間での新しいカスタムネットワークインフラを必要としない)を使用して、120億パラメータのモデルを4つの異なる米国地域にまたがって正常にトレーニングしました。特筆すべきは、このシステムが従来の同期手法(synchronization methods)よりも20倍以上の速さでこのトレーニング結果を達成したことです。これは、当システムが必要な通信をより長い計算期間に組み込むことで、システムの一部分が他の部分を待機しなければならない「ブロッキング(blocking)」のボトルネックを回避しているためです。
AIトレーニングインフラの進化を推進する
Googleでは、ハードウェア、ソフトウェアインフラ、研究にまたがるフルスタックアプローチ(full-stack approach)でAIトレーニングに取り組んでいます。近年では、これらのレイヤーがどのように連携するかを再考することから得られる成果が増えています。
Decoupled DiLoCoはその一例です。インターネット規模の帯域幅でトレーニングジョブを可能にすることで、どこにあっても未使用のコンピューティングリソース(compute)を活用でき、遊休資源を有用な容量に変えることができます。
効率性と耐性に加えて、このトレーニングパラダイム(training paradigm)は、TPU v6eやTPU v5pなど、異なるハードウェア世代を単一のトレーニング実行で混在させる能力も解放します。このアプローチは既存ハードウェアの有用な寿命を延ばすだけでなく、モデルトレーニングに利用可能な総コンピューティングリソースも増加させます。実験では、異なる速度で動作する異なる世代のチップでも、単一チップタイプのトレーニング実行と同じMLパフォーマンスに達しており、古いハードウェアでさえAIトレーニングを有意義に加速できることが保証されています。
さらに、新しい世代のハードウェアがすべての場所に同時に導入されるわけではないため、異なる世代にまたがってトレーニングできることで、繰り返される物流および容量のボトルネックを緩和できます。
現在、AIインフラの最前線を押し広げるにあたり、次世代のAIを実現するために必要な耐性システムの手法を探求し続けています。
謝辞
本研究は、Google DeepMind と Google Research に所属するチームメンバーによって実施されました。
デカップルド・DiLoCo(Decoupled DiLoCo)のリードおよび中核貢献者は、Arthur Douillard, Keith Rush, Yani Donchev, Zachary Charles, Ayush Dubey, Blake Woodworth, Ionel Gog, Josef Dean, Nova Fallen, Zachary Garrett です。運用サポートは Nate Keating と Jenny Bishop によって提供されました。
また、Jeff Dean, Marc’Aurelio Ranzato, Raia Hadsell, Arthur Szlam, Edouard Yvinec, Henry Prior, Paul Barham, Michael Isard, Daniel Ramage, Brendan McMahan, Chase Hensel, Zoltan Egyed からの追加の支援と助言にも感謝申し上げます。
原文を表示
April 23, 2026 Research
Arthur Douillard and the DiLoCo team
Our new distributed architecture helps to train LLMs across distant data centers - with lower bandwidth and more hardware resiliency.
Training a frontier AI model traditionally depends on a large, tightly coupled system in which identical chips must stay in near-perfect synchronization. This approach is highly effective for today’s state-of-the-art models, but as we look toward future generations of scale, maintaining this level of synchronization across thousands of chips becomes a significant logistical challenge.
Today, in a new paper we are excited to share a new approach to this problem, called Decoupled DiLoCo (Distributed Low-Communication). By dividing large training runs across decoupled “islands” of compute, with asynchronous data flowing between them, this architecture isolates local disruptions so that other parts of the system can keep learning efficiently.
The result is a more resilient and flexible way to train advanced models across globally distributed data centers. And crucially, Decoupled DiLoCo does not suffer the communication delays that made previous distributed methods like Data-Parallel impractical at global scale.
As frontier models continue to grow in scale and complexity, we’re exploring diverse approaches to train models across more compute, locations and varied hardware.
Figure 1: Decoupling training runs into separate “islands” of compute (learner units) allows largely uninterrupted training despite the same level of hardware failures, because the effects of those failures are isolated.
Developing more fault-tolerant asynchronous training at scale
Decoupled DiLoCo builds on two earlier advances: Pathways, which introduced a distributed AI system based on asynchronous data flow, and DiLoCo, which dramatically reduced the bandwidth required between distributed data centers, making it practical to train large language models across distant locations.
Decoupled DiLoCo brings those ideas together to train AI models more flexibly at scale. Built on top of Pathways, it enables asynchronous training across separate islands of compute (known as learner units) so that a chip failure in one area doesn’t interrupt the progress of the others.
This infrastructure is also self-healing. In testing, we used a method called “chaos engineering” to introduce artificial hardware failures during training runs. Decoupled DiLoCo continued the training process after the loss of entire learner units, and then seamlessly reintegrated them when they came back online.
Testing Decoupled DiLoCo with Gemma 4 models demonstrated that, when hardware fails, the system maintains greater availability of learning clusters than more traditional training methods — while ultimately delivering the same benchmarked level of machine learning (ML) performance.
Decoupled DiLoCo is not only more resilient to failures, but is also practical for executing production-level, fully distributed pre-training. We successfully trained a 12 billion parameter model across four separate U.S. regions using 2-5 Gbps of wide-area networking (a level relatively achievable using existing internet connectivity between datacenter facilities, rather than requiring new custom network infrastructure between facilities). Notably, the system achieved this training result more than 20 times faster than conventional synchronization methods. This is because our system incorporates required communication into longer periods of computation, avoiding the "blocking" bottlenecks where one part of the system must wait for another.
Driving the evolution of AI training infrastructure
At Google, we take a full-stack approach to AI training, spanning hardware, software infrastructure and research. Increasingly, gains are coming from rethinking how these layers fit together.
Decoupled DiLoCo is one example. By enabling training jobs at internet-scale bandwidth, it can tap any unused compute wherever it sits, turning stranded resources into useful capacity.
Beyond efficiency and resilience, this training paradigm also unlocks the ability to mix different hardware generations, such as TPU v6e and TPU v5p, in a single training run. This approach not only extends the useful life of existing hardware, but also increases the total compute available for model training. In our experiments, chips from different generations running at different speeds still matched the ML performance of single-chip-type training runs, ensuring that even older hardware can meaningfully accelerate AI training.
What’s more, because new generations of hardware don’t arrive everywhere all at once, being able to train across generations can alleviate recurring logistical and capacity bottlenecks.
As we push the frontiers of AI infrastructure today, we’re continuing to explore approaches to resilient systems needed to unlock the next generation of AI.
Acknowledgements
This work was done by a team of members across Google DeepMind and Google Research.
The leads and core contributors behind Decoupled DiLoCo are Arthur Douillard, Keith Rush, Yani Donchev, Zachary Charles, Ayush Dubey, Blake Woodworth, Ionel Gog, Josef Dean, Nova Fallen, Zachary Garrett. Operational support was done by Nate Keating and Jenny Bishop.
We are also grateful for the additional support and advising from Jeff Dean, Marc’Aurelio Ranzato, Raia Hadsell, Arthur Szlam, Edouard Yvinec, Henry Prior, Paul Barham, Michael Isard, Daniel Ramage, Brendan McMahan, Chase Hensel, and Zoltan Egyed.
関連記事
メカニズム設計理論がアマゾンとベンダーの協力最適化にどう役立つか
Amazon とサプライヤーはそれぞれ独立して物流計画を最適化するが、コスト増などの非効率を生む。メカニズム設計理論を用いることで、双方の利益を考慮した最適な協働計画を実現できることが示された。
ニュースメディアにおける広告技術
スマートニュース株式会社の西尾氏が、LINE Developer Meetupで広告開発チームのエンジニアリングマネージャとして、ニュースメディア向け広告技術について発表した。
環境リスク対策のためアジア太平洋地域に Google DeepMind アクセラレータープログラムを立ち上げ
Google DeepMind は、気候変動などの環境リスクに対処するため、アジア太平洋地域を対象としたアクセラレータープログラムの開始を発表した。