AWS データセンターネットワークにおける「フラット構造」が「ファットツリー」を代替する理由
Amazon Science は、従来の「ファットツリー」に代わり、ランダム接続の理論的利点を活かしたスケーラブルなフラットネットワーク設計「RNG」をAWSデータセンターで実用化し、ルーター数を69%削減する画期的な進展を発表しました。
キーポイント
従来のファットツリー構造の限界
階層型ネットワークは実装が容易だが、上位ノードでの輻輳や単一障害点による脆弱性があり、エネルギー効率も低いという構造的欠陥を抱えている。
理論と現実のギャップ解消
数学的に最適とされるランダム接続ネットワークは計算コストと配線の問題で実用化されていなかったが、本稿ではこれを解決する新アプローチを提示している。
RNG(Resilient Network Graphs)の実装
「準ランダム」トポロジーとパッシブ光学コンポーネント「ShuffleBox」を組み合わせることで、配線コストを抑えつつ高耐障害性・高性能なフラットネットワークを実現した。
劇的なパフォーマンス向上
AWSデータセンターでの実装により、ルーター数を69%削減し、スループットを最大33%向上、設備電力消費を40%削減する成果を達成した。
影響分析・編集コメントを表示
影響分析
この技術革新は、大規模データセンターのインフラ設計におけるパラダイムシフトを示しており、従来の階層型アーキテクチャの限界を打破しました。AWSがこの設計を採用し標準化することで、クラウド業界全体でエネルギー消費の削減とネットワーク信頼性の向上が加速すると予想されます。特にAI基盤のような高負荷・低遅延が求められる環境において、このフラットネットワーク構造は極めて重要な役割を果たすでしょう。
編集コメント
「ランダム性が最適解」という数学的知見を、実世界のスケーラブルなインフラとして具現化した事例は非常に貴重です。特に電力消費削減というサステナビリティの観点からも、業界全体に大きな影響を与える重要な技術転換点と言えます。
今日のデータセンターにおけるルーティングは通常、「ファットツリー」と呼ばれるデータ構造によって支配されています。これは企業の組織図に似ており、各層のノードが下の層にある複数のノードと接続しています。ここでは、最下層のノードは互いにメッセージを送信したいルーターを表し、その上の層にはルーティング手順を簡素化する追加のルーターが含まれています。ある最下層のルーターから送信されたメッセージは、宛先ルーターにつながる枝に到達するまでツリーを上り、その後下ります。この設計は実装が容易ですが非効率的です:追加のルーター層がオーバーヘッドを加え、ツリーの頂点にあるルーターは輻輳を起こしやすいのです。ファットツリー構造も脆弱で、単一のルーターが失われるとツリーの広範囲が分断されてしまいます。理論上、最良の代替案は「フラット」ネットワークであり、ここではルーター同士が直接接続されます。理想的には、経路の多様性を最大化するためにルーターをランダムに接続すべきです。しかし、これは非現実的です。なぜなら、ランダムなネットワーク内でのアドホックパスの計算は計算集約的であり、ルーターをランダムに接続するとデータセンターがケーブルで交差する状態になるからです。最近 arXiv に投稿した論文で、私たちは世界初のスケーラブルなフラットネットワーク型データセンターについて記述しました。ランダム接続の多くの利点を保持しつつ、実用的なフラットネットワークの配線を実現する受動光コンポーネント「ShuffleBox」を紹介する「準ランダム」ネットワークトポロジーを導入します。この結果得られたネットワーク設計(レジリエント・ネットワーク・グラフを意味する RNG と呼ばれます)は現在 AWS データセンターで使用されており、世界中の新規構築のデフォルトとなっています。これはルーター数を 69% 削減し、スループットを最大 33% 向上させ、ネットワーク機器の電力消費を 40% 削減すると予測されています。
ランダム性の秘密
1990 年代初頭、数学者たちはルーティングに最適なネットワークがランダムトポロジーを持つことを示しました。これは各ルーターが単に他の少数のルーターとランダムに接続するものです。これは直感に反するように思えますが、結果として全体としてのネットワークはすべてのルーターペア間に多数の異なる経路を持つことになります。ランダムネットワークはまた優れた耐性を示します。なぜなら、どの単一のルーターも他よりも重要ではないからです。1% のルーターが失われても、容量損失は約 1% に留まります。性能低下は比例して予測可能であり、壊滅的で集中するものではありません。ネットワーキング研究者たちはシミュレーションを通じてこれらの結果を検証し、ランダムでフラットなトポロジーが対応するファットツリーよりも優れたパフォーマンスを達成することを示しました。しかし、これらの結果は現実世界には持ち込めませんでした。あらゆるネットワーク設計には、パケットが宛先に到達する方法を決定する「ルーティングプロトコル」が付随します。ランダムネットワークでは、適切な一連のルーティングパスを計算して実装するには、市販のルーターに搭載されているリソースをはるかに超える多くのハードウェアリソースが必要となります。一方、ルーティング専用のハードウェアを使用するとコストが高すぎて現実的ではありません。さらに大きな問題は、データセンター内でルーターをランダムに配線することが完全に不可能であることです。
私たちの解決策は、ランダム性と決定論的コンポーネントのちょうどよい混合を持つ「準ランダム」ネットワークトポロジーを構築することです。
構造化なしでのルーティング
ファットツリーでは、階層構造自体がパケットに宛先を伝えます。そして生成される経路は最短であることが保証されています。準ランダムグラフには、活用できる明らかな構造はありません。フラットトポロジーにおけるマルチパスルーティングの標準的なアプローチは通常、市販ハードウェアに搭載されているメモリよりも 20 倍から 80 倍多くを必要とします。私たちの重要な洞察は、トポロジーのランダム構造を利用して、軽量な方法で広範な経路オプションを開けることができるという点です。
私たちのルーティングアルゴリズム「Spraypoint」には 2 つのコンポーネントがあります。送信元ルーターはトラフィックをすべての隣接ノードにランダムに「スプレー(散布)」します。各宛先ルーターには、トラフィックを供給する特定の「ウェイポイント」が用意されています。主要なスキームは、送信元から送られる各データパケットがまずランダムな隣接ノードへ行き、その後古典的な最短経路アルゴリズムによってウェイポイントへルーティングされ、そのウェイポイントが宛先へとトラフィックを供給するというものです。
スプレーの利点は、トラフィックが多様な経路で宛先に到達できる一方で、ウェイポイントが宛先付近での輻輳を防ぐことです。実装では、各宛先の周囲にさまざまな「リング」を作成し、トラフィックは各リングからより近いリングへと誘導されます。Spraypoint は隣接ノードへのスプレーにより、標準的な最短経路ルーティング技術と比較してルーター間の独立した経路をほぼ 2 倍提供します。これにより、トラフィックが輻輳する経路や故障したルーターを迂回してルーティングされる可能性が高まります。
準ランダム配線の現実化
ランダムグラフは、異なる部屋にあり数百メートル離れているかもしれない任意のペアのルーターを接続します。これがトポロジーの強みであり、ルーター間の高速通信を可能にします。しかし、それが欠点でもあります。なぜなら、このような構造を配線するのは極めて複雑だからです。
ここで私たちの準ランダム解決策が登場します。すべての接続がランダムであるのではなく、ネットワークトポロジーの特定の部分を固定します。私たちの中心的な革新は「ShuffleBox」と呼ばれる受動光デバイスです。これは片側にルーター接続用ポートを持ち、他側には他の ShuffleBox と接続されます。内部の配線は特別なパターンでシャッフルされるため、ShuffleBox 間のランダムな接続が全体として準ランダムなトポロジーをもたらします。
新しいラックが到着すると、技術者はそのルーターをローカルの ShuffleBox の利用可能なポートに挿入するだけです。他の場所での配線変更は不要です。物理的な配線の複雑さ、ケーブルの引き回し数、および設置プロセスは、論理トポロジーが準ランダムであるにもかかわらず、ファットツリーと同等です。
建設前の性能予測
新しいネットワークトポロジーでは、運用者は建設に着手する前に、容量要件やパフォーマンス要件を満たすという確信が必要です。ファットツリートポロジーには、パフォーマンスと容量制約を予測するシンプルで明確なモデルが付随しています。準ランダムグラフに対応する同等のものは存在しませんでした。
私たちは、経路長、経路数、特定のリンクにどの程度のトラフィックが到達するかなどの各種ネットワーク統計量に対する新しい数学的モデルを開発しました。これらのモデルは、運用者が設計パラメータを選択するために使用できる精密な数式を提供します。これらのモデルは、Amazon EC2 で実行された 530 プロセッサ年(単一の CPU を半千年間稼働させるのに相当)に及ぶシミュレーションを用いて徹底的に検証されました。
運用者は今やサーバー数を指定し、目標パフォーマンスレベルを設定することで、最も安価な適合トポロジーを計算でき、それが機能するという確信を持てます。
理論から生産へ
最初の準ランダムネットワークは 2024 年末にアイルランドのダブリン近郊で稼働を開始し、実際の運用トラフィックを処理しました。私たちはパフォーマンスを実際の数学的予測と比較して検証し、運用上の改善点を特定して追加の 2 つの展開に適用しました。
これらの生産用ファブリック全体でのエンドツーエンドベンチマークにおいて、私たちのフラットトポロジーはマルチパス輸送ワークロードおよびレイテンシ敏感なストレージ操作においてファットツリーのパフォーマンスと同等でした。顧客側のワークロード変更は一切必要なく、ネットワークは既存アプリケーションの下で透明に動作します。
2026 年 4 月までに、準ランダム配線は世界中のほとんどの新規 AWS データセンターにおけるデフォルトアーキテクチャとなりました。ルーター数の 69% 削減は、すべてのサイトでの電力、冷却、および運用オーバーヘッドの直接的な削減につながります。
顧客にとっては、コードを一行も変更することなく、あらゆる API 呼び出し、データベースクエリ、機械学習トレーニングジョブの背後に、より耐性の高いインフラストラクチャが存在することを意味します。
原文を表示
Routing in today’s data centers is usually governed by a data structure called a “fat tree”, which is similar to a corporate organizational chart, with nodes in each layer connecting to multiple nodes in the layer below. Here, however, the nodes of the bottom layer represent routers that want to send messages to each other, and the layers above them contain extra routers that simplify the routing procedure. A message sent by one bottom-layer router climbs the tree until it reaches the branch that leads to the destination router, and then it is sent down. This design is easy to implement but inefficient: the extra layers of routers add overhead, and routers at the top of the tree are prone to congestion. The fat-tree structure is also fragile, since the loss of a single router can cut off large regions of the tree. Theoretically, the best alternative is a “flat” network, in which the routers connect directly to each other. Ideally, one should connect the routers randomly, to maximize the diversity of routes through the network. But this is impractical, because calculating ad hoc paths through a random network is computationally intensive, and randomly connecting routers leads to data centers criss-crossed with wires. In a paper we recently posted to arXiv, we describe the first ever scalable flat-network datacenter. We introduce a “quasi-random” network topology that preserves many of the benefits of random connection and a passive optical component we call a ShuffleBox, which makes it practical to cable a flat network. The resulting network design — which we call RNG, for resilient network graphs — is now used in AWS data centers and is the default for most new builds globally. It uses 69% fewer routers, delivers up to 33% better throughput, and projects a 40% reduction in network equipment electricity consumption. The secret of randomness In the early 1990s, mathematicians showed that the optimal network for routing has a random topology, in which each router simply connects randomly to a few others. This is quite counterintuitive, but the overall network ends up having lots of different paths between all pairs of routers. Random networks also demonstrate excellent resilience, since no single router is more important than any other. The loss of 1% of routers results in a roughly 1% capacity loss. Degradation is proportional and predictable rather than catastrophic and concentrated. Networking researchers have also validated these results through simulations, showing that random, flat topologies achieve better performance than the corresponding fat trees. But these results couldn’t make it in the real world. Any network design comes with a “routing protocol” that decides how packets reach their destinations. In a random network, computing and implementing the right set of routing paths can take a lot of hardware resources — well beyond what is present in commodity routers. On the other hand, using dedicated hardware for routing would be cost prohibitive. An even bigger problem is that cabling routers randomly in a datacenter is completely infeasible. Our solution is to build a “quasi-random” network topology that has exactly the right mix of random and deterministic components. Routing without structure In a fat tree, the hierarchy itself tells packets where to go. And the paths generated are guaranteed to be the shortest possible. In a quasi-random graph, there is no obvious structure to exploit. Standard approaches to multipath routing in flat topologies typically require 20 to 80 times more memory than commodity hardware is equipped with. Our key insight is that we can exploit the random structure of the topology to open up a wide range of path options in a lightweight manner. Our routing algorithm, Spraypoint, has two components. The source router “sprays” its traffic randomly to all of its neighbors. Every (destination) router has some designated “waypoints” that feed traffic to it. The main scheme is that each data packet sent from the source goes to a random neighbor, after which the classic shortest-path algorithm routes it to a waypoint, and the waypoints feed it to the destination. The utility of spraying is that traffic can take a wide variety of paths to the destination, while the waypoints prevent traffic from congesting near the destination. In the implementation, we create various “rings” around each destination, and traffic is guided from each ring to a closer ring. By spraying to neighbors, Spraypoint provides nearly twice as many independent paths between routers as standard shortest-path routing techniques. This improves the likelihood that traffic will be routed around congested pathways or failed routers. Making quasi-random cabling practical A random graph connects arbitrary pairs of routers that may sit in different rooms, hundreds of meters apart. This is the strength of the topology, since it allows for fast communication between routers. But that is also its drawback, since cabling such a structure is extremely complicated. This is where our quasi-random solution comes in. Instead of all connections being random, we fix specific parts of the network topology. Our central innovation is a passive optical device called a ShuffleBox. It has router-facing ports on one side and connects to other ShuffleBoxes on the other side. The internal wires are shuffled according to a special pattern, so that random connections between the ShuffleBoxes lead to an overall quasi-random topology. When a new rack arrives, a technician plugs its router into an available port on the local ShuffleBox. No rewiring elsewhere. The physical-cabling complexity, the number of cable runs, and the installation process are on par with those of a fat tree, even though the logical topology is quasi-random. Predicting performance before construction With any new network topology, operators need confidence that it will meet capacity and performance requirements before they commit to construction. Fat-tree topologies come with simple, well-defined models that predict performance and capacity constraints. No equivalent existed for quasi-random graphs. We developed new mathematical models for various network statistics, such as path lengths, the number of routes, and how much traffic will end up on a particular link. These models give precise formulas that network operators can use to choose design parameters. We validated those models extensively, using 530 processor-years of simulation, the equivalent of running a single CPU for half a millennium, executed on Amazon EC2. An operator can now specify a server count and a target performance level, compute the cheapest compliant topology, and be confident that it will work. From theory to production The first quasi-random network went live near Dublin, Ireland, at the end of 2024, carrying real production traffic. We validated performance against the mathematical predictions, identified operational refinements, and applied them in two additional deployments. In end-to-end benchmarks across these production fabrics, our flat topology matched fat-tree performance for multipath-transport workloads and latency-sensitive storage operations. No customer workload changes were required, and the network operates transparently beneath existing applications. By April 2026, quasi-random wiring became the default architecture for most new AWS data centers globally. The 69% reduction in the number of routers translates directly into reduced power, cooling, and operational overhead at every site. For customers, it means more resilient infrastructure behind every API call, database query, and machine learning training job, without changing a single line of code.
関連記事
Amazon Research Awards の受賞者が発表される
アマゾン・サイエンスは、世界から集まった優れた研究提案の中から、11カ国の49大学に所属する68名の研究者をAmazon Research Awardsの受賞者として選定し、その結果を発表した。
AgentWatch:環境型エージェントによるAWSの予防的監視
AWS はDevOps チーム向けに、Amazon CloudWatch のアラーム管理を超えた環境型リソース監視ツール「AgentWatch」を発表した。これにより、Lambda エラーの蓄積やEC2 問題など、従来の反応的な監視では見逃されがちな事象を事前に検知できる。
Amazon Nova Act が HIPAA 適合サービスに認定される
AWS は、医療・生命科学分野向け AI エージェント「Amazon Nova Act」が HIPAA(医療保険の携帯性と責任に関する法律)の要件を満たす適合サービスとして正式に認定されたと発表した。これにより、機密性の高い患者情報の処理にも同製品を安全に導入できるようになる。