ジェネレーション13の内側:これまでで最も強力なサーバーの構築方法
CloudflareはFL2移行に伴い、AMD EPYC Turin 9965やDDR5-6400メモリなどを搭載した次世代サーバー「Gen 13」を導入し、スループットとエネルギー効率を大幅に向上させた。
キーポイント
次世代ハードウェア仕様
AMD EPYC Turin 9965(192コア)、768GB DDR5-6400メモリ、24TB PCIe 5.0 NVMeストレージ、デュアル100Gbpsネットワークカードを搭載。
パフォーマンスと効率の向上
Gen 12比で最大2倍のスループット、50%の性能/ワット効率向上、ラックあたりのスループットが60%増加し、データセンター展開コストを抑制。
FL2移行との統合設計
RustベースのFL2コアリクエスト処理層への移行により、L3キャッシュ依存が低減し、コア数増加によるスケーリングを最大化するハードウェア選定を実施。
拡張性とセキュリティ強化
PCIe暗号化ハードウェアサポートの導入、熱負荷の高いPCIeアクセラレータへの対応強化により、AI/MLワークロードや将来の拡張要件に備える。
CPU選定とコア数/キャッシュのトレードオフ
Gen 13ではL3キャッシュを大幅に削減する代わりにコア数を192まで増やしたAMD Turin 9965を採用し、スループットを最大100%向上させた。
FL2移行によるワークロードの最適化
Rustで書き直されたFL2層はL3キャッシュ依存度が低下し、コア数にほぼ線形にスケールするため、Gen 12比でハードウェアスレッドが2倍となった。
パフォーマンスとTCOの優位性
9965は総リクエスト処理数(RPS)とワットあたりのパフォーマンスが最も高く、500W TDPでのラックレベルTCOに優れるため最終的に採用された。
影響分析・編集コメントを表示
影響分析
本記事は、大規模クラウド事業者が次世代サーバーハードウェアを採用してインフラ基盤の効率化を図る業界トレンドを示している。特にエネルギーコストとスループットの両立は、AIモデルの大規模トレーニング・推論インフラにとって無視できない要素であり、クラウドプロバイダー間の競争がハードウェア最適化段階へと移行していることを示唆する。
編集コメント
クラウド事業者のハードウェア刷新は、AI推論インフラのコスト効率化とスケーラビリティを直接支える基盤整備である。ソフトウェアスタックとの統合設計が進む中、次世代CPUと高速ストレージ/ネットワークの組み合わせが業界標準となりつつある。
数ヶ月前、Cloudflare は FL2 への移行を発表しました。これは Cloudflare のコアリクエスト処理層を Rust で書き直したものです。この移行により、誰もがより良いインターネットを構築するための支援能力が加速されます。ソフトウェアスタックの移行に伴い、Cloudflare はサーバーハードウェア設計を見直し、ネットワークとソフトウェアスタックの進化に対応するよう、ハードウェア性能を向上させ、効率を改善しました。Gen 13 は、192 コア AMD EPYC™ Turin 9965 プロセッサ、768 GB の DDR5-6400 メモリ、24 TB の PCIe 5.0 NVMe ストレージ、そしてデュアル 100 GbE ポートネットワークインターフェースカードを備えて設計されています。
Gen 13 が提供するもの:
Gen 12 と比較して最大 2 倍のスループットを実現し、レイテンシ SLA の範囲内で維持
ワットあたりのパフォーマンス効率が最大 50% 向上し、データセンターの拡張コストを削減
ラック電力予算を一定に保ったまま、ラックあたりスループットが最大 60% 向上
メモリ容量は 2 倍、ストレージ容量は 1.5 倍、ネットワーク帯域幅は 4 倍
メモリ暗号化に加え、PCIe 暗号化ハードウェアサポートを導入
熱負荷の高い高性能なドロップイン PCIe アクセラレータに対するサポートを改善
本ブログ記事では、各主要コンポーネントの選定におけるエンジニアリング上の根拠、すなわち何を評価し、何を選び、なぜそれを選んだのかについて解説します。
世代
Gen 13 コンピューティング
前世代 Gen 12 コンピューティング
フォームファクタ
2U1N、シングルソケット
2U1N、シングルソケット
プロセッサ
AMD EPYC™ 9965 Turin 192 コア プロセッサ
AMD EPYC™ 9684X Genoa-X 96 コア プロセッサ
メモリ
DDR5-6400 x12 メモリチャネル搭載の 768GB
DDR5-4800 x12 メモリチャネル 384GB
ストレージ
x3 E1.S NVMe
Samsung PM9D3a 7.68TB / Micron 7600 Pro 7.68TB
x2 E1.S NVMe
Samsung PM9A3 7.68TB / Micron 7450 Pro 7.68TB
ネットワーク
デュアル 100 GbE OCP 3.0 (Open Compute Project)
Intel Ethernet Network Adapter E830-CDA2 / NVIDIA Mellanox ConnectX-6 Dx
デュアル 25 GbE OCP 3.0
Intel Ethernet Network Adapter E810-XXVDA2 / NVIDIA Mellanox ConnectX-6 Lx
システム管理
DC-SCM 2.0 ASPEED AST2600 (BMC) + AST1060 (HRoT)
DC-SCM 2.0 ASPEED AST2600 (BMC) + AST1060 (HRoT)
電源供給装置
1300W, Titanium Grade
800W, Titanium Grade

図:Gen 13 サーバー
CPU
Gen 12
AMD EPYC™ 9684X Genoa-X 96 コア (TDP 400W, L3 キャッシュ 1152 MB)
Gen 13
AMD EPYC™ 9965 Turin Dense 192 コア (TDP 500W, L3 キャッシュ 384 MB)
設計フェーズにおいて、Cloudflare のハードウェアラボでは、コードネーム「Turin」の複数の第 5 世代 AMD EPYC™ プロセッサを評価しました。具体的には、AMD Turin 9755、AMD Turin 9845、および AMD Turin 9965 です。以下の表は、Gen 13 サーバーの候補と、Gen 12 サーバーで採用されている AMD Genoa-X 9684X の仕様差を要約したものです。特筆すべき点は、これら 3 つの候補はいずれもコア数が増加する一方で、コアあたりの L3 キャッシュ容量は減少していることです。しかし、FL2 への移行により、新しいワークロードは L3 キャッシュへの依存度が低下しており、増加したコア数に対してよくスケールするため、スループットを最大で 100% 向上させることが可能になります。
3 つの CPU 候補は異なるユースケースを対象に設計されています。AMD Turin 9755 は優れたコアあたりのパフォーマンスを提供し、AMD Turin 9965 はコアあたりのパフォーマンスと引き換えに効率性を追求しており、AMD Turin 9845 はコア数と引き換えにより低いソケット電力を実現します。私たちは、これら 3 つの CPU を本番環境で評価しました。
CPU モデル
AMD Genoa-X 9684X
AMD Turin 9755
AMD Turin 9845
AMD Turin 9965
サーバープラットフォーム向け
Gen 12
Gen 13 候補
Gen 13 候補
Gen 13 候補
CPU コア数
96
128
160
192
スレッド数
192
256
320
384
ベースクロック
2.4 GHz
2.7 GHz
2.1 GHz
2.25 GHz
最大ブーストクロック
3.7 GHz
4.1 GHz
3.7 GHz
3.7 GHz
全コアブーストクロック
3.42 GHz
4.1 GHz
3.25 GHz
3.35 GHz
総 L3 キャッシュ容量
1152 MB
512 MB
320 MB
384 MB
コアあたりの L3 キャッシュ
12 MB / コア
4 MB / コア
2 MB / コア
2 MB / コア
最大構成可能 TDP
400W
500W
390W
500W
なぜ AMD Turin 9965 を選んだのか?
まず、FL2 は L3 キャッシュの逼迫状況を解消しました。
L3 キャッシュは、同じ計算ダイ上のすべての CPU コア間で共有される大規模な最終レベルキャッシュであり、頻繁に使用されるデータを格納します。これは、CPU 外部の低速なメインメモリと、CPU 内部の高速だが容量が小さい L1 および L2 キャッシュとの間のギャップを埋め、CPU がデータにアクセスする際のレイテンシを低減します。
9965 はコアあたり 2 MB の L3 キャッシュしか持たないことに気づく人もいるかもしれません。これは、Gen 12 の Genoa-X 9684X であったコアあたり 12 MB から 83.3% の削減です。なぜ Gen 12 に優位性をもたらしたキャッシュの利点を自ら手放すのでしょうか?その答えは、当社のワークロードがどのように進化してきたかにかかっています。
Cloudflare は FL1 から FL2 へ移行し、リクエスト処理層を Rust で完全に書き直しました。新しいソフトウェアスタックにより、Cloudflare のリクエスト処理パイプラインは大容量の L3 キャッシュへの依存度が大幅に低下しました。FL2 ワークロードはコア数に対してほぼ線形にスケールし、9965 の 192 コアは Gen 12 に比べてハードウェアスレッドを 2 倍提供します。
第二に、総所有コスト(TCO)あたりのパフォーマンスです。本番環境での評価期間中、9965 の 192 コアは 3 つの候補の中で最も高い集計リクエスト毎秒数を達成し、そのワットあたりのパフォーマンスは 500W TDP で有利にスケーリングし、ラックレベルでの TCO に優位性をもたらしました。
Gen 12
Gen 13
プロセッサ
AMD EPYC™ 4th Gen Genoa-X 9684X
AMD EPYC™ 5th Gen Turin 9965
コア数
96C/192T
192C/384T
FL スループット
ベースライン
最大 +100%
ワットあたりのパフォーマンス
ベースライン
最大 +50%
第三に、運用の簡素化です。私たちの運用チームは、少数の高密度サーバーを強く望んでいます。192 コアマシンのファリートを管理することは、提供される計算量単位あたりのノード数を減らすことを意味し、プロビジョニング、パッチ適用、監視の対象となるノードが少なくなります。これにより、グローバルネットワーク全体での運用オーバーヘッドが直接的に削減されます。
最後に、将来互換性があります。AMD プロセッサアーキテクチャは、すべての SKU で DDR5-6400、PCIe Gen 5.0、CXL 2.0 Type 3 メモリをサポートしています。AMD Turin 9965 は、業界でソケットあたりの高性能コア数が最も多く、ソケットあたりの計算密度を最大化し、今後数年にわたりプラットフォームの競争力と関連性を維持します。AMD Genoa-X 9684X から AMD Turin 9965 へ移行することで、AMD よりも長期間のセキュリティサポートを受けられ、Gen 13 サーバーが陳腐化して刷新が必要になるまでの実用寿命を延ばすことができます。
メモリ
Gen 12
12x 32GB DDR5-4800 2Rx8 (合計 384 GB、コアあたり 4 GB)
Gen 13
12x 64GB DDR5-6400 2Rx4 (合計 768 GB、コアあたり 4 GB)
AMD Turin プロセッサは前世代の倍のコア数を備えているため、スループット向上を実現するために、容量と帯域幅の両面でより多くのメモリリソースを必要とします。
12 チャンネルによる帯域幅の最大化
選択された AMD EPYC™ 9965 CPU は12のメモリチャネルをサポートしており、Gen 13 ではそのすべてのチャネルにメモリモジュールを実装しています。私たちは「チャネルあたり1つの DIMM」(1DPC)構成で、64 GB の DDR5-6400 ECC RDIMM を選定しました。
この構成により、ソケットあたり最大 614 GB/s のメモリ帯域幅が提供され、Gen 12 サーバープラットフォームと比較して 33.3% の増加となります。すべての 12 チャネルを活用することで、最もメモリ集約的な並列ワークロード中であっても CPU がデータ不足に陥ることを確実に防ぎます。
チャネルごとの容量を均等にし、混合構成としないバランスの取れた構成で 12 チャネルすべてを実装することは、一般的なベストプラクティスです。これは運用上重要です。AMD Turin プロセッサは、同じ DIMM タイプ、同じメモリ容量、および同じランク構成を持つすべてのメモリチャネル間でインターリーブ処理を行います。インターリーブにより、連続するメモリアクセスをインターリーブセット内のすべてのメモリチャネルに分散させることで、単一のチャネルまたは少数のチャネルへのアクセスに集中させるのではなく、メモリ帯域幅が増加します。
コアあたり 4 GB の「スイートスポット」
Gen 12 サーバーはコアあたり 4 GB で構成されています。Gen 13 を設計する際に、この決定を見直しました。
Cloudflare は毎月多くの新製品やサービスをリリースしており、それぞれの新製品またはサービスがメモリ容量の増加分を要求します。これらは時間とともに蓄積し、メモリ容量が適切に sizing されていない場合、メモリ圧力の問題となる可能性があります。
初期要件では、コアあたりのメモリ容量を4GBから6GBの範囲と想定していました。AMD Turin 9965には192コア搭載されているため、これは768GBから1152GBの範囲に相当します。なお、より高い容量においては、DIMMモジュールの容量粒度は通常16GB刻みとなります。1DPC構成で12チャンネルある場合、選択肢は「12枚×48GB(合計576GB)」「12枚×64GB(合計768GB)」、あるいは「12枚×96GB(合計1152GB)」の3つです。
12枚×48GB=576GB、すなわちスレッドあたり1.5GBとなります。この構成ではメモリ容量が低すぎます。メモリを多く必要とするワークロードを枯渇させ、下限要件にも違反してしまいます。
12枚×96GB=1152GB、すなわちスレッドあたり3.0GBとなります。これはコアあたりの容量が50%増加することになり、さらに電力消費が増大し、コストも大幅に上昇します。特に現在の市場状況では、メモリ価格が1年前の約10倍となっているためです。
12枚×64GB=768GB、すなわちスレッドあたり2.0GB(コアあたり4GB)となります。この構成はGen 12におけるメモリ対コア比と整合しており、サーバーあたりのメモリ容量が2倍に増加したことを意味します。コアあたり4GBというメモリ容量構成を維持することで、コア数に応じてスケールするワークロード(当社の主要なワークロードであるFLなど)に対して十分な容量を提供できるとともに、過剰なプロビジョニングを行わずとも、将来の成長に対応できる十分なメモリ余裕度を確保できます。
FL2 は FL1 よりもメモリをより効率的に使用します:内部測定によると、FL2 の CPU 使用量は FL1 の半分未満であり、メモリ使用量も半分以上少ないことが示されています。ソフトウェアスタックの移行によって解放された容量は、今後数年間の Cloudflare の成長を支えるのに十分な余裕を提供しています。
決定事項:12x 64GB で合計 768 GB。これは、実証済みのコアあたり 4 GB という比率を維持しつつ、Gen 12 と比較して総容量を 2 倍に増やし、DIMM のコストカーブにおける最適なポイント内に収まるように設計されています。
二重ランクによる効率化
Gen 12 では、デュアルランク DIMM がシングルランクモジュールよりも測定可能な高いメモリスループットを提供することを示しました。読み書き比が 1:1 の場合、最大で 17.8% の優位性があります。デュアルランク DIMM が高速なのは、メモリーコントローラーが一方のランクにアクセスしている間に、もう一方のランクがリフレッシュ処理を行うことができるためです。この同じ原理が今回も引き継がれています。
要件として、ハードウェアスレッドあたり約 1 GB/s のメモリ帯域幅が必要とされています。384 スレッド全体でピーク帯域幅 614 GB/s を提供するため、スレッドあたり 1.6 GB/s を実現し、最低要件を余裕を持って上回っています。本番環境での分析により、Cloudflare のワークロードはメモリ帯域幅に制約されないことが示されており、この余剰分は将来のワークロード成長に対するマージンとして確保しています。
最大サポート速度である 6400MT/s で動作する 2Rx4 DDR5 RDIMM を採用することで、Gen 13 プラットフォームのメモリ構成から最低レイテンシと最高のパフォーマンスを引き出すことを保証します。
ストレージ
Gen 12
x2 E1.S NVMe PCIe 4.0、合計 16 TB
Samsung PM9A3 7.68TB
Micron 7450 Pro 7.68TB
Gen 13
x3 E1.S NVMe PCIe 5.0, 合計 24 TB
Samsung PM9D3a 7.68TB
Micron 7600 Pro 7.68TB
+10x U.2 NVMe PCIe 5.0 オプション
Gen 12 で M.2 から EDSFF E1.S(Extended Data Storage Form Factor)へ転換した際、当社のストレージアーキテクチャは変革を遂げました。Gen 13 では、最新技術に合わせるためストレージ容量と帯域幅を増強しています。また、Cloudflare のストレージ製品成長に対応できるよう、最大 10 台の U.2 ドライブを追加できるフロントドライブベイも新設しました。
PCIe 5.0 への移行
Gen 13 は、PCIe Gen 5.0 NVMe ドライブで構成されています。Gen 4.0 は我々にとって十分機能していましたが、Gen 5.0 へ移行することで、ストレージサブシステムがより低いレイテンシでデータを供給でき、新プロセッサからの増加するストレージ帯域幅の需要にも対応できるようになります。
16 TB から 24 TB
速度の向上に加え、アレイを物理的に NVMe ドライブ 2 基から 3 基へ拡張しています。Gen 12 サーバープラットフォームは E1.S ストレージドライブスロットが 4 つ用意されていましたが、実際には 8TB ドライブが 2 つのスロットにのみ搭載されていました。一方、Gen 13 サーバープラットフォームも同じ設計で E1.S ストレージドライブスロットが 4 つ利用可能ですが、そのうち 3 つのスロットに 8TB ドライブを搭載しています。なぜ第 3 のドライブを追加するのかというと、サーバーあたりのストレージ容量を 16TB から 24TB に増やし、CDN キャッシュパフォーマンスの維持と向上のためにグローバルなストレージ容量を拡大するためです。これにより、Durable Objects、Containers、Quicksilver サービスの成長予測にも対応できます。
追加ドライブをサポートするフロントドライブベイ
Gen 13 では、最大 10 基の U.2 PCIe Gen 5.0 NVMe ドライブ(U.2: Unified Form Factor for Storage, PCIe Gen 5.0: Peripheral Component Interconnect Express Generation 5.0)をサポートするフロントドライブベイを備えたシャーシが設計されています。このフロントドライブベイにより、Cloudflare は計算プラットフォームとストレージプラットフォームで同じシャーシを使用できるほか、必要に応じて計算用 SKU(Stock Keeping Unit: 在庫管理単位)からストレージ用 SKU へ柔軟に切り替えることも可能になります。
エンドurance と信頼性
当社のサーバーは 5 年間の運用寿命を持つように設計されており、サーバーの全期間を通じて 1 DWPD(Drive Writes Per Day: ドライブ 1 日あたりの書き込み量)を維持できるストレージドライブのエンドurance が要求されます。
Samsung PM9D3a および Micron 7600 Pro は、いずれも約 7% のハードウェアオーバープロビジョニング(OP)により、1 DWPD 仕様を満たしています。将来のワークロードプロファイルでより高い耐久性が求められる場合、有効な OP を増加させるために、追加のユーザー容量を保持するオプションがあります。
NVMe 2.0 および OCP NVMe 2.0 の準拠
Samsung PM9D3a と Micron 7600 は、両方とも NVMe 1.4 からアップグレードされた NVMe 2.0 仕様と、OCP NVMe Cloud SSD Specification 2.0 に準拠しています。主な改善点には、書き込み増幅の管理を改善するための Zoned Namespaces(ZNS)、PCIe バスを跨がずにデバイス内でのデータ移動を可能にする Simple Copy Command、より厳格なセキュリティ制御のための強化されたコマンドおよび機能ロックダウンが含まれます。OCP 2.0 仕様では、データセンター運用に特化したより深いテレメトリとデバッグ機能も追加されており、これは当社のファーム全体での管理可能性への重点的な取り組みと一致しています。
熱効率
ストレージドライブは引き続き E1.S 15mm フォームファクタを採用します。この高表面積デザインは、持続的な重い I/O 下で最大 25W を消費する新しい Gen 5.0 コントローラーを冷却するために不可欠です。2U チェーシスは、E1.S ドライブおよび U.2 ドライブベイ全体に十分な空気流を提供します。これは、Gen 12 で 1U から 2U への移行を決断した際に検証された設計上の利点です。
ネットワーク
Gen 12
デュアル 25 GbE ポート OCP 3.0 NIC
Intel E810-XXVDA2
NVIDIA Mellanox ConnectX-6 Lx
Gen 13
デュアル 100 GbE ポート OCP 3.0 NIC
Intel E830-CDA2
NVIDIA Mellanox ConnectX-6 Dx
8 年以上にわたり、デュアル 25 GbE が当社の艦隊の基盤でした。2018 年以来、私たちはこれにより大きな恩恵を受けてきましたが、CPU の性能向上によりより多くのリクエストに応え、製品がスケールするにつれて、ついに壁にぶつかってしまいました。Gen 13 では、ポートあたりの帯域幅を 4 倍に引き上げます。
なぜ 100 GbE で、なぜ今なのか?
ネットワークインターフェースカード(NIC)の帯域幅は、計算性能の成長に合わせて維持されなければなりません。現代のコアが 192 個ある当社のシステムにおいて、25 GbE のリンクは明確なボトルネックとなる可能性があります。世界中の共同ホスティング施設から収集した 1 週間の生産データによると、Gen 12 ではポートあたりの P95 帯域幅が利用可能な帯域幅の常に 50% を超えています。Gen 13 ではサーバーあたりのスループットが倍増するため、NIC の帯域幅が飽和するリスクがあります。
image
図:Gen 12 では、ポートあたりの P95 帯域幅は利用可能な帯域幅の常に 50% を超えています
50 GbE ではなく 100 GbE に移行する決定は、業界経済によって導かれました。50 GbE のトランシーバの市場規模は依然として低く、サプライチェーンにおける賭けとしては不適切です。また、デュアル 100 GbE ポートを採用することで、サーバーあたりの集約帯域幅が 200 Gb/s となり、今後数年間のトラフィック成長に対して将来性のある設計となります。
ハードウェアの選択と互換性
サプライチェーンの回復力を確保するため、私たちはデュアルベンダー戦略を維持しています。これはパンデミック時に、Gen 11 の NIC を単一調達したことが混乱を招いたという教訓から学んだものです。
両方の NIC は、統合されたプルタブ付きの OCP 3.0 SFF/TSFF フォームファクターに準拠しており、Gen 12 とシャーシの共通性を維持しています。これにより、現場の技術者が交換作業のために新しい工具や訓練を必要としません。
PCIe アロケーション
OCP 3.0 NIC スロットには、マザーボード上で PCIe 4.0 x16 ラーンが割り当てられており、双方向で 256 Gb/s の帯域幅を提供します。これはデュアル 100 GbE(合計 200 Gb/s)を十分にサポートし、さらに余裕があります。
管理
Gen 12
Project Argus Data Center Secure Control Module 2.0
Gen 13
Project Argus Data Center Secure Control Module 2.0
PCIe 暗号化
私たちは、Gen 12 で導入されたアーキテクチャの転換を維持しています。これは、管理およびセキュリティ関連コンポーネントをマザーボードから Project Argus Data Center Secure Control Module 2.0(プロジェクト・アルゴス データセンター セキュア コントロール モジュール 2.0)へ分離するものです。

図:Project Argus DC-SCM 2.0
DC-SCM 2.0 との継続性
私たちは、データセンター用セキュリティ制御モジュール 2.0(DC-SCM 2.0)規格を継承しています。管理機能とセキュリティ機能をマザーボードから分離することで、サーバーのセキュリティにおける「頭脳」がモジュラーかつ保護された状態であることを保証します。
DC-SCM モジュールには、私たちの最も重要なコンポーネントが収められています:
基本入出力システム(BIOS)
基板管理コントローラ(BMC)
ハードウェア・ルート・オブ・トラスト(HRoT)および TPM(Infineon SLB 9672)
冗長性を備えたデュアル BMC/BIOS フラッシュチップ
DC-SCM 2.0 に引き続き取り組む理由
Gen 13 でこのアーキテクチャを維持する決定は、前世代で確認されたセキュリティ上の利点に基づいています。これらの機能を専用モジュールにオフロードすることで、以下を維持します:
迅速な復旧: ダブルイメージ冗長性により、誤った破損や悪意のあるアップデートが検出された場合、BIOS/UEFI および BMC ファームウェアのほぼ即時復元が可能になります。
物理的な耐性: Gen 13 のシャーシでは、侵入検知機構をシャーシの平坦なエッジからさらに遠ざけることで、物理的な傍受を困難にしています。
PCIe 暗号化: Gen 10 プラットフォーム以来有効になっている CPU からメモリへの暗号化である TSME(透明性のあるセキュア・メモリー・エンクリプション)に加え、Gen 13 の AMD Turin 9965 プロセッサは、PCIe トラフィックへの暗号化を拡張します。これにより、システム内のすべてのバスを通過するデータが転送中に保護されます。
運用の一貫性:Gen 12 の管理スタックを引き続き採用することで、セキュリティ監査、デプロイメント、プロビジョニング、および運用標準手順は完全に互換性を保たれます。
電力
Gen 12
800W 80 PLUS Titanium CRPS
Gen 13
1300W 80 PLUS Titanium CRPS
サーバーの計算能力とネットワーク機能をアップグレードするにつれて、サーバーの電力要件(パワーエンベロープ)は自然に拡大しました。Gen 13 は必要な電力を供給できるよう、より大容量の電源ユニットを搭載しています。
1300W への飛躍
Gen 12 ノードは 800W 80 PLUS Titanium CRPS(Common Redundant Power Supply:共通冗長電源装置)で快適に動作していましたが、Gen 13 の仕様ではより大容量の電源ユニットが必要です。そこで私たちは 1300W 80 PLUS Titanium CRPS を選定しました。
典型的な運用時の Gen 13 の消費電力は 850W に上昇し、Gen 12 で見られた 600W と比較して 250W の増加となりました。主な要因は、TDP(熱設計電力)が 400W から 500W に向上した CPU、メモリ容量の倍増、および追加された NVMe ドライブです。
なぜ 1000W でなく 1300W か?現在の電源ユニット(PSU:Power Supply Unit)エコシステムには、1000W で実用的かつ高効率な選択肢が不足しています。サプライチェーンの信頼性を確保するため、私たちは業界標準の次の段階である 1300W に移行しました。
EU Lot 9 は、再
原文を表示
A few months ago, Cloudflare announced the transition to FL2, our Rust-based rewrite of Cloudflare's core request handling layer. This transition accelerates our ability to help build a better Internet for everyone. With the migration in the software stack, Cloudflare has refreshed our server hardware design with improved hardware capabilities and better efficiency to serve the evolving demands of our network and software stack. Gen 13 is designed with 192-core AMD EPYC™ Turin 9965 processor, 768 GB of DDR5-6400 memory, 24 TB of PCIe 5.0 NVMe storage, and dual 100 GbE port network interface card.
Gen 13 delivers:
Up to 2x throughput compared to Gen 12 while staying within latency SLA
Up to 50% improvement in performance / watt efficiency, reducing data center expansion costs
Up to 60% higher throughput per rack keeping rack power budget constant
2x memory capacity, 1.5x storage capacity, 4x network bandwidth
Introduced PCIe encryption hardware support in addition to memory encryption
Improved support for thermally demanding powerful drop-in PCIe accelerators
This blog post covers the engineering rationale behind each major component selection: what we evaluated, what we chose, and why.
Generation
Gen 13 Compute
Previous Gen 12 Compute
Form Factor
2U1N, Single socket
2U1N, Single socket
Processor
AMD EPYC™ 9965
Turin 192-Core Processor
AMD EPYC™ 9684X
Genoa-X 96-Core Processor
Memory
768GB of DDR5-6400 x12 memory channel
384GB of DDR5-4800 x12 memory channel
Storage
x3 E1.S NVMe
Samsung PM9D3a 7.68TB /
Micron 7600 Pro 7.68TB
x2 E1.S NVMe
Samsung PM9A3 7.68TB /
Micron 7450 Pro 7.68TB
Network
Dual 100 GbE OCP 3.0
Intel Ethernet Network Adapter E830-CDA2 /
NVIDIA Mellanox ConnectX-6 Dx
Dual 25 GbE OCP 3.0
Intel Ethernet Network Adapter E810-XXVDA2 /
NVIDIA Mellanox ConnectX-6 Lx
System Management
DC-SCM 2.0 ASPEED AST2600 (BMC) + AST1060 (HRoT)
DC-SCM 2.0 ASPEED AST2600 (BMC) + AST1060 (HRoT)
Power Supply
1300W, Titanium Grade
800W, Titanium Grade
image
Figure: Gen 13 server
CPU
Gen 12
AMD EPYC™ 9684X Genoa-X 96-Core (400W TDP, 1152 MB L3 Cache)
Gen 13
AMD EPYC™ 9965 Turin Dense 192-Core (500W TDP, 384 MB L3 Cache)
During the design phase, we evaluated several 5th generation AMD EPYC™ Processors, code-named Turin, in Cloudflare’s hardware lab: AMD Turin 9755, AMD Turin 9845, and AMD Turin 9965. The table below summarizes the differences in specifications of the candidates for Gen 13 servers against the AMD Genoa-X 9684X used in our Gen 12 servers. Notably, all three candidates offer increases in core count but with smaller L3 cache per core. However, with the migration to FL2, the new workloads are less dependent on L3 cache and scale up well with the increased core count to achieve up to 100% increase in throughput.
The three CPU candidates are designed to target different use cases: AMD Turin 9755 offers superior per-core performance, AMD Turin 9965 trades per-core performance for efficiency, and AMD Turin 9845 trades core count for lower socket power. We evaluated three CPUs in the production environment.
CPU Model
AMD Genoa-X 9684X
AMD Turin 9755
AMD Turin 9845
AMD Turin 9965
For server platform
Gen 12
Gen 13 candidate
Gen 13 candidate
Gen 13 candidate
of CPU Cores
96
128
160
192
of Threads
192
256
320
384
Base Clock
2.4 GHz
2.7 GHz
2.1 GHz
2.25 GHz
Max Boost Clock
3.7 GHz
4.1 GHz
3.7 GHz
3.7 GHz
All Core Boost Clock
3.42 GHz
4.1 GHz
3.25 GHz
3.35 GHz
Total L3 Cache
1152 MB
512 MB
320 MB
384 MB
L3 cache per core
12 MB / core
4 MB / core
2 MB / core
2 MB / core
Maximum configurable TDP
400W
500W
390W
500W
Why AMD Turin 9965?
First, FL2 ended the L3 cache crunch.
L3 cache is the large, last-level cache shared among all CPU cores on the same compute die to store frequently used data. It bridges the gap between slow main memory external to the CPU, and the fast but smaller L1 and L2 cache on the CPU, reducing the latency for the CPU to access data.
Some may notice that the 9965 has only 2 MB of L3 cache per core, an 83.3% reduction from the 12 MB per core on Gen 12’s Genoa-X 9684X. Why trade away the very cache advantage that gave Gen 12 its edge? The answer lies in how our workloads have evolved.
Cloudflare has migrated from FL1 to FL2, a complete rewrite of our request handling layer in Rust. With the new software stack, Cloudflare’s request processing pipeline has become significantly less dependent on large L3 cache. FL2 workloads scale nearly linearly with core count, and the 9965’s 192 cores provide a 2x increase in hardware threads over Gen 12.
Second, performance per total cost of ownership (TCO). During production evaluation, the 9965’s 192 cores delivered the highest aggregate requests per second of the three candidates, and its performance-per-watt scaled favorably at 500W TDP, yielding superior rack-level TCO.
Gen 12
Gen 13
Processor
AMD EPYC™ 4th Gen Genoa-X 9684X
AMD EPYC™ 5th Gen Turin 9965
Core count
96C/192T
192C/384T
FL throughput
Baseline
Up to +100%
Performance per watt
Baseline
Up to +50%
Third, operational simplicity. Our operational teams have a strong preference for fewer, higher-density servers. Managing a fleet of 192-core machines means fewer nodes to provision, patch, and monitor per unit of compute delivered. This directly reduces operational overhead across our global network.
Finally, they are forward compatible. The AMD processor architecture supports DDR5-6400, PCIe Gen 5.0, CXL 2.0 Type 3 memory across all SKUs. AMD Turin 9965 has the highest number of high-performing cores per socket in the industry, maximizing the compute density per socket, maintaining competitiveness and relevance of the platform for years to come. By moving to AMD Turin 9965 from AMD Genoa-X 9684X, we get longer security support from AMD, extending the useful life of the Gen 13 server before they become obsolete and need to be refreshed.
Memory
Gen 12
12x 32GB DDR5-4800 2Rx8 (384 GB total, 4 GB/core)
Gen 13
12x 64GB DDR5-6400 2Rx4 (768 GB total, 4 GB/core)
Because the AMD Turin processor has twice the core count of the previous generation, it demands more memory resources, both in capacity and in bandwidth, to deliver throughput gains.
Maximizing bandwidth with 12 channels
The chosen AMD EPYC™ 9965 CPU supports twelve memory channels, and for Gen 13, we are populating every single one of them. We’ve selected 64 GB DDR5-6400 ECC RDIMMs in a “one DIMM per channel” (1DPC) configuration.
This setup provides 614 GB/s of peak memory bandwidth per socket, a 33.3% increase compared to our Gen 12 server platform. By utilizing all 12 channels, we ensure that the CPU is never “starved” for data, even during the most memory-intensive parallel workloads.
Populating all twelve channels in a balanced configuration — equal capacity per channel, with no mixed configurations — is common best practice. This matters operationally: AMD Turin processors interleave across all memory channels with the same DIMM type, same memory capacity and same rank configuration. Interleaving increases memory bandwidth by spreading contiguous memory access across all memory channels in the interleave set instead of sending all memory access to a single or a small subset of memory channels.
The 4 GB per core “sweet spot”
Our Gen 12 servers are configured with 4GB per core. We revisited that decision as we designed Gen 13.
Cloudflare launches a lot of new products and services every month, and each new product or service demands an incremental amount of memory capacity. These accumulate over time and could become an issue of memory pressure, if memory capacity is not sized appropriately.
Initial requirement considered a memory-to-core ratio between 4 GB and 6 GB per core. With 192 cores on the AMD Turin 9965, that translates to a range of 768 GB to 1152 GB. Note that at higher capacities, DIMM module capacity granularity are typically 16GB increments. With 12 channels in a 1DPC configuration, our options are 12x 48GB (576 GB), 12x 64GB (768 GB), or 12x 96GB (1152 GB).
12x 48GB = 576 GB, or 1.5 GB/thread. The memory capacity of this configuration is too low; this would starve memory-hungry workloads and violate the lower bound.
12x 96GB = 1152 GB, or 3.0 GB/thread. This would be a 50% capacity increase per core and would also result in higher power consumption and a substantial increase in cost, especially in the current market conditions where memory prices are 10x of what they were a year ago.
12x 64GB = 768 GB, or 2.0 GB/thread (4 GB/core). This configuration is consistent with our Gen 12 memory to core ratio, and represents a 2x increase in memory capacity per server. Keeping the memory capacity configuration at 4 GB per core provides sufficient capacity for workloads that scale with core count, like our primary workload, FL, and provide sufficient memory capacity headroom for future growth without overprovisioning.
FL2 uses memory more efficiently than FL1 did: our internal measures show FL2 uses less than half the CPU of FL1, and far less than half the memory. The capacity freed up by the software stack migration provides ample headroom to support Cloudflare growth for the next few years.
The decision: 12x 64GB for 768 GB total. This maintains the proven 4 GB/core ratio, provides a 2x total capacity increase over Gen 12, and stays within the DIMM cost curve sweet spot.
Efficiency through dual rank
In Gen 12, we demonstrated that dual-rank DIMMs provide measurably higher memory throughput than single-rank modules, with advantages of up to 17.8% at a 1:1 read-write ratio. Dual-rank DIMMs are faster because they allow the memory controller to access one rank while another is refreshing. That same principle carries forward here.
Our requirement also calls for approximately 1 GB/s of memory bandwidth per hardware thread. With 614 GB/s of peak bandwidth across 384 threads, we deliver 1.6 GB/s per thread, comfortably exceeding the minimum. Production analysis has shown that Cloudflare workloads are not memory-bandwidth-bound, so we bank the headroom as margin for future workload growth.
By opting for 2Rx4 DDR5 RDIMMs at maximum supported 6400MT/s, we ensure we get the lowest latency and best performance from our Gen 13 platform memory configuration.
Storage
Gen 12
x2 E1.S NVMe PCIe 4.0, 16 TB total
Samsung PM9A3 7.68TB
Micron 7450 Pro 7.68TB
Gen 13
x3 E1.S NVMe PCIe 5.0, 24 TB total
Samsung PM9D3a 7.68TB
Micron 7600 Pro 7.68TB
+10x U.2 NVMe PCIe 5.0 option
Our storage architecture underwent a transformation in Gen 12 when we pivoted from M.2 to EDSFF E1.S. For Gen 13, we are increasing the storage capacity and the bandwidth to align with the latest technology. We have also added a front drive bay for flexibility to add up to 10x U.2 drives to keep pace with Cloudflare storage product growth.
The move to PCIe 5.0
Gen 13 is configured with PCIe Gen 5.0 NVMe drives. While Gen 4.0 served us well, the move to Gen 5.0 ensures that our storage subsystem can serve data at improved latency, and keep up with increased storage bandwidth demand from the new processor.
16 TB to 24 TB
Beyond the speed increase, we are physically expanding the array from two to three NVMe drives. Our Gen 12 server platform was designed with four E1.S storage drive slots, but only two slots were populated with 8TB drives. The Gen 13 server platform uses the same design with four E1.S storage drive slots available, but with three slots populated with 8TB drives. Why add a third drive? This increases our storage capacity per server from 16TB to 24TB, ensuring we are expanding our global storage capacity to maintain and improve CDN cache performance. This supports growth projections for Durable Objects, Containers, and Quicksilver services, too.
Front drive bay to support additional drives
For Gen 13, the chassis is designed with a front drive bay that can support up to ten U.2 PCIe Gen 5.0 NVMe drives. The front drive bay provides the option for Cloudflare to use the same chassis across compute and storage platforms, as well as the flexibility to convert a compute SKU to a storage SKU when needed.
Endurance and reliability
We designed our servers to have a 5-year operational life and require storage drives endurance to sustain 1 DWPD (Drive Writes Per Day) over the full server lifespan.
Both the Samsung PM9D3a and Micron 7600 Pro meet the 1 DWPD specification with a hardware over-provisioning (OP) of approximately 7%. If future workload profiles demand higher endurance, we have the option to hold back additional user capacity to increase effective OP.
NVMe 2.0 and OCP NVMe 2.0 compliance
Both the Samsung PM9D3a and Micron 7600 adopt the NVMe 2.0 specification (up from NVMe 1.4) and the OCP NVMe Cloud SSD Specification 2.0. Key improvements include Zoned Namespaces (ZNS) for better write amplification management, Simple Copy Command for intra-device data movement without crossing the PCIe bus, and enhanced Command and Feature Lockdown for tighter security controls. The OCP 2.0 spec also adds deeper telemetry and debug capabilities purpose-built for datacenter operations, which aligns with our emphasis on fleet-wide manageability.
Thermal efficiency
The storage drives will continue to be in the E1.S 15mm form factor. Its high-surface-area design is essential for cooling these new Gen 5.0 controllers, which can pull upwards of 25W under sustained heavy I/O. The 2U chassis provides ample airflow over the E1.S drives as well as U.2 drive bays, a design advantage we validated in Gen 12 when we made the decision to move from 1U to 2U.
Network
Gen 12
Dual 25 GbE port OCP 3.0 NIC
Intel E810-XXVDA2
NVIDIA Mellanox ConnectX-6 Lx
Gen 13
Dual 100 GbE port OCP 3.0 NIC
Intel E830-CDA2
NVIDIA Mellanox ConnectX-6 Dx
For more than eight years, dual 25 GbE was the backbone of our fleet. Since 2018 it has served us well, but as the CPU has improved to serve more requests and our products scale, we’ve officially hit the wall. For Gen 13, we are quadrupling our per-port bandwidth.
Why 100 GbE and why now?
Network Interface Card (NIC) bandwidth must keep pace with compute performance growth. With 192 modern cores, our 25 GbE links will become a measurable bottleneck. Production data from our co-locations worldwide over a week showed that, on our Gen 12, P95 bandwidth per port is consistently >50% of available bandwidth. Since throughput is doubling per server on Gen 13, we are at risk of saturating the NIC bandwidth.
image
Figure: on Gen 12, P95 bandwidth per port is consistently >50% of available bandwidth
The decision to go to 100 GbE rather than 50 GbE was driven by industry economics: 50 GbE transceiver volumes remain low in the industry, making them a poor supply chain bet. Dual 100 GbE ports also give us 200 Gb/s of aggregate bandwidth per server, future-proofing against the next several years of traffic growth.
Hardware choices and compatibility
We are maintaining our dual-vendor strategy to ensure supply chain resilience, a lesson hard-learned during the pandemic when single-sourcing the Gen 11 NIC left us scrambling.
Both NICs are compliant with OCP 3.0 SFF/TSFF form factor with the integrated pull tab, maintaining chassis commonality with Gen 12 and ensuring field technicians need no new tools or training for swaps.
PCIe Allocation
The OCP 3.0 NIC slot is allocated PCIe 4.0 x16 lanes on the motherboard, providing 256 Gb/s of bidirectional bandwidth, more than enough for dual 100 GbE (200 Gb/s aggregate) with room to spare.
Management
Gen 12
Project Argus Data Center Secure Control Module 2.0
Gen 13
Project Argus Data Center Secure Control Module 2.0
PCIe encryption
We are maintaining the architectural shift, introduced in Gen 12, of separating management and security-related components from the motherboard onto the Project Argus Data Center Secure Control Module 2.0.
image
Figure: Project Argus DC-SCM 2.0
Continuity with DC-SCM 2.0
We are carrying forward the Data Center Secure Control Module 2.0 (DC-SCM 2.0) standard. By decoupling management and security functions from the motherboard, we ensure that the “brains” of the server’s security stay modular and protected.
The DC-SCM module houses our most critical components:
Basic Input/Output System (BIOS)
Baseboard Management Controller (BMC)
Hardware Root of Trust (HRoT) and TPM (Infineon SLB 9672)
Dual BMC/BIOS flash chips for redundancy
Why we are staying the course with DC-SCM 2.0
The decision to keep this architecture for Gen 13 is driven by the proven security gains we saw in the previous generation. By offloading these functions to a dedicated module, we maintain:
Rapid recovery: Dual image redundancy allows for near-instant restoration of BIOS/UEFI and BMC firmware if an accidental corruption or a malicious update is detected.
Physical resilience: The Gen 13 chassis also moves the intrusion detection mechanism further from the flat edge of the chassis, making physical intercept harder.
PCIe encryption: In addition to TSME (Transparent Secure Memory Encryption) for CPU-to-memory encryption that was already enabled since our Gen 10 platforms, AMD Turin 9965 processor for Gen 13 extends encryption to PCIe traffic, this ensures data is protected in transit across every bus in the system.
Operational consistency: Sticking with the Gen 12 management stack means our security audits, deployment, provisioning, and operational standard procedure remain fully compatible.
Power
Gen 12
800W 80 PLUS Titanium CRPS
Gen 13
1300W 80 PLUS Titanium CRPS
As we upgrade the compute and networking capability of the server, the power envelope of our servers has naturally expanded. Gen 13 are equipped with bigger power supplies to deliver the power needed.
The jump to 1300W
While our Gen 12 nodes operated comfortably with 800W 80 PLUS Titanium CRPS (Common Redundant Power Supply), the Gen 13 specification requires a larger power supply. We have selected a 1300W 80 PLUS Titanium CRPS.
Power consumption of Gen 13 during typical operation has risen to 850W, a 250W increase over the 600W seen in Gen 12. The primary contributors are the 500W TDP CPU (up from 400W), doubling of the memory capacity and the additional NVMe drive.
Why 1300W instead of 1000W? The current PSU ecosystem lacks viable, high-efficiency options at 1000W. To ensure supply chain reliability, we moved to the next industry-standard tier of 1300W.
EU Lot 9 is a regulation that re
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み