Cloudflare Blog·2026年3月23日 22:00·約12分

CloudflareのGen 13サーバーをローンチ：キャッシュをコアと交換してエッジコンピュート性能を2倍に

#エッジコンピューティング #AMD EPYC Turin #Rust言語 #システムアーキテクチャ #Cloudflare

TL;DR

CloudflareはAMD EPYC Turin搭載のGen 13サーバーをリリースし、FL2へのRust書き換えによりキャッシュ削減とコア数増のトレードオフを解決し、エッジでの演算性能を2倍に向上させた。

AI深層分析2026年3月23日 23:43

注目/ 5段階

深度40%

キーポイント

ハードウェアのアーキテクチャトレードオフ

Gen 13は最大192コアと電力効率の向上を実現する一方、L3キャッシュがコアあたり12MBから2MBに大幅削減され、従来型ワークロードには適合しなくなった。

ソフトウェア層の刷新（FL2への移行）

大キャッシュ依存型のFL1からRustベースのFL2へ書き換えることで、レイテンシ増加を抑制しつつコア数に応じたスループット拡大を実現した。

パフォーマンス計測による実証

AMD uProfを用いてキャッシュミス率などのパフォーマンスカウンターを収集し、新アーキテクチャがエッジリクエスト処理に適合することを定量的に検証した。

エッジコンピューティング性能の倍増

高コア数、Zen 5アーキテクチャのIPC向上、DDR5-6400メモリ帯域を組み合わせ、SLAを維持しながらエッジでの処理性能を実質2倍に引き上げた。

L3キャッシュ減少によるレイテンシ増大

Gen 13はコア数を削減したがL3キャッシュも減少したため、メモリアクセス頻度が高まり、キャッシュヒット（約50サイクル）とミス（350+サイクル）の間に1桁の違いが生じた。

スループットとレイテンシのトレードオフ

コア数増加でスループットは向上するも、高CPU利用率時に50%以上のレイテンシ悪化が発生し、顧客体験に直結するため許容できないと判断された。

AMD PQOSによるリソース最適化

ハードウェア調整やワーカー拡張などの試行錯誤を経て、共有キャッシュとメモリ帯域を細かく制御できるAMDのPQOS（Platform Quality of Service）が最も効果的な解決策となった。

影響分析・編集コメントを表示

影響分析

本記事は、エッジコンピューティングインフラにおいてハードウェアのアーキテクチャ変更（キャッシュ削減vsコア数増）にソフトウェア層がどう追従すべきかを示す実践例である。CloudflareのFL2への移行は、大規模CDN事業者が次世代CPUアーキテクチャを最大限活用するための設計思想として、業界のハードウェア-ソフトウェア協調設計に示唆を与える。これにより、AI推論を含むエッジワークロードの低レイテンシ化とスケーラビリティが促進される。

編集コメント

大規模CDN事業者がハードウェアのトレードオフをソフトウェア刷新で解決した事例は、エッジAIインフラの設計指針として参考になる。次世代CPUアーキテクチャを採用する際は、キャッシュ依存型からコア数スケーラブルな設計へ移行する必要性が今後さらに高まるだろう。

2年前、Cloudflareは大容量の3D V-Cacheを備えたAMD EPYC™ Genoa-Xプロセッサをベースにした第12世代サーバーフリートを導入しました。そのキャッシュ重視のアーキテクチャは、当時のリクエスト処理レイヤーであるFL1に完璧に適合していました。しかし、次世代ハードウェアを評価する中で、私たちはジレンマに直面しました。最大のスループット向上を提供するCPUは、キャッシュの大幅な削減を伴っていたのです。従来のソフトウェアスタックはこれに最適化されておらず、潜在的なスループットの利点は増大するレイテンシによって制限されていました。

このブログでは、Cloudflareのコアリクエスト処理レイヤーのRustベース書き直しであるFL2移行が、第13世代の完全な可能性を証明し、以前のスタックでは不可能だったパフォーマンス向上を実現することを可能にした方法について説明します。FL2は大容量キャッシュへの依存を排除し、SLAを維持しながらコア数に応じてパフォーマンスをスケーリングできるようにします。本日、AMD EPYC™ 第5世代Turinベースのサーバー上でFL2を実行するCloudflareの第13世代のローンチを発表できることを誇りに思います。これにより、エッジでのパフォーマンスを効果的に獲得し、スケーリングすることができます。

AMD EPYC Turinがもたらすもの

AMDのEPYC™ 第5世代Turinベースプロセッサは、単なるコア数の増加以上のものを提供します。このアーキテクチャは、Cloudflareサーバーが必要とする複数の次元で改善をもたらします。

コア数2倍: 最大192コア（第12世代の96コアに対して）、SMTにより384スレッド

IPC改善: Zen 5のアーキテクチャ改善により、Zen 4と比較してサイクルあたりの命令実行数が向上

電力効率向上: コア数が増加しているにもかかわらず、TurinはGenoa-Xと比較してコアあたり最大32%少ないワット数を消費

DDR5-6400サポート: すべてのコアにデータを供給するための高いメモリ帯域幅

しかし、Turinの高密度OPNは意図的なトレードオフを行っています。コアあたりのキャッシュよりもスループットを優先しているのです。Turinスタック全体にわたる私たちの分析は、このシフトを浮き彫りにしました。例えば、最高密度のTurin OPNを第12世代のGenoa-Xプロセッサと比較すると、Turinの192コアは384MBのL3キャッシュを共有しています。これにより、各コアがアクセスできるのはわずか2MBで、第12世代の割り当ての6分の1です。私たちのワークロードのようにキャッシュ局所性に大きく依存するワークロードにとって、この削減は深刻な課題をもたらしました。

世代プロセッサコア/スレッドコアあたりL3キャッシュ

第12世代 AMD Genoa-X 9684X 96C/192T 12MB (3D V-Cache)

第13世代オプション1 AMD Turin 9755 128C/256T 4MB

第13世代オプション2 AMD Turin 9845 160C/320T 2MB

第13世代オプション3 AMD Turin 9965 192C/384T 2MB

パフォーマンスカウンターによる問題の診断

私たちのFL1リクエスト処理レイヤー（NGINXおよびLuaJITベースのコード）にとって、このキャッシュ削減は重大な課題でした。しかし、私たちは単に問題があると仮定しただけではありません。測定したのです。

第13世代のCPU評価フェーズでは、AMD uProfツールを使用して、内部で何が起こっているかを正確に特定するために、CPUパフォーマンスカウンターとプロファイリングデータを収集しました。データは以下のことを示しました:

L3キャッシュミス率が、3D V-cacheプロセッサを搭載した第12世代サーバーと比較して劇的に増加

以前はL3に留まっていたデータがDRAMへのアクセスを必要とするようになり、メモリフェッチレイテンシがリクエスト処理時間を支配

CPU使用率を高く押し上げるにつれてレイテンシペナルティがスケーリングし、キャッシュ競合が悪化

L3キャッシュヒットは約50サイクルで完了します。DRAMアクセスを必要とするL3キャッシュミスは350サイクル以上かかり、1桁の違いがあります。コアあたりのキャッシュが6分の1になったことで、第13世代上のFL1ははるかに頻繁にメモリにアクセスし、レイテンシペナルティを被っていました。

トレードオフ: レイテンシ vs. スループット

第13世代でFL1を実行した初期テストは、パフォーマンスカウンターが既に示唆していたことを確認しました。Turinプロセッサはより高いスループットを達成できますが、それは高いレイテンシコストを伴いました。

メトリック第12世代 (FL1) 第13世代 - AMD Turin 9755 (FL1) 第13世代 - AMD Turin 9845 (FL1) 第13世代 - AMD Turin 9965 (FL1) 差分

コア数ベースライン +33% +67% +100%

FLスループットベースライン +10% +31% +62% 改善

低～中程度のCPU使用率時のレイテンシベースライン +10% +30% +30% 悪化

高CPU使用率時のレイテンシベースライン > 20% > 50% > 50% 許容不可

60%のスループット向上を生み出したAMD Turin 9965搭載の第13世代評価サーバーは魅力的で、パフォーマンス向上はCloudflareの総所有コスト（TCO）に最も大きな改善をもたらしました。

しかし、50%以上のレイテンシペナルティは許容できません。リクエスト処理レイテンシの増加は、顧客体験に直接影響を与えます。私たちは、よくあるインフラストラクチャの質問に直面しました。TCOの利益がないソリューションを受け入れるか、増加したレイテンシのトレードオフを受け入れるか、レイテンシを追加せずに効率を向上させる方法を見つけるか、です。

パフォーマンスチューニングによる漸進的な向上

最適な結果への道を見つけるために、私たちはAMDと協力してTurin 9965のデータを分析し、ターゲットを絞った最適化実験を実行しました。私たちは体系的に複数の構成をテストしました:

ハードウェアチューニング: ハードウェアプリフェッチャーとData Fabric（DF）Probe Filterの調整。これらはわずかな向上しか示さなかった

ワーカースケーリング: より多くのFL1ワーカーを起動。スループットは改善したが、他の本番サービスからリソースを奪った

CPUピニングとアイソレーション: ワークロードアイソレーション構成を調整して最適な組み合わせを見つける。成功は限定的だった

最終的に最も価値を提供した構成は、AMDのPlatform Quality of Service（PQOS）でした。PQOS拡張機能は、キャッシュやメモリ帯域幅などの共有リソースをきめ細かく制御することを可能にします。Turinプロセッサは1つのI/Oダイと最大12のCore Complex Die（CCD）で構成され、それぞれが最大16コアでL3キャッシュを共有しているため、これをテストしました。以下は、異なる実験構成のパフォーマンスです。

まず、PQOSを使用して単一CCD内の専用L3キャッシュシェアをFL1に割り当てましたが、向上はわずかでした。しかし、この概念をソケットレベルにスケーリングし、CCD全体を厳密にFL1専用にした場合、レイテンシを許容範囲内に保ちながら意味のあるスループット向上が見られました。

構成説明図パフォーマンス向上

NUMA-awareコアアフィニティ（ソケットレベルでのPQOS相当） 12個のCCDのうち6個（NUMAドメインに合わせて）がFLを実行。各CCD内の32MB L3キャッシュがすべてのコア間で共有。 image >15%の漸進的スループット向上

PQOS構成1 各CCDの各物理コア上の2つのvCPUのうち1つがFLを実行。FLは各CCDの32MB L3キャッシュの75%を取得。 image < 5%の漸進的スループット向上。他のサービスに軽微な劣化の兆候

PQOS構成2 各CCDの各物理コア上の2つのvCPUのうち1つがFLを実行。FLは各CCDの32MB L3キャッシュの50%を取得。 image < 5%の漸進的スループット向上

PQOS構成3

各CCDの物理コアの50%上の2 vCPUがFLを実行します。

FLは各CCDの32MB L3キャッシュの50%を取得します。

image

< 5%の増分スループット向上

機会: FL2はすでに進行中だった

ハードウェアチューニングとリソース設定は控えめな向上をもたらしましたが、Gen 13アーキテクチャの性能ポテンシャルを真に解放するためには、システムリソースの活用方法を根本的に変えるためにソフトウェアスタックを書き直す必要があると認識していました。

幸いなことに、私たちはゼロから始める必要はありませんでした。2025年のバースデーウィーク中に発表したように、私たちはすでにFL1を一から再構築していました。FL2は、Rustで書かれたリクエスト処理レイヤーの完全な書き直しであり、PingoraとOxyフレームワーク上に構築され、15年間のNGINXとLuaJITコードを置き換えるものです。

FL2プロジェクトはGen 13のキャッシュ問題を解決するために開始されたわけではありませんでした。それは、より良いセキュリティ（Rustのメモリ安全性）、より速い開発速度（厳格なモジュールシステム）、そして全体的な性能向上（CPU使用量削減、メモリ使用量削減、モジュール実行）の必要性によって推進されていました。

FL2のよりクリーンなアーキテクチャは、より良いメモリアクセスパターンとより少ない動的割り当てにより、FL1がそうであったように巨大なL3キャッシュに依存しないかもしれません。これは、FL2への移行を利用して、Gen 13のスループット向上がレイテンシのペナルティなしに実現できるかどうかを証明する機会を与えてくれました。

証明: Gen 13上のFL2

FL2のロールアウトが進むにつれて、Gen 13サーバーからの本番環境メトリクスは私たちが仮説を立てていたことを裏付けました。

メトリクス

Gen 13 AMD Turin 9965 (FL1)

Gen 13 AMD Turin 9965 (FL2)

CPU%あたりのFLリクエスト数

ベースライン

50%高い

Gen 12とのレイテンシ比較

ベースライン

70%低い

Gen 12とのスループット比較

62%高い

100%高い

新しいFL2スタックでのすぐに使える効率向上は、システム最適化の前でも実質的でした。FL2はレイテンシペナルティを70%削減し、Gen 13をより高いCPU使用率に押し上げながら、厳密にレイテンシSLAを満たすことを可能にしました。FL1では、これは不可能だったでしょう。

キャッシュボトルネックを効果的に排除することで、FL2はスループットがコア数に比例して直線的にスケールすることを可能にします。この影響は高密度のAMD Turin 9965で否定できません：私たちは2倍の性能向上を達成し、ハードウェアの真のポテンシャルを解放しました。さらなるシステムチューニングにより、Gen 13フリートからさらに多くのパワーを絞り出すことを期待しています。

image

Gen 13による世代間向上

FL2が高コア数のAMD Turin 9965の膨大なスループットを解放したことで、私たちは公式にこれらのプロセッサをGen 13デプロイメントに選択しました。ハードウェア認定は完了し、Gen 13サーバーは現在、グローバルなロールアウトをサポートするために大規模に出荷されています。

性能向上

Gen 12

Gen 13

プロセッサ

AMD EPYC™ 第4世代 Genoa-X 9684X

AMD EPYC™ 第5世代 Turin 9965

コア数

96C/192T

192C/384T

FLスループット

ベースライン

最大+100%

ワットあたり性能

ベースライン

最大+50%

Gen 13のビジネスへの影響

妥協のないカスタマーエクスペリエンスのためのGen 12比最大2倍のスループット：スループット容量を倍増させながらレイテンシSLA内に留まることで、私たちのアプリケーションが高速で応答性が高く、大規模なトラフィックスパイクを吸収できることを保証します。

持続可能なスケーリングのためのGen 12比50%優れた性能/ワット：この電力効率の向上は、データセンター拡張コストを削減するだけでなく、リクエストあたりのカーボンフットプリントを大幅に低減しながら成長するトラフィックを処理することを可能にします。

グローバルエッジアップグレードのためのGen 12比60%高いラックスループット：ラックの電力予算を一定に保ちながらこのスループット密度を達成したため、世界中のグローバルエッジネットワーク全体でこの次世代コンピュートをシームレスにデプロイし、顧客が望む場所でトップティアの性能を提供できます。

Gen 13 + FL2: エッジへの準備完了

私たちのレガシーリクエスト提供レイヤーFL1は、Gen 13でキャッシュ競合の壁にぶつかり、スループットとレイテンシの間で容認できないトレードオフを強いられました。妥協する代わりに、私たちはFL2を構築しました。

大幅にリーンなメモリアクセスパターンで設計されたFL2は、巨大なL3キャッシュへの依存を除去し、コア数に比例した直線的スケーリングを可能にします。Gen 13 AMD Turinプラットフォーム上で実行されるFL2は、レイテンシをSLA内に保ちながら、2倍のスループットと50%の電力効率向上を解放します。この飛躍的な前進は、ハードウェア-ソフトウェア共同設計の重要性を強く思い起こさせます。キャッシュ制限に制約されず、Gen 13サーバーは現在、Cloudflareのグローバルネットワーク全体で何百万ものリクエストを提供するためにデプロイする準備ができています。

グローバルスケールのインフラストラクチャで働くことに興奮しているなら、私たちは採用しています。

原文を表示

Two years ago, Cloudflare deployed our 12th Generation server fleet, based on AMD EPYC™ Genoa-X processors with their massive 3D V-Cache. That cache-heavy architecture was a perfect match for our request handling layer, FL1 at the time. But as we evaluated next-generation hardware, we faced a dilemma — the CPUs offering the biggest throughput gains came with a significant cache reduction. Our legacy software stack wasn't optimized for this, and the potential throughput benefits were being capped by increasing latency.

This blog describes how the FL2 transition, our Rust-based rewrite of Cloudflare's core request handling layer, allowed us to prove Gen 13's full potential and unlock performance gains that would have been impossible on our previous stack. FL2 removes the dependency on the larger cache, allowing for performance to scale with cores while maintaining our SLAs. Today, we are proud to announce the launch of Cloudflare's Gen 13 based on AMD EPYC™ 5th Gen Turin-based servers running FL2, effectively capturing and scaling performance at the edge.

What AMD EPYCTurin brings to the table

AMD's EPYC™ 5th Generation Turin-based processors deliver more than just a core count increase. The architecture delivers improvements across multiple dimensions of what Cloudflare servers require.

2x core count: up to 192 cores versus Gen 12's 96 cores, with SMT providing 384 threads

Improved IPC: Zen 5's architectural improvements deliver better instructions-per-cycle compared to Zen 4

Better power efficiency: Despite the higher core count, Turin consumes up to 32% fewer watts per core compared to Genoa-X

DDR5-6400 support: Higher memory bandwidth to feed all those cores

However, Turin's high density OPNs make a deliberate tradeoff: prioritizing throughput over per core cache. Our analysis across the Turin stack highlighted this shift. For example, comparing the highest density Turin OPN to our Gen 12 Genoa-X processors reveals that Turin's 192 cores share 384MB of L3 cache. This leaves each core with access to just 2MB, one-sixth of Gen 12's allocation. For any workload that relies heavily on cache locality, which ours did, this reduction posed a serious challenge.

Generation

Processor

Cores/Threads

L3 Cache/Core

Gen 12

AMD Genoa-X 9684X

96C/192T

12MB (3D V-Cache)

Gen 13 Option 1

AMD Turin 9755

128C/256T

4MB

Gen 13 Option 2

AMD Turin 9845

160C/320T

2MB

Gen 13 Option 3

AMD Turin 9965

192C/384T

2MB

Diagnosing the problem with performance counters

For our FL1 request handling layer, NGINX- and LuaJIT-based code, this cache reduction presented a significant challenge. But we didn't just assume it would be a problem; we measured it.

During the CPU evaluation phase for Gen 13, we collected CPU performance counters and profiling data to identify exactly what was happening under the hood using AMD uProf tool. The data showed:

L3 cache miss rates increased dramatically compared to Gen 12's server equipped with 3D V-cache processors

Memory fetch latency dominated request processing time as data that previously stayed in L3 now required trips to DRAM

The latency penalty scaled with utilization as we pushed CPU usage higher, and cache contention worsened

L3 cache hits complete in roughly 50 cycles; L3 cache misses requiring DRAM access take 350+ cycles, an order of magnitude difference. With 6x less cache per core, FL1 on Gen 13 was hitting memory far more often, incurring latency penalties.

The tradeoff: latency vs. throughput

Our initial tests running FL1 on Gen 13 confirmed what the performance counters had already suggested. While the Turin processor could achieve higher throughput, it came at a steep latency cost.

Metric

Gen 12 (FL1)

Gen 13 - AMD Turin 9755 (FL1)

Gen 13 - AMD Turin 9845 (FL1)

Gen 13 - AMD Turin 9965 (FL1)

Delta

Core count

baseline

+33%

+67%

+100%

FL throughput

baseline

+10%

+31%

+62%

Improvement

Latency at low to moderate CPU utilization

baseline

+10%

+30%

Regression

Latency at high CPU utilization

baseline

20%

50%

Unacceptable

The Gen 13 evaluation server with AMD Turin 9965 that generated 60% throughput gain was compelling, and the performance uplift provided the most improvement to Cloudflare’s total cost of ownership (TCO).

But a more than 50% latency penalty is not acceptable. The increase in request processing latency would directly impact customer experience. We faced a familiar infrastructure question: do we accept a solution with no TCO benefit, accept the increased latency tradeoff, or find a way to boost efficiency without adding latency?

Incremental gains with performance tuning

To find a path to an optimal outcome, we collaborated with AMD to analyze the Turin 9965 data and run targeted optimization experiments. We systematically tested multiple configurations:

Hardware Tuning: Adjusting hardware prefetchers and Data Fabric (DF) Probe Filters, which showed only marginal gains

Scaling Workers: Launching more FL1 workers, which improved throughput but cannibalized resources from other production services

CPU Pinning & Isolation: Adjusting workload isolation configurations to find optimal mix, with limited success

The configuration that ultimately provided the most value was AMD’s Platform Quality of Service (PQOS). PQOS extensions enable fine-grained regulation of shared resources like cache and memory bandwidth. Since Turin processors consist of one I/O Die and up to 12 Core Complex Dies (CCDs), each sharing an L3 cache across up to 16 cores, we put this to the test. Here is how the different experimental configurations performed.

First, we used PQOS to allocate a dedicated L3 cache share within a single CCD for FL1, the gains were minimal. However, when we scaled the concept to the socket level, dedicating an entire CCD strictly to FL1, we saw meaningful throughput gains while keeping latency acceptable.

Configuration

Description

Illustration

Performance gain

NUMA-aware core affinity

(equivalent to PQOS at socket level)

6 out of 12 CCD (aligned with NUMA domain) run FL.

32MB L3 cache in each CCD shared among all cores.

image

15% incremental

throughput gain

PQOS config 1

1 of 2 vCPU on each physical core in each CCD runs FL.

FL gets 75% of the 32MB L3 cache of each CCD.

image

< 5% incremental throughput gain

Other services show minor signs of degradation

PQOS config 2

1 of 2 vCPU in each physical core in each CCD runs FL.

FL gets 50% of the 32MB L3 cache of each CCD.

image

< 5% incremental throughput gain

PQOS config 3

2 vCPU on 50% of the physical core in each CCD runs FL.

FL gets 50% of the 32MB L3 cache of each CCD.

image

< 5% incremental throughput gain

The opportunity: FL2 was already in progress

Hardware tuning and resource configuration provided modest gains, but to truly unlock the performance potential of the Gen 13 architecture, we knew we would have to rewrite our software stack to fundamentally change how it utilized system resources.

Fortunately, we weren't starting from scratch. As we announced during Birthday Week 2025, we had already been rebuilding FL1 from the ground up. FL2 is a complete rewrite of our request handling layer in Rust, built on our Pingora and Oxy frameworks, replacing 15 years of NGINX and LuaJIT code.

The FL2 project wasn't initiated to solve the Gen 13 cache problem — it was driven by the need for better security (Rust's memory safety), faster development velocity (strict module system), and improved performance across the board (less CPU, less memory, modular execution).

FL2's cleaner architecture, with better memory access patterns and less dynamic allocation, might not depend on massive L3 caches the way FL1 did. This gave us an opportunity to use the FL2 transition to prove whether Gen 13's throughput gains could be realized without the latency penalty.

Proving it out: FL2 on Gen 13

As the FL2 rollout progressed, production metrics from our Gen 13 servers validated what we had hypothesized.

Metric

Gen 13 AMD Turin 9965 (FL1)

Gen 13 AMD Turin 9965 (FL2)

FL requests per CPU%

baseline

50% higher

Latency vs Gen 12

baseline

70% lower

Throughput vs Gen 12

62% higher

100% higher

The out-of-the-box efficiency gains on our new FL2 stack were substantial, even before any system optimizations. FL2 slashed the latency penalty by 70%, allowing us to push Gen 13 to higher CPU utilization while strictly meeting our latency SLAs. Under FL1, this would have been impossible.

By effectively eliminating the cache bottleneck, FL2 enables our throughput to scale linearly with core count. The impact is undeniable on the high-density AMD Turin 9965: we achieved a 2x performance gain, unlocking the true potential of the hardware. With further system tuning, we expect to squeeze even more power out of our Gen 13 fleet.

image

Generational improvement with Gen 13

With FL2 unlocking the immense throughput of the high-core-count AMD Turin 9965, we have officially selected these processors for our Gen 13 deployment. Hardware qualification is complete, and Gen 13 servers are now shipping at scale to support our global rollout.

Performance improvements

Gen 12

Gen 13

Processor

AMD EPYC™ 4th Gen Genoa-X 9684X

AMD EPYC™ 5th Gen Turin 9965

Core count

96C/192T

192C/384T

FL throughput

baseline

Up to +100%

Performance per watt

baseline

Up to +50%

Gen 13 business impact

Up to 2x throughput vs Gen 12 for uncompromising customer experience: By doubling our throughput capacity while staying within our latency SLAs, we guarantee our applications remain fast and responsive, and able to absorb massive traffic spikes.

50% better performance/watt vs Gen 12 for sustainable scaling: This gain in power efficiency not only reduces data center expansion costs, but allows us to process growing traffic with a vastly lower carbon footprint per request.

60% higher rack throughput vs Gen 12 for global edge upgrades: Because we achieved this throughput density while keeping the rack power budget constant, we can seamlessly deploy this next generation compute anywhere in the world across our global edge network, delivering top tier performance exactly where our customers want it.

Gen 13 + FL2: ready for the edge

Our legacy request serving layer FL1 hit a cache contention wall on Gen 13, forcing an unacceptable tradeoff between throughput and latency. Instead of compromising, we built FL2.

Designed with a vastly leaner memory access pattern, FL2 removes our dependency on massive L3 caches and allows linear scaling with core count. Running on the Gen 13 AMD Turin platform, FL2 unlocks 2x the throughput and a 50% boost in power efficiency all while keeping latency within our SLAs. This leap forward is a great reminder of the importance of hardware-software co-design. Unconstrained by cache limits, Gen 13 servers are now ready to be deployed to serve millions of requests across Cloudflare’s global network.

If you're excited about working on infrastructure at global scale, we're hiring.

この記事をシェア

Cloudflare Blog重要度42026年7月1日 22:00

Cloudflare、x402 を活用した「マネタイゼーションゲートウェイ」を発表：保護されたあらゆるリソースへの課金機能を追加

Cloudflare Blog重要度52026年7月1日 22:00

コンテンツ独立記念日、1 年後：エージェント型インターネットのビジネスモデル構築について

Cloudflare Blog重要度42026年7月1日 22:00

AI を活用した検索の知能化を推進

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

Cloudflare Blog·2026年3月23日 22:00·約12分

CloudflareのGen 13サーバーをローンチ：キャッシュをコアと交換してエッジコンピュート性能を2倍に

#エッジコンピューティング #AMD EPYC Turin #Rust言語 #システムアーキテクチャ #Cloudflare

TL;DR

AI深層分析2026年3月23日 23:43

注目/ 5段階

深度40%

キーポイント

ハードウェアのアーキテクチャトレードオフ

ソフトウェア層の刷新（FL2への移行）

大キャッシュ依存型のFL1からRustベースのFL2へ書き換えることで、レイテンシ増加を抑制しつつコア数に応じたスループット拡大を実現した。

パフォーマンス計測による実証

エッジコンピューティング性能の倍増

高コア数、Zen 5アーキテクチャのIPC向上、DDR5-6400メモリ帯域を組み合わせ、SLAを維持しながらエッジでの処理性能を実質2倍に引き上げた。

L3キャッシュ減少によるレイテンシ増大

スループットとレイテンシのトレードオフ

コア数増加でスループットは向上するも、高CPU利用率時に50%以上のレイテンシ悪化が発生し、顧客体験に直結するため許容できないと判断された。

AMD PQOSによるリソース最適化

影響分析・編集コメントを表示

影響分析

編集コメント

AMD EPYC Turinがもたらすもの

コア数2倍: 最大192コア（第12世代の96コアに対して）、SMTにより384スレッド

IPC改善: Zen 5のアーキテクチャ改善により、Zen 4と比較してサイクルあたりの命令実行数が向上

電力効率向上: コア数が増加しているにもかかわらず、TurinはGenoa-Xと比較してコアあたり最大32%少ないワット数を消費

DDR5-6400サポート: すべてのコアにデータを供給するための高いメモリ帯域幅

世代プロセッサコア/スレッドコアあたりL3キャッシュ

第12世代 AMD Genoa-X 9684X 96C/192T 12MB (3D V-Cache)

第13世代オプション1 AMD Turin 9755 128C/256T 4MB

第13世代オプション2 AMD Turin 9845 160C/320T 2MB

第13世代オプション3 AMD Turin 9965 192C/384T 2MB

パフォーマンスカウンターによる問題の診断

L3キャッシュミス率が、3D V-cacheプロセッサを搭載した第12世代サーバーと比較して劇的に増加

以前はL3に留まっていたデータがDRAMへのアクセスを必要とするようになり、メモリフェッチレイテンシがリクエスト処理時間を支配

CPU使用率を高く押し上げるにつれてレイテンシペナルティがスケーリングし、キャッシュ競合が悪化

トレードオフ: レイテンシ vs. スループット

メトリック第12世代 (FL1) 第13世代 - AMD Turin 9755 (FL1) 第13世代 - AMD Turin 9845 (FL1) 第13世代 - AMD Turin 9965 (FL1) 差分

コア数ベースライン +33% +67% +100%

FLスループットベースライン +10% +31% +62% 改善

低～中程度のCPU使用率時のレイテンシベースライン +10% +30% +30% 悪化

高CPU使用率時のレイテンシベースライン > 20% > 50% > 50% 許容不可

パフォーマンスチューニングによる漸進的な向上

ハードウェアチューニング: ハードウェアプリフェッチャーとData Fabric（DF）Probe Filterの調整。これらはわずかな向上しか示さなかった

ワーカースケーリング: より多くのFL1ワーカーを起動。スループットは改善したが、他の本番サービスからリソースを奪った

CPUピニングとアイソレーション: ワークロードアイソレーション構成を調整して最適な組み合わせを見つける。成功は限定的だった

構成説明図パフォーマンス向上

PQOS構成2 各CCDの各物理コア上の2つのvCPUのうち1つがFLを実行。FLは各CCDの32MB L3キャッシュの50%を取得。 image < 5%の漸進的スループット向上

PQOS構成3

各CCDの物理コアの50%上の2 vCPUがFLを実行します。

FLは各CCDの32MB L3キャッシュの50%を取得します。

image

< 5%の増分スループット向上

機会: FL2はすでに進行中だった

証明: Gen 13上のFL2

FL2のロールアウトが進むにつれて、Gen 13サーバーからの本番環境メトリクスは私たちが仮説を立てていたことを裏付けました。

メトリクス

Gen 13 AMD Turin 9965 (FL1)

Gen 13 AMD Turin 9965 (FL2)

CPU%あたりのFLリクエスト数

ベースライン

50%高い

Gen 12とのレイテンシ比較

ベースライン

70%低い

Gen 12とのスループット比較

62%高い

100%高い

image

Gen 13による世代間向上

性能向上

Gen 12

Gen 13

プロセッサ

AMD EPYC™ 第4世代 Genoa-X 9684X

AMD EPYC™ 第5世代 Turin 9965

コア数

96C/192T

192C/384T

FLスループット

ベースライン

最大+100%

ワットあたり性能

ベースライン

最大+50%

Gen 13のビジネスへの影響

Gen 13 + FL2: エッジへの準備完了

グローバルスケールのインフラストラクチャで働くことに興奮しているなら、私たちは採用しています。

原文を表示

What AMD EPYCTurin brings to the table

AMD's EPYC™ 5th Generation Turin-based processors deliver more than just a core count increase. The architecture delivers improvements across multiple dimensions of what Cloudflare servers require.

2x core count: up to 192 cores versus Gen 12's 96 cores, with SMT providing 384 threads

Improved IPC: Zen 5's architectural improvements deliver better instructions-per-cycle compared to Zen 4

Better power efficiency: Despite the higher core count, Turin consumes up to 32% fewer watts per core compared to Genoa-X

DDR5-6400 support: Higher memory bandwidth to feed all those cores

Generation

Processor

Cores/Threads

L3 Cache/Core

Gen 12

AMD Genoa-X 9684X

96C/192T

12MB (3D V-Cache)

Gen 13 Option 1

AMD Turin 9755

128C/256T

4MB

Gen 13 Option 2

AMD Turin 9845

160C/320T

2MB

Gen 13 Option 3

AMD Turin 9965

192C/384T

2MB

Diagnosing the problem with performance counters

For our FL1 request handling layer, NGINX- and LuaJIT-based code, this cache reduction presented a significant challenge. But we didn't just assume it would be a problem; we measured it.

During the CPU evaluation phase for Gen 13, we collected CPU performance counters and profiling data to identify exactly what was happening under the hood using AMD uProf tool. The data showed:

L3 cache miss rates increased dramatically compared to Gen 12's server equipped with 3D V-cache processors

Memory fetch latency dominated request processing time as data that previously stayed in L3 now required trips to DRAM

The latency penalty scaled with utilization as we pushed CPU usage higher, and cache contention worsened

The tradeoff: latency vs. throughput

Our initial tests running FL1 on Gen 13 confirmed what the performance counters had already suggested. While the Turin processor could achieve higher throughput, it came at a steep latency cost.

Metric

Gen 12 (FL1)

Gen 13 - AMD Turin 9755 (FL1)

Gen 13 - AMD Turin 9845 (FL1)

Gen 13 - AMD Turin 9965 (FL1)

Delta

Core count

baseline

+33%

+67%

+100%

FL throughput

baseline

+10%

+31%

+62%

Improvement

Latency at low to moderate CPU utilization

baseline

+10%

+30%

Regression

Latency at high CPU utilization

baseline

20%

50%

Unacceptable

Incremental gains with performance tuning

To find a path to an optimal outcome, we collaborated with AMD to analyze the Turin 9965 data and run targeted optimization experiments. We systematically tested multiple configurations:

Hardware Tuning: Adjusting hardware prefetchers and Data Fabric (DF) Probe Filters, which showed only marginal gains

Scaling Workers: Launching more FL1 workers, which improved throughput but cannibalized resources from other production services

CPU Pinning & Isolation: Adjusting workload isolation configurations to find optimal mix, with limited success

Configuration

Description

Illustration

Performance gain

NUMA-aware core affinity

(equivalent to PQOS at socket level)

6 out of 12 CCD (aligned with NUMA domain) run FL.

32MB L3 cache in each CCD shared among all cores.

image

15% incremental

throughput gain

PQOS config 1

1 of 2 vCPU on each physical core in each CCD runs FL.

FL gets 75% of the 32MB L3 cache of each CCD.

image

< 5% incremental throughput gain

Other services show minor signs of degradation

PQOS config 2

1 of 2 vCPU in each physical core in each CCD runs FL.

FL gets 50% of the 32MB L3 cache of each CCD.

image

< 5% incremental throughput gain

PQOS config 3

2 vCPU on 50% of the physical core in each CCD runs FL.

FL gets 50% of the 32MB L3 cache of each CCD.

image

< 5% incremental throughput gain

The opportunity: FL2 was already in progress

Proving it out: FL2 on Gen 13

As the FL2 rollout progressed, production metrics from our Gen 13 servers validated what we had hypothesized.

Metric

Gen 13 AMD Turin 9965 (FL1)

Gen 13 AMD Turin 9965 (FL2)

FL requests per CPU%

baseline

50% higher

Latency vs Gen 12

baseline

70% lower

Throughput vs Gen 12

62% higher

100% higher

image

Generational improvement with Gen 13

Performance improvements

Gen 12

Gen 13

Processor

AMD EPYC™ 4th Gen Genoa-X 9684X

AMD EPYC™ 5th Gen Turin 9965

Core count

96C/192T

192C/384T

FL throughput

baseline

Up to +100%

Performance per watt

baseline

Up to +50%

Gen 13 business impact

Gen 13 + FL2: ready for the edge

Our legacy request serving layer FL1 hit a cache contention wall on Gen 13, forcing an unacceptable tradeoff between throughput and latency. Instead of compromising, we built FL2.

If you're excited about working on infrastructure at global scale, we're hiring.

この記事をシェア

Cloudflare Blog重要度42026年7月1日 22:00

Cloudflare、x402 を活用した「マネタイゼーションゲートウェイ」を発表：保護されたあらゆるリソースへの課金機能を追加

Cloudflare Blog重要度52026年7月1日 22:00

コンテンツ独立記念日、1 年後：エージェント型インターネットのビジネスモデル構築について

Cloudflare Blog重要度42026年7月1日 22:00

AI を活用した検索の知能化を推進

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む