Uberのハイブリッドクラウドデータ:エンジニアが極大規模レプリケーションの課題を解決
Uberのエンジニアリングチームは、Hadoop Distcpを基盤としたデータ複製プラットフォーム「HiveSync」を最適化し、日次1ペタバイト以上のデータをハイブリッドクラウド間で処理する大規模スケーリング課題を解決した。
キーポイント
HiveSyncプラットフォームの最適化
UberはHadoopのDistcpフレームワークを基盤としたHiveSyncを用い、リソース集約型タスク(Copy Listingなど)をApplication Masterへ移動させることで、ジョブ提出レイテンシを最大90%削減した。
大規模データ複製の処理能力向上
日次複製データを250TBから1PB以上へ、およびデータセット数を3万から14.4万件へと拡大させながら、並列化による処理効率の向上とSLA違反リスクを軽減した。
ハイブリッドクラウドとオンプレの統合
HDFS(オンプレミス)とクラウドデータレイクの同期をバッチおよび増分複製で維持し、分析、機械学習、 disaster recovery(DR)を大規模かつ信頼性の高い環境で実現している。
Distcpのアーキテクチャ最適化とパフォーマンス向上
Copy ListingやInput Splittingなどのリソース集約型タスクをApplication Masterへ移行し、HDFSクライアントの競合を軽減してジョブ提出レイテンシを最大90%削減しました。また、タスクの並列化によりp99リストレイテンシを60%、最大コミットレイテンシを97%以上低下させました。
小規模ジョブの効率化と大規模なデータ移行の実現
HadoopのUber job機能を活用して小規模ジョブのコンテナ起動を約26万8千回/日削減し、YARN効率を向上させました。これらの最適化により増分レプリケーション容量が5倍になり、300PB以上のデータ移行を障害なく実行することに成功しました。
将来の計画とオープンソース貢献
ファイル権限設定や入力分割の並列化、動的帯域幅スロットラーの実装など、さらなる並列化とネットワーク効率の向上に取り組んでいます。これらの改善策はオープンソースパッチとして貢献され、大規模なハイブリッドクラウドレプリケーションの管理を支援します。
スケーラブルなクラウドネイティブシステムの構築
Leela Kumiliは、スターバックスのRewards Platformにおいて、スケーラビリティと信頼性を向上させるためのクラウドネイティブシステムのアーキテクチャ設計と近代化を主導している。
影響分析・編集コメントを表示
影響分析
Uberのこの取り組みは、単なる社内インフラ改善にとどまらず、オープンソースのHadoopエコシステムにおける大規模データ複製のパターンを示すものとして業界に示唆を与える。特に、クラウド移行が進む企業にとって、オンプレミスとクラウド間の巨大なデータ転送をいかに低レイテンシ・高信頼性で実現するかという課題に対する実証案例として、多くのデータエンジニアリングチームにとって参考となる事例である。
編集コメント
大規模データ複製におけるボトルネック解消の具体的な手法(Application Masterへの負荷分散など)が明記されており、インフラエンジニアリングの現場で即座に適用可能な知見が含まれている点が高く評価できる。
Uber のエンジニアリングチームは、データ複製プラットフォームを刷新し、急速に増加するワークロードによって引き起こされるスケーリング課題に対処しながら、ハイブリッドクラウドとオンプレミスのデータレイク間で毎日ペタバイト単位のデータを転送可能になりました。このプラットフォームは Hadoop のオープンソース Distcp フレームワーク を基盤として構築されており、現在は速度、信頼性、観測性の向上により、1 日あたり 1 ペタバイトを超えるデータ複製と数十万件のジョブを処理しています。これにより、分析、機械学習、災害復旧が前例のない規模で実現可能となっています。
Distcp は、Hadoop の MapReduce を用いて複数のノード間で大規模なデータセットを並列にコピーするためのオープンソースフレームワークです。ファイルはブロックに分割され、YARN コンテナ内で実行される Copy Mapper タスクに割り当てられます。Resource Manager がリソースを割り当て、Application Master がジョブの実行を監視してマージを調整し、Copy Committer が宛先で最終ファイルを組み立てます。Uber の HiveSync チームは、準備タスクを Application Master へ移行し、リスト処理とコミットプロセスの並列化を図り、小規模転送の効率を改善することで、このアーキテクチャをマルチペタバイト規模のワークロード向けに最適化しました。
HiveSync は、もともと Airbnb の ReAir プロジェクトに基づいており、バッチデータと増分データの両方を用いた複製によって、Uber の HDFS とクラウド上のデータレイクを同期させます。256 MB を超えるデータセットの場合、並列で非同期ワーカーを通じて Distcp ジョブ(Distcp)が送信され、監視スレッドが進捗を追跡します。日々の複製量が 250 TB から 1 PB を超え、データセット数が 30,000 から 144,000 に拡大するにつれ、HiveSync は SLA(サービスレベルアグリーメント)を脅かすバックログに直面しました。これは、クラウド移行と Uber のアクティブ・パッシブ型データレイクモデルを支えるために、運用面およびアーキテクチャ面の強化が不可欠であることを強調しています。
image/filters:no_upscale()/news/2026/03/uber-scaled-data-replication/en/resources/1uberhivesyncdistcp-1771726530169.jpeg)
*HiveSync アーキテクチャ:Distcp を用いたデータ複製ワークフロー(出典:Uber Blog Post)*
スケーリング課題への対応として、HiveSync チームは Distcp を強化し、Copy Listing や Input Splitting といったリソース集約型のタスクを HiveSync サーバーから Application Master へ移行しました。これにより HDFS クライアントの競合が軽減され、ジョブ提出レイテンシが最大で 90% 短縮されました。また、Copy Listing と Copy Committer のタスクを並列化することで、ブロック順序を維持しながら複数のファイルを同時に処理可能となり、p99 リスティングレイテンシが 60% 低下し、最大コミットレイテンシは 97% 以上短縮されました。200 ファイル未満または 512 MB 未満の転送を行う小規模ジョブでは、Hadoop の Uber ジョブ機能により Copy Mapper タスクを Application Master の JVM 内で直接実行し、毎日約 268,000 回のコンテナ起動を不要とし、YARN の効率性を向上させました。
image/filters:no_upscale()/news/2026/03/uber-scaled-data-replication/en/resources/1hivesyncjob-1771726530169.jpeg)
*Distcp ジョブの 50% 以上がマッパーを 1 つずつ割り当てられています(出典: Uber Blog Post)*
これらの最適化により、増分レプリケーションの容量は5倍に増加し、Uber のオンプレミスからクラウドへの移行期間中に HiveSync が 300 PB を超えるデータをインシデントなく複製できるようになりました。ジョブ送信、コピーリスト作成、コミッターメトリクス、ヒープ使用量、p99 コピーレートを含む監視機能の強化により、エンジニアはワークロードを監視し、障害を未然に防ぐことが可能になりました。メモリ不足エラー、過剰なジョブ送信、長時間実行されるコピーリストタスクは、ストレステスト、サーキットブレーカー、最適化された YARN 設定、およびタスク実行順序の再配置によって緩和されました。
今後、HiveSync チームはさらなる並列化、リソース管理の最適化、ネットワーク効率の向上に注力しています。計画されている改善点には、ファイル権限の設定と入力分割の並列化、計算集約型のコミットタスクを Reduce フェーズへ移行すること、動的な帯域幅スロットラーの実装が含まれます。Uber はこれらの改善点をオープンソースパッチとして貢献する予定であり、これにより広範なコミュニティが極大規模なハイブリッドクラウドレプリケーションを管理する能力を拡張できる見込みです。エンジニアチームは、「私たちのスケールにおいて小さな改善でも大きな成果につながる」と指摘しています。これらの取り組みは、複雑で多地域にまたがるデータパイプライン全体で高スループットかつ信頼性の高いパフォーマンスを維持するために必要な運用面およびエンジニアリングの創意工夫を浮き彫りにするものです。
著者について
## Leela Kumili
リーラはスターバックスのリードソフトウェアエンジニアであり、スケーラブルでクラウドネイティブなシステムや分散プラットフォームの構築において深い専門知識を有しています。彼女はリワードプラットフォーム全体にわたってアーキテクチャ、納品、運用の卓越性を主導し、システムの近代化、スケーラビリティの向上、信頼性の強化に向けた取り組みを率いています。
技術的なリーダーシップに加え、リーラは組織内の AI チャンピオンとしても活動しており、LLM ベースのツールを活用して開発者の生産性とワークフローを改善する機会を特定し、AI 導入のためのベストプラクティスを確立しています。彼女は本番環境で運用可能なシステムの構築、開発者体験の向上、そしてエンジニアが技術面と戦略的インパクトの両面で成長できるようメンタリングすることに情熱を注いでいます。彼女の関心領域にはプラットフォームエンジニアリング、分散システム、開発者の生産性、そして技術ソリューションとビジネス・製品目標をつなぐことが含まれています。
Show moreShow less
原文を表示
Uber’s engineering team has transformed its data replication platform to move petabytes of data daily across hybrid cloud and on-premise data lakes, addressing scaling challenges caused by rapidly growing workloads. Built on Hadoop’s open-source Distcp framework, the platform now handles over one petabyte of daily replication and hundreds of thousands of jobs with improved speed, reliability, and observability, enabling analytics, machine learning, and disaster recovery at unprecedented scale.
Distcp is an open-source framework that copies large datasets in parallel across multiple nodes using Hadoop’s MapReduce. Files are split into blocks and assigned to Copy Mapper tasks running in YARN containers. The Resource Manager allocates resources, the Application Master monitors job execution and coordinates merges, and the Copy Committer assembles final files at the destination. Uber’s HiveSync team optimized this architecture for multi-petabyte workloads by moving preparation tasks to the Application Master, parallelizing listing and commit processes, and improving efficiency for small transfers.
HiveSync, originally based on Airbnb’s ReAir project, keeps Uber’s HDFS and cloud data lakes synchronized using bulk and incremental replication. For datasets larger than 256 MB, it submits Distcp jobs through asynchronous workers in parallel, with a monitoring thread tracking progress. As daily replication grew from 250 TB to over 1 PB and datasets expanded from 30,000 to 144,000, HiveSync faced backlogs that threatened SLAs, emphasizing the need for operational and architectural enhancements to support cloud migration and Uber’s active-passive data lake model.
/filters:no_upscale()/news/2026/03/uber-scaled-data-replication/en/resources/1uberhivesyncdistcp-1771726530169.jpeg)
*HiveSync architecture: Data replication workflow using Distcp ( Source: Uber Blog Post)*
To address scaling challenges, the HiveSync team enhanced Distcp by moving resource-intensive tasks like Copy Listing and Input Splitting from the HiveSync server to the Application Master, reducing HDFS client contention and cutting job submission latency by up to 90 percent. Copy Listing and Copy Committer tasks were parallelized, allowing multiple files to be processed simultaneously while maintaining block order, lowering p99 listing latency by 60 percent and maximum commit latency by over 97 percent. For smaller jobs transferring fewer than 200 files or 512 MB, Hadoop’s Uber job feature ran Copy Mapper tasks directly in the Application Master’s JVM, eliminating roughly 268,000 container launches daily and improving YARN efficiency.
/filters:no_upscale()/news/2026/03/uber-scaled-data-replication/en/resources/1hivesyncjob-1771726530169.jpeg)
*More than 50% of Distcp jobs are assigned a single mapper each ( Source: Uber Blog Post)*
These optimizations increased incremental replication capacity fivefold, enabling HiveSync to replicate over 300 PB during Uber’s on-premise-to-cloud migration without incidents. Enhanced observability, including job submission, Copy Listing, and Committer metrics, heap usage, and p99 copy rates, helped engineers monitor workloads and preempt failures. Out-of-memory errors, high job submissions, and long-running Copy Listing tasks were mitigated via stress testing, circuit breakers, optimized YARN configurations, and reordered task execution.
Looking ahead, the HiveSync team is focusing on further parallelization, optimized resource management, and network efficiency. Planned enhancements include parallelizing file permission setting and input splitting, moving compute-intensive commit tasks to the Reduce phase, and implementing a dynamic bandwidth throttler. Uber plans to contribute these improvements as an open-source patch, extending the broader community’s ability to manage extreme-scale hybrid cloud replication. Even small improvements can lead to significant gains at our scale, the engineering team noted. These efforts highlight the operational and engineering creativity required to sustain high-throughput, reliable performance across complex, multi-region data pipelines.
About the Author
Leela Kumili
Leela is a Lead Software Engineer at Starbucks with deep expertise in building scalable, cloud-native systems and distributed platforms. She drives architecture, delivery, and operational excellence across the Rewards Platform, leading efforts to modernize systems, improve scalability, and enhance reliability.
In addition to her technical leadership, Leela serves as an AI Champion for the organization, identifying opportunities to improve developer productivity and workflows using LLM-based tools and establishing best practices for AI adoption. She is passionate about building production-ready systems, enhancing developer experience, and mentoring engineers to grow in both technical and strategic impact. Her interests include platform engineering, distributed systems, developer productivity, and bridging technical solutions with business and product goals.
Show moreShow less
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み