InfoQ·2026年4月9日 22:54·約6分で読める

Uber、16,000データセットと10PB以上のHiveデータウェアハウスを分散化し、ダウンタイムゼロの分析を実現

#データウェアハウス #データフェデレーション #大規模データ管理 #機械学習基盤 #データガバナンス #Uber

TL;DR

Uberはポインタベースのフェデレーションを用いて、16,000のデータセットと10ペタバイト以上のHiveデータウェアハウスを分散化し、ダウンタイムゼロ、厳格なACL適用、改善されたガバナンス、スケーラブルなドメイン固有データセットを実現した。

AI深層分析2026年4月9日 23:41

重要/ 5段階

深度40%

キーポイント

大規模データの分散化移行

Uberは16,000のデータセット、合計10ペタバイト以上のHiveデータウェアハウスを、ポインタベースのフェデレーションを用いて分散化した。

ゼロダウンタイム移行の実現

この移行はサービス停止を伴わずに行われ、継続的な分析・機械学習ワークロードを可能にした。

セキュリティとガバナンスの強化

厳格なアクセス制御リスト（ACL）の適用と改善されたガバナンスが実現された。

スケーラブルなドメイン固有データセット

分析と機械学習のワークロード向けに、スケーラブルでドメイン固有のデータセットが提供されるようになった。

影響分析・編集コメントを表示

影響分析

この記事は、大規模企業が既存の巨大なデータ資産を分散化・近代化する際の実践的なアプローチを示している。特に、移行中のサービス停止を回避しつつ、セキュリティとガバナンスを強化する手法は、同様の課題を抱える多くの企業にとって参考になる。データ管理の分散化が分析と機械学習の効率化に直接寄与することを実証した点で意義が大きい。

編集コメント

大規模実運用環境でのデータ基盤刷新の成功事例として、技術的な詳細が少ないものの、実現した価値（ゼロダウンタイム、ガバナンス強化など）が明確に示されており、実務者にとって参考になる内容。

Uberは、16,000件以上のデータセットを合計で10ペタバイト超にわたって分散化し、スケーラビリティ、運用面、セキュリティの課題に対応するため、Hiveデータウェアハウスを再設計しました。以前は、単一のネームスペースの下にすべての配送ビジネス用データセットを収容するモノリシックなHiveインスタンスが存在し、連鎖的な障害、リソースの競合、ガバナンスのボトルネックというリスクを生んでいました。Hiveデータベースをフェデレーション（連合）させることで、Uberは高い可用性の維持、最小権限アクセスの適用、ドメイン固有のデータセットが独立してスケールすることを可能にし、チームに運用上の自律性を提供することを目指しています。

この移行はHive Metastore内でのポインターベースのアプローチを活用しており、ペタバイト単位のデータを複製することなく、データセットを新しいHDFS（Hadoop Distributed File System）の場所へリダイレクトすることを可能にします。各データセットは分散化されたターゲット場所に一度コピーされ、その後元のポインターが更新されるため、移行中でもクエリは機能し続けます。

UberのエンジニアであるVijayant Soni氏は次のように説明しています。

HMS（Hive Metastore）におけるデータセットポインターの更新は瞬時に行われるため、クリティカルなワークロードの継続的な動作が保証されます。このアプローチにより、Hiveに依存する分析ジョブや機械学習パイプラインに対してダウンタイムゼロを実現しています。

ポインターベースのHiveデータセット移行における旧HDFSパスと新HDFSパスの比較（出典：Uber Blog Post）

この移行をサポートするシステムには、4 つの主要なコンポーネントが含まれます：Bootstrap Migrator（ブートストラップ・マイグレーター）、Realtime Synchronizer（リアルタイム同期ツール）、Batch Synchronizer（バッチ同期ツール）、および Recovery Orchestrator（リカバリ・オーケストレーター）です。Bootstrap Migrator は、分散 Spark ジョブとチェックサム検証を使用して、初期のデータセット移動を管理し、完全性を確認します。リアルタイム同期ツールとバッチ同期ツールは、移行中にソースとターゲットのメタデータの整合性を維持し、チームが引き続きデータを読み書きしながら双方向の更新をサポートします。Recovery Orchestrator はポインタのバックアップを追跡し、不整合が検出された場合に安全なロールバックを可能にします。これらの人間による検証（ヒューマン・イン・ザ・ループ）と自動化されたチェックにより、チームは自信を持って移行を実行でき、運用リスクを軽減できます。

データベース連合システムのアーキテクチャ（出典：Uber ブログ記事）

Uber の分散型アーキテクチャは、以前のモノリシックモデルのいくつかの制限に対処しています。旧システムでは、複数のチームが同じコンピューティングおよびストレージリソースを競合し、ノイジーネイバー効果によりクリティカルなワークロードが遅延する問題がありました。広範な ACL（アクセス制御リスト）権限は、設定ミスによる影響範囲を拡大させました。また、中央集権的なガバナンスは更新を遅らせ、ボトルネックを生み出していました。Hive データベースを分散させ、ドメインレベルで厳格な ACL を適用することで、チームはデータセットの所有権を得られ、可観測性、コンプライアンス、ワークフローの効率性が向上します。

この移行により、重複するデータセットのコピーを避けることでストレージのオーバーヘッドが削減され、新しいデータセットのオンボーディングも簡素化されます。移行前のチェックや監査ログ記録を含む自動化されたプロセスにより、データ整合性と規制遵守の両方が維持されることが保証されます。エンジニアは、データセットの状態、ポインタの更新、同期メトリクスを追跡するダッシュボードを通じて進捗状況を確認でき、透明性と運用上の確実性が提供されます。移行期間中、数千のデータセットが移動され、700 万件以上の HMS（Hive Metastore）同期が行われ、古くなったデータセットの削除により 1PB 以上の HDFS（Hadoop Distributed File System）領域が解放されました。

このアプローチは継続的なスケーリングをサポートし、既存のワークロードを混乱させることなく新しいデータセットを追加できることを保証します。責任をチーム間で分散させることで、Uber は中央運用チームへの依存度を下げ、フィードバックループを短縮し、分析エコシステムのレジリエンス（耐性）を高めています。

著者について

リーラ・クムリ

リーラはスターバックスのシニアソフトウェアエンジニアであり、スケーラブルなクラウドネイティブシステムや分散プラットフォームの構築に深い専門知識を持っています。リワードプラットフォーム全体において、アーキテクチャ、納品、運用の卓越性を牽引し、システムの近代化、スケーラビリティの向上、信頼性の強化に向けた取り組みを主導しています。

技術的なリーダーシップに加え、リーラは組織内のAIチャンピオンとしても活動し、LLMベースのツールを活用して開発者の生産性やワークフローを改善する機会を特定し、AI導入におけるベストプラクティスを確立しています。彼女は本番環境で動作するシステムの構築、開発者体験の向上、そしてエンジニアが技術的・戦略的な影響力を高めるよう指導することに情熱を持っています。彼女の関心領域には、プラットフォームエンジニアリング、分散システム、開発者生産性、そして技術的ソリューションとビジネス・プロダクトの目標を結びつけることが含まれます。

原文を表示

Uber has redesigned its Hive data warehouse to decentralize more than 16,000 datasets totaling over 10 petabytes, addressing scalability, operational, and security challenges. Previously, a monolithic Hive instance housed all delivery business datasets under a single namespace, creating risks of cascading outages, resource contention, and governance bottlenecks. By federating Hive databases, Uber aims to maintain high availability, enforce least-privilege access, and allow domain-specific datasets to scale independently, providing teams with operational autonomy.

The migration leverages a pointer-based approach within the Hive Metastore, enabling datasets to be redirected to new HDFS locations without duplicating petabytes of data. Each dataset is copied once to a decentralized target location, then the original pointer is updated, ensuring that queries continue to function during migration.

Vijayant Soni, engineer at Uber, explained,

Updating a dataset pointer in HMS is a split-second operation, ensuring continuous functioning for critical workloads. This approach ensures zero downtime for analytics jobs and machine learning pipelines dependent on Hive.

Pointer-based Hive dataset migration showing old vs. new HDFS paths (Source: Uber Blog Post)

The system supporting this migration includes four key components: the Bootstrap Migrator, Realtime Synchronizer, Batch Synchronizer, and Recovery Orchestrator. The Bootstrap Migrator manages the initial dataset movement, using distributed Spark jobs and checksum verification to validate completeness. Real-time and Batch Synchronizers maintain metadata alignment between source and target during migration, supporting bidirectional updates while teams continue to read and write data. The Recovery Orchestrator tracks pointer backups, enabling safe rollback if inconsistencies are detected. These human-in-the-loop validations and automated checks enable teams to perform migrations with confidence and reduce operational risk.

Architecture of the Database Federation system(Source: Uber Blog Post)

Uber's decentralized architecture addresses several limitations of the previous monolithic model. In the old system, multiple teams competed for the same compute and storage resources, leading to noisy neighbor effects that could slow critical workloads. Broad ACL permissions amplified the blast radius of misconfigurations, while centralized governance slowed updates and created bottlenecks. By decentralizing Hive databases and enforcing strict ACLs at the domain level, teams gain ownership of datasets, improving observability, compliance, and workflow efficiency.

The migration also reduces storage overhead by avoiding redundant dataset copies and simplifies the onboarding of new datasets. Automated processes, including pre-migration checks and audit logging, ensure that migrations preserve both data integrity and regulatory compliance. Engineers can monitor progress via dashboards that track dataset status, pointer updates, and synchronization metrics, providing transparency and operational confidence. Throughout the migration, thousands of datasets were moved, over 7 million HMS syncs were performed, and more than 1 PB of HDFS space was reclaimed by removing stale datasets.

The approach supports ongoing scaling and ensures that new datasets can be added without disrupting existing workloads. By distributing responsibility across teams, Uber reduces dependency on a central operations team, shortens feedback loops, and improves the resilience of its analytics ecosystem.

About the Author

Leela Kumili

Leela is a Lead Software Engineer at Starbucks with deep expertise in building scalable, cloud-native systems and distributed platforms. She drives architecture, delivery, and operational excellence across the Rewards Platform, leading efforts to modernize systems, improve scalability, and enhance reliability.

In addition to her technical leadership, Leela serves as an AI Champion for the organization, identifying opportunities to improve developer productivity and workflows using LLM-based tools and establishing best practices for AI adoption. She is passionate about building production-ready systems, enhancing developer experience, and mentoring engineers to grow in both technical and strategic impact. Her interests include platform engineering, distributed systems, developer productivity, and bridging technical solutions with business and product goals.

Show moreShow less

この記事をシェア

Dagster Blog★32025年11月13日 09:00

データチームはヘルプデスクであってはならない：データと共にコンパスを活用せよ

コンパスが主要なデータウェアハウス全てをサポート。自社データを接続し、ガバナンスを維持したまま、データを移動させずにSlack内でAIによる回答を得られる。

InfoQ★32026年3月9日 18:00

変化を指標として：変更配信シグナルによるシステム信頼性の測定

InfoQの記事が、システム変更は本番環境インシデントの主な要因であり、変更関連指標が信頼性の重要なシグナルであると指摘している。変更リードタイム、変更成功率、インシデント漏洩率の最小指標セットが、実用的な技術指標とイベント中心のデータウェアハウスによって支えられ、配信効率と信頼性を評価する。

InfoQ★32026年3月8日 19:11

Google BigQueryが分散データ向けクロスリージョンSQLクエリをプレビュー

Google Cloudは、BigQueryのグローバルクエリ機能のプレビューを発表した。この新機能により、開発者は異なる地理的リージョンに保存されたデータを移動またはコピーせずにSQLクエリを実行できる。

ニュース一覧に戻る元記事を読む

InfoQ·2026年4月9日 22:54·約6分で読める

Uber、16,000データセットと10PB以上のHiveデータウェアハウスを分散化し、ダウンタイムゼロの分析を実現

#データウェアハウス #データフェデレーション #大規模データ管理 #機械学習基盤 #データガバナンス #Uber

TL;DR

AI深層分析2026年4月9日 23:41

重要/ 5段階

深度40%

キーポイント

大規模データの分散化移行

Uberは16,000のデータセット、合計10ペタバイト以上のHiveデータウェアハウスを、ポインタベースのフェデレーションを用いて分散化した。

ゼロダウンタイム移行の実現

この移行はサービス停止を伴わずに行われ、継続的な分析・機械学習ワークロードを可能にした。

セキュリティとガバナンスの強化

厳格なアクセス制御リスト（ACL）の適用と改善されたガバナンスが実現された。

スケーラブルなドメイン固有データセット

分析と機械学習のワークロード向けに、スケーラブルでドメイン固有のデータセットが提供されるようになった。

影響分析・編集コメントを表示

影響分析

編集コメント

UberのエンジニアであるVijayant Soni氏は次のように説明しています。

ポインターベースのHiveデータセット移行における旧HDFSパスと新HDFSパスの比較（出典：Uber Blog Post）

データベース連合システムのアーキテクチャ（出典：Uber ブログ記事）

著者について

リーラ・クムリ

原文を表示

Vijayant Soni, engineer at Uber, explained,

Pointer-based Hive dataset migration showing old vs. new HDFS paths (Source: Uber Blog Post)

Architecture of the Database Federation system(Source: Uber Blog Post)

About the Author

Leela Kumili

Show moreShow less

この記事をシェア

Dagster Blog★32025年11月13日 09:00

データチームはヘルプデスクであってはならない：データと共にコンパスを活用せよ

InfoQ★32026年3月9日 18:00

変化を指標として：変更配信シグナルによるシステム信頼性の測定

InfoQ★32026年3月8日 19:11

Google BigQueryが分散データ向けクロスリージョンSQLクエリをプレビュー

ニュース一覧に戻る元記事を読む

Uber、16,000データセットと10PB以上のHiveデータウェアハウスを分散化し、ダウンタイムゼロの分析を実現

キーポイント

影響分析

編集コメント

関連記事

Uber、16,000データセットと10PB以上のHiveデータウェアハウスを分散化し、ダウンタイムゼロの分析を実現

キーポイント

影響分析

編集コメント

関連記事