Union.aiとFlyteでAmazon EKS上にAIワークフローを構築
AWS Machine Learning Blogは、AI/MLワークフローの運用課題を解決するため、Union.aiのFlyteをAmazon EKS上で展開し、AWSサービスと統合する方法を解説している。
キーポイント
AI/MLワークフローの運用課題
AIプロジェクトはモデルの質ではなく、インフラやプロセスの断片化・脆弱性により、パイロットから本番への移行や再現性の確保が困難である。
Flyteによるワークフローオーケストレーション
Flyte Python SDKを使用してAI/MLワークフローをオーケストレーションし、スケーリングする方法を説明している。
Amazon EKSへのFlyte展開
Union.ai 2.0システムにより、FlyteをAmazon EKS上に展開し、Amazon S3、Amazon Aurora、IAM、CloudWatchなどのAWSサービスとシームレスに統合できる。
Kubernetes上のAI/MLワークフロー課題
インフラの複雑さ、実験から本番へのギャップ、再現性、コスト管理、信頼性など、Kubernetes上でAI/MLワークフローを実行する際の一般的な課題を列挙している。
影響分析・編集コメントを表示
影響分析
この記事は、AI/MLワークフローの運用上の課題を具体的に指摘し、FlyteとAmazon EKSの統合による解決策を提示している。これにより、データサイエンティストやエンジニアが実験環境から本番環境への移行を効率化し、再現性を高めることが期待される。
編集コメント
AWSブログからの実践的な技術解説記事。FlyteとEKSの統合によるMLOps課題へのアプローチは、クラウドネイティブなAI開発の現場で参考になる内容。
人工知能(AI)および機械学習(ML)ワークフローの規模と複雑性が増大するにつれ、実践者がモデルを整理してデプロイすることが困難になっています。AI プロジェクトは、パイロットから本番環境への移行で苦労することが多く、失敗する原因がモデル自体の質にあるのではなく、インフラストラクチャやプロセスが断片化され脆く、元のパイロット用コードベースがこれらの追加要件によって肥大化させられることによるものです。これにより、データサイエンティストやエンジニアがラップトップからクラスターへ(ローカル開発から本番デプロイへ)迅速に移行し、パイロット時に確認した正確な結果を再現することが難しくなります。
本稿では、Flyte Python SDK を活用して AI/ML ワークフローをオーケストレーションおよびスケールする方法について解説します。また、Union.ai 2.0 システムが Amazon Elastic Kubernetes Service(Amazon EKS)上で Flyte のデプロイを可能にし、Amazon Simple Storage Service(Amazon S3)、Amazon Aurora、AWS Identity and Access Management(IAM)、Amazon CloudWatch といった AWS サービスとシームレスに統合される仕組みについて探ります。このソリューションは、新しい Amazon S3 Vectors サービスを活用した AI ワークフローの例を通じて解説します。
Kubernetes 上で AI/ML ワークフローを実行する際の一般的な課題
Kubernetes 上で実行される AI/ML ワークフローは、いくつかのオーケストレーション上の課題を提示します:
- インフラストラクチャの複雑さ – Kubernetes クラスター全体に適切な計算リソース(CPU、GPU、メモリ)を動的にプロビジョニングすること
- 実験から本番環境へのギャップ – 実験段階から本番環境へ移行する際、異なる環境でパイプラインを再構築する必要が生じることが多い
- 再現性 – データの系譜、モデルバージョン、実験パラメータを追跡し、信頼性の高い結果を可能にすること
- コスト管理 – スポットインスタンスの有効活用、自動スケーリングの実装、過剰なプロビジョニングの回避
- 信頼性 – 自動リトライ、チェックポイント作成、回復機構を用いて障害を適切に処理すること
複雑なワークフローをオーケストレーションするには、目的別に設計された AI/ML ツールが不可欠です。これには、開発およびデプロイサイクルを効率化するインテリジェントキャッシュ、自動バージョン管理、動的リソース割り当てといった専門的な機能が含まれます。
Amazon EKS における Flyte/Union の採用理由
Amazon EKS 上の Flyte を用いた Python ワークフローは、ノートパソコンからクラスターまでスケーラブルな動的実行、再現性、計算資源を考慮したオーケストレーションを実現します。これらのワークフローと Union.ai のマネージドデプロイメントにより、インフラストラクチャのオーバーヘッドなしに Amazon EKS を最大限に活用した、シームレスでクラッシュ耐性の高い運用が可能になります。Flyte は、Amazon EKS 上での AI/ML ワークロードをオーケストレーションする方法を変革し、ワークフロー構築をシンプルにします。主な要因としては以下が挙げられます:
- Pure Python workflows – 従来のオーケストレーターと比較してコード量が 66% 削減され、ドメイン固有言語の学習が必要なくなるため、既存コードを移行する ML エンジニアや AI 開発者の障壁を取り除くことができます。
- Dynamic execution – エージェント型 AI システムに不可欠な柔軟な分岐、ループ、条件ロジックにより、ランタイムでリアルタイムの意思決定が可能になります。
- Reproducibility by default – すべての実行はバージョン管理され、キャッシュされ、完全なデータ系譜(data lineage)とともに追跡されます。
- Compute-aware orchestration – データ処理用の CPU からモデル学習用の GPU まで、各タスクに対して適切な計算リソースを動的にプロビジョニングします。
- Robustness – パイプラインは障害から迅速に回復し、エラーを隔離し、手動介入なしでチェックポイントを管理できます。
Union.ai 2.0 は、Flyte を基盤として構築されています。Flyte は Lyft でミッションクリティカルな ML システム(ETA 予測、価格設定、地図作成など)を支えるために開発された、オープンソースの Kubernetes ベースのワークフローオーケストレーションシステムです。Flyte が 2020 年にオープンソース化され Linux Foundation AI & Data プロジェクトとなった後、コアエンジニアリングチームは Union.ai 2.0 を設立し、Amazon EKS で AI/ML ワークロードを実行するチーム向けに設計されたエンタープライズグレードのサービスを提供しています。Union.ai 2.0 は、マネージドオペレーション、マルチクラウドコントロールプレーン、抽象化されたインフラ管理を通じて Kubernetes インフラストラクチャの管理複雑さを低減し、データサイエンティストやエンジニアがスケーラビリティ、スピード、セキュリティ、信頼性を強化したモデル構築に集中できるよう、ML ベースの機能を提供します。
Union.ai 2.0 を利用する追加の利点には以下が含まれます:
- スケーラビリティの強化 – ワークフローは、ランタイムでの柔軟な分岐、タスクの扇状展開(ファンアウト)、およびリアルタイムのインフラスケーリングに対応します。
- 耐クラッシュ性の信頼性 – 自動リトライ、チェックポイント機能、障害回復により、手動介入なしでワークフローをレジリエントに維持できます。
- エージェント型 AI ランタイム – Union.ai は、状態保持型のエージェントと真に耐久性のあるオーケストレーションをサポートする、長寿命のエージェント型 AI システム向けに設計されています。
- コンプライアンス – 規制産業においては、組み込みの系譜管理(ラインージ)、監査可能性、および安全な実行(SOC2, RBAC, SSO)が不可欠です。Amazon EKS および Union.ai 上でのオーケストレーションは、コンプライアンスの達成を支援します。
- リソース認識機能 – コンピューティングプロビジョニング、スポットインスタンスの利用、および自動スケーリングに対するファーストクラスのサポートを提供します。
Flyte と Union.ai 2.0 の利点は、現代のオーケストレーションを第一級の要件へと引き上げます。動的実行、フォールトトレランス、リソース認識機能が組み込まれることで、バージョン 1.0 に比べてより開発者フレンドリーな体験が提供されます。
Amazon EKS は、コンピューティング、ストレージ、ネットワークの基盤を提供します。Flyte(オープンソースプロジェクト)はワークフローオーケストレーションを担います。Union.ai は Flyte を拡張し、インフラ認識型のオーケストレーション、エンタープライズグレードのセキュリティ、そしてターンキーのスケーラビリティを追加することで、DIY 設定なしで本番環境対応の Flyte を実現します。Flyte と Union.ai 2.0 の両方は Amazon EKS 上で動作しますが、以下の表に詳述する通り、異なるニーズに対応しています。
機能
オープンソースの Flyte
Union.ai 2.0
デプロイメント
E クラスター上で自己管理型
完全マネージドまたは BYOC オプション
最適なユースケース
Kubernetes の専門知識を持つチーム向け
マネージド運用を望むチーム向け
パフォーマンス
標準的なスケール
スケール、速度、タスクのファンアウト、並列処理が 10〜100 倍向上
インフラストラクチャ
アップグレードやスケーリングはユーザーが管理
ホワイトグローブによるマネージドインフラ
エンタープライズ機能
ロールベースのアクセス制御なし
細粒度のロールベースアクセス制御、シングルサインオン、シークレット管理、コストダッシュボード
サポート
コミュニティ主導
Union.ai チームによるエンタープライズ SLA
リアルタイム推論
独自に構築
再利用可能なコンテナを用いた組み込みリアルタイム推論およびニアリアルタイム推論
Woven Toyota、Lockheed Martin、Spotify、Artera などの企業は、Flyte と Union を活用して年間数百万ドル規模のコンピューティングをオーケストレーションしており、実験速度を 25 倍に加速し、反復サイクルを 96% 削減しています。
両方のオプション(オープンソースの Flyte および Union.ai 2.0)はオープンソースコミュニティと統合されており、機能の迅速な展開と継続的な改善を可能にしています。
ソリューション概要
オープンソースの Flyte は強力なオーケストレーション機能を提供しますが、Union.ai 2.0 は同じコア技術を基盤としつつ、エンタープライズグレードの管理機能を備えることで運用オーバーヘッドを排除し、チームがインフラの管理ではなく AI アプリケーションの開発に集中できるようにします。これは、管理の簡便さと完全なデータ制御を組み合わせたハイブリッドアーキテクチャによって実現されています。リージョンレベルのコントロールプレーンがワークフローのメタデータと調整を担当する一方、Union Operator は直接お客様の E クラスター(EKS)内にデプロイされ、データ、コード、シークレットをすべて AWS の境界内(パーリメータ)に保持します。
以下の図は、Union のコントロールプレーンとお客様のデータプレーンの間の運用フローを示しています。Union が管理するコントロールプレーン(左側)は、Elastic Load Balancing(ELB)を介してワークフローをオーケストレーションし、タスクデータを Amazon S3 に、実行メタデータを Aurora に保存します。Amazon EKS 環境内(右側)のデータプレーンでは、カスタマーコードをコンテナレジストリから取得し、AWS Secrets Manager からシークレットにアクセスし、S3 バケットへのデータの読み書きを行い、実行ログは可観測性のために CloudWatch と Union コントロールプレーンの両方に流れます。

Union.ai 2.0 の AWS インテグレーションアーキテクチャは、エンドツーエンドのワークフロー管理を提供する 6 つの主要なサービスコンポーネントを基盤として構築されています:
- コントロールプレーンとデータプレーン – コントロールプレーンは Union.ai AWS アカウント内で動作し、中央管理インターフェースとして機能します。ユーザーに対して認証・認可機能、観測・監視機能、システム管理ツールを提供します。また、データプレーンのクラスター上での実行配置のオーケストレーションを行い、クラスターの制御と管理操作を処理します。Union.ai 2.0 では、各 AWS リージョンごとに 1 つのコントロールプレーンを維持し、リージョンごとのデータプレーンを管理しています。データプレーンデプロイメントに対応するリージョンには us-west, us-east, eu-west, eu-central が含まれ、さらに追加のリージョンへの展開も進行中です。
- データプレーンのオブジェクトストア – このコンポーネントは、ファイル、ディレクトリ、データフレーム、モデル、Python-pickled 型からなるデータを保存します。これらは参照として渡され、コントロールプレーンによって読み込まれます。
- コンテナレジストリ – このコンポーネントには、ワークフロー・タスク・ランチプラン・アーティファクトの名前、ワークフローおよびタスクの入出力タイプ、実行ステータス・開始時刻・終了時刻・所要時間、ワークフロー・タスク・ランチプラン・アーティファクトのバージョン情報、そしてアーティファクト定義などのレジストリデータが含まれています。Union.ai 2.0 のアーキテクチャでは、インフラストラクチャ運用を管理しつつも、データと計算リソースに対する完全な所有権を維持できます。Union.ai 2.0 オペレーターはデータプレーン内に存在し、最小限の権限で管理タスクを処理します。これにより、クラスターのライフサイクル操作が可能となり、システムレベルのログアクセスや変更実装機能をサポートエンジニアに提供しますが、シークレットやデータを露出させることはありません。セキュリティはさらに一方向通信によって強化されます:データプレーンオペレーターがコントロールプレーンへの接続を開始し、その逆ではありません。
- ログと監視 – CloudWatch は Flyte との深い統合を通じて、集中型ログ管理と監視を提供します。システムは各実行に対して自動的にログリンクを構築し、コンソールに表示します。これらのリンクは AWS Management Console および該当する実行固有のログストリームに直接指向しており、障害発生時のトラブルシューティングを大幅に加速させる機能です。
- セキュリティ – セキュリティは、サービスアカウント用の IAM ロール(IRSA)を通じて処理されます。これは Kubernetes リソースとそれらが依存する AWS サービス間のアイデンティティをマッピングします。これらの設定により、バックエンドサービスに対してより安全で細粒度なアクセス制御が可能となり、Union.ai 2.0 ではこれらの AWS セキュリティ機能の上に、ユーザーアクセス制御のためのエンタープライズロールベースアクセス制御(RBAC)を追加しています。
- ストレージ層 – Amazon S3 は、ワークフローとデータの永続的なストレージ層として機能します。Flyte でワークフローを登録すると、コードは言語に依存しない表現にコンパイルされ、ワークフロー定義、入力タイプ、出力タイプを捉えます。この表現はパッケージ化されて Amazon S3 に保存され、FlytePropeller(Flyte の実行エンジン)がこれを取得して、対応する計算フレームワーク(Kubernetes や Spark など)に対してワークフローの実行を指示し、ステータスを報告します。モデルのトレーニングと検証に使用される生データも Amazon S3 に保存されます。Union.ai 2.0 では新たに Amazon S3 Vectors との統合が追加され、Retrieval Augmented Generation(RAG)、セマンティック検索、およびアジェンティック AI ワークフローのためのベクトルストレージが可能になりました。
この堅牢なインフラストラクチャを基盤として、Amazon EKS 上の Union.ai 2.0 は幅広い AI/ML ワークロードのオーケストレーションに優れています。大規模モデルトレーニングでは、GPU クラスター全体に分散トレーニングパイプラインをオーケストレーションし、自動リソースプロビジョニングとスポットインスタンスサポートによって処理します。データ処理においては、動的な並列化と効率的なタスクファンアウトによりペタバイトスケールのデータを処理でき、Union.ai 2.0 では最大 100,000 のタスクファンアウトと 50,000 の同時実行アクションまでスケーリング可能です。Amazon EKS 上で Union.ai 2.0 と Flyte を使用することで、ランタイムで自律的な意思決定を行う長時間稼働・状態保持型の AI エージェントであるアジェンティック AI システムの構築とデプロイが可能です。本番環境向けデプロイでは、再利用可能なコンテナを用いてサブ 100 ミリ秒のタスク起動時間を達成し、低遅延モデルサービングによるリアルタイム推論をサポートします。プロセス全体を通じて、Union.ai 2.0 は包括的な MLOps とモデルライフサイクル管理を提供し、実験から本番デプロイに至るまで、組み込みのバージョン管理とロールバック機能によって自動化します。
これらの機能は、Flyte が Amazon EKS 上で大規模なトレーニングワークロードをオーケストレーションする AWS Trainium インスタンス上での分散学習といった、専門的な実装において具体例として示されています。
Amazon EKS における Union.ai 2.0 のデプロイオプション
Union.ai 2.0 と Flyte は、Amazon EKS 向けに 3 つの柔軟なデプロイモデルを提供しており、それぞれが管理された利便性と運用上の制御をバランスよく組み合わせています。ご自身のチームの専門知識、コンプライアンス要件、開発速度に最も適したアプローチを選択してください:
- Union BYOC(完全管理型)– 本番環境への最速ルート。Union.ai 2.0 がインフラ、アップグレード、スケーリングを管理し、ワークロードはお客様の AWS アカウント内で実行されます。このオプションは、インフラ運用ではなく AI 開発そのものに完全に集中したいチームに最適です。
- Union セルフマネージド – お客様の AWS アカウント内でデータとコンピューティングリソースの制御を維持しつつ、Union.ai 2.0 の管理されたコントロールプレーンをデプロイできます。このオプションは、マネージドサービスの利点と、データの主権およびガバナンス要件を両立させたものです。
- Amazon EKS 上の Flyte OSS – AWS Cloud Development Kit (AWS CDK) を使用して、オープンソースの Flyte を直接お客様の E クラスター上でデプロイ・運用できます。このオプションは最大限の制御を提供し、デプロイのカスタマイズを希望する Kubernetes の専門知識を持つチームに最適です。(編集済み)
Amazon EKS Blueprints for AWS CDK Union アドオン は、AWS 顧客が Amazon EKS 上で Union を活用して AI/ML ワークロードをデプロイ、スケーリング、最適化するための支援を行います。これにより、スケーラブルな AI ワークロードを実行するためのモジュール型インフラストラクチャ・アズ・コード (IaC) AWS CDK テンプレートと、厳選されたデプロイブループリントが提供されます。対象となるワークロードには以下が含まれます:
- モデルのトレーニングおよびファインチューニングパイプライン
- 大規模言語モデル(LLM)推論およびサービング
- マルチモデルのデプロイおよび管理
- エージェント型 AI パイプラインのオーケストレーション
Union.ai 2.0 と Flyte は、Amazon EKS 上へのデプロイ用の IaC テンプレートを提供します:
- Terraform モジュール – ネットワーク、セキュリティ、観測性に関するベストプラクティスを備えた、Amazon EKS 上で Flyte をデプロイするための事前構成済みモジュール
- AWS CDK サポート – Union を既存の AWS インフラストラクチャに統合するための AWS CDK コンストラクト
- GitOps ワークフロー – 宣言型インフラ管理のための Flux および ArgoCD のサポート
Union アドオンはブログ公開時に利用可能となり、Flyte アドオンも近日公開予定です。GitHub リポジトリを継続してご確認ください。
これらのテンプレートは、E クラスター、ノードグループ(GPU インスタンスを含む)、IAM ロール、S3 バケット、Aurora データベース、および必要な Flyte コンポーネントのプロビジョニングを自動化します。
前提条件
このソリューションの利用を開始するには、以下の前提条件を満たす必要があります:
- 適切な権限を持つ AWS アカウント。
- サポート対象期間内の Amazon EKS バージョン。
- 必要な IAM ロール。IAM ロール for Service Accounts を使用することで、Flyte は Kubernetes リソースとそれらが依存する AWS サービス間のアイデンティティマッピングを実現できます。これらの設定はバックエンド用であり、ユーザー制御プレーンとの通信には影響しません。
Union.ai 2.0 が Amazon S3 Vectors をどのようにサポートするか
AI アプリケーションがセマンティック検索や RAG(Retrieval-Augmented Generation)のためにベクトル埋め込みをますます依存する中、Union.ai 2.0 は Amazon S3 Vectors の統合により、大規模なベクトルデータ管理を簡素化する機能をチームに提供します。Flyte 2.0 に組み込まれており、本日より利用可能です。Amazon S
原文を表示
As artificial intelligence and machine learning (AI/ML) workflows grow in scale and complexity, it becomes harder for practitioners to organize and deploy their models. AI projects often struggle to move from pilot to production. AI projects often fail not because models are bad, but because infrastructure and processes are fragmented and brittle, and the original pilot code base is often forced to bloat by these additional requirements. This makes it difficult for data scientists and engineers to quickly move from laptop to cluster (local development to production deployment) and reproduce the exact results they had seen during the pilot.
In this post, we explain how you can use the Flyte Python SDK to orchestrate and scale AI/ML workflows. We explore how the Union.ai 2.0 system enables deployment of Flyte on Amazon Elastic Kubernetes Service (Amazon EKS), integrating seamlessly with AWS services like Amazon Simple Storage Service (Amazon S3), Amazon Aurora, AWS Identity and Access Management (IAM), and Amazon CloudWatch. We explore the solution through an AI workflow example, using the new Amazon S3 Vectors service.
Common challenges running AI/ML workflows on Kubernetes
AI/ML workflows running on Kubernetes present several orchestration challenges:
- Infrastructure complexity – Provisioning the right compute resources (CPUs, GPUs, memory) dynamically across Kubernetes clusters
- Experiment-to-production gap – Moving from experimentation to production often requires rebuilding pipelines in different environments
- Reproducibility – Tracking data lineage, model versions, and experiment parameters to facilitate reliable results
- Cost management – Efficiently utilizing spot instances, automatic scaling, and avoiding over-provisioning
- Reliability – Handling failures gracefully with automatic retries, checkpointing, and recovery mechanisms
Purpose-built AI/ML tooling is essential for orchestrating complex workflows, offering specialized capabilities like intelligent caching, automatic versioning, and dynamic resource allocation that streamline development and deployment cycles.
Why Flyte/Union for Amazon EKS
The Flyte on Amazon EKS Python workflows scale from laptop-to-cluster with dynamic execution, reproducibility, and compute-aware orchestration. These workflows, along with Union.ai’s managed deployment, facilitate seamless, crash-proof operations that fully utilize Amazon EKS without the infrastructure overhead. Flyte transforms how you can orchestrate AI/ML workloads on Amazon EKS, making workflows simple to build. Some key factors include:
- Pure Python workflows – Write orchestration logic in Python with 66% less code than traditional orchestrators, alleviating the need to learn domain-specific languages and removing barriers for ML engineers and AI developers migrating existing code
- Dynamic execution – Make real-time decisions at runtime with flexible branching, loops, and conditional logic, which is essential for agentic AI systems
- Reproducibility by default – Every execution is versioned, cached, and tracked with complete data lineage
- Compute-aware orchestration – Dynamically provision the right compute resources for each task, from CPUs for data processing to GPUs for model training
- Robustness – Pipelines can quickly recover from failures, isolate errors, and manage checkpoints without manual intervention
Union.ai 2.0 is built on Flyte, the open source, Kubernetes-based workflow orchestration system originally developed at Lyft to power mission-critical ML systems like ETA prediction, pricing, and mapping. After Flyte was open sourced in 2020 and became a Linux Foundation AI & Data project, the core engineering team founded Union.ai 2.0 to deliver an enterprise-grade service purposed-built for teams running AI/ML workloads on Amazon EKS. Union.ai 2.0 reduces the complexity of managing Kubernetes infrastructure through managed operations, a multi-cloud control plane, and abstracted infrastructure management, while providing ML-based capabilities that help data scientists and engineers focus on building models with enhanced scale, speed, security, and reliability.
Additional benefits of using Union.ai 2.0 include:
- Enhanced scalability – Workflows respond at runtime with flexible branching, task fanout, and real-time infrastructure scaling.
- Crash-proof reliability – Automatic retries, checkpointing, and failure recovery allow workflows to stay resilient without manual intervention.
- Agentic AI runtime – Union.ai is designed for long-lived agentic AI systems, supporting stateful agents and truly durable orchestration.
- Compliance – For regulated industries, built-in lineage, auditability, and secure execution (SOC2, RBAC, SSO) are critical. Orchestration on Amazon EKS and Union.ai helps facilitate compliance.
- Resource awareness – It offers first-class support for compute provisioning, spot instances, and automatic scaling.
The benefits of Flyte and Union.ai 2.0 elevate modern orchestration to a first-class requirement: dynamic execution, fault tolerance, and resource awareness are now built-in, providing a more developer-friendly experience compared to 1.0.
Amazon EKS provides your compute, storage, and networking backbone. Flyte (the open source project) handles workflow orchestration. Union.ai extends Flyte with infrastructure-aware orchestration, enterprise-grade security, and turnkey scalability, giving you production-ready Flyte without the DIY setup. Both Flyte and Union.ai 2.0 run on Amazon EKS, but serve different needs, as detailed in the following table.
Feature
Open Source Flyte
Union.ai 2.0
Deployment
Self-managed on your EKS cluster
Fully managed or BYOC options
Best for
Teams with Kubernetes expertise
Teams wanting managed operations
Performance
Standard scale
10–100 times greater scale, speed, task fanout, and parallelism
Infrastructure
You manage upgrades, scaling
White-glove managed infrastructure
Enterprise features
No role-based access control
Fine-grained role-based access control, single sign-on, managed secrets, cost dashboards
Support
Community-driven
Enterprise SLA with Union.ai team
Real-time serving
Build your own
Built-in real-time inference and near real-time inference with reusable containers
Enterprises like Woven Toyota, Lockheed Martin, Spotify, and Artera orchestrate millions of dollars of compute annually with Flyte and Union, accelerating experimentation by 25 times faster and cutting iteration cycles by 96%.
Both options (open source Flyte and Union.ai 2.0) integrate with the open source community, facilitating rapid feature rollout and continuous improvement.
Solution overview
Although open source Flyte provides powerful orchestration capabilities, Union.ai 2.0 delivers the same core technology with enterprise-grade management, removing the operational overhead so your team can focus on building AI applications instead of managing infrastructure. This is achieved through a hybrid architecture that combines managed simplicity with complete data control. The Regional control plane handles workflow metadata and coordination, while the Union Operator deploys directly into your EKS clusters—keeping your data, code, and secrets entirely within your AWS perimeter.
The following figure illustrates the operational flow between Union’s control plane and your data plane. The Union-managed control plane (left) orchestrates workflows through Elastic Load Balancing (ELB), storing task data in Amazon S3 and execution metadata in Aurora. Within your Amazon EKS environment (right), the data plane executes workflows that pull customer code from your container registry, access secrets from AWS Secrets Manager, and read/write data to your S3 buckets—with the execution logs flowing to both CloudWatch and the Union control plane for observability.

Union.ai 2.0’s AWS integration architecture is built on six key service components that provide end-to-end workflow management:
- Control plane and data plane – The control plane operates within the Union.ai AWS account and serves as the central management interface, providing users with authentication and authorization capabilities, observation and monitoring functions, and system management tools. It also orchestrates execution placement on data plane clusters and handles cluster control and management operations. Union.ai 2.0 maintains one control plane per AWS Region, managing the Regional data planes. Available Regions for data plane deployment include us-west, us-east, eu-west, and eu-central, with ongoing expansion to additional Regions.
- Data plane object store – This component stores data comprising files, directories, data frames, models, and Python-pickled types, which are passed as references and read by the control plane.
- Container registry – This component contains registry data that include names of workflows, tasks, launch plans, and artifacts; input and output types for workflows and tasks; execution status, start time, end time, and duration of workflows and tasks; version information for workflows, tasks, launch plans, and artifacts; and artifact definitions. With the Union.ai 2.0 architecture, you can retain full ownership of your data and compute resources while it manages the infrastructure operations. The Union.ai 2.0 operator resides in the data plane and handles management tasks with least privilege permissions. It enables cluster lifecycle operations and provides support engineers with system-level log access and change implementation capabilities—without exposing secrets or data. Security is further strengthened through unidirectional communication: the data plane operator initiates the connections to the control plane, not the reverse.
- Logging and monitoring – CloudWatch provides centralized logging and monitoring through deep integration with Flyte. The system automatically builds logging links for each execution and displays them in the console, with links pointing directly to the AWS Management Console and the specific log stream for that execution—a feature that significantly accelerates troubleshooting during failures.
- Security – Security is handled through IAM roles for service accounts (IRSA), which maps the identity between Kubernetes resources and the AWS services they depend on. These configurations enable more secure, fine-grained access control for backend services, and Union.ai 2.0 adds enterprise role-based access control (RBAC) for user access control on top of these AWS security features.
- Storage layer – Amazon S3 serves as the durable storage layer for workflows and data. When you register a workflow with Flyte, your code is compiled into a language-independent representation that captures the workflow definition, input, and output types. This representation is packaged and stored in Amazon S3, where FlytePropeller—Flyte’s execution engine—retrieves it to instruct the respective compute framework (such as Kubernetes or Spark) to run workflows and report status. Raw input data used to train and validate models is also stored in Amazon S3. Union.ai 2.0 now includes a new integration with Amazon S3 Vectors, enabling vector storage for Retrieval Augmented Generation (RAG), semantic search, and agentic AI workflows.
With this robust infrastructure in place, Union.ai 2.0 on Amazon EKS excels at orchestrating a wide range of AI/ML workloads. It handles large-scale model training by orchestrating distributed training pipelines across GPU clusters with automatic resource provisioning and spot instance support. For data processing, it can process petabyte-scale datasets with dynamic parallelism and efficient task fanout, scaling to 100,000 task fanouts with 50,000 concurrent actions in Union.ai 2.0. By using Union.ai 2.0 and Flyte on Amazon EKS, you can build and deploy agentic AI systems—long-running, stateful AI agents that make autonomous decisions at runtime. For production deployments, it supports real-time inference with low-latency model serving, using reusable containers for sub-100 millisecond task startup times. Throughout the entire process, Union.ai 2.0 provides comprehensive MLOps and model lifecycle management, automating everything from experimentation to production deployment with built-in versioning and rollback capabilities.
These capabilities are exemplified in specialized implementations like distributed training on AWS Trainium instances, where Flyte orchestrates large-scale training workloads on Amazon EKS.
Deployment options for Union.ai 2.0 on Amazon EKS
Union.ai 2.0 and Flyte offer three flexible deployment models for Amazon EKS, each balancing managed convenience with operational control. Select the approach that best fits your team’s expertise, compliance requirements, and development velocity:
- Union BYOC (fully managed) – The fastest path to production. Union.ai 2.0 manages the infrastructure, upgrades, and scaling while your workloads run in your AWS account. This option is ideal for teams that want to focus entirely on AI development rather than infrastructure operations.
- Union Self Managed – You can deploy Union.ai 2.0’s managed control plane while maintaining control of your data and compute resources in your AWS account. This option combines the benefits of managed services with data sovereignty and governance requirements.
- Flyte OSS on Amazon EKS – You can deploy and operate open source Flyte directly on your EKS cluster using the AWS Cloud Development Kit (AWS CDK). This option provides maximum control and is ideal for teams with strong Kubernetes expertise who want to customize their deployment. (edited)
The Amazon EKS Blueprints for AWS CDK Union add-on helps AWS customers deploy, scale, and optimize AI/ML workloads using Union on Amazon EKS. It provides modular infrastructure as code (IaC) AWS CDK templates and curated deployment blueprints for running scalable AI workloads, including:
- Model training and fine-tuning pipelines
- Large language model (LLM) inference and serving
- Multi-model deployment and management
- Agentic AI pipeline orchestration
Union.ai 2.0 and Flyte provide IaC templates for deploying on Amazon EKS:
- Terraform modules – Preconfigured modules for deploying Flyte on Amazon EKS with best practices for networking, security, and observability
- AWS CDK support – AWS CDK constructs for integrating Union into existing AWS infrastructure
- GitOps workflows – Support for Flux and ArgoCD for declarative infrastructure management
The Union add-on is available by blog publication, and the Flyte add-on is coming—keep watching the GitHub repo.
These templates automate the provisioning of EKS clusters, node groups (including GPU instances), IAM roles, S3 buckets, Aurora databases, and the required Flyte components.
Prerequisites
To start using this solution, you must have the following prerequisites:
- An AWS account with appropriate permissions.
- Amazon EKS version on standard support.
- Required IAM roles. Using IAM roles for service accounts, Flyte can map identity between the Kubernetes resources and AWS services it depends on. These configurations are for the backend and do not interfere with user-control plane communication
How Union.ai 2.0 supports Amazon S3 Vectors
As AI applications increasingly rely on vector embeddings for semantic search and RAG, Union.ai 2.0 empowers teams with Amazon S3 Vectors integration, simplifying vector data management at scale. Built into Flyte 2.0, this feature is available today. Amazon S
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み