プレゼンテーション: DuolingoのKubernetesへの移行
DuolingoのFranka Passingは、同社の500以上のバックエンドサービスをKubernetesに移行する際のアーキテクチャ転換、GitOpsへの移行、IPv6専用ポッドへの移行、環境を分離する「セルラーアーキテクチャ」の採用、および開発者信頼の管理やAWSレート制限への対応といった実践的な課題について議論している。
キーポイント
大規模サービスのKubernetes移行
Duolingoは500以上のバックエンドサービスをKubernetesに移行し、大規模なアーキテクチャ転換を実施した。
GitOpsとArgo CDの採用
GitOpsアプローチをArgo CDで実装し、インフラストラクチャの管理とデプロイメントを効率化した。
IPv6専用ポッドへの移行
IPv6-onlyポッドへの移行を進め、ネットワークの近代化と将来のスケーラビリティに対応した。
セルラーアーキテクチャによる環境分離
「セルラーアーキテクチャ」を採用して環境を分離し、システムの信頼性と独立性を高めた。
実践的な運用課題の共有
開発者信頼の管理、AWSレート制限への対応、早期採用サービスの本番環境化など、現場での実践的な課題とその解決策を共有している。
影響分析・編集コメントを表示
影響分析
この記事は、大規模なデジタルサービスを提供する企業がクラウドネイティブなインフラストラクチャに移行する際の実践的な知見を提供しており、特にKubernetesとGitOpsの採用、IPv6への移行、環境分離のアーキテクチャ設計において参考になるケーススタディとなっている。AI業界においても、同様のスケーラビリティと信頼性の課題を抱える企業にとって、インフラストラクチャの近代化と効率化の指針となる可能性がある。
編集コメント
大規模サービスにおけるKubernetes移行の実践的な知見が豊富で、特に開発者信頼の管理やクラウド制限への対応など、現場で直面する課題への洞察が参考になる。AIサービスを支えるインフラストラクチャの近代化事例として価値がある。
imageFranka Passingは、Duolingoの500以上のバックエンドサービスがKubernetesへ移行する際のアーキテクチャの変化について語ります。彼女は、Argo CDを用いたGitOpsへの移行、IPv6のみのPodへの切り替え、そして環境を分離するために使用される「セルラーアーキテクチャ(cellular architecture)」について説明します。さらに、開発者の信頼管理、AWSのレートリミット(rate limits)への対応、そして初期採用サービスのプロダクション化に関する「現場からの報告」を共有しています。
*By Franka Passing*
原文を表示

Franka Passing discusses the architectural shift of Duolingo’s 500+ backend services to Kubernetes. She explains the move toward GitOps with Argo CD, the transition to IPv6-only pods, and the "cellular architecture" used to isolate environments. She shares "reports from the trenches" on managing developer trust, navigating AWS rate limits, and productionizing early adopter services.
*By Franka Passing*
関連記事
Etsy、1000シャード・425TBのMySQLシャーディングアーキテクチャをVitessに移行
Etsyのエンジニアリングチームは、長年運用してきたMySQLシャーディング基盤をVitessに移行した。内部システムからVitessのvindexesを使用してシャードルーティングを移行し、データの再シャーディングや未シャーディングテーブルのシャーディングを可能にした。
Kubernetes上でSlurmを使用した大規模GPUワークロードの実行
NVIDIAが、オープンソースのクラスタ管理システムSlurmをKubernetesと統合し、大規模GPUワークロードを効率的に管理・スケジューリングする方法を紹介している。SlurmはTOP500システムの65%以上で採用されている実績を持つ。
CNCF、KubernetesだけではLLMワークロードのセキュリティ確保に不十分と警告
CNCFが、Kubernetes上でのLLM展開には、AIシステムの動作を理解・制御できないという根本的なセキュリティギャップがあると指摘した。