メインコンテンツへスキップ

#kubernetes のAIニュース

45件の記事

Oracle Cloud Infrastructure上で本番対応のNVIDIA AI-Qブループリントをデプロイする方法

NVIDIAは、Oracle Cloud Infrastructure上でAIエージェントやマルチターンチャットに対応した本番環境向けAI-Qブループリントの展開方法を公開しました。

NVIDIA Developer Blog·6月27日·★★★★

クラウドネイティブ会議に出展しました

メルカリの DBRE チームと IDP チームは、2026 年 5 月 14 日から 15 日に開催されたクラウドネイティブ会議にスポンサーとして出展し、認証やマイクロサービス規模に関する議論を交わした。

Mercari Engineering·6月17日

Pub/Sub を駆使するマイクロサービスにおける PR 単位の検証環境導入の取り組み

メルカリ・メルペイの Santa チームが、ポイント還元システムの QA プロセス課題に対し、Pub/Sub Pull 型サブスクリプションを基盤とする非同期処理環境で、PR(プルリクエスト)単位での検証環境を導入した事例を紹介している。

Mercari Engineering·6月11日

Argoワークフロー移行に挑んだ話

CyberAgent Developers Blog·6月2日

データは不足していない。不足しているのは想像力だ(8 分読了)

Asuka Zheng は、トレーニングデータの枯渇への不安が市場の実態を捉えていないと指摘し、自身の SRE 代替プロジェクトで世界モデルの訓練が失敗した事例を紹介する。同氏は、最初の異常から完全な解決に至るまでの長期エンドツーエンドの事象軌跡データが存在しないことがボトルネックだったと述べている。

TLDR AI·5月29日·★★★★

NVIDIA Dynamo スナップショット:Kubernetes 上の推論ワークロードにおける高速起動

NVIDIA は、Kubernetes 環境で実行される推論ワークロードの起動時間を大幅に短縮する「Dynamo」のスナップショットを公開しました。これにより、AI サービスの展開効率が向上します。

NVIDIA Developer Blog·5月28日·★★★★

Google、信頼性の高い分散型エージェント実行環境「Agent Executor」を発表

Google は、長期にわたるエージェントワークフローの信頼性と効率を高めるためのオープンソースランタイム標準「Agent Executor」を発表した。同製品は、永続的な実行や安全な隔離機能を提供し、Kubernetes Engine と連携して大規模展開時の計算リソース効率を最適化する。

TLDR AI·5月21日·★★★★

LINEヤフーエンジニアによるKubeCon + CloudNativeCon Europe 2026参加レポート

LINEヤフーの中村エンジニアが、2026年3月23日から26日にかけてオランダ・アムステルダムで開催されたKubeCon + CloudNativeCon Europe 2026に参加し、社内プライベートクラウドの開発・運用に関する知見を報告している。

LY Corp Tech Blog·4月23日

TiDB Cloudにおけるオートスケールの実現

DBREチームは2025年11月、TiDB全クラスタの水平オートスケールを導入し、CPU利用率60%で安定稼働している。

Mercari Engineering·4月22日

CNCF、KubernetesだけではLLMワークロードのセキュリティ確保に不十分と警告

CNCFが、Kubernetes上でのLLM展開には、AIシステムの動作を理解・制御できないという根本的なセキュリティギャップがあると指摘した。

InfoQ·4月17日

Aurora MySQLのエラーレート悪化の原因がPerformance Schemaだった事例

Amazon Aurora MySQLで、負荷が高くないにもかかわらずエラーレートが悪化した問題について、原因がPerformance Schemaの設定にあることが判明した。

CyberAgent Developers Blog·4月13日·★★★★

Kubernetes上でSlurmを使用した大規模GPUワークロードの実行

NVIDIAが、オープンソースのクラスタ管理システムSlurmをKubernetesと統合し、大規模GPUワークロードを効率的に管理・スケジューリングする方法を紹介している。SlurmはTOP500システムの65%以上で採用されている実績を持つ。

NVIDIA Developer Blog·4月10日

KubernetesでCDC基盤を構築した話 ~ Strimzi(Kafka)・Debezium・Snowflakeを使ったMySQLデータの自動同期基盤 ~

Dynalyst社の平田聡一朗氏が、Kubernetes上でStrimzi(Kafka)・Debezium・Snowflakeを活用し、MySQLデータの自動同期基盤を構築した事例を紹介している。

CyberAgent Developers Blog·4月9日

Dynatraceのランタイムコンテキストを使用してセキュリティアラートを優先順位付け

DynatraceがGitHub Advanced Securityと連携し、Kubernetes環境でデプロイされたアーティファクトとランタイムリスクに基づいてセキュリティアラートの優先順位付けを可能にした。

GitHub Changelog·4月8日

IstioがAI時代に向け進化:マルチクラスタ、アンビエントモード、推論機能を導入

Cloud Native Computing Foundation(CNCF)が、AI駆動ワークロードに対応するため、Istioにマルチクラスタ、アンビエントモード、推論機能を追加し、サービスメッシュを進化させた。

InfoQ·4月7日·★★★★

プレゼンテーション: DuolingoのKubernetesへの移行

Franka Passing氏が、Duolingoの500以上のバックエンドサービスをKubernetesに移行したアーキテクチャ変更について説明している。GitOpsへの移行、IPv6のみのポッドへの移行、環境を分離する「セルラーアーキテクチャ」の採用を解説した。

InfoQ·4月6日

Kubernetesの自動スケーリングはベンダーツールを超えた新たな可観測性への焦点を要求

KarpenterなどのKubernetes自動スケーラーの採用が加速する中、プラットフォームに依存しない可観測性の実践が登場し、従来のインフラメトリクスから、プロビジョニング動作、スケジューリング遅延、コスト効率への深い洞察へと焦点が移行している。

InfoQ·3月31日

HashiCorp Vault 1.21がSPIFFE認証、詳細なシークレット回復などを導入

HashiCorpはVault 1.21をリリースし、非ヒューマンワークロード向けのSPIFFE認証、詳細なシークレット回復モデルの拡張、KV v2シークレット属性付与、MFA TOTP自己登録、etcdに永続化せずにポッドに直接シークレットをマウントするVault Secrets Operator CSIドライバーなどを追加した。

InfoQ·3月28日

年間600時間を節約したKubernetesの一行修正

チームがTerraform変更を計画・適用するツールAtlantisを再起動する際、Kubernetesの安全なデフォルト設定が原因で30分間のダウンタイムが発生していた。月100回の再起動で50時間以上のエンジニア時間がブロックされていたが、一行の修正で問題を解決した。

Cloudflare Blog·3月26日

未使用GPUワークロードを統合してAIインフラのスループットを最大化する

NVIDIAが、Kubernetes環境でモデル要件とGPUサイズの不一致による非効率性を解消するため、未使用GPUワークロードを統合する手法を提案している。

NVIDIA Developer Blog·3月26日

AWS Load Balancer ControllerがKubernetes Gateway APIサポートで一般提供開始

AWSがKubernetes Gateway APIのサポートをAWS Load Balancer Controllerで一般提供した。アノテーションベースの設定から型安全なCRDに移行し、L4/L7ルーティング、クロスネームスペースルーティング、自動証明書発見などを提供する。

InfoQ·3月25日

人気AIプロキシ「LiteLLM」がマルウェアでハッキングされ、Kubernetesクラスター経由で拡散

AI API用の人気オープンソースプロキシ「LiteLLM」が、認証情報を盗むマルウェアに感染し、クラウドシステム間で拡散する攻撃を受けた。NVIDIAのAIディレクターJim Fanは、AIエージェントを標的とする新種の攻撃と警告している。

The Decoder·3月25日·★★★★

Kubernetes上での分散型LLM推論ワークロードのデプロイ

NVIDIAが、大規模言語モデル(LLM)推論ワークロードの複雑化に対応するため、Kubernetes上でプリフィル段階とデコード段階を分離した分散型推論アーキテクチャを提案している。

NVIDIA Developer Blog·3月23日·★★★★

3つの手法でトークン消費量40%削減 ― ADKで実践するコンテキストエンジニアリング

LINEヤフー株式会社の井上秀一氏が、ADK(AI Development Kit)を用いたコンテキストエンジニアリングの3つの手法を紹介し、トークン消費量を40%削減する実践的なアプローチを説明している。

LY Corp Tech Blog·3月23日

Microsoft、AKSにDRA対応のNVIDIA vGPUサポートを追加

MicrosoftのAzure Kubernetes Serviceチームが、AKSでDynamic Resource Allocation(DRA)とNVIDIA vGPU技術を連携させる詳細ガイドを公開した。この更新により、AIやメディア処理における共有GPU利用の制御性と効率性が向上する。

InfoQ·3月19日

QCon London 2026: 3つのクラウドで同時に稼働させる方法とその限界

Form3は英国の銀行決済を3つのクラウドで同時に実行している。同社エンジニアはカスタムKubernetesオペレーターやクロスクラウドDNS技術を構築したが、米国では東/西フェイルオーバーが求められ、三重アクティブマルチクラウドは需要がなかった。

InfoQ·3月17日

階層的で再現可能なレシピでKubernetesのGPUインフラを検証する

NVIDIAは、Kubernetes上でAIクラスターを実行する際に、低レベルのドライバー設定から高レベルのオペレーターまで、完全なソフトウェアスタックを統合的に検証する手法を提案している。

NVIDIA Developer Blog·3月13日·★★★★

Together GPUクラスターの新機能:自動スケーリング、可観測性、自己修復

Together GPU Clustersは、自動スケーリング、RBAC、フルスタック可観測性、ノード自己修復機能を搭載し、効率的なスケーリングと堅牢性を提供。これにより、チームは共有エンタープライズワークロードに対応する本番環境対応のGPUインフラを構築できる。

Together AI Blog·3月10日

超高効率AI計算基盤向けKubernetesスケジューラとkube-scheduler-evaluatorの検討

PFNの坂内理人が、超高効率AI計算基盤向けKubernetesスケジューラの概念実証と評価ツールkube-scheduler-evaluatorを開発した。

Preferred Networks·3月9日

Kubernetes初心者が数万QPS環境でのカナリアリリース導入に挑戦

奈良先端科学技術大学院大学の東迎健太郎氏が、Kubernetes初心者として数万QPS環境でのカナリアリリース導入に挑戦した経験を共有している。

CyberAgent Developers Blog·3月4日

Fastlyがメトリクス基盤をGKEに移行し精度を改善した事例

Fastlyはメトリクス基盤をGKEに移行し、精度を改善した。同社はこの移行により、システムの信頼性と監視能力を向上させた。

CyberAgent Developers Blog·3月4日

Google、GKEクラスターのノードプール自動作成速度を向上

Google CloudはGKEのノードプール自動作成を最適化し、大規模クラスターの「準備完了までの時間」を大幅に短縮した。制御プレーン通信とリクエストバッチ処理の改善により、Karpenterなどのツールに匹敵する高速なリソースプロビジョニングを実現し、大量のAIワークロードやバッチ処理のスケーリング信頼性を向上させた。

InfoQ·3月3日

CAMのSREユニットで学んだ、クラウドネイティブ基盤を「安全に運用し続ける」ための視点と設計

東京科学大学の千代丸怜央氏が、CAMのSREユニットでの経験から、クラウドネイティブ基盤を安全に継続運用するための設計と視点を学んだことを述べている。

CyberAgent Developers Blog·3月2日

Helmfile + Argo CD + Renovate による複数環境のKubernetes運用の構成と工夫 [DeNA インフラ SRE]

DeNAのインフラSREチームが、Helmfile、Argo CD、Renovateを組み合わせて、複数環境でのKubernetes運用を効率化する構成と実践的な工夫を紹介している。

DeNA Engineering·3月2日

Argo CD 3.3がより安全なGitOps削除とスムーズな日常運用を実現

アプリケーション展開・ライフサイクル管理ツールのArgo CDがバージョン3.3をリリースし、GitOps継続的デリバリーツールの機能を拡張するとともに、運用担当者の長年の課題を解決した。

InfoQ·3月1日

KubernetesがPodスケジューリングの信頼性向上のためにNode Readiness Controllerを導入

Kubernetesプロジェクトが、APIサーバーのノード準備状態の見解をより正確にすることで、スケジューリングの信頼性とクラスターの健全性を向上させるNode Readiness Controllerを発表した。

InfoQ·2月27日

Cilium 10周年:大規模クラスター向けの強化された暗号化、安全なポリシー、明確な可視性

eBPFベースのネットワーク・セキュリティプロジェクトCiliumが10周年を迎え、バージョン1.19をリリース。大規模クラスター向けに暗号化、ポリシー管理、可視性を強化した機能を提供。

InfoQ·2月26日·★★★★

Union.aiとFlyteでAmazon EKS上にAIワークフローを構築

Union.aiとFlyteは、AI/MLワークフローの複雑化に対応するため、Amazon EKS上でのモデル展開を効率化するソリューションを提供している。これにより、データサイエンティストやエンジニアは、パイロット段階から本番環境への移行を容易に実現できる。

AWS Machine Learning Blog·2月20日

Kubernetes Podに手元のssh/scpで接続できるツール「sshpod」をOSSで公開しました

Preferred Networksのエンジニアが、Kubernetes上のPodにOpenSSHクライアントから直接接続できるツール「sshpod」をオープンソースで公開した。

Preferred Networks·2月12日

AIタスクフォースにおける非AIタスク:AIツール開発の現場でこそ必要な「AI以外の」技術選定

メルカリのAIタスクフォース担当者が、AIツール開発においてAI以外の技術選定の重要性を述べる記事。

Mercari Engineering·12月21日·★★★★

Kubernetes環境におけるパケットキャプチャ

メルカリのPlatform Network team/SREが、Kubernetes環境におけるネットワークのパケットキャプチャ手法について解説している。

Mercari Engineering·12月18日

Langfuseセルフホストで遭遇した課題のまとめ

AI Shift社の技術者がLangfuseのセルフホスト導入時に直面した具体的な問題点とその解決策を実践的に解説しています。

AI Shift Tech Blog·12月16日

Kubernetesスケジューラのベンチマークテスト

Preferred Networks(PFN)の上田蒼一朗氏が、PFNが開発するKubernetesスケジューラのプラグイン(例:Gangスケジューリング)に対するパフォーマンステストの取り組みを紹介している。

Preferred Networks·12月8日

MLエンジニアがKubernetesを学ぶべき理由

MLエンジニアは、機械学習モデルのデプロイとスケーリングを効率化するために、コンテナオーケストレーションツールであるKubernetesを学ぶべきである。

Hamel Husain·1月16日

データサイエンスとDevOpsの融合:Jupyter、Git、Kubernetesを用いたMLOps

データサイエンスとDevOpsを統合するMLOpsについて、Jupyter、Git、Kubernetesの活用方法を解説。効率的な機械学習モデルの開発・運用を実現する手法を紹介。

Hamel Husain·9月1日·★★★★