#mlops のAIニュース

54件の記事

2026 年に AI エンジニアになるためのロードマップ

KDnuggets が、2026 年までに AI エンジニアとして活躍するための学習ロードマップを提示している。

KDnuggets·6月25日

Amazon SageMaker AI の非同期推論にリクエストペイロードの直接送信がサポートされるように

AWS は Amazon SageMaker AI の非同期推論機能において、API を呼び出す際にリクエスト本体に直接データを格納して送信できる機能を追加した。これにより、各実行前にデータを S3 にアップロードする必要がなくなり、ネットワーク往復の削減や運用負荷の軽減が可能になった。

AWS Machine Learning Blog·6月18日·★★★★

2026 年に LLM エンジニアになるためのロードマップ

KDnuggets が、2026 年までに大規模言語モデルエンジニアとして活躍するための学習経路と必要なスキルを提示した。

KDnuggets·6月16日·★★★★

OLMO-EVAL:モデル開発ループのための評価ワークベンチ

Hugging Face が、モデル開発の効率化を目的とした評価ワークベンチ「OLMO-EVAL」を発表した。このツールは、開発者がモデルの性能を継続的に検証・改善するプロセスを支援するものである。

Hugging Face Blog·6月13日

スクラッチから始めるFeature Stores:最小限の実装例

KDnuggetsが、機械学習モデルのトレーニングに使用する特徴量データを管理する「Feature Store」をゼロから構築する最小限の実装方法を解説している。

KDnuggets·6月11日

Pinecone が SaaS および BYOC 向けのオープンソース監視スタック「Full Observability」を発表

ベクトルデータベースの Pinecone は、SaaS および BYOC(Bring Your Own Cloud)環境における完全な可観測性を実現する新しいオープンソースの監視スタックを導入したと発表した。

Pinecone·6月9日·★★★★

AI エンジニアが知っておくべき Python の必須概念 5 つ

KDnuggets は、AI エンジニアが習得すべき Python の重要な概念を 5 つ紹介する記事を発表しました。

KDnuggets·6月8日·★★★★

Google Colab CLI の紹介

Google は、開発者や AI エージェントがローカル端末からリモート Colab ランタイムに接続し、高機能 GPU を要求して Python スクリプトをシームレスに実行できる新ツール「Google Colab CLI」を発表した。

Google Developers AI·6月5日·★★★★

DLAMI および DLC で SOCI インデックスを活用し、コンテナの起動時間を短縮

AWS は Deep Learning AMI と AWS Deep Learning Containers に Seekable OCI (SOCI) のサポートを追加しました。これにより、コンテナイメージの効率的な管理が可能となり、コールドスタート時間の削減を実現します。

AWS Machine Learning Blog·6月4日·★★★★

Argoワークフロー移行に挑んだ話

CyberAgent Developers Blog·6月2日

埋め込み型 Amazon SageMaker AI MLflow アプリをカスタムポータルに構築する方法

AWS は、大規模な機械学習チーム向けに、SSO を統合した内部ポータルへ Amazon SageMaker AI の MLflow アプリを安全かつスケーラブルに埋め込む手法を発表しました。

AWS Machine Learning Blog·5月29日

REST API プロキシを用いたAmazon SageMaker MLflowへの外部アクセスの簡素化

AWSは、既存のHTTPSベースのインフラ要件に対応するため、REST APIプロキシを使用してAmazon SageMaker MLflowへの外部アクセスを容易にする機能を発表した。

AWS Machine Learning Blog·5月29日

Amazon SageMaker Feature Store の新機能で ML 特徴パイプラインを加速

AWS は、機械学習モデルの特徴値を保存・共有・管理する完全マネージドリポジトリ「Amazon SageMaker Feature Store」に、Apache Iceberg テーブル形式のサポートを追加し、開発速度の向上を図りました。

AWS Machine Learning Blog·5月20日·★★★★

AI モデル推論パイプラインの摩擦を解消する方法

NVIDIA は、訓練済み AI モデルを実環境へ展開する際のボトルネック解消法を提示し、モデルのエクスポートや最適化プロセスにおける課題解決策を解説している。

NVIDIA Developer Blog·5月13日

本番環境におけるディープエージェントのランタイム基盤

長期動作するエージェントの本番デプロイには専用インフラが必要である。本ガイドは、耐久性のある実行、メモリ管理、人間による監督(HITL)、観測可能性について解説し、「deepagents」がこれらを本番環境に展開する方法を示す。

LangChain Blog·4月23日

Amazon SageMaker AIが最適化された生成AI推論の推奨機能を提供開始

AWSはAmazon SageMaker AIに、生成AI推論の最適化を自動推奨する機能を提供開始した。これにより企業は、GPU設定や手動ベンチマークの作業を省略し、モデルの実装期間を大幅に短縮できる。

AWS Machine Learning Blog·4月23日·★★★★

Interrupt 2026のプレビュー:エンタープライズ規模のエージェント

Interrupt 2026は5月13-14日、サンフランシスコで開催される。ラインアップ、フォーマット、規模が大幅に向上し、エンタープライズ規模でのエージェント技術の進化を示唆している。

LangChain Blog·4月22日

Deep Agents Deploy:Claude Managed Agentsに代わるオープンな代替案

DeepAgentsは、モデル非依存でオープンソースのエージェントハネスを本番環境向けに迅速にデプロイする新ベータ版サービスを開始した。

LangChain Blog·4月22日·★★★★

LangSmithにおける再利用可能な評価器とテンプレート

LangSmithは、30以上の評価テンプレートと中央ハブを追加し、プロジェクト間で評価器を再利用可能にした。これにより、ユーザーは毎回ゼロから作成することなく、より高品質な評価を迅速に構築・適用できる。

LangChain Blog·4月22日

DVCとAmazon SageMaker AI MLflowアプリによるエンドツーエンドのモデル系譜追跡

DVCとAmazon SageMaker AI MLflowアプリは、MLチームがモデルの学習データ・コード・実験指標を一元追跡し、デプロイ後の再現性を確保する仕組みを提供する。

AWS Machine Learning Blog·4月22日·★★★★

生成AIの旅をナビゲートする:AWSのPath-to-Valueフレームワーク

AWSが、生成AIのPoCから本番環境への移行に課題を抱える組織向けに、実用的な価値を実現するためのフレームワークを提案している。

AWS Machine Learning Blog·4月15日·★★★★

SageMaker JumpStartにおけるユースケースベースのデプロイ

Amazon SageMaker JumpStartは、AIワークロードの開始を支援する多様な問題タイプ向けの事前学習済みモデルを提供し、主要なユースケース向けソリューションをSageMaker AI Managed Inferenceエンドポイントにデプロイ可能にする。

AWS Machine Learning Blog·4月15日

Amazon Bedrockのモデルライフサイクルを理解する

Amazonが、AI基盤サービス「Bedrock」のモデル管理・更新プロセス(モデルライフサイクル)について解説している。

AWS Machine Learning Blog·4月10日

Amazon Bedrock ProjectsでAIコストを管理

Amazonは、Amazon Bedrock上でAIワークロードの推論コストを特定のプロジェクトに帰属させ、コスト分析や最適化を可能にする「Amazon Bedrock Projects」を提供している。

AWS Machine Learning Blog·4月8日

ミニブック: AIスタックのセキュリティ確保: モデルから本番環境まで

InfoQが、AIの実験段階から本番環境への移行におけるセキュリティ課題を分析した。AI駆動型フィッシング、モデル汚染、クラウドガバナンスの3大リスクを指摘し、セキュリティをライフサイクル全体の責任として再考するロードマップを提供している。

InfoQ·3月27日·★★★★

MLモデルを本番環境に安全にデプロイするための4つの制御戦略(A/B、カナリア、インターリーブ、シャドウテスト)

著者は、機械学習モデルを本番環境に安全にデプロイするために、A/Bテスト、カナリアリリース、インターリーブテスト、シャドウテストの4つの制御戦略を提案している。

MarkTechPost·3月22日·★★★★

設定を制御平面として:大規模な安全性と信頼性の設計

ハイパースケーラーは、設定をライブ制御平面として運用し、段階的ロールアウトと検証を実施して安全に変更をデプロイしている。

InfoQ·3月20日·★★★★

Amazon SageMaker Unified StudioとSageMaker Catalogを使用したオフライン機能ストアの構築

Amazonは、SageMaker Unified StudioとSageMaker Catalogを使用して、機械学習機能の構築・管理を効率化するオフライン機能ストアの構築方法を紹介している。これにより、組織は断片化した機能パイプラインやデータ定義の不一致などの課題を解決できる。

AWS Machine Learning Blog·3月16日·★★★★

階層的で再現可能なレシピでKubernetesのGPUインフラを検証する

NVIDIAは、Kubernetes上でAIクラスターを実行する際に、低レベルのドライバー設定から高レベルのオペレーターまで、完全なソフトウェアスタックを統合的に検証する手法を提案している。

NVIDIA Developer Blog·3月13日·★★★★

Together GPUクラスターの新機能:自動スケーリング、可観測性、自己修復

Together GPU Clustersは、自動スケーリング、RBAC、フルスタック可観測性、ノード自己修復機能を搭載し、効率的なスケーリングと堅牢性を提供。これにより、チームは共有エンタープライズワークロードに対応する本番環境対応のGPUインフラを構築できる。

Together AI Blog·3月10日

Hugging Face Hubにストレージバケット機能を導入

Hugging Faceが、同社のAIモデル共有プラットフォーム「Hub」にストレージバケット機能を追加した。これにより、開発者は大規模なデータセットやモデルファイルを効率的に管理できるようになる。

Hugging Face Blog·3月10日·★★★★

QCon AIボストンの初期プログラムは、本番AIの背後にあるエンジニアリング作業に焦点を当てる

QCon AIボストン(6月1-2日)の最初の発表は、コンテキストエンジニアリング、エージェントの説明可能性、基本的なRAGを超えた推論、評価、ガバナンス、現実世界の制約下でAIを確実に実行するためのプラットフォームインフラに焦点を当てている。

InfoQ·3月5日·★★★★

SonraiがAmazon SageMaker AIを活用して精密医療試験を加速する方法

生命科学AI企業Sonraiは、AWSと提携し、Amazon SageMaker AIを用いたMLOpsフレームワークを構築。規制環境で必要な追跡可能性と再現性を維持しながら、精密医療試験の効率化を実現。

AWS Machine Learning Blog·2月24日·★★★★

Amazon SageMaker AI 2025年レビュー第2部:SageMaker AIモデルのカスタマイズとホスティングにおける改善された可観測性と拡張機能

Amazonが2025年にSageMaker AIを改善し、生成AIワークロードのトレーニング、チューニング、ホスティングを支援する機能を強化した。

AWS Machine Learning Blog·2月21日

Union.aiとFlyteでAmazon EKS上にAIワークフローを構築

Union.aiとFlyteは、AI/MLワークフローの複雑化に対応するため、Amazon EKS上でのモデル展開を効率化するソリューションを提供している。これにより、データサイエンティストやエンジニアは、パイロット段階から本番環境への移行を容易に実現できる。

AWS Machine Learning Blog·2月20日

DagsterとMetaxyによるMLパイプラインのサンプルレベルバージョン管理

Metaxyを使用して、Dagster上でサンプルレベルの粒度を持つマルチモーダルデータパイプラインを構築する方法を紹介します。

Dagster Blog·2月13日

Daggrの紹介:プログラムでチェーンアプリを構築し、視覚的に検査

Daggrは、開発者がプログラムでチェーンアプリケーションを構築し、視覚的に検査できるツールを提供する。

Hugging Face Blog·1月29日·★★★★

Snowpark Container Servicesを活用したAI Agentのプロトタイプ開発

LayerXの機械学習エンジニアが、Snowpark Container Services(SPCS)を使用してAI Agentのプロトタイプを開発した。このアプローチは、開発環境と本番環境のギャップを解消し、データアクセスの課題に対処するものである。

LayerX Tech Blog·12月22日

AIタスクフォースにおける非AIタスク:AIツール開発の現場でこそ必要な「AI以外の」技術選定

メルカリのAIタスクフォース担当者が、AIツール開発においてAI以外の技術選定の重要性を述べる記事。

Mercari Engineering·12月21日·★★★★

Nanochatのオーケストレーション:モデルのデプロイ

RunPodが、訓練済みのAIモデルを高速で信頼性の高いエンドポイントとしてデプロイする方法を解説する。Dagsterによるオーケストレーションと自動更新を組み合わせたガイドを提供する。

Dagster Blog·12月16日

ナノチャットのオーケストレーション:モデルのトレーニング

DagsterがRunPod上でLLMトレーニングの各段階を調整し、再現性・拡張性・GPU効率性を確保する方法を示している。

Dagster Blog·12月9日

Kubernetesスケジューラのベンチマークテスト

Preferred Networks(PFN)の上田蒼一朗氏が、PFNが開発するKubernetesスケジューラのプラグイン(例:Gangスケジューリング)に対するパフォーマンステストの取り組みを紹介している。

Preferred Networks·12月8日

CoeFontの機械学習推論を支える技術

CoeFontがMLOpsを通じて、推論結果の迅速な提供と信頼性向上を実現する技術について紹介。機械学習モデルの開発から運用までの効率化・自動化手法を解説。

CoeFont Tech Blog·3月6日

【Python】PrefectでSLURMジョブを管理する〜HPC環境での機械学習ワークフロー構築に向けて〜

HPC環境での機械学習ワークフロー構築において、Prefectを用いてSLURMジョブを管理する方法を紹介。オンプレ環境のML学習部分の効率的な管理を目指す。

Spiral.AI Tech Blog·11月11日

MLOpsチームの設立をチームトポロジーの観点から振り返る

CoeFont社がMLOpsチームを設立し、機械学習モデルの運用責任を明確化。チームトポロジーの観点から、設立前の課題、設立後の分析、成果を振り返る。

CoeFont Tech Blog·8月22日

実務家による大規模言語モデル(LLM)の公開講座

業界のベテラン25人以上が講師を務める「Mastering LLMs」講座を公開した。評価、RAG、ファインチューニングなど実務に即したトピックを扱い、既存の技術をLLMに応用する手法を提供している。

Hamel Husain·7月29日·★★★★

Transformersでのモデル学習状況をSlackに通知する

Hugging Face Transformersライブラリを使用したモデル学習中に、学習状況をSlackに自動通知する方法についての記事です。

Spiral.AI Tech Blog·7月16日

敵対的検証によるAIのデバッグ

著者は、モデル入力や訓練データの急変(ドリフト)を検出する「敵対的検証」手法を推奨する。この簡易な方法は複雑なツール不要で、本番環境と評価データの不一致によるバグや、プロンプト更新時の問題を防止する。

Hamel Husain·4月12日·★★★★

クロワッサン:ML対応データセットのためのメタデータ形式

Google ResearchとMLCommons Associationのエンジニアが、機械学習用データセットのメタデータ形式「クロワッサン」を発表した。データセットの構造・ライセンス・使用例を標準化し、MLワークフローの効率化を目指す。

Google Research Blog·3月7日·★★★★

ティアフォーが提供する量産向け自動運転車両とその実装を加速するDevOpsプラットフォーム

ティアフォーがCES出展前にJapan Mobility Showで発表した、自動運転車両の量産を加速するDevOpsプラットフォームについて紹介。

Tier IV Tech Blog·12月19日·★★★★