Amazon SageMaker AI 2025年レビュー第2部:SageMaker AIモデルのカスタマイズとホスティングにおける改善された可観測性と拡張機能
Amazon SageMaker AIは2025年、エンドポイントレベルの集計に隠れていたリソース使用状況をインスタンス・コンテナレベルで可視化する「Enhanced Metrics」や、CloudWatchアラーム連携による自動ロールバック機能を備えたローリングアップデートを導入し、推論ワークロードの運用信頼性とデバッグ効率を大幅に向上させた。
キーポイント
インフラストラクチャの細粒度な可視化
CPU、メモリ、GPUの使用率やレイテンシをエンドポイント単位ではなく、インスタンスIDおよびコンテナレベルで追跡可能にし、以前は隠れていたボトルネックやリソース非効率を特定できるようになった。
安全なデプロイメントの実現
推論コンポーネントのローリングアップデートにおいて、設定可能なバッチでのデプロイとAmazon CloudWatchアラームを連動させ、問題検知時に自動ロールバックを行うことで、ゼロダウンタイムかつ低リスクな展開を可能にした。
モニタリングの柔軟性と迅速な洞察
CreateEndpointConfig APIを通じてメトリクス公開頻度を設定可能にし、クリティカルなアプリケーションに対してニアリアルタイムの監視を提供することで、インサイト得までの時間を短縮した。
影響分析・編集コメントを表示
影響分析
このアップデートは、大規模な生成AIワークロードを運用する企業にとって、推論エンドポイントの安定性とコスト最適化を両立させるための重要な基盤整備となる。特に、複雑な分散システムにおけるボトルネック特定の手間を省くことで、MLOpsチームの生産性向上とサービス信頼性の担保に寄与する。
編集コメント
AWSはSageMakerの機能強化を通じて、単なるモデルホスティングから「運用可能なインフラ」へのシフトを加速させています。特にコンテナレベルの可視化は、大規模モデル推論におけるリソース配分の最適化に直結するため、実務レベルでの採用拡大が期待されます。
2025 年、Amazon SageMaker AI は、生成 AI ワークロードのトレーニング、チューニング、ホスティングを支援するためにいくつかの改善を行いました。このシリーズの Part 1 では、柔軟なトレーニングプランと推論コンポーネントに対する価格パフォーマンスの改善について議論しました。
本稿では、観測性(observability)、モデルカスタマイズ、およびモデルホスティングに対して行われた強化について解説します。これらの改善により、SageMaker AI 上でホストされる顧客ユースケースの新たなクラスが可能になります。
観測可能性
2025 年に SageMaker AI に施された観測可能性の強化は、モデルのパフォーマンスとインフラストラクチャの健全性に対する可視性を向上させることに寄与しています。強化されたメトリクスにより、CPU、メモリ、GPU の利用率および呼び出しパフォーマンスについて、粒度を細かくしたインスタンスレベルおよびコンテナレベルでの追跡が可能となり、設定可能な公開頻度によって、これまでエンドポイントレベルでの集約によって隠蔽されていたレイテンシの問題やリソースの非効率性をチームが診断できるようになりました。推論コンポーネントに対するローリングアップデートは、重複するインフラストラクチャのプロビジョニングが必要なくなることでデプロイの安全性を向上させます。アップデートは設定可能なバッチで展開され、統合された Amazon CloudWatch アラーム監視により、問題が検出された場合に自動ロールバックをトリガーします。これにより、段階的な検証を通じてリスクを最小化しつつ、ダウンタイムゼロでのデプロイを実現しています。
強化されたメトリクス
SageMaker AI は今年、エンドポイントのパフォーマンスとリソース利用率をインスタンスレベルおよびコンテナレベルの両方で詳細に可視化できるようになる「強化されたメトリクス」を導入しました。この機能は、観測可能性における重要なギャップを解消し、これまでエンドポイントレベルでの集約によって隠蔽されていたレイテンシの問題、呼び出し失敗、リソース非効率などの診断を顧客が容易に行えるように支援します。強化されたメトリクスでは、SageMaker エンドポイントに対して CPU、メモリ、GPU の利用率と、呼び出しパフォーマンス指標(レイテンシ、エラー、スループット)の両方を InstanceId 次元で追跡できます。推論コンポーネントについては、ContainerId と InstanceId の両方の次元を備えたコンテナレベルのメトリクスにより、個々のモデルレプリカのリソース消費状況を可視化することが可能になります。
クリティカルなアプリケーションにおいて迅速な対応が必要な場合、メトリックの公開頻度を設定することで、ニアリアルタイムのモニタリングを構成できます。CreateEndpointConfig API 内の単純な MetricsConfig パラメータを通じてセルフサービスで有効化できる機能は、インサイトまでの時間を短縮し、パフォーマンスの問題を自己診断できるよう支援します。
拡張されたメトリック(Enhanced metrics)を使用すると、どの特定のインスタンスやコンテナに注意が必要かを特定したり、ホスト間での不均衡なトラフィック分布を診断したり、リソース割り当てを最適化したり、パフォーマンスの問題を特定のインフラストラクチャリソースと相関付けたりすることが可能になります。この機能は CloudWatch アラームおよび自動スケーリングポリシーとシームレスに連携し、パフォーマンスの異常に対するプロアクティブなモニタリングと自動化された対応を提供します。
拡張されたメトリックを有効にするには、エンドポイント構成を作成する際に MetricsConfig パラメータを追加してください:
response = sagemaker_client.create_endpoint_config(
EndpointConfigName='my-config',
ProductionVariants=[{...}],
MetricsConfig={
'EnableEnhancedMetrics': True,
'MetricPublishFrequencyInSeconds': 60 # サポート: 10, 30, 60, 120, 180, 240, 300
}
)
拡張されたメトリックは、単一モデルエンドポイントおよび推論コンポーネントの両方において AWS リージョン全体で利用可能であり、大規模な生産環境での AI デプロイメントに対して包括的な観測性(observability)を提供します。
ロールイングアップデートによるガードレールのデプロイ
SageMaker AI は、推論コンポーネントに対するロールイングアップデートを導入し、モデルの更新をより安全かつ効率的にデプロイする方法を変革しました。従来のブルー/グリーンデプロイでは、重複したインフラをプロビジョニングする必要があり、特に大規模言語モデルのような GPU 集約型のワークロードにおいてリソース制約が生じていました。ロールイングアップデートでは、新しいモデルバージョンを構成可能なバッチでデプロイしながらインフラを動的にスケーリングし、統合された CloudWatch アラームがメトリクスを監視して問題を検知した場合に自動ロールバックをトリガーします。このアプローチは、重複したフリートのプロビジョニングが必要となる負担を軽減し、デプロイのオーバーヘッドを削減するとともに、リスクを最小化しながら可用性を維持する段階的な検証を通じてゼロダウンタイムでの更新を可能にします。詳細については、Amazon SageMaker AI 推論のための推論コンポーネントロールイングアップデートによるデプロイガードレールの強化 をご覧ください。
使いやすさ
SageMaker AI の使いやすさ向上は、AI チームにおける複雑性の排除と価値実現までの時間短縮に焦点を当てています。サーバーレスモデルカスタマイズでは、モデルやデータサイズに基づいて計算リソースを自動的にプロビジョニングすることで、インフラストラクチャの計画にかかる時間を削減します。これにより、検証可能な報酬からの強化学習 (RLVR) や AI フィードバックからの強化学習 (RLAIF) といった高度な手法を、統合された MLflow 実験追跡機能を備えた UI ベースおよびコードベースのワークフローの両方でサポート可能になります。
双方向ストリーミングは、データが双方向に同時に流れる永続的な接続を維持することで、リアルタイムかつマルチモーダルなアプリケーションを実現し、音声エージェントやライブ文字起こしなどのユースケースをトランザクション型のやり取りから継続的な会話へと変革するのを助けます。
地域全体での包括的な AWS PrivateLink サポートと IPv6 互換性を通じた接続性の強化により、エンタープライズ展開が厳格なコンプライアンス整合要件を満たすことを可能にしつつ、ネットワークアーキテクチャを将来にわたって対応可能なものへと進化させます。
サーレスモデルカスタマイズ
新しい SageMaker AI サーレスカスタマイズ機能は、組織が直面する重要な課題に対処します。つまり、AI モデルのファインチューニングには従来、数ヶ月を要し、大規模なインフラ管理の専門知識が必要とされるという、非常に時間のかかる複雑なプロセスが存在することです。多くのチームは、適切な計算リソースの選定に苦労したり、強化学習などの高度なファインチューニング技術の技術的複雑さを管理したり、モデル選択から評価、デプロイに至るエンドツーエンドのワークフローをナビゲートすることに苦慮しています。
このサーレスソリューションは、モデルとデータのサイズに基づいて適切な計算リソースを自動的にプロビジョニングすることでこれらの障壁を取り除きます。これにより、チームはインフラ管理ではなくモデルチューニングに注力することが可能になり、カスタマイズプロセスの加速が実現します。本ソリューションは、Amazon Nova、DeepSeek、GPT-OSS、Llama、Qwen といった人気のあるモデルをサポートしており、UI ベースおよびコードベースのカスタマイズワークフローを提供することで、技術的専門知識のレベルが異なるチームでも高度な技術を容易に利用できるようにしています。
このソリューションには、教師ありファインチューニング、直接選好最適化 (DPO)、RLVR、RLAIF など、複数の高度なカスタマイズ手法が含まれています。各手法は異なる方法でモデルを最適化するものであり、選択はデータセットのサイズと品質、利用可能な計算リソース、タスク要件、目標とする精度レベル、および展開制約などの要因によって影響を受けます。このソリューションには、サーバーレス MLflow による統合された実験追跡機能が含まれており、コードの変更を行わずに重要なメトリクスの自動ログ記録が可能で、チームがカスタマイズプロセス全体を通じてモデルのパフォーマンスを監視・比較できるよう支援します。
展開の柔軟性は主要な機能の一つであり、サーバーレス推論には Amazon Bedrock へ、リソース管理の制御には SageMaker AI エンドポイントへの展開オプションが用意されています。このソリューションには、カスタマイズ済みモデルとベースモデルを比較するための組み込みモデル評価機能、プロンプトやチャットモードでのテストを行うためのインタラクティブなプレイグラウンド、およびより広範な Amazon SageMaker Studio 環境とのシームレスな統合が含まれています。モデルの選択とカスタマイズから評価、展開に至るまでのエンドツーエンドのワークフローは、すべて統一されたインターフェース内で完結して処理されます。
現在、米国東部(バージニア北部)、米国西部(オレゴン)、アジア太平洋(東京)、欧州(アイルランド)リージョンで利用可能であり、このサービスはトレーニングと推論の両方でトークン課金モデルに基づいて稼働しています。この価格設定アプローチにより、組織は初期インフラ投資を行わずに、規模の大小を問わず AI モデルのカスタマイズをコスト効果高く実施できるようになります。また、サーバーレスアーキテクチャを採用しているため、チームはプロビジョニングされた容量ではなく実際の使用量に基づいてモデルカスタマイズの取り組みをスケーリングできます。この中核機能に関する詳細については、Amazon SageMaker AI における新しいサーバーレスカスタマイズがモデルファインチューニングを加速をご覧ください。
双方向ストリーミング
SageMaker AI は 2025 年に双方向ストリーミング機能を導入し、推論をトランザクション型のやり取りから、ユーザーとモデル間の継続的な会話へと変革しました。この機能により、単一の永続接続上でデータが両方向に同時に流れるようになり、音声の文字起こしや翻訳から音声エージェントに至るまで、リアルタイムなマルチモーダルユースケースをサポートします。従来のアプローチではクライアントが完全な質問を送信して完全な回答を待つ必要がありますが、双方向ストリーミングでは発話と応答が並行して流れるため、モデルが生成を開始した瞬間にユーザーは結果を確認できます。また、モデルは会話履歴を再送信することなく、継続的なストリーム全体を通じて文脈を維持することが可能です。この実装には HTTP/2 と WebSocket プロトコルが組み合わされており、SageMaker のインフラストラクチャがクライアントからルーターを経由してモデルコンテナまで効率的な多重化接続を管理します。
この機能は、ユーザー自身がコンテナを用意する実装とパートナー統合の両方をサポートしており、Deepgram はローンチパートナーとして AWS Marketplace を通じて自社の Nova-3 音声テキスト変換モデルを提供しています。この機能は、オーディオ処理を Amazon の仮想プライベートクラウド(VPC)内に維持することを必要とする厳格なコンプライアンス要件を持つ組織にとって特に重要であり、リアルタイムの音声 AI アプリケーションにおける重要な企業ニーズに対応します。同時に、従来自宅型リアルタイム AI ソリューションに伴っていた運用上のオーバーヘッドも解消されます。永続的な接続アプローチにより、TLS ハンドシェイクや接続管理に起因するインフラストラクチャのオーバーヘッドを削減し、短命な接続を効率的な長期間実行セッションに置き換えます。
開発者は、ws://localhost:8080/invocations-bidirectional-stream で WebSocket プロトコルを実装し、適切な Docker ラベル(com.amazonaws.sagemaker.capabilities.bidirectional-streaming=true)を付与したカスタムコンテナを構築するか、AWS Marketplace から Deepgram の Nova-3 モデルなどの事前構築済みパートナーソリューションを直接デプロイする 2 つのアプローチを通じて、双方向ストリーミングを実装できます。この機能では、コンテナが着信 WebSocket データフレームを処理し、応答フレームを SageMaker に送信する必要があります。Python と TypeScript の両方でサンプル実装が利用可能です。詳細については、『Amazon SageMaker AI におけるリアルタイム推論のための双方向ストリーミングの紹介』[Introducing bidirectional streaming for real-time inference on Amazon SageMaker AI](https://aws.amazon.com/blogs/machine-learning/introducing-bidirectional-streaming-for-real-time-inference-on-amazon-sagemaker-ai/)をご覧ください。
IPv6 と PrivateLink
さらに、SageMaker AI は 2025 年に接続機能を拡大し、リージョン全体での包括的な PrivateLink サポートと、パブリックエンドポイントおよびプライベートエンドポイントの両方に対する IPv6 互換性を提供しました。これらの強化により、エンタープライズ展開におけるサービスのアクセシビリティとセキュリティ体制が大幅に向上します。PrivateLink の統合により、VPC からインターネットを介さずに SageMaker AI エンドポイントをプライベートにアクセスできるようになり、トラフィックは AWS ネットワークインフラ内に留まります。これは、機械学習ワークロードに対してプライベート接続を必須とする厳格なコンプライアンス要件やデータ所在地ポリシーを持つ組織にとって、特に価値のある機能です。
SageMaker AI エンドポイントへの IPv6 サポートの追加は、組織が IPv4 から移行する中で高まる現代的な IP アドレス指定のニーズに対応するものです。これにより、パブリックエンドポイントとプライベート VPC エンドポイントの両方で IPv6 アドレスを使用して SageMaker AI サービスにアクセスできるようになり、ネットワークアーキテクチャ設計における柔軟性と、インフラ投資の将来性を確保できます。デュアルスタック機能(IPv4 と IPv6 の両方をサポート)は、後方互換性を維持しつつ、組織が自らのペースで IPv6 を採用することを可能にします。PrivateLink と組み合わせることで、これらの接続性の強化により、AWS Direct Connect を使用して従来のオンプレミスデータセンターから接続する環境や、IPv6 のみで構築された現代的なクラウドベースのアーキテクチャなど、多様なエンタープライズネットワーク環境において、SageMaker AI へのアクセス性とセキュリティが向上します。
結論
2025 年の SageMaker AI に対する改善は、生成 AI ワークロードをより観測可能で信頼性が高く、企業顧客にとって利用しやすくするための大きな飛躍を表しています。インフラのボトルネックを特定する微細なパフォーマンスメトリクスからサーバーレスカスタマイズに至るまで、これらの改善点は、大規模な AI の導入時にチームが直面する現実的な課題に対応するものです。強化された観測性、より安全なデプロイメントメカニズム、そして合理化されたワークフローの組み合わせにより、組織は生産システムに必要な信頼性とセキュリティ基準を維持しながら、より迅速に動き出すことが可能になります。
これらの機能は現在、すべてのリージョンで利用可能であり、拡張されたメトリクス、ローリングアップデート、サーバーレスカスタマイズといった機能により、AI アプリケーションの構築とデプロイの方法を変革するお手伝いをします。ドメイン固有タスク向けのモデルファインチューニングや、双方向ストリーミングを活用したリアルタイム音声エージェントの構築、ローリングアップデートと統合モニタリングによるデプロイ安全性の確保など、SageMaker AI は、運用複雑性を低減しながら AI への旅を加速するためのツールを提供します。
今日から 拡張されたメトリクスのドキュメント を探索したり、サーバーレスモデルカスタマイズ を試したり、リアルタイム推論ワークロードに 双方向ストリーミング を実装したりして、ぜひ始めてみてください。これらの機能の実装に関する包括的なガイドについては、Amazon SageMaker AI ドキュメント を参照するか、AWS アカウントチームにお問い合わせいただき、これらの機能が特定のユースケースをどのようにサポートできるかについてご相談ください。
著者について
Dan Ferguson は、米国ニューヨークに拠点を置く AWS のシニアソリューションアーキテクトです。機械学習サービスエキスパートとして、Dan は顧客が ML ワークフローを効率的かつ効果的、そして持続可能に統合する旅をサポートしています。
Dmitry Soldatkin氏は、AWSのシニア機械学習ソリューションアーキテクトであり、顧客がAI/MLソリューションを設計・構築するのを支援しています。Dmitry氏の業務は多岐にわたるMLユースケースをカバーしており、特に生成AI、ディープラーニング、および企業全体でのMLのスケーリングに強い関心を持っています。保険、金融サービス、公共事業、通信など、多くの業界の企業の支援を行ってきました。継続的なイノベーションとデータを活用したビジネス成果の創出に情熱を注いでいます。AWS入社前には、金融サービス業界でデータ分析および機械学習分野のアーキテクト、開発者、技術リーダーとして活動していました。
Lokeshwaran Ravi氏は、AWSのシニアディープラーニングコンパイラエンジニアであり、ML最適化、モデル加速、AIセキュリティを専門としています。彼は効率性の向上、コスト削減、そしてAI技術の民主化を実現する安全なエコシステムの構築に注力しており、最先端のMLをあらゆる業界で利用可能かつ影響力のあるものにする取り組みを行っています。
Sadaf Fardeen氏は、SageMakerにおける推論最適化チャーターを統括しています。彼女はSageMaker上のLLM(大規模言語モデル)推論コンテナの最適化および開発を担当しています。
原文を表示
In 2025, Amazon SageMaker AI made several improvements designed to help you train, tune, and host generative AI workloads. In Part 1 of this series, we discussed Flexible Training Plans and price performance improvements made to inference components.
In this post, we discuss enhancements made to observability, model customization, and model hosting. These improvements facilitate a whole new class of customer use cases to be hosted on SageMaker AI.
Observability
The observability enhancements made to SageMaker AI in 2025 help deliver enhanced visibility into model performance and infrastructure health. Enhanced metrics provide granular, instance-level and container-level tracking of CPU, memory, GPU utilization, and invocation performance with configurable publishing frequencies, so teams can diagnose latency issues and resource inefficiencies that were previously hidden by endpoint-level aggregation. Rolling updates for inference components help transform deployment safety by alleviating the need for duplicate infrastructure provisioning—updates deploy in configurable batches with integrated Amazon CloudWatch alarm monitoring that triggers automatic rollbacks if issues are detected, facilitating zero-downtime deployments while minimizing risk through gradual validation.
Enhanced Metrics
SageMaker AI introduced enhanced metrics this year, helping deliver granular visibility into endpoint performance and resource utilization at both instance and container levels. This capability addresses a critical gap in observability, facilitating customers’ diagnosis of latency issues, invocation failures, and resource inefficiencies that were previously obscured by endpoint-level aggregation. Enhanced metrics provide instance-level tracking of CPU, memory, and GPU utilization alongside invocation performance metrics (latency, errors, throughput) with InstanceId dimensions for the SageMaker endpoints. For inference components, container-level metrics offer visibility into individual model replica resource consumption with both ContainerId and InstanceId dimensions.
You can configure metric publishing frequency, supplying near real-time monitoring for critical applications requiring rapid response. The self-service enablement through a simple MetricsConfig parameter in the CreateEndpointConfig API helps reduce time-to-insight, helping you self-diagnose performance issues. Enhanced metrics help you identify which specific instance or container requires attention, diagnose uneven traffic distribution across hosts, optimize resource allocation, and correlate performance issues with specific infrastructure resources. The feature works seamlessly with CloudWatch alarms and automatic scaling policies, providing proactive monitoring and automated responses to performance anomalies.
To enable enhanced metrics, add the MetricsConfig parameter when creating your endpoint configuration:
response = sagemaker_client.create_endpoint_config(
EndpointConfigName='my-config',
ProductionVariants=[{...}],
MetricsConfig={
'EnableEnhancedMetrics': True,
'MetricPublishFrequencyInSeconds': 60 # Supported: 10, 30, 60, 120, 180, 240, 300
}
)Enhanced metrics are available across the AWS Regions for both single model endpoints and inference components, providing comprehensive observability for production AI deployments at scale.
Guardrail deployment with rolling updates
SageMaker AI introduced rolling updates for inference components, helping transform how you can deploy model updates with enhanced safety and efficiency. Traditional blue/green deployments require provisioning duplicate infrastructure, creating resource constraints—particularly for GPU-heavy workloads like large language models. Rolling updates deploy new model versions in configurable batches while dynamically scaling infrastructure, with integrated CloudWatch alarms monitoring metrics to trigger automatic rollbacks if issues are detected. This approach helps alleviate the need to provision duplicate fleets, reduces deployment overhead, and enables zero-downtime updates through gradual validation that minimizes risk while maintaining availability. For more details, see Enhance deployment guardrails with inference component rolling updates for Amazon SageMaker AI inference.
Usability
SageMaker AI usability improvements focus on removing complexity and accelerating time-to-value for AI teams. Serverless model customization reduces time for infrastructure planning by automatically provisioning compute resources based on model and data size, supporting advanced techniques like reinforcement learning from verifiable rewards (RLVR) and reinforcement learning from AI feedback (RLAIF) through both UI-based and code-based workflows with integrated MLflow experiment tracking. Bidirectional streaming enables real-time, multi-modal applications by maintaining persistent connections where data flows simultaneously in both directions—helping transform use cases like voice agents and live transcription from transactional exchanges into continuous conversations. Enhanced connectivity through comprehensive AWS PrivateLink support across the Regions and IPv6 compatibility helps make sure enterprise deployments can meet strict compliance alignment requirements while future-proofing network architectures.
Serverless model customization
The new SageMaker AI serverless customization capability addresses a critical challenge faced by organizations: the lengthy and complex process of fine-tuning AI models, which traditionally takes months and requires significant infrastructure management expertise. Many teams struggle with selecting appropriate compute resources, managing the technical complexity of advanced fine-tuning techniques like reinforcement learning, and navigating the end-to-end workflow from model selection through evaluation to deployment.
This serverless solution helps remove these barriers by automatically provisioning the right compute resources based on model and data size, making it possible for teams to focus on model tuning rather than infrastructure management and helping accelerate the customization process. The solution supports popular models including Amazon Nova, DeepSeek, GPT-OSS, Llama, and Qwen, providing both UI-based and code-based customization workflows that make advanced techniques accessible to teams with varying levels of technical expertise.
The solution offers multiple advanced customization techniques, including supervised fine-tuning, direct preference optimization, RLVR, and RLAIF. Each technique helps optimize models in different ways, with selection influenced by factors such as dataset size and quality, available computational resources, task requirements, desired accuracy levels, and deployment constraints. The solution includes integrated experiment tracking through serverless MLflow for automatic logging of critical metrics without code modifications, helping teams monitor and compare model performance throughout the customization process.
Deployment flexibility is a key feature, with options to deploy to either Amazon Bedrock for serverless inference or SageMaker AI endpoints for controlled resource management. The solution includes built-in model evaluation capabilities to compare customized models against base models, an interactive playground for testing with prompts or chat mode, and seamless integration with the broader Amazon SageMaker Studio environment. This end-to-end workflow—from model selection and customization through evaluation and deployment—is handled entirely within a unified interface.
Currently available in US East (N. Virginia), US West (Oregon), Asia Pacific (Tokyo), and Europe (Ireland) Regions, the service operates on a pay-per-token model for both training and inference. This pricing approach helps make it cost-effective for organizations of different sizes to customize AI models without upfront infrastructure investments, and the serverless architecture helps make sure teams can scale their model customization efforts based on actual usage rather than provisioned capacity. For more information on this core capability, see New serverless customization in Amazon SageMaker AI accelerates model fine-tuning.
Bidirectional streaming
SageMaker AI introduced the bidirectional streaming capability in 2025, transforming inference from transactional exchanges into continuous conversations between users and models. This feature enables data to flow simultaneously in both directions over a single persistent connection, supporting real-time multi-modal use cases ranging from audio transcription and translation to voice agents. Unlike traditional approaches where clients send complete questions and wait for complete answers, bidirectional streaming allows speech and responses to flow concurrently—users can see results as soon as models begin generating them, and models can maintain context across continuous streams without re-sending conversation history. The implementation combines HTTP/2 and WebSocket protocols, with the SageMaker infrastructure managing efficient multiplexed connections from clients through routers to model containers.
The feature supports both bring-your-own-container implementations and partner integrations, with Deepgram serving as a launch partner offering their Nova-3 speech-to-text model through AWS Marketplace. This capability addresses critical enterprise requirements for real-time voice AI applications—particularly for organizations with strict compliance needs requiring audio processing to remain within their Amazon virtual private cloud (VPC)—while removing the operational overhead traditionally associated with self-hosted real-time AI solutions. The persistent connection approach reduces infrastructure overhead from TLS handshakes and connection management, replacing short-lived connections with efficient long-running sessions.
Developers can implement bidirectional streaming through two approaches: building custom containers that implement WebSocket protocol at ws://localhost:8080/invocations-bidirectional-stream with the appropriate Docker label (com.amazonaws.sagemaker.capabilities.bidirectional-streaming=true), or deploying pre-built partner solutions like Deepgram’s Nova-3 model directly from AWS Marketplace. The feature requires containers to handle incoming WebSocket data frames and send response frames back to SageMaker, with sample implementations available in both Python and TypeScript. For more details, see Introducing bidirectional streaming for real-time inference on Amazon SageMaker AI.
IPv6 and PrivateLink
Additionally, SageMaker AI expanded its connectivity capabilities in 2025 with comprehensive PrivateLink support across Regions and IPv6 compatibility for both public and private endpoints. These enhancements significantly help improve the service’s accessibility and security posture for enterprise deployments. PrivateLink integration makes it possible to access SageMaker AI endpoints privately from your VPCs without traversing the public internet, keeping the traffic within the AWS network infrastructure. This is particularly valuable for organizations with strict compliance requirements or data residency policies that mandate private connectivity for machine learning workloads.
The addition of IPv6 support for SageMaker AI endpoints addresses the growing need for modern IP addressing as organizations transition away from IPv4. You can now access SageMaker AI services using IPv6 addresses for both public endpoints and private VPC endpoints, providing flexibility in network architecture design and future-proofing infrastructure investments. The dual-stack capability (supporting both IPv4 and IPv6) facilitates backward compatibility while helping organizations adopt IPv6 at their own pace. Combined with PrivateLink, these connectivity enhancements help make SageMaker AI more accessible and secure for diverse enterprise networking environments, from traditional on-premises data centers connecting using AWS Direct Connect to modern cloud-based architectures built entirely on IPv6.
Conclusion
The 2025 enhancements to SageMaker AI represent a significant leap forward in making generative AI workloads more observable, reliable, and accessible for enterprise customers. From granular performance metrics that pinpoint infrastructure bottlenecks to serverless customization, these improvements address the real-world challenges teams face when deploying AI at scale. The combination of enhanced observability, safer deployment mechanisms, and streamlined workflows helps empower organizations to move faster while maintaining the reliability and security standards required for production systems.
These capabilities are available now across Regions, with features like enhanced metrics, rolling updates, and serverless customization ready to help transform how you can build and deploy AI applications. Whether you’re fine-tuning models for domain-specific tasks, building real-time voice agents with bidirectional streaming, or facilitating deployment safety with rolling updates and integrated monitoring, SageMaker AI helps provide the tools to accelerate your AI journey while reducing operational complexity.
Get started today by exploring the enhanced metrics documentation, trying serverless model customization, or implementing bidirectional streaming for your real-time inference workloads. For comprehensive guidance on implementing these features, refer to the Amazon SageMaker AI Documentation or reach out to your AWS account team to discuss how these capabilities can support your specific use cases.
About the authors
Dan Ferguson is a Sr. Solutions Architect at AWS, based in New York, USA. As a machine learning services expert, Dan works to support customers on their journey to integrating ML workflows efficiently, effectively, and sustainably.
Dmitry Soldatkin is a Senior Machine Learning Solutions Architect at AWS, helping customers design and build AI/ML solutions. Dmitry’s work covers a wide range of ML use cases, with a primary interest in generative AI, deep learning, and scaling ML across the enterprise. He has helped companies in many industries, including insurance, financial services, utilities, and telecommunications. He has a passion for continuous innovation and using data to drive business outcomes. Prior to joining AWS, Dmitry was an architect, developer, and technology leader in data analytics and machine learning fields in the financial services industry.
Lokeshwaran Ravi is a Senior Deep Learning Compiler Engineer at AWS, specializing in ML optimization, model acceleration, and AI security. He focuses on enhancing efficiency, reducing costs, and building secure ecosystems to democratize AI technologies, making cutting-edge ML accessible and impactful across industries.
Sadaf Fardeen leads Inference Optimization charter for SageMaker. She owns optimization and development of LLM inference containers on SageMaker.
<a href="https://d2908q
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み