CloudWatch の SageMaker メトリクスとインサイトダッシュボードを用いた生成 AI 推論の監視・デバッグ
AWS は、大規模言語モデル(LLM)の推論エンドポイント運用における課題解決のため、CloudWatch に統合された詳細なメトリクスと自動ダッシュボード「SageMaker Insights」を新機能として提供し、GPU 圧力や KV キャッシュなどの深層可視化を実現した。
キーポイント
LLM 推論運用の複雑性と課題
大規模モデルの P99 レイテンシスパイクに対し、GPU メモリ圧力や KV キャッシュ飽和などの根本原因を特定する難しさが指摘され、従来の集計メトリクスでは不十分である。
SageMaker の詳細メトリクス拡張
Amazon SageMaker AI が 100 以上の詳細推論メトリクス(GPU 健康状態、トークンレベルのレイテンシ、KV キャッシュ圧力など)を CloudWatch に自動発行する機能を強化した。
SageMaker Insights ダッシュボード
カスタムの Grafana や Prometheus 設定不要で、推論コンポーネント(IC)やエンドポイントタイプに応じて自動的に最適化された可視化パネルを提供する管理型ダッシュボードを CloudWatch に統合した。
マルチモデルホスティングへの対応
複数のモデルが同じ GPU インフラ上で動作する推論コンポーネント(IC)アーキテクチャ向けに、個別のスケーリングポリシーや AZ 間のトラフィック分布を詳細に監視できる機能を強化した。
詳細可観測性のデフォルト設定
新しいエンドポイント構成を作成する際、`EnableDetailedObservability`フラグはデフォルトで有効化されるため追加設定は不要です。
メトリクス公開頻度の調整
`MetricsConfig`内の`MetricsPublishFrequencyInSeconds`パラメータを変更することで、ニアリアルタイム監視が必要なワークロードに対して1分未満の頻度でメトリクスを公開できます。
既存エンドポイントのオプトイン
既存のエンドポイントでは詳細可観測性を有効にするには明示的なオプトインが必要であり、新しい構成を作成してエンドポイントを更新する手順が必要です。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI の本番運用における「ブラックボックス化」された推論エンジンの内部状態を可視化する標準的なアプローチを提供し、MLOps チームや SRE がコスト効率とパフォーマンスのバランスを最適化する能力を劇的に向上させる。特に、KV キャッシュ圧力や GPU 健康状態といった専門的な指標がダッシュボードで即座に確認できることは、大規模 LLM の安定稼働を保証する上で決定的な役割を果たす。
編集コメント
生成 AI の本番運用において、従来の高レベルなメトリクスでは捉えきれない「なぜ遅延が発生したのか」という根本原因の特定が容易になる画期的なアップデートです。カスタム監視基盤の構築工数を削減しつつ、GPU リソースの最適化を可能にするため、MLOps 担当者は直ちに導入を検討すべき内容と言えます。
大規模に運用される生成 AI 推論エンドポイントの監視とトラブルシューティングは困難を伴います。大規模言語モデル(LLM)エンドポイントの P99 レイテンシが急上昇した際、数分以内に根本原因が GPU メモリ圧力、飽和した KV キャッシュ(Key-Value Cache)、アベイラビリティゾーン間での不均衡なトラフィック、あるいはトリガーされていない自動スケーリングポリシーのいずれであるかを特定する必要があります。トレーニングからサービングへの移行は、チームが生産環境で LLM やその他の生成 AI モデルをデプロイする方法を再構築しています。機械学習(ML)プラットフォームエンジニア、MLOps チーム、サイト信頼性エンジニア(SRE)は、数十ものモデルや数百の GPU インスタンスにまたがり、推論エンドポイントが健全で応答性が良く、コスト効率も高い状態を維持する必要があります。
Amazon SageMaker AI は、機械学習モデル向けのフルマネージドなリアルタイム推論ホスティングを提供します。モデルを 1 つ以上のコンピューティングインスタンスでバックアップされた SageMaker エンドポイントにデプロイすると、SageMaker がプロビジョニングとスケーリングを担当します。SageMaker は複数のエンドポイントアーキテクチャをサポートしています。本稿では、詳細な観測可能性を持つ生成 AI ワークロードに関連する 2 つのアーキテクチャに焦点を当てます。
- シングルモデルエンドポイント (SME) – 各エンドポイントは、専用インスタンス上で 1 つのモデルをホストします。SME はセットアップと理解が容易ですが、各モデルに独自の GPU インスタンスフリートが必要です。
- 推論コンポーネント (IC) エンドポイント – 複数のモデルは、推論コンポーネントを通じて同じインスタンスセットを共有します。各推論コンポーネントは、モデル、そのリソース要件 (CPU, GPU, メモリ)、およびスケーリングポリシーを定義します。IC エンドポイントは、共有 GPU インフラストラクチャ上でのマルチモデルホスティング、モデルごとの独立したスケーリング、および AZ 間でのコピー分散による高可用性 (HA) をサポートするため、本番環境の生成 AI ワークロードに対する推奨アーキテクチャです。
SageMaker エンドポイントは、呼び出し回数、モデルレイテンシ、オーバーヘッドレイテンシなどのメトリクスを Amazon CloudWatch にエミットします。これらの集計メトリクスは、エンドポイント全体の健全性を理解するために有用です。チームが GPU フリート上でマルチモデル展開にスケールするにつれ、より深いシグナルが必要となります。Amazon SageMaker AI は現在、100 以上の詳細な推論メトリクスをエミットしています。これには、GPU の健全性、トークンレベルのレイテンシ、KV キャッシュ圧力、AZ 間でのトラフィック分散、推論コンポーネントの配置、コールドスタート診断が含まれます。これらのメトリクスは、Amazon CloudWatch 内の組み込み SageMaker Insights ダッシュボードに流れ込みます。これはカスタムの Grafana ダッシュボードや Prometheus 設定の必要性を排除する、完全にマネージドされた観測性ソリューションです。SageMaker Insights ダッシュボードは両方のエンドポイントタイプをサポートしており、推論コンポーネントが検出されると自動的に IC 固有のパネルを表示します。
SageMaker の推論に関する詳細については、リアルタイム推論用のモデルのデプロイをご覧ください。
本記事では、以下の内容について学習します:
- 新規および既存の SageMaker 推論エンドポイントで、詳細な観測可能性メトリクスを有効にする方法。
- SageMaker Insights ダッシュボードをナビゲートし、Performance(パフォーマンス)、Capacity(容量)、Reliability(信頼性)ビューを通じてフリートの健全性を監視する方法。
- PromQL 互換のエンドポイントを通じて、これらのメトリクスを独自の観測可能性ツール(Grafana, Datadog)に接続する方法。

SageMaker 推論の観測可能性概要
SageMaker 推論エンドポイントは、ネイティブな OpenTelemetry メトリクスを CloudWatch にエミットします。SageMaker Insights ダッシュボードは、CloudWatch コンソールの Infrastructure Monitoring → SageMaker Insights(インフラストラクチャ監視 → SageMaker Insights)に位置しています。これは PromQL を使用してこれらのメトリクスを照会し、Performance(パフォーマンス)、Capacity(容量)、Reliability(信頼性)の 3 つのタブで、フリートレベル、エンドポイントレベル、推論コンポーネントレベルの可視化を描画します。
- Performance – フリートの健全性、トークンのレイテンシ、スループット、エラー、エンジン負荷。
- Capacity – フリートの GPU、CPU、およびメモリの利用率。
- Reliability – 可用性ゾーン分布、スケーリングイベント、コールドスタートの構造、容量不足エラー。

Key services
- Amazon SageMaker AI – エンドポイントと推論コンポーネントによる管理された推論。
- Amazon CloudWatch – SageMaker Insights を通じた OpenTelemetry メトリクスおよび PromQL クエリのネイティブサポート。
OpenTelemetry および PromQL の CloudWatch におけるサポートに関する背景情報は、Amazon CloudWatch での OpenTelemetry PromQL サポートの紹介 をご覧ください。
Prerequisites
この投稿に沿って進めるには、以下の準備が必要です。
- 少なくとも 1 つの SageMaker リアルタイム推論エンドポイントを持つ AWS アカウント。
- AWS Identity and Access Management (IAM) の権限:sagemaker:CreateEndpointConfig, sagemaker:UpdateEndpoint, および cloudwatch:GetMetricData。
- vLLM または SGLang コンテナフレームワーク(TTFT や ITL などのトークンレベルメトリクスに必要)。
GPU インスタンスでは、すべてのインスタンスタイプで利用可能な CPU メトリクスおよびメモリメトリクスの他に、アクセラレーターごとの利用率メトリクスも取得できます。完全なセットアップガイドについては、詳細な観測性の開始 をご覧ください。
Activate detailed metrics on your endpoints
New endpoints: Automatic (default-on)
作成する新しいエンドポイント設定では、詳細メトリクスがデフォルトで有効になります。エンドポイント設定内の EnableDetailedObservability パラメータは true にデフォルト設定されます。追加のコードは不要です。
import boto3
sm = boto3.client("sagemaker")
Create endpoint config — observability turned on by default
response = sm.create_endpoint_config(
EndpointConfigName="my-llm-config",
ProductionVariants=[{
"VariantName": "primary",
"InstanceType": "ml.g6.4xlarge",
"InitialInstanceCount": 2,
"ManagedInstanceScaling": {
"Status": "ENABLED",
"MinInstanceCount": 2,
"MaxInstanceCount": 8
}
}],
ExecutionRoleArn="arn:aws:iam::123456789012:role/SageMakerExecutionRole"
The EnableDetailedObservability flag in your endpoint configuration defaults to true, so no additional configuration is needed. You can also explicitly set the publishing frequency using MetricsPublishFrequencyInSeconds in MetricsConfig. The default is 60 seconds. For workloads that need near real-time monitoring, you can set it to less than a minute.
# Create endpoint
sm.create_endpoint(
EndpointName="my-llm-endpoint",
EndpointConfigName="my-llm-config"
)
Within 2 minutes of the endpoint reaching InService, the OpenTelemetry format metrics begin flowing to CloudWatch.
Existing endpoints: Opt-in
Existing endpoints require an explicit opt-in. Create a new endpoint configuration with the MetricsConfig flag, then update your endpoint. This follows the same pattern as any endpoint configuration change.

# ステップ 1: 詳細な観測機能を有効にした新しい設定を作成する
sm.create_endpoint_config(
EndpointConfigName="my-existing-config-v2",
ProductionVariants=[{
"VariantName": "primary",
"ModelName": "my-existing-model",
"InstanceType": "ml.g6.4xlarge",
"InitialInstanceCount": 2
}],
MetricsConfig={"EnableDetailedObservability": True},
ExecutionRoleArn="arn:aws:iam::123456789012:role/SageMakerExecutionRole"
)
ステップ 2: エンドポイントを更新する
sm.update_endpoint(
EndpointName="my-existing-endpoint",
EndpointConfigName="my-existing-config-v2"
)
SageMaker コンソールでは、詳細な観測機能を有効にするを選択した後、ガイド付きの 3 ステップウィザードが提供されます。これは、メトリクスの概要を確認し、OTel(OpenTelemetry)の拡張機能を有効にし、オプトインするエンドポイントを選択するためのものです。
image
## クラシック CloudWatch メトリクスのための OTel 拡張機能の有効化
有効化後、ネイティブの OpenTelemetry メトリクスは自動的に CloudWatch にフローします。ただし、既存のクラシックメトリクス(Invocations, ModelLatency, OverheadLatency)を SageMaker Insights ダッシュボードで表示可能にし、PromQL でクエリできるようにするには、OTel 拡張機能の有効化が必要です。
CloudWatch コンソールに移動し、設定を開いて、OTel メトリックの拡張機能とテレメトリー用のリソースタグをオンにしてください。これは一度きりのアカウントレベルおよび AWS リージョンレベルの設定です。

SageMaker コンソールから SageMaker Insights ダッシュボードへ移動する
SageMaker Insights ダッシュボードは、SageMaker コンソールまたは CloudWatch コンソールのいずれからもアクセスできます。SageMaker 内には、それぞれが文脈に事前にフィルタリングされた 3 つのエントリーポイントがあります:
#
エントリーポイント
適用されるフィルター
ユースケース
1
エンドポイント一覧ページ →「SageMaker Insights を開く」
フリートレベル(すべてのエンドポイント)
「全体像を把握したい」
2
エンドポイント詳細ページ →「SageMaker Insights で表示」
そのエンドポイントにフィルタリング済み
「この特定のエンドポイントを詳しく調べる」
3
IC タブ → 個別の IC の「メトリクス」リンク
エンドポイントと IC にフィルタリング済み
"この推論コンポーネントをデバッグする"
各パスは事前に適用されたフィルターで深層リンクされており、リソースを検索して空白のダッシュボードに到達することはありません。

パフォーマンスタブ:フリートの健全性の監視とレイテンシのデバッグ
パフォーマンスタブは、ほとんどの顧客が時間を費やす場所です。「すべてが正常に動作しているか?」「もしそうでない場合、どのコンポーネントに問題があるのか?」といった疑問に答えるためのものです。このタブには、レイテンシの問題を特定するために連携して機能する複数の時系列パネルが含まれています。
パフォーマンス健全性とインスタンスパフォーマンステーブル
色分けされた六角形により、フリートのすべてのリソースが可視化されます。「Instances(インスタンス)」「IC Copies(IC コピー)」「Endpoints(エンドポイント)」のビュー間で切り替えることができます。六角形の色は状態を示します:
- 緑:OK(正常)
- 白:アラーム検出なし
- 赤:アラーム発令中
任意の六角形にマウスを合わせると、インスタンスタイプ、TTFT(Time To First Token)、出力 TPS(Tokens Per Second)、並行リクエスト数、KV キャッシュ利用率、および CloudWatch アラームステータスが表示されます。このインスタンスでフィルタを選択すると、詳細表示に進むことができます。ページ上のすべてのパネルが更新され、そのインスタンスのデータのみが表示されるようになります。

このテーブルには、パフォーマンスメトリクスを並べて表示したすべてのインスタンスが示されます。TTFT、出力 TPS、および並行リクエストにおける外れ値(アウトライヤー)を特定するためにこのテーブルを使用できます。TTFT、Output TPS、Concurrent Requests、KV Cache の各列は、vLLM および SGLang フレームワークから発行されたデータのみを示します。
Token ストリーミングパネルは、P50/P99切り替え機能付きで、Time to First Token (TTFT) と Inter-Token Latency (ITL) の経時変化をプロットします。TTFT は、ユーザーが最初の応答文字を見るまでにどれだけの時間を要するかを測定する指標です。一方、ITL は連続するトークン間の時間を測定し、ストリーミングの滑らかさに直接影響を与えます。エンドポイント、推論コンポーネント名、またはモデルでフィルタリングすることで、どのコンポーネントがレイテンシの原因となっているかを特定できます。
TTFT のスパイクを特定した場合、レイテンシ内訳パネルがその原因の特定を支援します。このパネルは、総レイテンシを「モデルレイテンシ(モデルが処理に要する時間)」と「オーバーヘッドレイテンシ(プラットフォームがルーティングやスケジューリングに要する時間)」に分離して表示します。「Invoke」タブではリクエストの完全なパスを確認でき、「Streaming」タブでは最初のチャンク到達までの時間を特化して表示します。もしモデルレイテンシとオーバーヘッドレイテンシの両方が正常であるにもかかわらず TTFT が高い場合、モデルの推論エンジンが内部キューでリクエストを保持している可能性があります(例:KV キャッシュスロットの待ち)。これを確認するにはエンジンおよびリクエスト負荷パネルをチェックしてください。
トラフィック分散パネルは、アベイラビリティゾーン (AZ) フィルタリング機能付きで、インスタンス別または推論コンポーネント別のリクエストフローを表示します。AZ ドロップダウンを切り替えることで、ゾーンごとのトラフィックを分離して確認できます。ある AZ でトラフィックがゼロでありながら他の AZ が負荷状態にある場合、それはルーティングや配置の問題を示唆しています。インスタンス/IC 切り替え機能を使用して、「どのマシンがトラフィックを処理しているか」と「どのモデルがトラフィックを処理しているか」のビューを切り替えることができます。
最後に、トークンスループットパネルは、入力/出力別、パーセンタイル別、またはインスタンス別に内訳された、1 秒あたりに処理される実際のトークン数を測定します。これは推論効率を直接計測するものです。例えば、ml.g6.4xlarge インスタンスがモデルベンチマークで示される 500 トークン/秒に対して 150 トークン/秒の出力しか出せない場合、それはリソース制約、設定の問題、または KV キャッシュ(Key-Value Cache)への負荷を示唆しています。マルチフレームワーク凡例(SGLang, vLLM, DJL)を使用すれば、マルチモデルエンドポイント間で推論エンジンごとのスループットを比較できます。
エンジンとリクエスト圧力
「エンジンとリクエスト圧力」パネルは、障害を防ぐための早期警告システムです。

時系列ビューでは、フレームワーク別の内訳が表示され、ツールチップには任意のタイムスタンプにおける正確な数値が示されます。営業時間中に KV キャッシュ(Key-Value Cache)が繰り返し 40〜50 パーセントまで上昇しているのを確認した場合、顧客に影響が及ぶ前にトリガーされる閾値を設定して、自動スケーリングを構成してください。
容量タブ:デプロイメント計画とリソース管理
「容量」タブは、「十分なリソースがあるか?」「どこに余力があるのか?」「別のモデルを追加できるか?」といった質問に答えます。
容量の健全性
パフォーマンスセクションで使われたハニカム可視化がここでも表示され、ホバーカードにはリソース使用率パーセンテージとして、GPU、GPU メモリ、CPU、CPU メモリ、ディスクが表示されます。

新しいモデルをデプロイする前や、コピー数をスケールする前に、ターゲットエンドポイント内のインスタンスにカーソルを合わせてください。GPU メモリが 89 パーセントの場合、追加のモデル重み(weights)に対して利用可能な VRAM の余裕は限られています。
フリート利用率の推移
このパネルでは、Instance、IC copies、および Endpoint 集計用の切り替えボタンを備えたリソース消費の傾向が表示されます。重要なシグナルには以下が含まれます:
- GPU メモリが数日かけて上昇している場合は、容量制限に近づいていることを示します。利用率が限界に達する前にインスタンスを追加してください。
- GPU メモリが突然低下している場合は、モデルのクラッシュまたはアンロード(unloading)を示唆しています。調査が必要です。
- 定期的に再発するディスクの急増は、コールドスタート時のモデルダウンロードと相関関係があります。

信頼性タブ:高可用性とレジリエンスの可視化をサポート
信頼性タブは、「ある AZ(Availability Zone)がダウンした場合、推論フリートは生き残るのか?」「スケーリングイベントは正常に機能しているか?」「なぜコールドスタートが遅いのか?」といった疑問に答えます。
可用性ゾーンごとの分布
棒グラフは、各 AZ におけるインスタンス数と IC コピー数を表示します。このビューでは、高可用性の姿勢を確認できます。

Distribution
Risk
Action
Even across over 3 AZs
Low
No action
Concentrated in 1-2 AZs
Medium
Rebalance
0 instances in any AZ
High
Single AZ failure takes you offline
Toggle between Instances and IC Copies. Instances might be balanced, but IC copies could be concentrated on a few machines.
Cold start anatomy
<img src="https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/18/ML-21272-13.png" alt="
原文を表示
Monitoring and troubleshooting generative AI inference endpoints operating at scale is challenging. When your large language model (LLM) endpoint’s P99 latency spikes, you must determine in minutes whether the root cause is GPU memory pressure, a saturated KV cache, unbalanced traffic across Availability Zones, or an auto scaling policy that hasn’t triggered. The shift from training to serving is reshaping how teams deploy LLMs and other generative AI models in production. Machine learning (ML) platform engineers, MLOps teams, and site reliability engineers (SREs) must keep inference endpoints healthy, responsive, and cost-efficient, often across dozens of models and hundreds of GPU instances.
Amazon SageMaker AI provides fully managed real-time inference hosting for machine learning models. You deploy a model to a SageMaker endpoint backed by one or more compute instances, and SageMaker handles provisioning and scaling. SageMaker supports multiple endpoint architectures. This post focuses on the two most relevant to generative AI workloads with detailed observability:
- Single-model endpoints (SME) – Each endpoint hosts one model on dedicated instances. SMEs are straightforward to set up and reason about, but each model requires its own fleet of GPU instances.
- Inference component (IC) endpoints – Multiple models share the same set of instances through inference components. Each inference component defines a model, its resource requirements (CPU, GPU, memory), and its scaling policy. IC endpoints are the recommended architecture for production generative AI workloads because they support multi-model hosting on shared GPU infrastructure, independent scaling per model, and high availability (HA) through copy distribution across AZs.
SageMaker endpoints emit metrics like invocation counts, model latency, and overhead latency to Amazon CloudWatch. These aggregate metrics are useful for understanding overall endpoint health. Because teams scale to multi-model deployments on GPU fleets, they need deeper signals. Amazon SageMaker AI now emits over 100 detailed inference metrics. These cover GPU health, token-level latency, KV cache pressure, traffic distribution across AZs, inference component placement, and cold start diagnostics. These metrics flow to a built-in SageMaker Insights dashboard in Amazon CloudWatch, a fully managed observability solution that removes the need for custom Grafana dashboards and Prometheus configuration. The SageMaker Insights dashboard supports both endpoint types and automatically shows IC-specific panels when inference components are detected.
For more details on SageMaker inference, see Deploy models for real-time inference.
In this post, you will learn how to:
- Turn on detailed observability metrics on new and existing SageMaker inference endpoints.
- Navigate the SageMaker Insights dashboard to monitor fleet health across Performance, Capacity, and Reliability views.
- Connect the metrics to your own observability tool (Grafana, Datadog) through the PromQL-compatible endpoint.

SageMaker inference observability overview
SageMaker inference endpoints emit native OpenTelemetry metrics to CloudWatch. The SageMaker Insights dashboard is located in the CloudWatch console under Infrastructure Monitoring → SageMaker Insights. It queries these metrics using PromQL and renders visualizations at the fleet, endpoint, and inference-component level across three tabs: Performance, Capacity, and Reliability.
- Performance – Fleet health, token latency, throughput, errors, engine pressure.
- Capacity – GPU, CPU, and memory utilization of the fleet.
- Reliability – Availability Zone distribution, scaling events, cold start anatomy, and insufficient capacity errors.

Key services
- Amazon SageMaker AI – Managed inference with endpoints and inference components.
- Amazon CloudWatch – Native support for OpenTelemetry metrics and PromQL queries through SageMaker Insights.
For background on the OpenTelemetry and PromQL support in CloudWatch, see Introducing OpenTelemetry PromQL support in Amazon CloudWatch.
Prerequisites
You must have the following to follow along with this post.
- An AWS account with at least one SageMaker real-time inference endpoint.
- AWS Identity and Access Management (IAM) permissions: sagemaker:CreateEndpointConfig, sagemaker:UpdateEndpoint, and cloudwatch:GetMetricData.
- vLLM or SGLang container framework (required for token-level metrics like TTFT and ITL).
GPU instances receive per-accelerator utilization metrics in addition to the CPU and memory metrics available on all instance types. For the full setup guide, see Getting started with detailed observability.
Activate detailed metrics on your endpoints
New endpoints: Automatic (default-on)
For any new endpoint configurations you create, detailed metrics are turned on by default. The EnableDetailedObservability parameter in your endpoint configuration defaults to true. No additional code is required.
import boto3
sm = boto3.client("sagemaker")
# Create endpoint config — observability turned on by default
response = sm.create_endpoint_config(
EndpointConfigName="my-llm-config",
ProductionVariants=[{
"VariantName": "primary",
"InstanceType": "ml.g6.4xlarge",
"InitialInstanceCount": 2,
"ManagedInstanceScaling": {
"Status": "ENABLED",
"MinInstanceCount": 2,
"MaxInstanceCount": 8
}
}],
ExecutionRoleArn="arn:aws:iam::123456789012:role/SageMakerExecutionRole"The EnableDetailedObservability flag in your endpoint configuration defaults to true, so no additional configuration is needed. You can also explicitly set the publishing frequency using MetricsPublishFrequencyInSeconds in MetricsConfig. The default is 60 seconds. For workloads that need near real-time monitoring, you can set it to less than a minute.
# Create endpoint
sm.create_endpoint(
EndpointName="my-llm-endpoint",
EndpointConfigName="my-llm-config"
)Within 2 minutes of the endpoint reaching InService, the OpenTelemetry format metrics begin flowing to CloudWatch.
Existing endpoints: Opt-in
Existing endpoints require an explicit opt-in. Create a new endpoint configuration with the MetricsConfig flag, then update your endpoint. This follows the same pattern as any endpoint configuration change.

# Step 1: Create new config with detailed observability turned on
sm.create_endpoint_config(
EndpointConfigName="my-existing-config-v2",
ProductionVariants=[{
"VariantName": "primary",
"ModelName": "my-existing-model",
"InstanceType": "ml.g6.4xlarge",
"InitialInstanceCount": 2
}],
MetricsConfig={"EnableDetailedObservability": True},
ExecutionRoleArn="arn:aws:iam::123456789012:role/SageMakerExecutionRole"
)
# Step 2: Update endpoint
sm.update_endpoint(
EndpointName="my-existing-endpoint",
EndpointConfigName="my-existing-config-v2"
)The SageMaker console also provides a guided three-step wizard after you choose Enable detailed observability: learn about the metrics, turn on OTel enrichment, and select which endpoints to opt in.

Enable OTel enrichment for classic CloudWatch metrics
Native OpenTelemetry metrics flow automatically to CloudWatch after enablement. However, existing classic metrics (Invocations, ModelLatency, OverheadLatency) require OTel enrichment to be visible in the SageMaker Insights dashboard and queryable with PromQL.
Navigate to CloudWatch Console then Settings and turn on OTel metric enrichment and Resource tags for telemetry. This is a one-time, account-level and AWS Region-level setting.

Navigate to the SageMaker Insights dashboard from the SageMaker console
You can access the SageMaker Insights dashboard through either the SageMaker console or the CloudWatch console. Within SageMaker, there are three entry points, each pre-filtered to their context:
#
Entry Point
Filter Applied
Use Case
1
Endpoints list page → “Open SageMaker Insights”
Fleet-level (all endpoints)
“Give me the big picture”
2
Endpoint detail page → “View in SageMaker Insights”
Filtered to that endpoint
“Drill into this specific endpoint”
3
IC tab → per-IC “Metrics” link
Filtered to endpoint + IC
“Debug this inference component”
Every path deep-links with pre-applied filters, so you won’t land on a blank dashboard searching for your resources.

Performance tab: Monitoring fleet health and debugging latency
The Performance tab is where most customers spend their time. It answers questions like “Is everything running well?” and “If not, which component is the problem?” The Performance tab includes several time-series panels that work together to pinpoint latency issues.
Performance health and instance performance table
Color-coded hexagons visualize every resource in your fleet. Toggle between Instances, IC Copies, and Endpoints views. The hexagon color indicates state:
- Green for OK.
- White for no alarms detected.
- Red for in alarm.
Hover over any hexagon to see instance type, TTFT, output TPS, concurrent requests, KV cache utilization, and CloudWatch alarm status. Choose Filter by this instance to drill down. Every panel on the page updates to show only that instance’s data.

The table shows every instance with performance metrics side-by-side. Use this table to spot outliers in TTFT, output TPS, and concurrent requests. The TTFT, Output TPS, Concurrent Requests, and KV Cache columns show data emitted by the vLLM and SGLang frameworks only.
The Token streaming panel plots Time to First Token (TTFT) and Inter-Token Latency (ITL) over time with a P50/P99 toggle. TTFT measures how long users wait before seeing the first response character. ITL measures time between consecutive tokens, which directly affects streaming smoothness. You can filter by endpoint, inference component name, or model to isolate which component contributes to latency.
When you identify a TTFT spike, the Latency breakdown panel helps you attribute it. This panel separates total latency into Model Latency (time the model spends processing) and Overhead Latency (time the platform spends routing and scheduling). An Invoke tab shows the full request path, and a Streaming tab shows time-to-first-chunk specifically. If both Model Latency and Overhead Latency are normal but TTFT is still elevated, the model’s inference engine might be holding requests in its internal queue, for example, waiting for KV cache slots. Check the Engine and request pressure panel to confirm.
The Traffic distribution panel shows per-instance or per-inference-component request flow with Availability Zone filtering. Toggle the AZ dropdown to isolate traffic by zone. If one AZ shows zero traffic while others are loaded, that indicates a routing or placement issue. You can use the instance/IC toggle to switch between “Which machines handle traffic?” and “Which models handle traffic?” views.
Finally, the Token throughput panel measures actual tokens processed per second, broken down by input/output, percentiles, or by instance. This directly measures inference efficiency. For example, if your ml.g6.4xlarge delivers 150 tokens per second output when the model benchmark shows 500, that indicates a resource constraint, configuration issue, or KV cache pressure. The multi-framework legend (SGLang, vLLM, DJL) lets multi-model endpoints compare throughput across inference engines.
Engine and request pressure
The Engine and request pressure panel is your early warning system for preventing outages.

The time-series view shows the per-framework breakdown, with tooltips that show exact values at any timestamp. If you see KV cache repeatedly climbing to 40–50 percent during business hours, configure autoscaling to trigger at a threshold value before customers feel the impact.
Capacity tab: Planning deployments and resource management
The Capacity tab answers questions like “Do I have enough resources?”, “Where is there headroom?”, and “Can I fit another model?”
Capacity health
The same honeycomb visualization from Performance reappears here, with resource utilization percentages in the hover card: GPU, GPU memory, CPU, CPU memory, and Disk.

Before you deploy a new model or scale copies, hover over instances in your target endpoint. If GPU memory is at 89 percent, there’s limited VRAM headroom for additional model weights.
Fleet utilization over time
This panel shows resource consumption trends with toggles for Instance, IC copies, and Endpoint aggregation. Key signals include the following:
- GPU Memory trending upward over days indicates that you’re approaching capacity limits. Add instances before utilization reaches the limit.
- GPU Memory dropping suddenly indicates that a model crashed or was unloaded. Investigate.
- Disk spikes that recur periodically correlate with model downloads during cold starts.

Reliability tab: Supporting high availability and resilience view
The Reliability tab answers questions like “If an AZ goes down, will my inference fleet survive?”, “Are scaling events working?”, and “Why are cold starts slow?”
Availability Zone distribution
A bar chart shows instance and IC copy counts per AZ. This view shows your high availability posture.

Distribution
Risk
Action
Even across over 3 AZs
Low
No action
Concentrated in 1-2 AZs
Medium
Rebalance
0 instances in any AZ
High
Single AZ failure takes you offline
Toggle between Instances and IC Copies. Instances might be balanced, but IC copies could be concentrated on a few machines.
Cold start anatomy
<img src="https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/18/ML-21272-13.png" alt="
関連記事
ChatGPT の市場シェアが初めて 50% を下回る
OpenAI が開発する ChatGPT の市場シェアが過去に初めて 50% を割り込み、ユーザーは Google Gemini や Anthropic の Claude など他社製アシスタントへ移行している。
[AINews] GLM は GPT より優れているか?GLM-5.2 が実用性を証明、Z.ai が 12 月までに「Open Fable」を公開予定
Latent Space のニュースでは、中国のモデル「GLM-5.2」がベンチマークで優れた結果を示し実用性があると評価されたことと、Z.ai が 12 月までにオープンソースプロジェクト「Open Fable」を発表する見込みについて報じられています。
Salesforce CodeGen チュートリアル:ユニットテストと安全性チェック付きの Python 関数の生成・検証・再ランク付け
Salesforce は Hugging Face からモデルを読み込み、自然言語から Python 関数を生成するエンドツーエンドワークフローを公開した。この手法には構文チェックや静的解析、ユニットテストによる検証が含まれる。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み