Amazon SageMaker AI Async Inference now supports inline request payloads｜Amazon SageMaker AI の非同期推論にリクエストペイロードの直接送信がサポートされるように | AIニュース最前線

本日、Amazon SageMaker AI の非同期推論（Async Inference）において、リクエストペイロードをインラインで送信するサポートを開始したことをお知らせします。これにより、顧客は InvokeEndpointAsync API のリクエスト本体に直接推論ペイロードを送信できるようになり、各呼び出し前に Amazon Simple Storage Service (Amazon S3) に入力データをアップロードする必要がなくなりました。 128,000 バイトまでのペイロードの場合、この機能によりネットワークの往復ラウンドトリップが不要となり、クライアント側のコードが簡素化され、非同期推論ワークロードの運用上のリスク領域が縮小されます。 本稿では、この機能の背景にある動機を説明し、導入前後の顧客体験を追跡し、今日からインラインペイロードを使用する方法をご紹介します。 ## 背景：従来の非同期推論の仕組み [Amazon SageMaker AI の非同期推論](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference.html) を使用することで、推論リクエストをキューに格納し、非同期で処理することができます。これは、大規模なペイロードや変動するトラフィック、数秒から数分のレイテンシ許容度を持つワークロードに適しています。ゼロへの自動スケーリングをサポートしており、バースト型またはバッチスタイルのワークロードにおいてコスト効率に優れています。 これまで、各呼び出しには以下の 2 つの手順が必要でした： - Amazon S3 バケットに入力ペイロードをアップロードします。 - エンドポイントを呼び出し、S3 オブジェクト URI を InputLocation として渡します。 エンドポイントはリクエストを非同期で処理し、出力を設定された S3 出力場所（Output Location）に書き込みます。クライアントはポーリングを行うか、Amazon Simple Notification Service (Amazon SNS) の通知を受け取ることで結果を取得します。 この 2 ステップのパターンは、大規模なペイロード（画像、音声、数 MB のドキュメントなど）にはよく機能します。しかし、入力ペイロードが小さく（KB 単位）、リアルタイム推論では許容できないほど長い処理時間を必要とする顧客にとっては、必須の S3 依存関係が不要な複雑さを追加してしまいました。 ## 新しい機能：Body パラメータによるインラインペイロード 今回のリリースにより、InvokeEndpointAsync に新しい Body パラメータが追加されました。このパラメータが存在する場合、ペイロードは API リクエスト自体にインラインで送信され、S3 へのアップロードは不要になります。 **主な詳細:** | アスペクト | 詳細 | | :--- | :--- | | **新パラメータ** | Body（生バイト）、最大 128,000 バイトに制限。 | | **インライン最大サイズ** | 128,000 バイト（生ペイロード）。 | | **排他性** | Body と InputLocation は排他的です。両方を設定するリクエストは API で拒否されます。 | | **出力動作** | 変更なし。出力は S3 Output Location に書き込まれます。 | | **エンドポイント互換性** | 既存の非同期エンドポイントで動作するように設計されており、モデルやコンテナの変更は不要です。 **エラーハンドリング** サイズ違反および排他性違反は、同期の ValidationError 応答を返します。 **可用性** 31 の商用 AWS リージョンで利用可能です *(BOM, PDX, YUL, IAD, CMH, SFO, LHR, ICN, SYD, HKG, YYC, GRU, QRO, DUB, CDG, FRA, ZRH, ARN, ZAZ, NRT, KIX, SIN, CGK, MEL, KUL, BKK, HYD, TPE, CPT, MXP, TLV)*。 ## 変更前後：顧客体験 この変化はコードにおいて最も明確に現れます。以下に示す 2 つの例は、同じエンドポイントに対して非同期呼び出しを実行するものであり、最初の例ではこれまで必要だった S3 アップロードステップを使用し、2 つ目の例ではそれを置き換えるインライン Body パラメータを使用します。 ## 変更前：まず S3 にアップロードしてから呼び出す ```python import boto3, json, uuid s3 = boto3.client("s3") sagemaker_runtime = boto3.client("sagemaker-runtime") payload = json.dumps({"inputs": "your prompt here"}).encode("utf-8") # 1. リクエストペイロードを S3 にアップロード（追加のレイテンシとコストが発生） input_key = f"async-input/{uuid.uuid4()}.json" s3.put_object(Bucket="my-async-bucket", Key=input_key, Body=payload) input_location = f"s3://my-async-bucket/{input_key}" # 2. エンドポイントを呼び出す response = sagemaker_runtime.invoke_endpoint_async( EndpointName="my-async-endpoint", InputLocation=input_location, ContentType="application/json", ) print(response["OutputLocation"]) ``` このアプローチには以下の要件があります： - S3 クライアントと入力用バケットの用意。 - 呼び出し元に対する AWS Identity and Access Management (IAM) の s3:PutObject 権限。 - キー衝突を避けるための命名スキーム（UUID または同等のもの）。 - 古くなった入力オブジェクトのクリーンアップ戦略。 ## After: Send the payload inline import boto3, json sagemaker_runtime = boto3.client("sagemaker-runtime") payload = json.dumps({"inputs": "your prompt here"}).encode("utf-8") # One call, no S3 upload, no input bucket needed response = sagemaker_runtime.invoke_endpoint_async( EndpointName="my-async-endpoint", Body=payload, ContentType="application/json", ) print(response["OutputLocation"]) S3 クライアント不要、UUID 不要、入力バケット不要、入力パスへの IAM 権限不要、古くなったオブジェクトのクリーンアップ不要。 ## Customer benefits ペイロードをインラインで送信することで、各リクエストにおけるネットワークホップと依存関係が1つ削減されます。これにより、5 つの具体的なメリットが得られます： - レイテンシの削減。1 つのリクエストあたり、ネットワーク往復と S3 PUT が 1 つずつ不要になるためです。ファンアウトワークロードでは、このレイテンシ削減効果が累積して大きな意味を持ちます。 - アーキテクチャの単純化。入力バケットのプロビジョニング、ライフサイクルポリシー、アカウント間アクセスパターン、および呼び出し元が入力パスに対して持つ IAM の s3:PutObject 権限を回避できます。 - エラー経路の削減。リクエストは単一の API コールです。キューに追加されるか、そうでないかのどちらかです。 - コストの低下。各インライン呼び出しにおける入力アップロードに対する S3 PUT 課金が不要になります。 - 即時の検証フィードバック。サイズエラーや排他性エラーは同期して返されます。 ## 各アプローチの使用タイミング インラインペイロードは、小規模なペイロードの場合に通常はよりシンプルな選択肢ですが、InputLocation（入力場所）にもその役割があります。以下の表を使用して、特定のワークロードに適したパスを決定してください: | シナリオ | 推奨されるアプローチ | |---|---| | ペイロード | **インラインボディ**。シンプル。ネットワーク往復と S3 PUT 課金を 1 つずつ回避できます。 | | ペイロード > 128,000 バイト（画像、音声、大規模ドキュメント） | **InputLocation**。まず S3 にアップロードしてください。 | | 可変サイズのペイロードを伴う混合ワークロード | **サイズに基づいて分岐**。小規模には Body を、大規模には InputLocation を使用します。 | |監査や再生のために S3 に入力データを保持する必要がある場合 | **InputLocation**。入力データをバケット内に保持します。 ## はじめに 完全な手順については、[例のコードノートブック](https://github.com/aws-samples/sagemaker-genai-hosting-examples/blob/main/03-features/async-inference-inline-payload/async_inline_payload.ipynb) をご覧ください。 開始する前に、以下の準備が整っていることを確認してください： - 既存の Amazon SageMaker AI 非同期推論エンドポイント（`aws sagemaker describe-endpoint --endpoint-name my-async-endpoint` コマンドで確認）。 - 最新の AWS SDK for Python (Boto3) がインストールされ、認証情報で設定されていること。 - `sagemaker:InvokeEndpointAsync` 権限を持つ IAM ポリシーが割り当てられていること。 - 非同期エンドポイント用の S3 出力バケットが構成されていること（例：my-output-bucket）。 **注意：** このガイドに従うと、課金対象となる AWS リソースを使用することになります。SageMaker AI 非同期推論エンドポイントはインスタンス使用時間に対して課金され、S3 バケットはストレージおよびリクエスト数に対して課金されます。継続的な課金を避けるために、チュートリアル完了後にクリーンアップ手順を実行してください。 ## 手順 インラインペイロードのサポートは本日利用可能です。これを使用するには： - AWS SDK を更新してください。Boto3 を最新バージョンにインストールまたはアップグレードします：pip install --upgrade boto3。 - インストールを確認します：pip show boto3。 - 呼び出しコードを置き換えてください。アプリケーション内では、S3 アップロード + InputLocation パターンを、直前のコード例に示されているように直接の Body パラメータに置換してください。 - Body パラメータを指定して InvokeEndpointAsync API を呼び出すことで、呼び出しをテストしてください。 - 応答に OutputLocation フィールドが含まれていることを確認してください。 - S3 の OutputLocation をポーリングまたは監視し、推論結果が正常に書き込まれたことを確認してください。 エンドポイント設定、モデルコンテナ、出力用 S3 セットアップに変更は不要です。 ## クリーンアップ 継続的な課金を避けるために、このウォークスルーで使用したリソースを削除してください： - テスト用に作成された SageMaker AI エンドポイントを削除します： aws sagemaker delete-endpoint --endpoint-name my-async-endpoint - 出力用 S3 バケットを削除します（不要になった場合）。警告：S3 バケットを削除すると、その中のオブジェクトは永久的に消去されます。保持が必要な推論結果のバックアップがあるか確認してください。 aws s3 rb s3://my-output-bucket --force - このチュートリアル用に作成された IAM ポリシーをすべて削除してください。 ## 結論 SageMaker AI の非同期推論におけるインラインペイロードサポートは、非同期推論ワークフローにおける一般的な摩擦要因である「すべてのリクエストに対する必須の S3 アップロード」を解消します。128,000 バイト以内の大部分の推論ペイロードについては、単一の API 呼び出しを実行するだけでよく、残りの処理は SageMaker AI が担当してくれます。 この機能は後方互換性を維持するように設計されています。既存の InputLocation ワークフローは変更されません。リクエストが受け付けられた後は、インライン入力と S3 入力の両方が同一に処理され、モデルは入力ソースに関わらず同一のリクエストを受け取ります。 AWS SDK を更新し、[SageMaker AI InvokeEndpointAsync API](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpointAsync.html) の Body パラメータを使用することで、今日から利用を開始できます。非同期推論の詳細については、[Amazon SageMaker AI 非同期推論ドキュメント](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference.html)をご覧ください。 ## 著者について ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/15/ML-21184-1.jpg) ## Dan Ferguson Dan は、米国ニューヨークを拠点とする AWS のソリューションアーキテクトです。機械学習サービスの専門家として、顧客が ML ワークフローを効率的かつ効果的、そして持続可能に統合するための旅をサポートしています。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/15/ML-21184-2.jpg) ## Bruce Wang Bruce は AWS の SageMaker AI Inference DataPlane チームに所属するソフトウェア開発エンジニアです。SageMaker AI の顧客向けに、リアルタイム推論と非同期推論を支えるインフラストラクチャの構築を行っています。

Amazon SageMaker AI の非同期推論にリクエストペイロードの直接送信がサポートされるように

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト