大規模モデル推論コンテナ - 最新機能と性能向上
AWSはLLM推論コンテナ「LMI」の最新アップデートを発表し、特に長文コンテキスト処理におけるKVキャッシュ共有技術「LMCache」のサポートと自動設定機能により、コスト削減とレイテンシ改善を実現した。
キーポイント
LMCacheによる長文コンテキストの最適化
オープンソースのKVキャッシュソリューション「LMCache」をサポートし、GPUメモリからCPU RAMやNVMeストレージへのオフロードを可能にし、反復されるテキストスパンのキャッシュ再利用により推論パフォーマンスを向上させる。
低コード・ノーコード(LCNC)インターフェースの実装
複雑な手動設定を不要とし、自動LMCache構成機能を通じて、ユーザーが容易に高度なパフォーマンス機能を有効化できる streamlined deployment capabilities を提供している。
コストとパフォーマンスの課題解決
RAGシステムやコーディングエージェントによる1000万トークン単位の長文コンテキスト需要に対応し、データ「ホットスポット」のキャッシュにより、推論リクエストあたりの費用と計算要件を削減する。
影響分析・編集コメントを表示
影響分析
このアップデートは、RAGやエージェントアプリケーションにおいて必須となる長文コンテキスト処理のコスト課題に対して、インフラレベルの最適化ソリューションを提供するものであり、実用性が極めて高い。AWSがオープンソース技術(LMCache)を自社のマネージドサービスに統合し、容易な操作性(LCNC)で提供することで、企業ユーザーのLLM運用障壁を下げ、業界標準の推論アーキテクチャへの移行を促進する影響がある。
編集コメント
長文コンテキスト処理における「KVキャッシュの共有」は、現在LLM運用のコスト削減において最も注目されている技術トレンドの一つであり、AWSがそれを容易な操作性で提供したことは実務者にとって大きな朗報である。
現代の大規模言語モデル(LLM)の展開では、トークン数の増加に起因するコストとパフォーマンスの課題が深刻化しています。単語数や画像サイズ、その他の入力要因に直接関連するトークン数は、計算要件とコストの両方を決定します。より長いコンテキストは、1 回の推論リクエストあたりの費用増大を意味します。この課題は、検索拡張生成(RAG)システムや広範なコードベースおよびドキュメントを必要とするコーディングエージェントからの増加するコンテキスト需要に対応するため、最先端モデルが最大 1000 万トークンをサポートできるようになったことで一層激化しています。しかし、業界の研究によると、推論ワークロード全体のトークン数の相当部分が反復的であり、同じ文書やテキストスパンが多数のプロンプトに現れていることが明らかになっています。これらのデータ「ホットスポット」は機会を表しています。頻繁に再利用されるコンテンツをキャッシュすることで、組織は長文コンテキストの推論ワークロードにおいてコスト削減とパフォーマンス向上を実現できます。
AWS は最近、大規模モデル推論(LMI)コンテナに対して大幅な更新を発表し、AWS 上で LLM をホストする顧客向けに包括的なパフォーマンス改善、拡張されたモデルサポート、そして簡素化された展開機能を提供しました。これらのリリースは、運用の複雑さを削減しつつ、人気のあるモデルアーキテクチャ全体で測定可能なパフォーマンス向上をもたらすことに焦点を当てています。
LMCache サポート:長文コンテキスト性能の変革
LMI の最新リリース全体で導入された最も重要な機能の一つに、包括的な LMCache サポートがあります。これは組織が長文コンテキスト推論ワークロードを処理する方法を根本的に変えるものです。LMCache はオープンソースの KV キャッシングソリューションであり、現代の LLM エンジンによって生成される KV キャッシュを抽出・保存し、これらのキャッシュを複数のエンジンやクエリ間で共有することで、推論性能の向上を図ります。
従来のプレフィックスのみを対象としたキャッシングシステムとは異なり、LMCache はサービングエンジンインスタンス内で再利用されるテキスト(必ずしもプレフィックスに限らない)の KV キャッシュを再利用します。このシステムはチャンクレベルで動作し、文書や会話全体にわたって一般的に繰り返されるテキストスパンを特定して、その事前計算された KV キャッシュを保存します。このアプローチにより、GPU メモリ、CPU メモリ、ディスク/リモートバックエンドにまたがる多段ストレージが可能となり、トークンシーケンスをキャッシュされた KV エントリにマッピングする内部インデックスを維持するインテリジェントなキャッシングを実現します。LMI の最新リリースでは、LMCache 設定が自動化され、KV キャッシュの展開と最適化が簡素化されました。このローコード・ノーコード(LCNC)インターフェースにより、顧客は複雑な手動設定なしに、この高度な性能機能をシームレスに有効化できます。LMCache は KV キャッシュを GPU メモリから CPU RAM や NVMe ストレージへオフロードすることで、長文コンテキストシナリオの効率的な処理を可能にしつつ、レイテンシの改善にも貢献します。
さまざまなモデルサイズとコンテキスト長にわたる包括的なテストにより、ユーザーエクスペリエンスの変革を支援するパフォーマンス向上が明らかになりました。繰り返しコンテキストを持つワークロードでは、LMCache は数百万トークンのコンテキストを処理する際に、最初のトークンまでの時間(TTFT)を短縮します。LMI を展開する組織は、インスタンスの RAM が許す場合は CPU オフローディングを設定して最適なパフォーマンスを実現するか、より大きなキャッシュ容量が必要なワークロードには O_DIRECT 機能を有効にした NVMe を使用できます。Amazon SageMaker AI 上でセッションベースのスティッキールーティングを実装することで、キャッシュ結果率を最大化し、同じセッションからのリクエストが関連するキャッシュコンテンツを持つインスタンスに一貫してルーティングされるように保証できます。
LMCache パフォーマンスベンチマーク
さまざまなモデルサイズとコンテキスト長にわたる包括的なテストにより、長期コンテキスト推論ワークロードにおけるユーザーエクスペリエンスを向上させるパフォーマンスの改善が明らかになりました。テスト手法は、LMCache Long Doc QA ベンチマークを LMI コンテナで動作するように適応させたもので、3 つのラウンドから構成されています:コールドスタート初期化のためのプリウォームアップ、LMCache ストレージにデータを充填するためのウォームアップラウンド、およびキャッシュからの取得時のパフォーマンスを測定するクエリラウンドです。ベンチマークは、p4de.24xlarge インスタンス(8× A100 GPU、1.1TB RAM、NVMe SSD)上で実施され、Qwen モデルを使用しました。各 10,000 トークンのドキュメントが 46 文(合計 460,000 トークン)、並行リクエスト数は 4 です。
反復コンテキストを伴うワークロードにおいて、LMCache は数百万トークンのコンテキスト処理時に、最初のトークンまでの時間(TTFT)を短縮します。CPU オフローディングは、総リクエストレイテンシで 2.18 倍の高速化(52.978 秒→24.274 秒)、TTFT では 2.65 倍の高速化(1.161 秒→0.438 秒)というパフォーマンス向上をもたらします。O_DIRECT を有効化した NVMe ストレージは CPU の性能に迫る(TTFT: 0.741 秒)一方で、テラバイト規模のキャッシング容量をサポートし、総リクエストレイテンシで 1.84 倍の高速化、TTFT では 1.57 倍の高速化を達成します。これらの結果は、TTFT の 62% 削減とリクエストレイテンシの 54% 削減を示しており、公開された LMCache ベンチマークとほぼ一致しています。改善率のばらつきは、おそらくハードウェアの違いや微細な設定の違いに起因するものです。これらのレイテンシ削減は直接的なコスト削減につながります。なぜなら、リクエスト処理時間の 54% 削減により、同じインフラで 2 倍以上のリクエスト量を処理できるようになり、結果として 1 リクエストあたりの計算コストを半減できるからです。
モデルサイズによって KV キャッシュのトークンあたりのメモリ要件に違いがあるため、性能特性は大きく異なります。大規模なモデルほどトークンあたりに大幅に多くのメモリを必要とし(Qwen2.5-1.5B: 28 KB/token、Qwen2.5-7B: 56 KB/token、Qwen2.5-72B: 320 KB/token)、結果として GPU の KV キャッシュ容量がはるかに短いコンテキスト長で枯渇します。Qwen 2.5-1.5B は GPU メモリ上で最大 260 万トークンの KV キャッシュを保存できますが、Qwen 2.5-72B は 48 万トークンで限界に達します。これは、LMCache が大規模モデルに対しては短いコンテキスト長でも価値を発揮することを意味します。72 B モデルでは、約 50 万トークンから CPU オフローディングを開始することで 4〜6 倍の高速化が期待できる一方、小規模なモデルでは 250 万トークンを越える極端に長いコンテキスト長でのみオフローディングが必要となります。LMI を展開する組織は、インスタンスの RAM が許す場合は最適パフォーマンスのために CPU オフローディングを構成するか、より大きなキャッシュ容量を必要とするワークロードには O_DIRECT を有効にした NVMe を使用できます。SageMaker AI 上でセッションベースのスティッキールーティングを実装することでキャッシュ結果率を最大化し、同じセッションからのリクエストが常に関連するキャッシュコンテンツを持つインスタンスに一貫してルーティングされるようにします。
LMCache の使用方法
LMCache の構成には、GitHub ドキュメント で定義されている 2 つの主要な方法があります。1 つ目は手動構成アプローチであり、2 つ目は LMI の新バージョンで利用可能になった自動構成です。
手動設定
手動設定を行う場合、顧客は独自の LMCache 設定を作成し、プロパティ、ファイル、または環境変数で指定します:
option.lmcache_config_file=/path/to/your/lmcache_config.yaml# OROPTION_LMCACHE_CONFIG_FILE=/path/to/your/lmcache_config.yaml
このアプローチにより、顧客は LMCache の設定を制御でき、特定の要件に応じてキャッシュストレージバックエンド、チャンクサイズ、その他の高度なパラメータをカスタマイズできます。
自動設定
簡素化されたデプロイメントのため、顧客は同様に自動 LMCache 設定を有効にできます:
option.lmcache_auto_config=True# OROPTION_LMCACHE_AUTO_CONFIG=True
自動設定では、ホストマシンで利用可能な CPU/ディスクスペースに基づいて LMCache 設定が自動的に生成されます。このデプロイメントオプションは Tensor Parallelism(テンソル並列処理)のデプロイメントのみをサポートし、ディスクベースキャッシングのために/tmp が NVMe ストレージにマウントされていることを前提としており、maxWorkers=1 を必要とします。これらの設定は自動設定で仮定されており、これは 1 つのコンテナインスタンスあたり 1 つのモデルを提供するために設計されています。複数のモデルやモデルのコピーを提供する場合は、Amazon SageMaker AI inference components を使用してください。これにより、モデル間およびモデルコピー間のリソース分離が容易になります。
自動設定機能は、手動の YAML 設定ファイルが必要となる負担を軽減することで KV キャッシュのデプロイメントを簡素化し、顧客が LMCache の最適化を迅速に開始できるようにします。
デプロイメント推奨事項
包括的なベンチマーク結果とデプロイメントの実績に基づき、最適な LMI(Large Model Inference)デプロイメントのためのいくつかの推奨事項が導き出されます:
- インスタンスの RAM が許容する場合は CPU オフローディングを設定し、ほとんどのワークロードに対して最適パフォーマンスを提供する。
- 利用可能な RAM を超える大規模なキャッシュ容量を必要とするワークロードには、O_DIRECT(直接 I/O)を有効にした NVMe を使用する。
- SageMaker AI でセッションベースのスティッキールーティングを実装し、キャッシュ結果率の最大化と一貫したパフォーマンスの実現を支援する。
- オフローディング閾値を設定する際はモデルアーキテクチャを考慮すること。異なる KV ヘッド構成を持つモデルは、それぞれ最適な設定が異なるためである。
- 自動 LMCache 設定を使用してデプロイメントを簡素化し、運用上の複雑さを軽減する。
EAGLE 推論予測デコーディングによるパフォーマンス向上
最新の LMI リリースでは、EAGLE(Extrapolation Algorithm for Greater Language-model Efficiency:言語モデル効率化のための外挿アルゴリズム)の推論予測デコーディング技術へのサポートを通じて、パフォーマンスの改善を実現しています。この手法は、モデルの隠れ層から直接未来のトークンを予測することで、大規模言語モデルのデコーディングを高速化します。これにより、主要なモデルが並列で検証するドラフトトークンが生成され、出力品質を維持しながら全体の生成レイテンシを削減できます。
EAGLE 推論予測デコーディングの設定は非常に簡単で、デプロイメント設定においてドラフトモデルのパスと推論予測トークンの数値を指定するだけで済みます。これにより、組織は高同時実行性の本番環境向けデプロイや推論に特化したモデルに対して、LLM ホスティングワークロードにおけるより優れたパフォーマンスを実現できます。
モデルサポートの拡大とマルチモーダル機能
最新の LMI リリースは、DeepSeek v3.2、Mistral Large 3、Ministral 3、Qwen3-VL シリーズを含む最先端のオープンソースモデルに対する包括的なサポートを提供します。パフォーマンス最適化により、これらのアーキテクチャにおける大規模モデルサービングでのスループットと Time to First Token (TTFT) が向上しました。拡大されたマルチモーダル機能には、FlashAttention ViT サポートが含まれており、これは現在ビジョン・ランゲージモデルのデフォルトバックエンドとして機能しています。EAGLE 推測的デコーディングの改善により、多段 CUDA グラフサポートと Qwen3-VL を用いたマルチモーダルサポートが実現され、ビジョン・ランゲージワークロードにおける推論速度が向上しました。これらの強化により、組織は基盤モデル (FMs) をより迅速かつ効率的に展開およびスケールできるようになり、プロダクションまでの時間を短縮しながら運用複雑性を低減できます。
LoRA アダプターホスティングの改善
最新の LMI リリースでは、SageMaker AI 上での複数の LoRA アダプターのホスティングにおいて顕著な改善がもたらされました。LoRA アダプターは現在「遅延ロード」方式で動作します。つまり、推論コンポーネントを作成した際、アダプターのコンポーネントはほぼ即座に利用可能になりますが、アダプター重みの実際の読み込みと推論エンジンへの登録は、最初の呼び出し時に実行されます。このアプローチにより、マルチテナントシナリオにおける柔軟性を維持しつつ、デプロイ時間を短縮できます。
ベースモデルおよびアダプターに対して、カスタム入力・出力前処理スクリプトのサポートが追加されました。各推論コンポーネントは、異なるスクリプトをホストする LoRA アダプターを持つことが可能であり、これによりコア推論コードを変更せずにアダプター固有のフォーマットロジックを実現できます。これは、同じ基盤モデルに対して異なるアダプターが個別のフォーマットルールを適用するマルチテナント環境でのデプロイをサポートするものです。
カスタム出力フォーマッターは、モデルからの応答がクライアントに返される前に変換するための柔軟なメカニズムを提供します。これにより、組織は出力形式の標準化、カスタムメタデータの追加、またはアダプター固有のフォーマットロジックの実装が可能になります。これらのフォーマッターは、デフォルトでベースモデルの応答に適用させるためにベースモデルレベルで定義するか、LoRA アダプターに対してベースモデルの動作を上書きするためにアダプターレベルで定義できます。一般的なユースケースとしては、処理タイムスタンプやカスタムメタデータの追加、プレフィックスやフォーマットによる生成テキストの変換、カスタム指標の計算と注入、異なるクライアントアプリケーション向けのアダプター固有の出力スキーマの実装、および多様なモデルデプロイメント間での応答形式の標準化などが挙げられます。
今日から始めましょう
最新の LMI リリースは、大規模モデル推論機能における重要な前進を象徴しています。組織は以下の機能を活用して、より高いパフォーマンスと柔軟性を備えた最先端の大規模言語モデル(LLM)を展開できます:
- リリース全体にわたる包括的な LMCache サポート
- 推論の高速化のための EAGLE スペキュレーティブ・ディコーディング(speculative decoding)
- 最先端のマルチモーダル機能を備えたモデルサポートの拡大
- LoRA アダプター(adapter)ホスティング機能の強化
コンテナの設定可能なオプションにより、レイテンシ、スループット、コストのいずれを最適化するかといった特定のニーズに合わせてデプロイメントを微調整する柔軟性が提供されます。Amazon SageMaker AI の包括的なシステム機能を活用することで、インフラストラクチャの管理に時間を割くのではなく、ビジネス価値を高める AI 駆動型ソリューションの提供に集中できます。
AWS で生成 AI モデルを展開する際、これらの機能を今日から活用し、パフォーマンスの向上とデプロイメント体験の簡素化によって、本番環境でのワークロード加速にお役立てください。
著者について
image
## Dmitry Soldatkin
Dmitry Soldatkin氏は、AWS のシニア・マシンラーニング・ソリューションズアーキテクトであり、顧客が AI/ML ソリューションを設計・構築するのを支援しています。Dmitry氏の業務は多岐にわたる ML ユースケースをカバーしており、特に生成 AI、ディープラーニング、および企業全体での ML スケーリングに関心を持っています。保険、金融サービス、ユーティリティ、通信など、多くの業界の企業の支援を行ってきました。継続的なイノベーションとデータを活用したビジネス成果の創出に情熱を注いでいます。

Sadaf Fardeen
Sadaf Fardeen は、SageMaker における推論最適化のチャーターを統括しています。彼女は、SageMaker 上の大規模言語モデル(LLM)推論コンテナの最適化と開発を担当しています。

Lokeshwaran Ravi
Lokeshwaran Ravi は AWS のシニアディープラーニングコンパイラエンジニアであり、機械学習(ML)の最適化、モデルの高速化、AI セキュリティを専門としています。彼は、効率性の向上、コスト削減、そして AI 技術の民主化を実現する安全なエコシステムの構築に注力しており、最先端の ML をあらゆる業界で利用可能かつ影響力のあるものにする取り組みを行っています。

Suma Kasa
Suma Kasa は、SageMaker サービスチームに所属する ML アーキテクトで、SageMaker 上の大規模言語モデル(LLM)推論コンテナの最適化と開発に注力しています。著者紹介

ダン・ファーガソン
ダン・ファーガソンは、米国ニューヨークを拠点とする AWS のシニアソリューションアーキテクトです。機械学習サービス分野の専門家として、顧客が ML ワークフローを効率的かつ効果的に、さらに持続可能な形で統合できるよう支援しています。

シェン・モウサ
シェン・モウサは AWS のソフトウェア開発エンジニアです。彼女はサービングと最適化チームに所属し、大規模言語モデル推論のための効率的でスケーラブルなソリューション構築に注力しています。
原文を表示
Modern large language model (LLM) deployments face an escalating cost and performance challenge driven by token count growth. Token count, which is directly related to word count, image size, and other input factors, determines both computational requirements and costs. Longer contexts translate to higher expenses per inference request. This challenge has intensified as frontier models now support up to 10 million tokens to accommodate growing context demands from Retrieval Augmented Generation (RAG) systems and coding agents that require extensive code bases and documentation. However, industry research reveals that a significant portion of token count across inference workloads is repetitive, with the same documents and text spans appearing across numerous prompts. These data “hot spots” represent an opportunity. By caching frequently reused content, organizations can achieve cost reductions and performance improvements for their long-context inference workloads.
AWS recently released significant updates to the Large Model Inference (LMI) container, delivering comprehensive performance improvements, expanded model support, and streamlined deployment capabilities for customers hosting LLMs on AWS. These releases focus on reducing operational complexity while delivering measurable performance gains across popular model architectures.
LMCache support: transforming long-context performance
One of the most significant capabilities introduced across the newest releases of LMI is comprehensive LMCache support, which fundamentally transforms how organizations can handle long-context inference workloads. LMCache is an open source KV caching solution that extracts and stores KV caches that are generated by modern LLM engines, sharing these caches across engines and queries to help improve inference performance.
Unlike traditional prefix-only caching systems, LMCache reuses KV caches of reused text, not necessarily only prefixes, in a serving engine instance. The system operates at the chunk level, identifying commonly repeated text spans across documents or conversations and storing their precomputed KV cache. This approach enables multi-tiered storage spanning GPU memory, CPU memory, and disk/remote backends, with intelligent caching that maintains an internal index mapping token sequences to cached KV entries. The newest releases of LMI introduce automatic LMCache configuration, streamlining KV cache deployment and optimization. This low-code no-code (LCNC) interface helps customers seamlessly enable this advanced performance feature without complex manual configuration. By offloading KV cache from GPU memory to CPU RAM or NVMe storage, LMCache enables efficient handling of long-context scenarios while helping deliver latency improvements.
Comprehensive testing across various model sizes and context lengths reveals performance improvements that help transform the user experience. For workloads with repeated context, LMCache achieves faster Time to First Token (TTFT) when processing multi-million token contexts. Organizations deploying LMI can configure CPU offloading when instance RAM permits for optimal performance or use NVMe with O_DIRECT enabled for workloads requiring larger cache capacity. Implementing session-based sticky routing on Amazon SageMaker AI helps maximize cache result rates, making sure that requests from the same session consistently route to instances with relevant cached content.
LMCache performance benchmarks
Comprehensive testing across various model sizes and context lengths reveals performance improvements that improve the user experience for long-context inference workloads. The testing methodology adapted the LMCache Long Doc QA benchmark to work with the LMI container, consisting of three rounds: pre-warmup for cold-start initialization, a warmup round to populate LMCache storage, and a query round to measure performance when retrieving from cache. Benchmarks were conducted on p4de.24xlarge instances (8× A100 GPUs, 1.1TB RAM, NVMe SSD) using Qwen models with 46 documents of 10,000 tokens each (460,000 total tokens) and 4 concurrent requests.
For workloads with repeated context, LMCache achieves faster Time to First Token (TTFT) when processing multi-million token contexts. CPU offloading delivers performance improvements with 2.18x speedup in total request latency compared to baseline (52.978s → 24.274s) and 2.65x faster TTFT (1.161s → 0.438s). NVMe storage with O_DIRECT enabled approaches CPU performance (0.741s TTFT) while supporting TB-scale caching capacity, achieving 1.84x speedup in total request latency and 1.57x faster TTFT. These results demonstrate 62% TTFT reduction and 54% request latency reduction, closely aligning with published LMCache benchmarks. The variation in improvement percentages can likely be attributed to hardware and minor configuration differences. These latency reductions translate directly to cost savings, because the 54% reduction in request processing time allows the same infrastructure to handle more than twice the request volume, effectively halving per-request compute costs.
Performance characteristics vary significantly by model size due to differences in KV cache memory requirements per token. Larger models require substantially more memory per token (Qwen2.5-1.5B: 28 KB/token, Qwen2.5-7B: 56 KB/token, Qwen2.5-72B: 320 KB/token), meaning they exhaust GPU KV cache capacity at much shorter context lengths. Qwen 2.5-1.5B can store KV cache for up to 2.6M tokens in GPU memory, while Qwen 2.5-72B reaches its limit at 480K tokens. This means LMCache delivers value at shorter contexts for larger models. A 72 B model can benefit from CPU offloading starting around 500K tokens with 4-6x speedups, whereas smaller models only require offloading at extreme context lengths beyond 2.5M tokens. Organizations deploying LMI can configure CPU offloading when instance RAM permits for optimal performance or use NVMe with O_DIRECT enabled for workloads requiring larger cache capacity. Implementing session-based sticky routing on SageMaker AI helps maximize cache result rates, making sure that requests from the same session consistently route to instances with relevant cached content.
How to use LMCache
There are two main methods for configuring LMCache as defined in the GitHub documentation. The first is a manual configuration approach, and the second is an automated configuration made available in new versions of LMI.
**Manual configuration
**For manual configuration, customers create their own LMCache configuration and specify it in properties, files, or environment variables:
option.lmcache_config_file=/path/to/your/lmcache_config.yaml# OROPTION_LMCACHE_CONFIG_FILE=/path/to/your/lmcache_config.yaml
This approach gives customers control over LMCache settings, so that they can customize cache storage backends, chunk sizes, and other advanced parameters according to their specific requirements.
**Automatic configuration
**For streamlined deployments, customers can enable automatic LMCache configuration similarly:
option.lmcache_auto_config=True# OROPTION_LMCACHE_AUTO_CONFIG=True
Auto-configuration automatically generates an LMCache configuration based on available CPU/disk space on the host machine. This deployment option only supports Tensor Parallelism deployments, assumes /tmp is mounted on NVMe storage for disk-based caching, and requires maxWorkers=1. These settings are assumed with auto-configuration, which is designed for serving a single model per container instance. For serving multiple models or model copies, customers should use Amazon SageMaker AI inference components, which facilitates resource isolation between models and model copies.
The automatic configuration feature streamlines KV cache deployment by alleviating the need for manual YAML configuration files so that customers can quickly get started with LMCache optimization.
Deployment recommendations
Based on comprehensive benchmarking results and deployment experience, several recommendations emerge for optimal LMI deployment:
- Configure CPU offloading when instance RAM permits, helping deliver optimal performance for most workloads
- Use NVMe with O_DIRECT enabled for workloads requiring larger cache capacity beyond available RAM
- Implement session-based sticky routing on SageMaker AI to help maximize cache result rates and facilitate consistent performance
- Consider model architecture when configuring offloading thresholds, as models with different KV head configurations will have different optimal settings
- Use automatic LMCache configuration to streamline deployment and reduce operational complexity
Enhanced performance with EAGLE speculative decoding
The newest releases of LMI help deliver performance improvements through support for EAGLE speculative decoding techniques. Extrapolation Algorithm for Greater Language-model Efficiency (EAGLE), speeds up large language model decoding by predicting future tokens directly from the hidden layers of the model. This approach generates draft tokens that the primary model validates in parallel, helping reduce overall generation latency while maintaining output quality.
Configuring EAGLE speculative decoding is straightforward, requiring only specification of the draft model path and number of speculative tokens in your deployment configuration. This enables organizations to achieve better performance for LLM hosting workloads with benefits for high-concurrency production deployments and reasoning-focused models.
Expanded model support and multimodal capabilities
The newest releases of LMI help deliver comprehensive support for cutting-edge open source models, including DeepSeek v3.2, Mistral Large 3, Ministral 3, and the Qwen3-VL series. Performance optimizations help improve both throughput and Time to First Token (TTFT) for large-scale model serving across these architectures. Expanded multimodal capabilities include FlashAttention ViT support, now serving as the default backend for vision-language models. EAGLE speculative decoding improvements bring multi-step CUDA graph support and multimodal support with Qwen3-VL, enabling faster inference for vision-language workloads. With these enhancements, organizations can deploy and scale foundation models (FMs) faster and more efficiently, which helps to reduce time-to-production while lowering operational complexity.
LoRA adapter hosting improvements
The newest releases of LMI bring notable enhancements to hosting multiple LoRA adapters on SageMaker AI. LoRA adapters are now “lazy” loaded—when creating an inference component, the adapter’s component becomes available almost immediately, but actual loading of adapter weights and registering with the inference engine happens on the first invocation. This approach helps reduce deployment time while maintaining flexibility for multi-tenant scenarios.
Custom input and output preprocessing scripts are now supported for both base models and adapters, with each inference component hosting LoRA adapters able to have different scripts. This enables adapter-specific formatting logic without modifying core inference code, supporting multi-tenant deployments where different adapters apply distinct formatting rules to the same underlying model.
Custom output formatters provide a flexible mechanism for transforming model responses before they are returned to clients so that organizations can standardize output formats, add custom metadata, or implement adapter-specific formatting logic. These formatters can be defined at the base model level to apply to the responses by default, or at the adapter level to override base model behavior for LoRA adapters. Common use cases include adding processing timestamps and custom metadata, transforming generated text with prefixes or formatting, calculating and injecting custom metrics, implementing adapter-specific output schemas for different client applications, and standardizing response formats across heterogeneous model deployments.
Get started today
The newest releases of LMI represent significant steps forward in large model inference capabilities. Organizations can deploy cutting-edge LLMs with greater performance and flexibility with the following:
- comprehensive LMCache support across the releases
- EAGLE speculative decoding for accelerated inference
- expanded model support including cutting-edge multimodal capabilities
- enhanced LoRA adapter hosting
The container’s configurable options provide the flexibility to fine-tune deployments for specific needs, whether optimizing for latency, throughput, or cost. With the comprehensive system capabilities of Amazon SageMaker AI, you can focus on delivering AI-powered solutions that help drive business value rather than managing infrastructure.
Explore these capabilities today when deploying your generative AI models on AWS and leverage the performance improvements and streamlined deployment experience to help accelerate your production workloads.
About the authors

Dmitry Soldatkin
Dmitry Soldatkin is a Senior Machine Learning Solutions Architect at AWS, helping customers design and build AI/ML solutions. Dmitry’s work covers a wide range of ML use cases, with a primary interest in generative AI, deep learning, and scaling ML across the enterprise. He has helped companies in many industries, including insurance, financial services, utilities, and telecommunications. He has a passion for continuous innovation and using data to drive business outcomes.

Sadaf Fardeen
Sadaf Fardeen leads Inference Optimization charter for SageMaker. She owns optimization and development of LLM inference containers on SageMaker.

Lokeshwaran Ravi
Lokeshwaran Ravi is a Senior Deep Learning Compiler Engineer at AWS, specializing in ML optimization, model acceleration, and AI security. He focuses on enhancing efficiency, reducing costs, and building secure ecosystems to democratize AI technologies, making cutting-edge ML accessible and impactful across industries.

Suma Kasa
Suma Kasa is an ML Architect with the SageMaker Service team focusing on the optimization and development of LLM inference containers on SageMaker.Author bio

Dan Ferguson
Dan Ferguson is a Sr. Solutions Architect at AWS, based in New York, USA. As a machine learning services expert, Dan works to support customers on their journey to integrating ML workflows efficiently, effectively, and sustainably.

Sheng Mousa
Sheng Mouaa is a Software Development Engineer at AWS. She works on the serving and optimization team, focused on building efficient and scalable solutions for large language model inference
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み