NVIDIAの極端なハードウェア・ソフトウェア協調設計がSarvam AIの主権モデルに大規模な推論向上をもたらした方法
NVIDIAのハードウェアとソフトウェアの協調設計により、Sarvam AIの主権AIモデルの推論性能が大幅に向上した。
キーポイント
NVIDIAとSarvam AIの共同設計により、推論性能が4倍向上(Blackwellアーキテクチャ上)
ソブリンAIモデル開発におけるハードウェア・ソフトウェア協調設計の成功事例
多言語対応(22言語)とMoEアーキテクチャを活用した効率的な大規模モデル構築
NVIDIAのフルスタックAIプラットフォーム(NeMo、Megatron-LM、Nemotron)の実践的応用
影響分析・編集コメントを表示
影響分析
この事例は、新興国のAIスタートアップが先進的なハードウェア・ソフトウェア協調設計を通じて、データ主権を維持しながら大規模言語モデルの実用性能を大幅に向上させた画期的なケースです。特に多言語対応と効率的な推論の両立は、グローバルなAI普及における重要なモデルとなり、NVIDIAの次世代アーキテクチャへの移行パスも示しています。
編集コメント
データ主権と性能要件を両立させる実践的なソリューションとして、新興国AI開発の参考事例になる重要な成果です。
グローバルなAI導入が加速する中、開発者は現実世界のレイテンシとコスト要件を満たす大規模言語モデル(LLM)のパフォーマンスを提供するという、増大する課題に直面しています。特に会話型や音声ベースのAIエージェントにおいて、数百億のパラメータを持つモデルを本番環境で実行するには、高いスループット、低レイテンシ、予測可能なサービスレベルパフォーマンスが求められます。主権的AIモデルをゼロから構築するスタートアップにとって、これらの課題は、モデルの規模と精度をインフラ効率とバランスさせながら、データ主権とコスト管理も維持する必要性によって、さらに増幅されます。
インドのベンガルールに拠点を置く生成AIスタートアップ、Sarvam AIは、同国の多様な人口にサービスを提供し、約20言語をサポートし、モデル開発とデータガバナンスを完全にインドの主権的管理下に置く、大規模で多言語、マルチモーダルな基盤モデルの構築に着手しました。主力モデルであるSovereign 30Bモデルの厳格なレイテンシ目標を達成し、推論効率を向上させるため、Sarvam AIはNVIDIAと連携し、ハードウェアとソフトウェアの最適化を共同設計しました。
この協業により、NVIDIA Blackwell上での推論パフォーマンスは、ベースラインのNVIDIA H100 GPUと比較して4倍の高速化を達成し、次世代NVIDIA Blackwellアーキテクチャへの展開の道筋を確立しました。エンドツーエンドのパフォーマンス向上は、NVIDIA H100 SXM GPU上でのカーネルおよびスケジューリング最適化によって2倍の高速化が実現されたことに加え、Blackwellの強力なコンピュート能力とNVFP4重み量子化を組み合わせることで、さらに2倍の高速化が達成されました。より高いインタラクティブ性のポイントでは、さらに大きな2.8倍のパフォーマンス向上が見られました。
NVIDIAエンジニアは、Sarvam AIが3B、30B、100Bの基盤モデルを構築し、NVIDIA NeMoフレームワークやNVIDIA NeMo-RLを含むNVIDIA Nemotronライブラリを使用してトレーニングされた、新しい主権的基盤モデルファミリーを最適化するのを支援しました。これらのモデルは、22のインド言語、英語、数学、コードをサポートしています。これらは、開発者チームがデータからデプロイメントまでのNVIDIAのフルスタックAIプラットフォームを活用して、最先端のパフォーマンスとローカライズされたAI機能を実現できる方法を示しています。
この記事では、共同エンジニアリングの取り組みを詳しく説明し、インドで最大規模で導入されているNVIDIA GPUであるNVIDIA H100で達成された高速化のベンチマークを共有します。また、これらのワークロードがNVIDIA Blackwellアーキテクチャにどのように適応されつつあるかについての早期の展望も提供します。
MoEによる多言語主権AIのスケーラビリティ実現
主権的規模の知性を高効率で提供するため、Sarvam AIモデルは、深い推論と言語的密度に合わせて調整された、高度な異種混合エキスパート(MoE)アーキテクチャを採用しています。これらのモデルは、NVIDIA NeMoフレームワークとNVIDIA Megatron-LMを使用して、3B、30B、100Bの規模でゼロから事前学習されました。さらに、Nemo-RLは、長文脈推論を含むこれらのモデルの学習後ワークフローに使用されました。
Sarvam 30Bは、128のエキスパートとトップ6ルーティング戦略を備えた19層の深さ(1層密+18層MoE)を利用し、グループ化クエリ注意(GQA)に依存してメモリ帯域幅と生成品質のバランスを取っています。
Sarvam 100Bはこの設計を32層(1層密+31層MoE)にスケールアップし、128のエキスパート上でトップ8ルーティングを採用し、MoE FFN隠れ層サイズを2048と大きくしています。さらに、100Bモデルは、DeepSeek-V3と同様に、マルチヘッド潜在注意(MLA)を採用し、Key-Value(KV)キャッシュを積極的に圧縮することで、標準的な注意機構のメモリペナルティなしに大規模なコンテキストウィンドウを可能にしています。
両モデルは、専用のエキスパートが共通の特徴を処理し、ルーティングされたエキスパートが専門的なタスクに取り組む、共有エキスパート設計を特徴としています。高いアクティブパラメータ数(トップ6/トップ8ルーティング経由)と複雑なメモリアクセスパターンのこの組み合わせは、独特なサービング上の課題を生み出し、以下に詳述するNVIDIA HopperおよびNVIDIA Blackwell GPU上での深いカーネル最適化を必要としました。
パフォーマンスの課題:NVIDIA H100上のSLAとベースライン構成
Sarvam 30Bモデルの最適化は、単なる生の速度だけでなく、厳格なレイテンシ制約下での密度最大化に関するものでした。このモデルがサービスを提供するアプリケーション(音声対音声エージェント)のために、以下のサービスレベル契約(SLA)を確立しました:
初回トークンまでの時間(TTFT)のP95(95パーセンタイル): < 1000 ms
トークン間レイテンシ(ITL)のP95(95パーセンタイル): < 15 ms
推論パフォーマンステストにおけるP95(95パーセンタイル)はレイテンシを測定し、サービスされたリクエストの95%がこの閾値より速く完了し、最も遅い5%はそれ以上かかることを示します。これはユーザーエクスペリエンスとシステム安定性を評価するための重要なテールレイテンシ指標であり、負荷下でもほとんどのユーザーが特定の遅延以上に直面しないことを保証します。エンジニアリングの目標は、これらのP95目標を侵害することなく、推論サーバーのトークンスループット(同時にサービスされるリクエスト)を最大化することでした。
初期パフォーマンス分析のために、Sarvam AIとNVIDIAのチームは、初期性能分析にSGLang推論エンジンを選択しました。KVキャッシュを線形バッファとして扱う標準的なサービングフレームワークとは異なり、SGLangはRadixAttentionを実装しています。これはKVキャッシュを基数木として管理するメカニズムです。これはSarvam 30Bアーキテクチャにとって重要でした。RadixAttentionは自動プレフィックス共有を可能にし、共有エキスパートコンテキストとシステムプロンプトを一度計算して同時リクエスト間で再利用できるようにします。さらに、SGLangのCache-Aware Schedulerはこれらの共有プレフィックスのヒット率を最大化し、プリフィルフェーズでの冗長なメモリ操作を大幅に削減します。
Sarvam AIとNVIDIAのチームは、平均入力シーケンス長(ISL)3,584トークン、出力シーケンス長(OSL)128トークンという特徴を持つ本番トラフィックプロファイルをモデル化しました。内部シミュレーションデータに基づき、MoE層の異なるメモリとコンピュート要件のバランスを取るように設計された特定の並列化戦略で、2つのNVIDIA H100 SXM GPU上にモデルをデプロイしました:
エキスパート重みのためのエキスパート並列処理(EP=2)。この構成はGrouped GEMMカーネルを利用してコンピュート密度を最大化し、大規模なエキスパート重みがHBMに常駐することを保証し、エキスパートルーティングのコストを削減します。
–enable-dp-attentionを伴う注意重みのためのデータ並列処理(DP=2)。これにより、注意計算を並列バッチ間で並列化でき、プリフィルフェーズの総合スループットを大幅に向上させました。
この構成は堅牢な機能的なベースラインを提供しましたが、プロファイリングにより、高並行性でサブ秒のTTFTを満たすには、より深い最適化が必要であることが明らかになりました。これが、以下に詳述する特定のカーネルと精度戦略につながりました。
プロファイリングからパフォーマンスへ:MoEボトルネックの解消
シミュレーションデータは、32から64リクエストの並行性範囲がSLA要件を満たす最良の機会を提供することを示していました。この並行性範囲でトークンスループットを制限する正確なボトルネックを特定するため、NVIDIAとSarvam AIのチームは、32リクエストの並行性でプリフィルフェーズとデコードフェーズの両方の実行トレースをキャプチャするためにNVIDIA Nsight Systemsを利用しました。その後、トレースを処理して、単一のトランスフォーマー層内のすべてのカーネルのマイクロ秒レベルのレイテンシ寄与を抽出しました。
プロファイリングにより、重い汎用行列乗算(GEMM)操作(エキスパートと注意)は良好に実行されている一方で、非計算集約的な操作、具体的にはMoEルーティングロジックと位置埋め込み計算において、重大なレイテンシのバブルが存在することが明らかになりました。これらの操作は、カーネル起動オーバーヘッドと冗長なメモリ読み込みに悩まされていました。

原文を表示
As global AI adoption accelerates, developers face a growing challenge: delivering large language model (LLM) performance that meets real-world latency and cost requirements. Running models with tens of billions of parameters in production, especially for conversational or voice-based AI agents, demands high throughput, low latency, and predictable service-level performance. For startups building sovereign AI models from scratch, these challenges are amplified by the need to balance model scale and accuracy with infrastructure efficiency—while also maintaining data sovereignty and cost control.
Sarvam AI, a generative AI startup based in Bengaluru, India, set out to build large, multilingual, multimodal foundation models that serve its country’s diverse population, support nearly two-dozen languages, and keep model development and data governance fully under India’s sovereign control. To meet strict latency targets and improve inference efficiency for its flagship Sovereign 30B model, Sarvam AI collaborated with NVIDIA to co-design hardware and software optimizations.
This collaboration delivered a 4x speedup in inference performance on NVIDIA Blackwell over baseline NVIDIA H100 GPUs, and established a path for deployment on the next-generation NVIDIA Blackwell architecture. The end-to-end performance boost was achieved through kernel and scheduling optimizations on NVIDIA H100 SXM GPUs that contributed a 2x speedup. That was combined with the powerful compute capabilities of Blackwell, along with NVFP4 weight quantization, for an additional 2x speedup, with an even bigger performance gain of 2.8x seen at higher interactivity points.
NVIDIA engineers helped Sarvam AI build 3B, 30B, and 100B foundational models, and optimize a new family of sovereign foundation models that were trained using NVIDIA Nemotron libraries, including the NVIDIA NeMo Framework and NVIDIA NeMo-RL. These models support 22 Indian languages, English, math, and code. They demonstrate how developer teams can leverage NVIDIA’s full-stack AI platform—from data to deployment—to achieve state-of-the-art performance and localized AI capabilities.
This post walks through the joint engineering effort and shares benchmarks for the speed-ups achieved on the NVIDIA H100, the largest-deployed NVIDIA GPU in India. We also provide an early look at how these workloads are being adapted for the NVIDIA Blackwell architecture.
Making multilingual sovereign AI scalable with MoE
To deliver sovereign-scale intelligence with high efficiency, the Sarvam AI models employ a sophisticated heterogeneous mixture-of-experts (MoE) architecture tailored for deep reasoning and linguistic density. These models were pretrained from scratch across 3B, 30B, 100B using the NVIDIA NeMo framework and NVIDIA Megatron-LM. Furthermore, Nemo-RL was used for post-training workflows for these models including long-context reasoning.
Sarvam 30B utilizes a 19-layer depth (1 dense + 18 MoE) with 128 experts and a top-6 routing strategy, relying on grouped query attention (GQA) to balance memory bandwidth with generation quality.
Sarvam 100B scales this design to 32 layers (1 dense + 31 MoE) and employs top-8 routing over 128 experts with a larger MoE FFN hidden size of 2048. Additionally, the 100B model adopts multi-head latent attention (MLA)—similar to DeepSeek-V3—to aggressively compress the Key-Value (KV) cache, enabling massive context windows without the memory penalties of standard attention.
Both models feature a shared expert design where a dedicated expert handles common features while routed experts tackle specialized tasks. This combination of high active parameter counts (via top-6/top-8 routing) and complex memory access patterns created a unique serving challenge, necessitating the deep kernel optimizations on NVIDIA Hopper and NVIDIA Blackwell GPUs detailed below.
The performance challenge: SLAs and baseline configuration on NVIDIA H100
Optimizing the Sarvam 30B model wasn’t just about raw speed; it was about maximizing density under strict latency constraints. For the applications served by this model—voice-to-voice agents—we established the following service level agreements (SLAs):
P95 (95th percentile) time to first token (TTFT): < 1000 ms
P95 (95th percentile) inter-token latency (ITL): < 15 ms
P95 (95th percentile) in inference performance testing measures latency, indicating that 95% of served requests are completed faster than this threshold, while the slowest 5% take longer. It is a critical tail-latency metric used to evaluate user experience and system stability, ensuring that even under load, most users face no more than a specific delay. The engineering goal was to maximize the inference server’s token throughput (concurrently served requests) without breaching these P95 targets.
For the initial performance analysis, the Sarvam AI and NVIDIA teams selected the SGLang inference engine for their initial performance analysis. Unlike standard serving frameworks that treat the KV cache as a linear buffer, SGLang implements RadixAttention—a mechanism that manages the KV cache as a radix tree. This was critical for the Sarvam 30B architecture; RadixAttention enables automatic prefix sharing, allowing the shared expert context and system prompts to be computed once and reused across concurrent requests. Furthermore, SGLang’s Cache-Aware Scheduler maximizes the hit rate of these shared prefixes, significantly reducing redundant memory operations during the prefill phase.
The Sarvam AI and NVIDIA teams modeled a production traffic profile characterized by an average input sequence length (ISL) of 3,584 tokens and an output sequence length (OSL) of 128 tokens. Guided by internal simulation data, we deployed the model on two NVIDIA H100 SXM GPUs with a specific parallelism strategy designed to balance the distinct memory and compute requirements of the MoE layers:
Expert parallelism (EP=2) for the expert weights. This configuration utilizes Grouped GEMM kernels to maximize compute density and ensures that the massive expert weights reside in HBM, reducing the cost of expert routing.
Data parallelism (DP=2) for the attention weights with –enable-dp-attention. This enabled us to parallelize attention computation across parallel batches, significantly boosting the aggregate throughput of the prefill phase.
While this configuration provided a robust functional baseline, profiling revealed that satisfying the sub-second TTFT at high concurrency required deeper optimization – leading us to the specific kernel and precision strategies detailed below.
From profiling to performance: eliminating MoE bottlenecks
Simulation data indicated that a concurrency range of 32 to 64 requests would offer the best chance of meeting SLA requirements. To identify the precise bottlenecks limiting token throughput in this concurrency range, the NVIDIA and Sarvam AI teams utilized NVIDIA Nsight Systems to capture execution traces of both the prefill and decode phases at a concurrency of 32 requests. We then processed the traces to extract the microsecond-level latency contribution of every kernel within a single transformer layer.
The profiling revealed that while the heavy General Matrix Multiplication (GEMM) operations (experts and attention) were performing well, significant latency bubbles existed in the non-compute-intensive operations—specifically in the MoE routing logic and positional embedding calculations. These operations were suffering from kernel launch overheads and redundant memory reads.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み