Nemotron 3 Ultra が AI Gateway で利用可能に
Nvidia の新推論モデル「Nemotron 3 Ultra」が Vercel AI Gateway で利用可能となり、エージェントワークフローの効率化とコスト削減が可能になった。
キーポイント
エージェント特化型モデルの登場
100 万トークンのコンテキストウィンドウを備え、計画立案やツール使用などの多段階エージェントワークフローに最適化されたオープンな MoE モデル。
高性能とコスト効率の実現
スループットは最大 350 トークン/秒で、エージェントタスクにおけるコストを最大 30% 削減できることが謳われている。
Vercel AI Gateway の統合と機能
AI SDK を介して簡単に利用可能となり、統一 API、使用量追跡、自動フェイルオーバー、ゼロデータ保持などの機能を提供。
影響分析・編集コメントを表示
影響分析
このニュースは、大規模なエージェントワークフローを必要とする開発者にとって、高性能かつ低コストで推論を実行する新たな選択肢を提供します。特に Vercel AI Gateway のようなインフラ層がプロバイダー価格をそのまま反映し手数料を課さない点は、運用コストの透明性を高め、大規模な AI アプリケーションの実装を加速させる要因となります。
編集コメント
エージェントアプリケーションの開発において、推論コストと性能のバランスを最適化できる重要なインフラ更新です。特に「手数料なし」の価格設定は、大規模展開時の予算管理に大きなメリットをもたらします。
Nemotron 3 Ultra from Nvidia is now available on Vercel AI Gateway.
Nemotron 3 Ultra is an open Mixture-of-Experts reasoning model built for orchestrating long-running agent workflows, with a 1M token context window. The model targets multi-turn agent workflows: planning, tool use, sub-agent delegation, and error recovery. Throughput reaches up to 350 tokens per second, with up to 30% lower cost on agentic tasks.
To use Nemotron 3 Ultra, set model to nvidia/nemotron-3-ultra-550b-a55b in the AI SDK.
AI Gateway provides a unified API for calling models, tracking usage and cost, and configuring retries, failover, and performance optimizations for higher-than-provider uptime. It includes built-in custom reporting, Zero Data Retention support, dynamic provider sorting by latency and cost, and more. AI Gateway reflects provider pricing with no markup and does not charge a platform fee on inference, including on Bring Your Own Key (BYOK) requests.
Learn more about AI Gateway, view the AI Gateway model leaderboard or try it in our model playground.
Read more
関連記事
[AINews] 今日は何も大きな出来事はありませんでした
Anthropic が RSI の兆候を示し、OpenAI の ChatGPT が月間アクティブユーザー数で 10 億人を突破。SpaceX AI は IPO について説明しているが、最も重要なのは AIE WF のチケット確保とイベント参加である。
NVIDIA Nemotron 3 Ultra が Amazon SageMaker JumpStart で利用可能に
AWS は、推論速度を5倍向上させ、コストを最大30%削減する「NVIDIA Nemotron 3 Ultra」モデルを、Amazon SageMaker JumpStart でワンクリックデプロイ可能にしたと発表した。
NVIDIA Nemotron 3 Ultra が長時間実行型エージェントの推論を高速化・効率化
NVIDIA は、長時間実行型エージェントが推論を行い、文脈を維持し、ツールを活用して効率的に動作するための新モデル「Nemotron 3 Ultra」を発表した。これにより、単発チャットボットから複雑なタスクをこなすエージェントへの進化が加速する。