AI ゲートウェイの生産動向(8 分読了)
Vercel の AI Gateway が提供する 2026 年 5 月時点の生産環境データは、コストと利用量の観点から異なるモデル優位性を示し、エージェントワークロードの急増を裏付けている。
キーポイント
コストと利用量の乖離
2026 年 4 月のデータでは、Anthropic が支出(61%)で首位だが、Google がトークン量(38%)で首位となっており、用途によって最適なモデルが異なることが示された。
エージェントワークロードの急増
アジェンティックなワークロードが全トークンボリュームの 59% を占め、過去 6 ヶ月間で 2 倍に増加しており、AI アプリケーションの利用形態が変化している。
OSS モデルとマルチモデル戦略
オープンソースモデルの採用が進んでいるものの特定のラボへのロイヤルティは低く、高ボリュームワークロードでは平均 30 以上の異なるモデルがルーティングされている。
影響分析・編集コメントを表示
影響分析
この分析レポートは、ベンチマーク結果と実際の生産環境での利用状況に大きな乖離があることを示しており、企業は単なる性能比較ではなくコスト効率やワークロード特性に基づいてモデル選定を行う必要があることを示唆しています。特にエージェント機能の急成長は、AI 開発者がアプリケーション設計を「タスク実行」から「自律的な行動計画」へとシフトさせる必要性を浮き彫りにしています。
編集コメント
ベンチマークの勝者と実際の市場利用状況が一致しない事実は、開発者がモデル選定をより現実的なコストとユースケースに基づいて行うべきであることを強く示唆しています。特にエージェントワークロードの爆発的増加は、今後の AI インフラ設計における重要なトレンドです。
8 min read
May 12, 2026
どの AI モデルが最良かと問えば、回答はインクが乾く前に変わってしまいます。これは週に新しいモデルがリリースされる業界で起こることです。
すべてのベンチマークが異なるレースを測定しており、それぞれのレースが独自の勝者を決定しますが、Vercel は生産環境のワークロードを通じて業界に独特な視点を持っています。AI Gateway は、実際のアプリケーションやエージェントを通じて、数百ものモデルに対して総計数十兆トークンを処理しています。
私たちが観察していること:
- 単価が高いにもかかわらず支出額では Anthropic が首位、ボリューム(量)では Google が首位
- オープンソース(OSS)モデルの採用が進んでいるが、特定のラボへの忠誠心は存在しない
- 最近のモデル更新後、OpenAI の支出シェアが急速に拡大している
- 高ボリュームのワークロードは平均して 30 種類以上の異なるモデルにルーティングされている
- エージェント型ワークロードが全トークンボリュームの 59% を占める(6 ヶ月間で 2 倍増)
本レポートは、AI Gateway の 7 ヶ月にわたる生産環境トラフィックデータに基づいて構築されており、20 万人以上のユニークなチームからの利用が含まれています。
リンク付き見出し支出では Anthropic が首位、ボリュームでは Google が首位
コストとボリュームのランキングが一致しないのは、同じ顧客であっても測定しているワークロードが異なるためです。
2026 年 4 月の支出額では、Anthropic が 61%、Google が 21%、OpenAI が 12% を占めました。
トークンボリュームで見ると状況は逆転します。AI Gateway を通じた 4 月のトラフィックの 38% が Google にルーティングされ、26% が Anthropic、13% が OpenAI、10% が xAI でした。その他の小さなラボが残り全体を分け合っています。
一部のモデルは、1 トークンあたりのコストを十分に低く抑えることで大量の処理量を担うことを目指して位置づけられており、他のモデルは品質が極めて重要な業務にのみ適するよう高価格で設定されています。これらの異なるモデルは、同じ呼び出しを巡って競合しているわけではありません。集計すると、同じ顧客ベースが両方のリーダーボードに存在しており、プレミアムな推論処理は Claude Opus に、安価で高速な処理は Gemini Flash に集約されています。支出は高リスクの呼び出しに追随し、処理量は低リスクのものに追随しており、各研究所が同じアプリケーションの異なる層を担っています。
処理量と支出の関係は、研究所レベルでも急速に変化します。いくつかの具体的なシグナルを示します:
- Gemini Flash は、Google が支出シェアのより少ない割合で処理量の首位を獲得するのを支援しました
- Claude Opus は、Google よりも少ない処理量で Anthropic を支出シェアの首位に導きました
- OpenAI の支出シェアは、GPT-5.4/5.5 のリリース後、3 月から 4 月にかけて 3 倍になりました
- Google の支出シェアは、Gemini Flash の利用が拡大するにつれ、3 月の 8% から 4 月の 21% に上昇しました
リンク見出し:支出は誤りのコストに追随します
特定のワークロード内部でも、より微細な粒度で同じコストと処理量の分断が存在します:
- パーソナルアシスタントは、トークンボリュームの40%に対してコストの20%を占めています
- コーディングエージェントは、トークンの20%に対してコストがほぼバランスよく22%となっています
- 事務処理用エージェントは、トークンの15%に対してコストの6%で稼働しています
- アプリケーション生成は、トークンの11%に対してコストの7%で稼働しています
1 トークンあたりの支出額は、そのユースケースにおいて誤った回答がどれほど高価になるかという関数です。パーソナルアシスタントは、ミスが個々のユーザーに影響するだけであり、かつ迅速に修正可能であるため、安価で高速なモデル上で稼働させることができます。一方、バックオフィスワークフローでは、エラーが法的・財務的または運用上のリスクを招き、1回あたりの呼び出しコスト削減を上回る可能性があるため、より強力な推論能力に対して対価を支払います。1 トークンあたりの経済性はステークホルダーの地図のようなものであり、ミスのコストが高いアプリケーションほど、1 トークンあたりに多くの費用を投じます。
このパターンは、より広範な B2C(企業対消費者)と B2B(企業対企業)の分割においても同様です。B2C アプリケーションは多数の低コスト呼び出しを生成する一方、B2B アプリケーションは fewer でより高価な呼び出しを実行します。1 トークンあたりの基準で見ると、B2B のコストは B2C の約 2 倍となります。
リンク先見出し:ユースケース全体で単一のプロバイダーが勝利することはない
ユースケース別にデータを切り出すと、プロバイダーの状況は分断されていることがわかります:
- Anthropic は特にソフトウェア構築においてリードしています
- Google は消費者向けに過剰に集中しています
- OpenAI は最も均等に分布しています
- xAI とその他は、コーディング、消費者向け、ロングテールユースケースに分散しています
Anthropic のパターンは、高リスク層における集中です。ワークロードがバックオフィスから消費者向けへ移行するにつれ、Anthropic のトークンシェアは 71% から 7% に低下します。そのコストシェアはより緩やかな曲線を描き、4 つのカテゴリのうち 3 つでリードを維持しています。収益は、処理されるボリュームの規模に関わらず、答えが正確である必要がある場所に集中します。
Google は逆の形状をしています。その足跡は消費者向けに集中しており、Gemini Flash がトークンの 28% を占め、コストの 15% で運用されています。それ以外の分野ではコストチャート上にほとんど姿を現しません。このポジションは、Flash の採用状況に応じて上昇・下降する単一 SKU への賭けです。
xAI は価格による楔(くさび)です。Grok は、それぞれのコストシェアが大幅に小さいにもかかわらず、構築用トークンの 20% とアウトリーチ用トークンの 18% を担っています。xAI は価格対品質の適合性で勝利し、その価格に合致する者が楔を埋めることになります。
OpenAI は 4 つの中で最もバランスが取れており、構築コストの 6%、消費者向けコストの 18%、アウトリーチコストの 28% を占めています。どの単一の層も OpenAI の全体シェアにとって負荷を支えるものではないため、同社は 4 つの企業の中で特定の層における破壊に対する曝露が最も少ないと言えます。
Kimi、MiniMax、GLM といったオープンウェイトファミリーは、コストの天井が最も低いコンシューマー層とビルディング層の間を回転しています。これらのモデルのコストシェアは小さいままですが、コンシューマーおよびビルディング内でのトークンシェアは十分に大きく、コストのみを重視した市場分析ではそれらを過小評価することになります。
市場全体に単一の支配的なプロバイダーが存在しないのは、単一の支配的なユースケースが存在しないからです。問うべき正しい質問は「誰が AI で勝っているのか」ではなく、「私が関心を持つユースケースでどのモデルが勝っているのか」です。ブレンデッドチャート上で最も拮抗しているように見えるラボたちは、同じスタックの異なる層を巡って競い合っています。
リンク見出し:アプリはよりエージェント型へ進化中
このすべての下で、プロダクションにおける AI リクエストの形状が変化しています。2026 年 4 月には、AI Gateway のリクエストのうちツール呼び出し(tool call)で終了したものが 22.2% に達し、2025 年 10 月の 11.4% から増加しました。トークン数で測定すると、この変化はさらに顕著です。現在、すべてのトークンの 58.9% がツール呼び出しリクエストに含まれており、6 ヶ月前の 31.6% から大幅に上昇しています。
両方の指標において、エージェント型のシェアは半年間で約倍増しましたが、より示唆に富むのはこの二つのシェア間のギャップです。リクエストの 22.2% がトークンの 58.9% を占めているということは、ツールを使用するリクエストがそれ以外のリクエストよりも約 2.6 倍もトークン集約的であることを意味します。AI のコスト構造はチャット型からエージェント型へとシフトしましたが、表向きのリクエスト数はほとんど変化していません。
関数実行、API 呼び出し、データベースクエリ、コード実行のいずれであっても、すべてのラウンドトリップは同じメーターに対して請求されるため、エージェントが 10 のツール呼び出しを実行すると、チャットの場合の約 10 倍のトークン数が課金されます。チャットではプロンプトごとに 1 ラウンドトリップが課金されるのに対し、エージェントでは一連の処理(チェーン)として課金されます。
リーダーボードは 1 つのモデルをランク付けするが、本番環境チームはスケーリング時に 35 以上を使用
スケールした運用においては、マルチモデル戦略は選択肢ではなく、標準的なエージェントアーキテクチャとなります。
1,000 から 10,000 リクエストを処理するチームでは平均して 3 つの異なるモデルを使用しています。1,000 万リクエスト以上のバケットに至ると、平均使用モデル数は 35 に達します。100 万から 1,000 万のリクエストバケットにおける 18 モデルから、1,000 万以上のバケットにおける 35 モデルへの増加は、転換点(インフレーションポイント)を示しています。
35 モデルからなるファームはルーティンググラフとして動作し、意図検出には安価な分類器を、推論ステップには最先端モデルを、検索には埋め込みモデルを、要約には高速モデルを、スクリーンショット処理にはビジョンモデルを使用します。これらすべてのモデルは交換可能です。プロバイダが価格を引き上げたり品質を低下させたり、障害が発生したりした場合でも、数時間以内にトラフィックは残りのモデルに再分配されます。リーダーボードで支出の大部分を生み出すスケールにおいて、ラボ間での切り替えはベンダー移行というよりは設定変更に近いものであり、リクエスト量曲線の上昇に伴い、「ラボロックイン」という一般的な物語は逆転します。
リンク見出し
新しいモデルは急速に採用される
同じフリート設計により、新リリースがどのように迅速に取り込まれるかが説明されます。モデルファミリー内で新しいバージョンが出荷されると、トラフィックはその数週間以内に切り替わります。
Claude Sonnet 4.6 は、ローンチ後の最初の完全な月までに、Sonnet ファミリーのシェアの大部分を吸収しました。
Opus ファミリも現在同じ形状の推移を示しており、Claude Opus 4.7 が、ほぼ同一の曲線に沿って Opus 4.6 からシェアを奪っています。
先行モデルは両方の期間中も AI Gateway で稼働し続けたままルーティング可能でしたが、チームはそれでも移行を行いました。この移行は設定変更であり、ラボはもはや自社の製品ラインのアップグレードスケジュールを設定していません。
リンク見出し
プロバイダの障害には隠れたコストがある
AI Gateway におけるリクエストのおよそ 3.5% は、フォールバック後に完了しています。これは、初期のルーティングでエラー、レート制限、またはタイムアウトが発生したが、ゲートウェイが十分に速やかに健全な代替先にリクエストを再発行したため、ユーザーは依然として成功したレスポンスを受け取ったことを意味します。
トークン数で測定するとレスキュー率は 5.1%、ドル建てでは 4.9% です。トークン加重およびコスト加重のレートがリクエスト加重のレートよりも高くなるのは、レスキューされるリクエストの方が、されないものよりも平均して規模が大きく、コストがかかるためです。長いコンテキストウィンドウは短いものよりも頻繁にレート制限に抵触し、マルチステップエージェントの実行ではステップごとに失敗が蓄積され、重い推論呼び出しは持続的な負荷下でタイムアウトします。これらの各障害モードは、ワークロードの高コスト側を標的とするため、ドル建てのレートがリクエスト単位のレートよりも高くなります。
プロバイダーの SLA はリクエストレベルの稼働率を測定しますが、本番アプリケーションが経験するのはコスト加重の稼働率であり、モデルに支払われた呼び出しにおいてのみ、この 2 つは乖離します。
結論:実験室ではなくワークロードのために構築せよ
本番ワークロードは、最新のモデルリーダーボードに合わせるためではなく、効率性、信頼性、柔軟性のために設計されています。
同じデータの 6 つの切り口を通じても、その背後にある形状は変わりません。異なるラボが同じアプリケーションの異なる層で勝利を収めますが、それらの層を処理するアーキテクチャこそが、大規模な本番チームがすでに構築しているものです。
これは初期のクラウド時代の状況を彷彿とさせます。チームはまず計算リソースの拡大(より多くのインスタンス、リージョン、冗長化)を行い、その後単体あたりのコストを圧縮しました。支出曲線の上部に見える 35 モデルのファームも、同じパターンがより高速なペースで繰り返されているに過ぎず、その後の最適化はルーティング層で行われます。
今日、AI を提供している方々へ:
- 複数のプロバイダーにわたる複数のモデルを計画してください
- 稼働率とコストの最適化のためにフォールバックが必要であると想定してください
- ルーティングは最初からアーキテクチャの中核ユニットとして設計してください
パターンが変化するにつれて、このデータについては定期的に見直すことを期待しています。最新のモデルランキングは AI Gateway リーダーボード で確認できます。
見出しへのリンク
このデータについて
本分析は、2026 年 4 月までの Vercel AI Gateway からの匿名化された集計ルーティングデータを基にしています。
測定に関するいくつかの注意点:
- 支出額は、市場価格(公開リスト価格)を使用し、独自の API キーを持つチーム間での比較を可能にする正規化されたビューを提供します。
- ボリューム数は、AI Gateway を経由してルーティングされたトークンの数をカウントします。
- B2C、B2B、およびユースケース分類は集計値です。個々のチームやワークロードが特定されることはありません。
原文を表示
8 min read
May 12, 2026
Ask which AI model is best, and the answer changes before the ink dries. That's what happens in an industry where new models are released weekly.
Every benchmark measures a different race, and every race crowns its own winner, but Vercel has a unique view of the industry through production workloads. AI Gateway serves tens of trillions of tokens across hundreds of models through real applications and agents.
What we're seeing:
- Anthropic leads in spend despite a higher unit price, Google leads in volume
- OSS models are gaining traction, but there is no loyalty to specific labs
- OpenAI spend share is growing quickly after recent model updates
- High-volume workloads route across 30+ distinct models on average
- Agentic workloads carry 59% of all token volume (up 2x over 6 months)
This report is built on data from seven months of production traffic from AI Gateway, with usage from over 200K+ unique teams.
Link to headingAnthropic leads in spend; Google leads in volume
Cost and volume rankings disagree because they measure two different workloads, even for the same customer.
By spend in April 2026, Anthropic took 61%, Google 21%, and OpenAI 12%.
By token volume, the picture flipped. 38% of April traffic through AI Gateway routed to Google, 26% to Anthropic, 13% to OpenAI, and 10% to xAI. Smaller labs split the rest.
Some models are positioned to win by being cheap enough per token to carry huge volume, while others are priced high enough to make sense only for quality-critical work. The different models are not competing for the same call. In aggregate the same customer base sits on both leaderboards, with premium reasoning calls landing on Claude Opus and cheap fast calls landing on Gemini Flash. Spend follows the high-stakes calls, and volume follows the low-stakes ones, with the labs each holding a different layer of the same applications.
Volume-vs-spend also changes quickly at the lab level. A few specific signals:
- Gemini Flash helped Google take the lead on volume at a smaller share of spend
- Claude Opus helps Anthropic lead on spend with less volume than Google
- OpenAI's spend share tripled from March to April after the GPT-5.4/5.5 releases
- Google's spend share climbed from 8% in March to 21% in April as Gemini Flash usage scaled
Link to headingSpend follows the cost of being wrong
The same cost/volume divide exists at a finer grain inside specific kinds workloads:
- Personal assistants account for 20% of cost on 40% of token volume
- Coding agents sit roughly balanced at 22% of cost on 20% of tokens
- Back office agents run at 6% of cost on 15% of tokens
- App generation runs at 7% of cost on 11% of tokens
What a workload spends per token is a function of how expensive a wrong answer is to the use case. Personal assistants can run on cheap, fast models because mistakes only impact individual users and are quickly corrected. Back-office workflows pay for stronger reasoning because errors can trigger legal, financial, or operational risks that outweigh the per-call savings. The per-token economics are a stake map: applications spend more per token when mistakes cost more.
The same pattern holds in a broader B2C/B2B split. B2C applications generate many low-cost calls, while B2B applications run fewer, more expensive ones. On a per-token basis, B2B costs roughly two times as much as B2C.
Link to headingNo single provider wins across use cases
Cutting the data by use case shows a fragmented provider landscape:
- Anthropic notably leads in software building
- Google over-indexes in consumer
- OpenAI is the most evenly distributed
- xAI and others are split across coding, consumer, and long-tail use cases
Anthropic's pattern is concentration at the high-stakes layer. As the workload moves from back office to consumer, Anthropic's token share drops from 71% down to 7%. Its cost share follows a much shallower curve and keeps the lead through three of the four categories. The revenue concentrates wherever the answer has to be right, regardless of how much volume passes through.
Google is the inverse shape. Its footprint concentrates in consumer, where Gemini Flash carries 28% of tokens at 15% of cost, and barely appears on the cost chart outside it. The position is a single-SKU bet that rises and falls with Flash adoption.
xAI is a price wedge. Grok carries 20% of building tokens and 18% of outreach tokens at materially smaller cost shares in each. xAI wins on price-to-quality fit, and whoever matches the price closes the wedge.
OpenAI is the most balanced of the four at 6% of building cost, 18% of consumer cost, and 28% of outreach cost. No single layer is load-bearing for OpenAI's overall share, which makes the company the least exposed of the four to disruption in any one layer.
Open-weights families like Kimi, MiniMax, and GLM rotate through the consumer and building tiers where the cost ceiling is lowest. Their cost share stays small, and their token share inside consumer and building is large enough that any cost-only view of the market understates them.
There is no single dominant provider across the whole market because there is no single dominant use case. The right question is not "Who is winning AI?", it is "Which models are winning the use case I care about?" The labs that look closest to even on a blended chart are competing for different layers of the same stack.
Link to headingApps are becoming more agentic
The shape of production AI requests has changed underneath all of this. In April 2026, 22.2% of AI Gateway requests ended with a tool call, up from 11.4% in October 2025. Measured by tokens, the shift is bigger. 58.9% of all tokens are now in tool-call requests, up from 31.6% six months ago.
By both measures the agentic share roughly doubled in half a year, but the more telling number is the gap between the two shares. 22.2% of requests carry 58.9% of tokens, which means tool-using requests are about 2.6× more token-heavy than the rest. The cost surface of AI has shifted from chat-shaped to agent-shaped, while headline request counts barely budged.
Every kind of round trip bills against the same meter, whether it's a function execution, an API call, a database query, or a code run, so an agent shipping ten tool calls bills roughly ten times the tokens a chat would. Where a chat bills one round trip per prompt, an agent bills a chain.
Link to headingLeaderboards rank one model, but production teams use 35+ at scale
At scale, multi-model stops being a choice and becomes standard agent architecture.
Teams running 1K to 10K requests averaged 3 distinct models. By the 10M+ requests bucket, the average is 35 models in regular use. The jump from 18 models in the 1M to 10M bucket to 35 in the 10M+ bucket is the inflection point.
A 35-model fleet runs as a routing graph, with a cheap classifier for intent detection, a frontier model for the reasoning step, an embedding model for retrieval, a fast model for summarization, and a vision model for screenshots. Every one of those models is swappable. If a provider raises prices, degrades quality, or has an outage, traffic redistributes across the rest in hours. At the scale that produces most of the spend on the leaderboards, switching between labs is closer to a config change than to a vendor migration, and the standard story about lab lock-in inverts the higher you go on the request-volume curve.
Link to headingNew models are adopted rapidly
The same fleet design explains how fast new releases get absorbed. When a new version ships inside a model family, traffic moves to it within weeks.
Claude Sonnet 4.6 absorbed most of the Sonnet family's share by its first full month after launch.
The Opus family is moving through the same shape now, with Claude Opus 4.7 taking share from Opus 4.6 on a near-identical curve.
Predecessor models stayed live and routable on AI Gateway throughout both windows, but teams moved anyway. The migration is a config change, and the labs no longer set the upgrade timeline of their own product lines.
Link to headingProvider outages have a hidden cost
Roughly 3.5% of requests on AI Gateway complete after a fallback. That means the initial route hit an error, a rate limit, or a timeout, and the gateway reissued the request to a healthy alternative fast enough that the user still got a successful response.
Measured in tokens the rescue rate runs at 5.1%, and in dollars at 4.9%. The token-weighted and cost-weighted rates run higher than the request-weighted rate because the requests that get rescued are, on average, bigger and more expensive than the ones that don't. Long context windows hit rate limits more often than short ones, multi-step agent runs accumulate failure across steps, and heavy reasoning calls time out under sustained load. Each of those failure modes targets the expensive end of the workload, which is why the dollar rate sits higher than the request rate.
A provider's SLA measures request-level uptime, but a production application experiences cost-weighted uptime, and the two come apart on exactly the calls that paid for the model.
Link to headingConclusion: Build for workload, not the lab
Production workloads are designed for efficiency, reliability, and flexibility, not to match the latest model leaderboards.
Across six cuts of the same data, the shape underneath stays the same. Different labs win different layers of the same applications, and the architecture that handles those layers is the one production teams at scale have already built for.
This echoes the early cloud era. Teams expanded compute first (more instances, regions, redundancy) and squeezed per-unit cost later. The 35-model fleets visible at the top of the spend curve are the same patter at a faster cadence; the optimization that follows happens at the routing layer.
For anyone shipping AI today:
- Plan for multiple models across providers
- Assume the need for fallbacks to optimize for uptime and cost
- Design routing as a core unit of architecture from the beginning
We expect to revisit this data on a recurring cadence as the patterns shift. Live model rankings are available on the AI Gateway Leaderboards.
Link to headingAbout this data
This analysis is based on anonymized, aggregate routing data from the Vercel AI Gateway through April 2026.
A few notes on measurement:
- Spend uses market-rate pricing (published list price) to provide a normalized view across teams that bring their own API keys.
- Volume counts tokens routed through AI Gateway.
- B2C, B2B, and use-case classifications are aggregate. No individual team or workload is identified.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み