トークン盗難からの保護
Vercel は、AI エンドポイントにおける推論盗難(inference theft)の深刻なリスクを指摘し、従来のレート制限や認証では不十分であるとし、BotID を用いたリクエストごとの検証とアダプター対策の重要性を説いている。
キーポイント
推論盗難の経済的インセンティブ
AI エンドポイントの悪用は、1 回の呼び出しで数千ドルに達する請求額を生み出す高利回りのビジネスとなり、攻撃者が無料でトークンを獲得して再販売する構造になっている。
既存防御策の限界
IP レート制限やセッションベースの認証は、攻撃者が数千台のリジデントプロキシと使い捨てアカウントを動員することで容易に回避され、実効性が低い。
アダプターによるリソース転売
高度な攻撃者は、被害者の API を OpenAI や Anthropic 互換のアダプターでラップし、標準的なクライアントやコーディングエージェントにそのまま流用して再販売する。
Vercel の対策アプローチ
セッションごとのチェックではなく、すべての AI リクエストに対して BotID による深層分析を実行することで、推論盗難を防ぐアーキテクチャを提案している。
セッション境界の突破とリクエスト単位の検証
攻撃者はプロキシを介してセッション境界を越えるため、セッション開始時のチェックでは不十分であり、各推論呼び出しごとに検証を実行する必要がある。
防御側のコスト非対称性の活用
推論は攻撃者が盗む最も高価なリソースである一方、検証コストは極めて低いため、すべてのリクエストでチェックを行うことで防御側が有利に働く。
AI による CAPTCHA 回避への対策
従来の画像 CAPTCHA は AI モデルによって容易に突破されるため、クライアントサイドの機械学習を用いた不可視の深層分析(BotID)を各リクエストで適用する。
影響分析・編集コメントを表示
影響分析
この記事は、生成 AI の普及に伴い新たに顕在化した「推論盗難」という新たな脅威の経済的・技術的構造を明確に解明しており、セキュリティ担当者や開発者に対して従来の防御策の見直しを迫る重要な警鐘である。Vercel が提案するリクエストごとの検証アプローチは、AI エンドポイントの保護における新しい標準的なプラクティスを示唆しており、業界全体のセキュリティ設計に影響を与える可能性がある。
編集コメント
AI エンドポイントのセキュリティにおいて、従来の Web 防御策が通用しない新たな脅威が現実のものとなっています。開発者は、リクエストごとの厳格な検証と、API の互換性を利用した悪用リスクへの対策を早急に検討すべきです。
HTTP リクエストは安価です。Vercel では約 100 万回あたり 2 ドルを請求しており、1 回の呼び出しあたりのコストは数セントに過ぎません。しかし、最先端モデルのエージェントに対する単一のプロンプトでさえ 2 ドルの費用がかかるため、AI は従来の 100 万倍も高価になり、推論盗用(inference theft)は攻撃者が運営できる最も利益率の高いビジネスの一つとなっています。私たちは自社の API でも同様の攻撃事例を目撃しています。
インターネットに公開されている AI エンドポイントがある場合、悪用のリスクは高く、請求額が数万ドルやそれ以上に膨れ上がることも容易です。
これらのエンドポイントを保護するには、セッションやサインアップ時ではなく、すべての AI リクエストに対して検証を実行する必要があります。レート制限(rate limits)や認証壁(auth walls)だけでは不十分です。1 セッションごとに一度だけ実行されるチェックは、数千回にわたる盗まれた呼び出しによってコストが相殺されてしまうためです。
Vercel では、すべての AI リクエストを BotID による深層分析を通じてゲートしています。あなたも数行のコードで同様の対策を自社のエンドポイントに実装できます。
推論盗用とは何か
推論盗用(inference theft)とは、他人が支払った AI 推論リソースを、無償での利用や下流市場への再販売のために許可なく使用することです。オペレーターは AI の呼び出しごとに支払いを行いますが、攻撃者は推論に対して一切の費用を負担せず、トークンを割引価格で再販売します。これはレート制限の悪用を超え、盗まれたリソースを実際の市場で再販売する行為にまで及びます。
どの AI エンドポイントがリスクにさらされているか?
呼び出し側が LLM(大規模言語モデル)のプロンプトに対して意味のある制御権を持つ、インターネットに公開されたすべてのエンドポイントが標的となります。エンドポイントの汎用性が高いほど、盗まれた 1 回の呼び出しあたりの収益は高くなります。
AI プレイグラウンド、例えば AI SDK Playground は、呼び出し元がプロンプト、モデル、そして多くの場合パラメータに対して最大限の制御権を持つため、最も危険な形態です。盗まれた呼び出しは、あらゆる標準的なクライアントにスムーズに流れ込みます。
システムプロンプトがサーバー側で固定されているサポートボットやドキュメントアシスタントは露出度が低くなりますが、攻撃者はシステムプロンプトを回避してモデルと対話する方法を学び、安価に実行することで転売の収益性を確保しています。
転売価値とは、盗まれた呼び出しをプロバイダー互換のクライアントに投入する容易さを指します。
なぜ Web 防御では推論窃盗が軽減されないのか
IP レート制限と認証壁は、1 回あたりの経済性が劇的に低い攻撃に対して構築されたものであり、そのような場合、IP アドレスやアカウントを操作することのコストに見合わない状況でした。
しかし、盗まれた推論からの収益性は十分に高いため、攻撃者はゲートを突破するために必要な規模で数千もの住宅用プロキシ IP を調達し、使い捨てアカウントを登録します。これによりレート制限は IP アドレスの群れ全体に分散され、実在するアカウントが認証を通過してしまいます。
悪用のアーキテクチャ
洗練された攻撃者は、カスタム AI エンドポイントを OpenAI 互換または Anthropic 互換のアダプターでラップし、住宅用プロキシを通じて呼び出しを広範囲に展開します。
アダプターは中核コンポーネントです。これは、被害者の固有 API を OpenAI 互換または Anthropic 互換のエンドポイントとして提示する一度きりのエンジニアリングコストであり、盗まれた推論処理をあらゆる標準的なコーディングエージェントや SDK に直接投入可能にします。リスト価格のわずか 5〜10% で再販売し、推論処理における限界費用がゼロであれば、これは高利益率のビジネスとなり得ます。
最近の事例として、Chipotlai Max というフォークされたコーディングエージェントがあります。このエージェントにはプロキシが同梱されており、Chipotle のカスタマーサポートチャットボットを OpenAI 互換エンドポイントに変換しています。同プロジェクトは、Home Depot、Lowe's、Target、Starbucks に対しても同じ推論盗難アプローチを移植するための支援を公然と募っています。
アダプターは、攻撃者の下流ユーザーにとってセッション境界の役割も果たします。ユーザーは直接エンドポイントに認証するのではなく、アダプターに対して認証を行います。呼び出しがあなたの API に到達した時点では、すでにあなたが防御しようとしていた境界線を越えてしまっています。チェックを行うべきは、背後にあるセッションではなく、アダプターがプロキシ化する呼び出し自体に対して行われなければなりません。
自社エンドポイントに対する実際の攻撃の形状
2026 年 4 月 12 日、Vercel ドキュメント AI チャットエンドポイントへのトラフィックが急増し、Anthropic の Claude Haiku 4.5 モデルにおいて通常の約 10 倍に達しました。ピーク時には毎分 1,300 リクエストに上昇し、これは一日あたり 1 万ドルを超える推論コストのランニングレートに相当します。
攻撃は、実際のクライアント IP を隠蔽する住宅用プロキシを通じて行われました。2 日間にわたる数十万回のボットリクエストにわたり、標準的な IP ごとのレート制限では、対処すべき有用な手がかりがありませんでした。
推論盗難に対する防御方法
AI エンドポイントを推論盗難から守るには、すべてのリクエストを検証する必要があります。私たちは Vercel の BotID を使用し、AI リクエストが到着する前にルートハンドラー内で呼び出される深い分析を行います。
検証はすべての AI リクエストで実行されなければならない
もしゲートがリクエストごとのチェックではなくセッション開始時に実行されていた場合、攻撃者は回避コストを一度支払うだけで済み、数十万回の盗まれた呼び出しを持って立ち去ることになったでしょう。セッションごとに実行されるあらゆるチェックは、その後のすべての推論呼び出しにわたって攻撃者の回避コストを分散させることになります。リクエストごとのゲートはこの比率を 1 にまで引き下げます。そして、推論の価格が高くても、すべての呼び出しでチェックを突破するコストに見合うメリットはありません。
ここが、防御側にとって有利に働くコスト非対称性のポイントです。攻撃者が盗むリソースの中で、推論は呼び出しあたりのコストが最も高いものですが、検証は呼び出しあたりの保護コストとして最も安いものの一つです。
BotID を用いた深い分析によるリクエスト検証の実装
従来の画像 CAPTCHA は、現代の攻撃者に対してもはや機能しません。なぜなら、推論を盗む価値があるほどに強力な AI モデルが、それらを容易に回避できるからです。
私たちは AI エンドポイントに Vercel BotID を展開し、すべてのリクエストをゲートしています。BotID は Kasada によって駆動される深層分析を備えた目に見えない CAPTCHA で、クライアントサイドの機械学習を活用して視覚的な課題なしに人間とボットを区別します。これにより、セッション開始時だけでなく、あらゆるリクエストで実行することが可能になります。
BotID の深層分析は、スパイク発生直後の数分間で 1 万件を超えるボットによるリクエストを検出・ブロックしました。24 時間以内に、エンドポイントへのリクエスト量は通常のレベルで安定しました。
サーバーサイドでは、checkBotId() がルートハンドラー内で実行され、現在処理中のリクエストに対する分類結果を返します。
このルートはクライアント側でも宣言されている必要があります。これを怠ると、BotID がリクエストに課題ヘッダーを追加しないため、checkBotId() は失敗してしまいます:
詳細なセットアップについては BotID ドキュメントの next.config.ts ラッパーをご覧ください。
推論を保護する、アクセスのみならず
推論はそれが担うリクエストよりも桁違いに高コストであるため、転売は依然として利益を生み続け、攻撃者は継続して手口を進化させ続けるでしょう。
AI エンドポイントを保護するために:
- 公開されている AI エンドポイントの特定を監査する
- 攻撃の可能性に基づいて優先順位をつける:呼び出し側のプロンプト制御が大きいほどターゲットになりやすい
- すべてのエンドポイントをすべてのリクエストでゲートする
続きを読む
原文を表示
HTTP requests are inexpensive. Vercel charges ~$2/million, a fraction of a cent per call. But a single prompt to an agent on a frontier model can cost $2, making AI a million times more expensive, and inference theft one of the highest-margin businesses an attacker can run. We have seen this type of attack on our own APIs.
If you have AI endpoints exposed to the internet, the risk of abuse is high and can easily run up bills in the tens of thousands of dollars or more.
Protecting those endpoints requires verification to run on every AI request, not on the session or signup. Rate limits and auth walls aren't sufficient on their own because checks that run once per session get amortized away across thousands of stolen calls.
At Vercel, we gate every AI request through BotID deep analysis, and you can do the same on your own endpoints with a few lines of code.
What inference theft is
Inference theft is the unauthorized use of someone else's paid AI inference, either for free consumption or downstream resale. The operator pays per AI call; the attacker pays nothing for inference and then resells the tokens at a discount. This goes beyond rate-limit abuse to actual resale of a stolen resource in a market.
Which AI endpoints are at risk?
Any internet-facing endpoint that gives a caller meaningful control over an LLM prompt is a target. The more general the endpoint, the higher the payout per stolen call.
AI playgrounds, like the AI SDK Playground, are the most dangerous shape because the caller has maximum control over the prompt, the model, and often the parameters. Stolen calls land cleanly into any standard client.
Support bots and documentation assistants are less exposed when system prompts are fixed server-side, but attackers have learned how to talk the models around system prompts cheaply enough to make resale viable.
Resale value tracks how easily the stolen calls can be dropped into a provider-compatible client.
Why web defenses don't mitigate inference theft
IP rate limits and auth walls were built to defend against attacks with dramatically lower per-call economics, where gaming IPs and accounts weren't worth the cost.
The payoff from stolen inference is high enough that attackers will procure residential proxy IPs by the thousands and register throwaway accounts at whatever scale it takes to defeat your gate. Rate limits get diluted across the fleet of IP addresses, and real accounts pass authentication.
The architecture of abuse
Sophisticated attackers wrap your custom AI endpoint in an OpenAI- or Anthropic-compatible adapter and fan calls out through residential proxies.
The adapter is the key component. It is a one-time engineering cost that presents the victim's idiosyncratic API as OpenAI- or Anthropic-compatible, so stolen inference can drop into any standard coding agent or SDK. Reselling at even five to ten percent of the list price, with zero marginal inference cost, can make for a generous-margin business.
A recent example is Chipotlai Max, a forked coding agent that ships with a proxy turning Chipotle's customer-support chatbot into an OpenAI-compatible endpoint. The project openly solicits help in porting the same inference-theft approach to Home Depot, Lowe's, Target, and Starbucks.
The adapter also serves as the session boundary for the attacker's downstream users. They authenticate to the adapter, not to your endpoint. By the time a call hits your API, it has already crossed the boundary you were planning to defend. The check has to run on the call the adapter proxies, not on the session it sits behind.
The shape of a real attack on our own endpoint
On April 12, 2026, traffic to the Vercel docs AI chat endpoint spiked to roughly ten times normal volume on Anthropic's Claude Haiku 4.5 model. Traffic rose to 1,300 requests per minute at peak, which would have translated to an inference cost run rate of over ten thousand dollars per day.
The attack came in through residential proxies that obscured the real client IPs. Across hundreds of thousands of bot requests over two days, standard per-IP rate limits had nothing useful to act on.
How to defend against inference theft
Protecting AI endpoints against inference theft requires verification of every request. We use Vercel's BotID with deep analysis, called inside the route handler before the AI request lands.
Verification has to run on every AI request
If our gate had run at session start instead of per request, the attacker would have paid the bypass cost once and walked away with hundreds of thousands of stolen calls. Any check that runs per session amortizes the attacker's bypass cost across every subsequent inference call. Per-request gates force that ratio down to one, and even at high inference prices, defeating a check on every call isn't worth the cost.
This is where the cost asymmetry works in the defender's favor. Inference is the most expensive resource per call that the attacker steals, but verification is one of the cheapest protection costs per call.
Implementing request verification with BotID deep analysis
Traditional image CAPTCHAs no longer hold up against modern attackers because the same AI models that make inference worth stealing can easily bypass them.
We deploy Vercel BotID on our AI endpoints, gating every request. BotID is an invisible CAPTCHA with deep analysis powered by Kasada that uses client-side machine learning to distinguish humans from bots without a visible challenge, so it can run on every request rather than only at session start.
BotID deep analysis detected and blocked more than ten thousand bot requests in the first minutes of the spike. Within twenty-four hours, request volume on the endpoint was flat at normal levels.
Server-side, checkBotId() runs inside the route handler and returns a classification for the request currently being served.
The route also has to be declared on the client. Without this, checkBotId() fails because BotID doesn't attach the challenge headers to the request:
See the BotID docs for the next.config.ts wrapper and the full setup.
Protect inference, not just access
Inference will remain orders of magnitude more expensive than the requests it carries, so resale will remain profitable, and attackers will keep iterating.
To protect your AI endpoints:
Audit which of your AI endpoints are exposed
Prioritize by attack likelihood: more caller prompt control means an easier target
Gate every endpoint on every request
Read more
関連記事
ミニマックスが109BパラメータMoEモデル向けに開発したスパースアテンション手法「MSA」を発表
中国のAI企業ミニマックスは、長文コンテキストにおける計算コストを削減する新手法「MiniMax Sparse Attention(MSA)」を開発し、109BパラメータのMoEモデルで実証した。同社はさらに推論用カーネルをオープンソース化し、生産環境向けモデル「MiniMax-M3」もリリースした。
[AINews] GLM-5.2:世界最高峰のフロントエンドコーディングモデル、推測型デコーディングのための IndexShare を発表
Z.ai は週末に「GLM-5.2」をリリースし、この新モデルが世界最高のフロントエンドコーディング性能を持つと主張した。また、推測型デコーディング技術の向上を目指す「IndexShare」という仕組みも紹介された。
パッキングシーケンス、GQA、ALiBi、SwiGLU、因果アテンションを用いたメモリ効率的なTransformerの構築方法(xFormers活用)
MarkTechPost は、GPU上で高速かつメモリ効率の高いTransformerモデルを構築するための実践的ツールキット「xFormers」の使用法を紹介しています。記事では、標準的な実装との比較を通じて、因果マスクやパッキングシーケンス、グループ化クエリアテンション(GQA)、カスタムALiBi位置バイアスなどの技術を組み合わせ、訓練可能なGPTスタイルのモデルを実装する方法を解説します。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み