Protecting against token theft｜トークン盗難からの保護 | AIニュース最前線

HTTP リクエストは安価です。Vercel では約 100 万回あたり 2 ドルを請求しており、1 回の呼び出しあたりのコストは数セントに過ぎません。しかし、最先端モデルのエージェントに対する単一のプロンプトでさえ 2 ドルの費用がかかるため、AI は従来の 100 万倍も高価になり、推論盗用（inference theft）は攻撃者が運営できる最も利益率の高いビジネスの一つとなっています。私たちは自社の API でも同様の攻撃事例を目撃しています。 インターネットに公開されている AI エンドポイントがある場合、悪用のリスクは高く、請求額が数万ドルやそれ以上に膨れ上がることも容易です。 これらのエンドポイントを保護するには、セッションやサインアップ時ではなく、すべての AI リクエストに対して検証を実行する必要があります。レート制限（rate limits）や認証壁（auth walls）だけでは不十分です。1 セッションごとに一度だけ実行されるチェックは、数千回にわたる盗まれた呼び出しによってコストが相殺されてしまうためです。 Vercel では、すべての AI リクエストを BotID による深層分析を通じてゲートしています。あなたも数行のコードで同様の対策を自社のエンドポイントに実装できます。 推論盗用とは何か 推論盗用（inference theft）とは、他人が支払った AI 推論リソースを、無償での利用や下流市場への再販売のために許可なく使用することです。オペレーターは AI の呼び出しごとに支払いを行いますが、攻撃者は推論に対して一切の費用を負担せず、トークンを割引価格で再販売します。これはレート制限の悪用を超え、盗まれたリソースを実際の市場で再販売する行為にまで及びます。 どの AI エンドポイントがリスクにさらされているか？ 呼び出し側が LLM（大規模言語モデル）のプロンプトに対して意味のある制御権を持つ、インターネットに公開されたすべてのエンドポイントが標的となります。エンドポイントの汎用性が高いほど、盗まれた 1 回の呼び出しあたりの収益は高くなります。 AI プレイグラウンド、例えば AI SDK Playground は、呼び出し元がプロンプト、モデル、そして多くの場合パラメータに対して最大限の制御権を持つため、最も危険な形態です。盗まれた呼び出しは、あらゆる標準的なクライアントにスムーズに流れ込みます。 システムプロンプトがサーバー側で固定されているサポートボットやドキュメントアシスタントは露出度が低くなりますが、攻撃者はシステムプロンプトを回避してモデルと対話する方法を学び、安価に実行することで転売の収益性を確保しています。 転売価値とは、盗まれた呼び出しをプロバイダー互換のクライアントに投入する容易さを指します。 なぜ Web 防御では推論窃盗が軽減されないのか IP レート制限と認証壁は、1 回あたりの経済性が劇的に低い攻撃に対して構築されたものであり、そのような場合、IP アドレスやアカウントを操作することのコストに見合わない状況でした。 しかし、盗まれた推論からの収益性は十分に高いため、攻撃者はゲートを突破するために必要な規模で数千もの住宅用プロキシ IP を調達し、使い捨てアカウントを登録します。これによりレート制限は IP アドレスの群れ全体に分散され、実在するアカウントが認証を通過してしまいます。 悪用のアーキテクチャ 洗練された攻撃者は、カスタム AI エンドポイントを OpenAI 互換または Anthropic 互換のアダプターでラップし、住宅用プロキシを通じて呼び出しを広範囲に展開します。 アダプターは中核コンポーネントです。これは、被害者の固有 API を OpenAI 互換または Anthropic 互換のエンドポイントとして提示する一度きりのエンジニアリングコストであり、盗まれた推論処理をあらゆる標準的なコーディングエージェントや SDK に直接投入可能にします。リスト価格のわずか 5〜10% で再販売し、推論処理における限界費用がゼロであれば、これは高利益率のビジネスとなり得ます。 最近の事例として、Chipotlai Max というフォークされたコーディングエージェントがあります。このエージェントにはプロキシが同梱されており、Chipotle のカスタマーサポートチャットボットを OpenAI 互換エンドポイントに変換しています。同プロジェクトは、Home Depot、Lowe's、Target、Starbucks に対しても同じ推論盗難アプローチを移植するための支援を公然と募っています。 アダプターは、攻撃者の下流ユーザーにとってセッション境界の役割も果たします。ユーザーは直接エンドポイントに認証するのではなく、アダプターに対して認証を行います。呼び出しがあなたの API に到達した時点では、すでにあなたが防御しようとしていた境界線を越えてしまっています。チェックを行うべきは、背後にあるセッションではなく、アダプターがプロキシ化する呼び出し自体に対して行われなければなりません。 自社エンドポイントに対する実際の攻撃の形状 2026 年 4 月 12 日、Vercel ドキュメント AI チャットエンドポイントへのトラフィックが急増し、Anthropic の Claude Haiku 4.5 モデルにおいて通常の約 10 倍に達しました。ピーク時には毎分 1,300 リクエストに上昇し、これは一日あたり 1 万ドルを超える推論コストのランニングレートに相当します。 攻撃は、実際のクライアント IP を隠蔽する住宅用プロキシを通じて行われました。2 日間にわたる数十万回のボットリクエストにわたり、標準的な IP ごとのレート制限では、対処すべき有用な手がかりがありませんでした。 推論盗難に対する防御方法 AI エンドポイントを推論盗難から守るには、すべてのリクエストを検証する必要があります。私たちは Vercel の BotID を使用し、AI リクエストが到着する前にルートハンドラー内で呼び出される深い分析を行います。 検証はすべての AI リクエストで実行されなければならない もしゲートがリクエストごとのチェックではなくセッション開始時に実行されていた場合、攻撃者は回避コストを一度支払うだけで済み、数十万回の盗まれた呼び出しを持って立ち去ることになったでしょう。セッションごとに実行されるあらゆるチェックは、その後のすべての推論呼び出しにわたって攻撃者の回避コストを分散させることになります。リクエストごとのゲートはこの比率を 1 にまで引き下げます。そして、推論の価格が高くても、すべての呼び出しでチェックを突破するコストに見合うメリットはありません。 ここが、防御側にとって有利に働くコスト非対称性のポイントです。攻撃者が盗むリソースの中で、推論は呼び出しあたりのコストが最も高いものですが、検証は呼び出しあたりの保護コストとして最も安いものの一つです。 BotID を用いた深い分析によるリクエスト検証の実装 従来の画像 CAPTCHA は、現代の攻撃者に対してもはや機能しません。なぜなら、推論を盗む価値があるほどに強力な AI モデルが、それらを容易に回避できるからです。 私たちは AI エンドポイントに Vercel BotID を展開し、すべてのリクエストをゲートしています。BotID は Kasada によって駆動される深層分析を備えた目に見えない CAPTCHA で、クライアントサイドの機械学習を活用して視覚的な課題なしに人間とボットを区別します。これにより、セッション開始時だけでなく、あらゆるリクエストで実行することが可能になります。 BotID の深層分析は、スパイク発生直後の数分間で 1 万件を超えるボットによるリクエストを検出・ブロックしました。24 時間以内に、エンドポイントへのリクエスト量は通常のレベルで安定しました。 サーバーサイドでは、checkBotId() がルートハンドラー内で実行され、現在処理中のリクエストに対する分類結果を返します。 このルートはクライアント側でも宣言されている必要があります。これを怠ると、BotID がリクエストに課題ヘッダーを追加しないため、checkBotId() は失敗してしまいます: 詳細なセットアップについては BotID ドキュメントの next.config.ts ラッパーをご覧ください。 推論を保護する、アクセスのみならず 推論はそれが担うリクエストよりも桁違いに高コストであるため、転売は依然として利益を生み続け、攻撃者は継続して手口を進化させ続けるでしょう。 AI エンドポイントを保護するために: - 公開されている AI エンドポイントの特定を監査する - 攻撃の可能性に基づいて優先順位をつける：呼び出し側のプロンプト制御が大きいほどターゲットになりやすい - すべてのエンドポイントをすべてのリクエストでゲートする 続きを読む

トークン盗難からの保護

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト