蒸留攻撃の検出と防止
蒸留攻撃とは、機械学習モデルから知識を抽出する攻撃手法です。この記事では、その検出方法と防止策について解説しています。
キーポイント
DeepSeek、Moonshot、MiniMaxの3社が、約24000の不正アカウントを用いてClaudeから1600万回以上の対話を生成し、能力の不正な蒸留(distillation)を行ったとAnthropicが報告
蒸留は一般的な手法だが、他社モデルからの不正な蒸留はセーフガードを欠いたモデルを拡散させ、国家安全保障上のリスク(生物兵器開発支援、サイバー攻撃等)を生む
不正蒸留攻撃は輸出規制の意図を損ない、規制の有効性に対する誤った認識を生む一方、大規模な実行には高度なチップへのアクセスが必要であるため、輸出規制の正当性を強化する側面もある
影響分析・編集コメントを表示
影響分析
AIモデルの能力を不正に抽出する「蒸留攻撃」が産業規模で発生していることが明らかになり、AI安全保障と産業競争の新たな戦線が浮き彫りになった。これは、技術的保護策のみならず、政策(輸出規制)と業界の協調を必要とする、地政学的な要素を含む複合的な課題を提起している。
編集コメント
「研究」と「不正取得」の境界線が問われる事案。AI競争が激化する中、モデル保護とオープン性のバランスについて、業界全体で早急な議論が必要だ。
検知と防止:蒸留攻撃
私たちは、DeepSeek、Moonshot、MiniMaxという3つのAI研究所による産業規模のキャンペーンを特定しました。これらは、自社モデルの性能向上のためにClaudeの能力を不正に抽出しようとするものです。これらの研究所は、約24,000の不正なアカウントを通じてClaudeと1,600万回以上の対話を生成し、当社の利用規約および地域アクセス制限に違反しました。
これらの研究所は「蒸留」と呼ばれる技術を使用しました。これは、より強力なモデルの出力を用いて、能力の低いモデルを訓練する手法です。蒸留は広く使用されている正当な訓練方法です。例えば、最先端のAI研究所は、顧客向けに小型で低コストのバージョンを作成するために、自社モデルの蒸留を日常的に行っています。しかし、蒸留は不正な目的にも使用され得ます。競合他社はこれを用いて、他研究所の強力な能力を、独自に開発する場合に比べてほんのわずかな時間とコストで獲得することができます。
これらのキャンペーンは、その規模と巧妙さを増しています。対応できる時間は限られており、脅威は単一の企業や地域を超えています。この問題に対処するには、業界関係者、政策立案者、そして世界のAIコミュニティによる迅速で協調した行動が必要です。
蒸留が重要な理由
不正に蒸留されたモデルには必要な安全対策が欠如しており、重大な国家安全保障上のリスクを生み出します。Anthropicや他の米国企業は、国家および非国家主体がAIを生物兵器の開発や悪意のあるサイバー活動の実行などに利用するのを防ぐシステムを構築しています。不正な蒸留によって構築されたモデルは、それらの安全対策を保持しない可能性が高く、危険な能力が多くの保護策を完全に取り除かれた状態で拡散することを意味します。
米国のモデルを蒸留する外国の研究所は、その後、これらの保護されていない能力を軍事、諜報、監視システムに組み込むことができます。これにより、権威主義的政府が最先端AIを攻撃的サイバー作戦、偽情報キャンペーン、大規模監視に配備することが可能になります。蒸留されたモデルがオープンソース化されれば、これらの能力が単一政府の統制を超えて自由に拡散するため、このリスクは何倍にもなります。
蒸留攻撃と輸出管理
Anthropicは、米国がAIでリードを維持するのを支援するため、一貫して輸出管理を支持してきました。蒸留攻撃は、中国共産党の支配下にあるものを含む外国の研究所が、輸出管理が他の手段を通じて維持するよう設計された競争優位を縮めることを可能にすることで、それらの管理を損ないます。
これらの攻撃の実態が見えなければ、これらの研究所による見かけ上急速な進歩は、輸出管理が無効であり、革新によって回避可能であるという誤った証拠として受け取られてしまいます。現実には、これらの進歩は米国モデルから抽出された能力に大きく依存しており、この抽出を大規模に実行するには高度なチップへのアクセスが必要です。したがって、蒸留攻撃は輸出管理の論拠を強化します。チップアクセスの制限は、直接的なモデル訓練と不正な蒸留の規模の両方を制限するからです。
以下に詳述する3つの蒸留キャンペーンは、類似した手口を用い、不正なアカウントとプロキシサービスを使用して検知を回避しながら大規模にClaudeにアクセスしました。プロンプトの量、構造、焦点は通常の使用パターンとは異なり、正当な使用ではなく意図的な能力抽出を反映していました。
私たちは、IPアドレスの相関関係、リクエストメタデータ、インフラ指標、そして場合によっては自社プラットフォームで同じ行為者と行動を観察した業界パートナーからの裏付けを通じて、各キャンペーンを特定の研究所に高い確信度で帰属させました。各キャンペーンは、Claudeの最も差別化された能力、すなわちエージェント的推論、ツール使用、コーディングを標的としていました。
規模:15万回以上の対話
この作戦が標的としたもの:
多様なタスクにわたる推論能力
Claudeを強化学習のための報酬モデルとして機能させる、ルーブリックに基づく採点タスク
政策的にセンシティブなクエリに対する検閲回避可能な代替案の作成
DeepSeekはアカウント間で同期したトラフィックを生成しました。同一のパターン、共有された支払い方法、調整されたタイミングは、スループット向上、信頼性向上、検知回避のための「負荷分散」を示唆していました。
注目すべき一つの技術として、彼らのプロンプトはClaudeに、完了した応答の背後にある内部推論を想像して明確に説明し、ステップバイステップで書き出すよう求めていました。これは事実上、大規模な連鎖的思考(chain-of-thought)訓練データを生成するものです。また、Claudeが、反体制派、党指導者、権威主義など政治的にセンシティブなクエリに対する検閲回避可能な代替案を生成するタスクも観察されました。これはおそらく、DeepSeek自社のモデルが検閲対象の話題から会話をそらすように訓練するためです。リクエストメタデータを調査することで、これらのアカウントを同研究所の特定の研究者にまで追跡することができました。
規模:340万回以上の対話
この作戦が標的としたもの:
エージェント的推論とツール使用
コーディングとデータ分析
コンピューター使用エージェントの開発
コンピュータービジョン
Moonshot(Kimiモデル)は、複数のアクセス経路にまたがる数百の不正アカウントを利用しました。多様なアカウントタイプにより、このキャンペーンは協調した作戦として検知されにくくなりました。私たちは、Moonshotの上級スタッフの公開プロフィールと一致するリクエストメタデータを通じて、このキャンペーンを帰属させました。後の段階では、Moonshotはより標的を絞ったアプローチを使用し、Claudeの推論トレースの抽出と再構築を試みました。
規模:1,300万回以上の対話
この作戦が標的としたもの:
ツール使用とオーケストレーション
私たちは、リクエストメタデータとインフラ指標を通じてこのキャンペーンをMiniMaxに帰属させ、彼らの公開製品ロードマップに対してタイミングを確認しました。私たちはこのキャンペーンを、MiniMaxが訓練中のモデルをリリースする前、つまりまだ活動中に検知しました。これにより、データ生成からモデル公開に至る蒸留攻撃のライフサイクルを前例のない形で可視化することができました。MiniMaxのキャンペーンが活動中に私たちが新モデルをリリースしたとき、彼らは24時間以内に方向転換し、トラフィックのほぼ半分を私たちの最新システムから能力を獲得するために振り向けました。
蒸留実施者が最先端モデルにアクセスする方法
国家安全保障上の理由から、Anthropicは現在、中国国内、または国外に所在するその企業の子会社に対して、Claudeの商業的アクセスを提供していません。
これを回避するため、研究所は商業用プロキシサービスを利用します。これらのサービスは、Claudeや他の最先端AIモデルへのアクセスを大規模に再販売しています。これらのサービスは、私たちが「ハイドラ・クラスター」アーキテクチャと呼ぶものを運営しています。これは、私たちのAPIおよびサードパーティのクラウドプラットフォーム全体にトラフィックを分散させる、不正アカウントの広大なネットワークです。これらのネットワークの広がりは、単一障害点が存在しないことを意味します。1つのアカウントが禁止されると、新しいアカウントがその場所を取ります。ある事例では、単一のプロキシネットワークが同時に2万以上の不正アカウントを管理し、蒸留トラフィックと無関係な顧客リクエストを混ぜることで検知を困難にしていました。
アクセスが確保されると、研究所はモデルから特定の能力を抽出するように設計された、注意深く作成された大量のプロンプトを生成します。目的は、直接的なモデル訓練のための高品質な応答を収集するか、強化学習を実行するために必要な数万のユニークなタスクを生成することです。蒸留攻撃を通常の使用と区別するのはそのパターンです。以下のようなプロンプト(私たちが繰り返し大規模に使用されているのを目にした類似のプロンプトに近いもの)は、単体では無害に見えるかもしれません:
あなたは、統計的厳密さと深い領域知識を組み合わせた専門のデータアナリストです。あなたの目標は、要約や視覚化ではなく、実データに基づき、完全で透明性のある推論によって裏付けられた、データ駆動型の洞察を提供することです。
しかし、そのプロンプトのバリエーションが、数百の協調したアカウントを通じて数万回も到着し、すべてが同じ狭い能力を標的としているとき、そのパターンは明らかになります。少数の領域に集中する膨大な量、高度に反復的な構造、そしてモデルの最も価値のある能力に直接対応する内容。
原文を表示
Detecting and preventing distillation attacks
We have identified industrial-scale campaigns by three AI laboratories—DeepSeek, Moonshot, and MiniMax—to illicitly extract Claude’s capabilities to improve their own models. These labs generated over 16 million exchanges with Claude through approximately 24,000 fraudulent accounts, in violation of our terms of service and regional access restrictions.
These labs used a technique called “distillation,” which involves training a less capable model on the outputs of a stronger one. Distillation is a widely used and legitimate training method. For example, frontier AI labs routinely distill their own models to create smaller, cheaper versions for their customers. But distillation can also be used for illicit purposes: competitors can use it to acquire powerful capabilities from other labs in a fraction of the time, and at a fraction of the cost, that it would take to develop them independently.
These campaigns are growing in intensity and sophistication. The window to act is narrow, and the threat extends beyond any single company or region. Addressing it will require rapid, coordinated action among industry players, policymakers, and the global AI community.
Why distillation matters
Illicitly distilled models lack necessary safeguards, creating significant national security risks. Anthropic and other US companies build systems that prevent state and non-state actors from using AI to, for example, develop bioweapons or carry out malicious cyber activities. Models built through illicit distillation are unlikely to retain those safeguards, meaning that dangerous capabilities can proliferate with many protections stripped out entirely.
Foreign labs that distill American models can then feed these unprotected capabilities into military, intelligence, and surveillance systems—enabling authoritarian governments to deploy frontier AI for offensive cyber operations, disinformation campaigns, and mass surveillance. If distilled models are open-sourced, this risk multiplies as these capabilities spread freely beyond any single government's control.
Distillation attacks and export controls
Anthropic has consistently supported export controls to help maintain America’s lead in AI. Distillation attacks undermine those controls by allowing foreign labs, including those subject to the control of the Chinese Communist Party, to close the competitive advantage that export controls are designed to preserve through other means.
Without visibility into these attacks, the apparently rapid advancements made by these labs are incorrectly taken as evidence that export controls are ineffective and able to be circumvented by innovation. In reality, these advancements depend in significant part on capabilities extracted from American models, and executing this extraction at scale requires access to advanced chips. Distillation attacks therefore reinforce the rationale for export controls: restricted chip access limits both direct model training and the scale of illicit distillation.
The three distillation campaigns detailed below followed a similar playbook, using fraudulent accounts and proxy services to access Claude at scale while evading detection. The volume, structure, and focus of the prompts were distinct from normal usage patterns, reflecting deliberate capability extraction rather than legitimate use.
We attributed each campaign to a specific lab with high confidence through IP address correlation, request metadata, infrastructure indicators, and in some cases corroboration from industry partners who observed the same actors and behaviors on their platforms. Each campaign targeted Claude's most differentiated capabilities: agentic reasoning, tool use, and coding.
Scale: Over 150,000 exchanges
The operation targeted:
Reasoning capabilities across diverse tasks
Rubric-based grading tasks that made Claude function as a reward model for reinforcement learning
Creating censorship-safe alternatives to policy sensitive queries
DeepSeek generated synchronized traffic across accounts. Identical patterns, shared payment methods, and coordinated timing suggested “load balancing” to increase throughput, improve reliability, and avoid detection.
In one notable technique, their prompts asked Claude to imagine and articulate the internal reasoning behind a completed response and write it out step by step—effectively generating chain-of-thought training data at scale. We also observed tasks in which Claude was used to generate censorship-safe alternatives to politically sensitive queries like questions about dissidents, party leaders, or authoritarianism, likely in order to train DeepSeek’s own models to steer conversations away from censored topics. By examining request metadata, we were able to trace these accounts to specific researchers at the lab.
Scale: Over 3.4 million exchanges
The operation targeted:
Agentic reasoning and tool use
Coding and data analysis
Computer-use agent development
Computer vision
Moonshot (Kimi models) employed hundreds of fraudulent accounts spanning multiple access pathways. Varied account types made the campaign harder to detect as a coordinated operation. We attributed the campaign through request metadata, which matched the public profiles of senior Moonshot staff. In a later phase, Moonshot used a more targeted approach, attempting to extract and reconstruct Claude’s reasoning traces.
Scale: Over 13 million exchanges
The operation targeted:
Tool use and orchestration
We attributed the campaign to MiniMax through request metadata and infrastructure indicators, and confirmed timings against their public product roadmap. We detected this campaign while it was still active—before MiniMax released the model it was training—giving us unprecedented visibility into the life cycle of distillation attacks, from data generation through to model launch. When we released a new model during MiniMax’s active campaign, they pivoted within 24 hours, redirecting nearly half their traffic to capture capabilities from our latest system.
How distillers access frontier models
For national security reasons, Anthropic does not currently offer commercial access to Claude in China, or to subsidiaries of their companies located outside of the country.
To circumvent this, labs use commercial proxy services which resell access to Claude and other frontier AI models at scale. These services run what we call “hydra cluster” architectures: sprawling networks of fraudulent accounts that distribute traffic across our API as well as third-party cloud platforms. The breadth of these networks means that there are no single points of failure. When one account is banned, a new one takes its place. In one case, a single proxy network managed more than 20,000 fraudulent accounts simultaneously, mixing distillation traffic with unrelated customer requests to make detection harder.
Once access is secured, the labs generate large volumes of carefully crafted prompts designed to extract specific capabilities from the model. The goal is either to collect high-quality responses for direct model training, or to generate tens of thousands of unique tasks needed to run reinforcement learning. What distinguishes a distillation attack from normal usage is the pattern. A prompt like the following (which approximates similar prompts we have seen used repetitively and at scale) may seem benign on its own:
You are an expert data analyst combining statistical rigor with deep domain knowledge. Your goal is to deliver data-driven insights — not summaries or visualizations — grounded in real data and supported by complete and transparent reasoning.
But when variations of that prompt arrive tens of thousands of times across hundreds of coordinated accounts, all targeting the same narrow capability, the pattern becomes clear. Massive volume concentrated in a few areas, highly repetitive structures, and content that maps directly onto what is most valuable for training an AI model are the hallmarks of a distillation attack.
How we’re responding
We continue to invest heavily in defenses that make such distillation attacks harder to execute and easier to identify. These include:
Detection. We have built several classifiers and behavioral fingerprinting systems designed to identify distillation attack patterns in API traffic. This includes detection of chain-of-thought elicitation used to construct reasoning training data. We have also built detection tools for identifying coordinated activity across large numbers of accounts.
Intelligence sharing. We are sharing technical indicators with other AI labs, cloud providers, and relevant authorities. This provides a more holistic picture into the distillation landscape.
Access controls. We’ve strengthened verification for educational accounts, security research programs, and startup organizations—the pathways most commonly exploited for setting up fraudulent accounts.
Countermeasures. We are developing Product, API and model-level safeguards designed to reduce the efficacy of model outputs for illicit distillation, without degrading the experience for legitimate customers.
But no company can solve this alone. As we noted above, distillation attacks at this scale require a coordinated response across the AI industry, cloud providers, and policymakers. We are publishing this to make the evidence available to everyone with a stake in the outcome.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み