Anthropic: Claudeが「産業規模」のAIモデル蒸留に直面
Anthropicが、海外研究所によるClaudeから能力を抽出する産業規模のAIモデル蒸留キャンペーンを報告。競合他社は約2万4千の偽アカウントで1600万回以上のやり取りを生成し、独自ロジックの獲得を目指した。
キーポイント
Anthropicが、海外の競合組織によるClaudeの能力を抽出する大規模なAIモデル蒸留キャンペーンを3件特定したことを報告
蒸留技術は本来、企業が顧客向けに小型・低コスト版アプリを構築するための手法だが、悪意ある行為者によって知的財産窃取に悪用されている
不正な蒸留は、安全保障上の保護策が除去された危険な能力の拡散を招き、国家安全保障上の重大なリスクを生み出している
影響分析・編集コメントを表示
影響分析
この記事は、AIモデルの蒸留技術が知的財産保護の新たな脆弱性となり、産業競争力と国家安全保障の両面で深刻な脅威をもたらしていることを示しています。特に、大規模なプロキシネットワークを利用した不正アクセスは、従来のセキュリティ対策の限界を露呈させ、業界全体の監視・防御体制の見直しを迫る可能性があります。
編集コメント
AI技術の進化が新たなセキュリティ課題を生み出す典型例。業界全体で対策が急務となる重大な警鐘と言える。
Anthropicは、Claudeから能力を抽出するために海外のラボが行った3つの「産業規模」のAIモデル蒸留キャンペーンについて詳細を明らかにした。
これらの競合相手は、約24,000の不正なアカウントを使用して1,600万回以上のやり取りを生成した。彼らの目的は、自社の競合プラットフォームを改善するための独自のロジックを取得することだった。
蒸留として知られるこの抽出技術は、より強力なシステムの高品質な出力を用いて、より弱いシステムを訓練することを含む。
合法的に適用される場合、蒸留は企業が顧客向けに、より小型で安価なアプリケーションのバージョンを構築するのに役立つ。しかし、悪意のある行為者はこの手法を悪用し、独自開発に必要な時間とコストのほんの一部で強力な能力を獲得しようとする。
AnthropicのClaudeのような知的財産を保護すること
無制限の蒸留は、深刻な知的財産上の課題を提起する。Anthropicが国家安全保障上の理由から中国での商業的アクセスをブロックしているため、攻撃者は商用プロキシネットワークを展開することで地域的なアクセス制限を回避する。
これらのサービスは、Anthropicが「ヒュドラクラスター」アーキテクチャと呼ぶものを実行しており、トラフィックをAPIやサードパーティのクラウドプラットフォームに分散させる。これらのネットワークの膨大な広がりは、単一障害点が存在しないことを意味する。Anthropicが指摘したように、「1つのアカウントが禁止されると、新しいアカウントがその場所を取る」。
特定された事例の1つでは、単一のプロキシネットワークが同時に2万以上の不正アカウントを管理していた。これらのネットワークは、検知を回避するために、AIモデル蒸留トラフィックと標準的な顧客リクエストを混在させる。これは企業のレジリエンスに直接影響を与え、セキュリティチームがクラウドAPIトラフィックをどのように監視するか再考することを余儀なくさせる。
違法に訓練されたモデルは、確立された安全ガードレールも回避し、深刻な国家安全保障上のリスクを生み出す。例えば、米国の開発者は、国家および非国家主体がこれらのシステムを生物兵器の開発や悪意のあるサイバー活動の実行に使用するのを防ぐための保護策を構築している。
クローンされたシステムは、AnthropicのClaudeのようなシステムに実装されている保護策を欠いており、危険な能力が保護策を完全に取り除かれた状態で拡散することを許してしまう。外国の競合相手は、これらの保護されていない能力を軍事、諜報、監視システムに投入することができ、権威主義的政府が攻撃作戦に展開することを可能にする。
これらの蒸留バージョンがオープンソース化されれば、能力が単一政府の管理を超えて自由に広がるため、危険はさらに倍増する。
違法な抽出は、中国共産党の支配下にあるものを含む外国の組織体が、輸出管理によって保護された競争優位性を縮めることを可能にする。これらの攻撃に対する可視性がなければ、外国の開発者による急速な進歩は、輸出管理を回避するイノベーションであると誤って見なされてしまう。
現実には、これらの進歩は、米国の知的財産を大規模に抽出することに大きく依存しており、その取り組みには依然として高度なチップへのアクセスが必要である。制限されたチップアクセスは、直接的なモデル訓練と違法な蒸留の規模の両方を制限する。
AIモデル蒸留の手口
加害者は、検知を回避しながら大規模にシステムにアクセスするために、不正なアカウントとプロキシサービスを利用するという、類似した作戦手順に従った。彼らのプロンプトの量、構造、焦点は、通常の使用パターンとは異なり、正当な使用ではなく意図的な能力抽出を反映していた。
Anthropicは、IPアドレスの相関関係、リクエストメタデータ、インフラストラクチャの指標を通じて、Claudeを標的としたこれらのキャンペーンを特定した。各作戦は、高度に差別化された機能を標的とした:エージェント的推論、ツール使用、およびコーディングである。
あるキャンペーンは、エージェント的コーディングとツールオーケストレーションを標的として、1,300万回以上のやり取りを生成した。Anthropicはこの作戦がまだ進行中に検知し、タイミングを競合他社の公開製品ロードマップと照合した。Anthropicが新しいモデルをリリースすると、競合他社は24時間以内に方向転換し、トラフィックのほぼ半分を最新システムから能力を抽出するためにリダイレクトした。
別の作戦は、コンピュータビジョン、データ分析、エージェント的推論に焦点を当てた340万以上のリクエストを生成した。このグループは、調整された取り組みを隠蔽するために数百の様々なアカウントを利用した。Anthropicは、リクエストメタデータを外国の研究所の上級スタッフの公開プロファイルと照合することで、このキャンペーンを特定した。後の段階では、この競合相手は、ホストシステムの推論トレースを抽出して再構築しようと試みた。
Anthropicによると、Claudeを標的とした3つ目のAIモデル蒸留キャンペーンは、15万回以上のインタラクションを通じて、推論能力とルーブリックベースの評価データを抽出した。このグループは、標的システムに内部ロジックを段階的にマッピングすることを強制し、事実上、膨大な量の連鎖的思考(chain-of-thought)トレーニングデータを生成した。彼らはまた、政治的に敏感なクエリに対する検閲安全な代替案を抽出し、自社のシステムが制限されたトピックから会話をそらすように訓練した。加害者は、同一のパターンと共有された支払い方法を使用して同期されたトラフィックを生成し、負荷分散を可能にした。
この3つ目のキャンペーンのリクエストメタデータは、これらのアカウントを研究所の特定の研究者に遡って追跡した。これらのリクエストは、単独では無害に見えることが多い。例えば、システムに完全な推論に基づいた洞察を提供する専門データアナリストとして振る舞うよう求めるだけのプロンプトなどである。しかし、その正確なプロンプトのバリエーションが、同じ狭い能力を標的とした数百の調整されたアカウントを通じて数万回にわたって到着するとき、抽出パターンは明らかになる。
特定の領域に集中した膨大な量、高度に反復的な構造、そしてトレーニングニーズに直接マッピングされる内容が、蒸留攻撃の特徴である。
実行可能な防御策の実施
企業環境を保護するには、このような抽出の取り組みを実行しにくく、識別しやすくするために、多層防御を採用する必要がある。Anthropicは、APIトラフィック内のAIモデル蒸留パターンを識別するように設計された行動フィンガープリンティングとトラフィック分類器の実装を助言している。
ITリーダーはまた、教育アカウント、セキュリティ研究プログラム、スタートアップ組織などの一般的な脆弱性経路に対する検証プロセスを強化しなければならない。
企業は、違法な蒸留に対するモデル出力の有効性を低下させるように設計された、製品レベルおよびAPIレベルの保護策を統合すべきである。これは、正当な有料顧客の体験を劣化させることなく行わなければならない。
多数のアカウントにわたる調整された活動を検知することは絶対に必要である。これには、推論トレーニングデータの構築に使用される連鎖的思考出力の継続的な引き出しを特に監視することが含まれる。
これらの攻撃が激化し高度化しているため、業界横断的な協力も依然として不可欠である。これには、AI研究所、クラウドプロバイダー、政策立案者間での迅速かつ調整された情報共有が必要である。
Anthropicは、ClaudeがAIモデル蒸留キャンペーンに標的とされていることに関する調査結果を公開し、状況のより全体的な絵を提供し、すべての関係者が証拠を利用できるようにした。厳格なアクセス制御でAIアーキテクチャを扱うことにより、技術責任者は継続的なガバナンスを確保しながら、自社の競争優位性を守ることができる。
関連記事: 分断されたクラウドがAIデータガバナンスをどのように改善するか
業界リーダーからAIとビッグデータについてさらに学びたいですか?アムステルダム、カリフォルニア、ロンドンで開催されるAI & Big Data Expoをご覧ください。この包括的なイベントはTechExの一部であり、Cyber Security & Cloud Expoを含む他の主要なテクノロジーイベントと同時開催されます。詳細はこちらをクリックしてください。
AI NewsはTechForge Mediaによって提供されています。今後のエンタープライズテクノロジーイベントとウェビナーはこちらからご覧ください。

原文を表示
Anthropic has detailed three “industrial-scale” AI model distillation campaigns by overseas labs designed to extract abilities from Claude.
These competitors generated over 16 million exchanges using approximately 24,000 deceptive accounts. Their goal was to acquire proprietary logic to improve their competing platforms.
The extraction technique, known as distillation, involves training a weaker system on the high-quality outputs of a stronger one.
When applied legitimately, distillation helps companies build smaller and cheaper versions of their applications for customers. Yet, malicious actors weaponise this method to acquire powerful capabilities in a fraction of the time and cost required for independent development.
Protecting intellectual property like Anthropic’s Claude
Unmitigated distillation presents a severe intellectual property challenge. Because Anthropic blocks commercial access in China for national security reasons, attackers bypass regional access restrictions by deploying commercial proxy networks.
These services run what Anthropic calls “hydra cluster” architectures, which distribute traffic across APIs and third-party cloud platforms. The massive breadth of these networks means there are no single points of failure. As Anthropic noted, “when one account is banned, a new one takes its place.”
In one identified case, a single proxy network managed more than 20,000 fraudulent accounts simultaneously. These networks mix AI model distillation traffic with standard customer requests to evade detection. This directly impacts corporate resilience and forces security teams to reconsider how they monitor cloud API traffic.
Illicitly-trained models also bypass established safety guardrails, creating severe national security risks. US developers, for example, build protections to prevent state and non-state actors from using these systems to develop bioweapons or carry out malicious cyber activities.
Cloned systems lack the safeguards implemented by systems like Anthropic’s Claude, allowing dangerous capabilities to proliferate with protections stripped out entirely. Foreign competitors can feed these unprotected capabilities into military, intelligence, and surveillance systems, enabling authoritarian governments to deploy them for offensive operations.
If these distilled versions are open-sourced, the danger further multiplies as the capabilities spread freely beyond any single government’s control.
Unlawful extraction allows foreign entities, including those under the control of the Chinese Communist Party, to close the competitive advantage protected by export controls. Without visibility into these attacks, rapid advancements by foreign developers incorrectly appear as innovation circumventing export controls.
In reality, these advancements depend heavily on extracting American intellectual property at scale, an effort that still requires access to advanced chips. Restricted chip access limits both direct model training and the scale of illicit distillation.
The playbook for AI model distillation
The perpetrators followed a similar operational playbook, utilising fraudulent accounts and proxy services to access systems at scale while evading detection. The volume, structure, and focus of their prompts were distinct from normal usage patterns, reflecting deliberate capability extraction rather than legitimate use.
Anthropic attributed these campaigns targeting Claude through IP address correlation, request metadata, and infrastructure indicators. Each operation targeted highly differentiated functions: agentic reasoning, tool use, and coding.
One campaign generated over 13 million exchanges targeting agentic coding and tool orchestration. Anthropic detected this operation while it was still active, mapping timings against the competitor’s public product roadmap. When Anthropic released a new model, the competitor pivoted within 24 hours, redirecting nearly half their traffic to extract capabilities from the latest system.
Another operation generated over 3.4 million requests focused on computer vision, data analysis, and agentic reasoning. This group utilised hundreds of varied accounts to obscure their coordinated efforts. Anthropic attributed this campaign by matching request metadata to the public profiles of senior staff at the foreign laboratory. In a later phase, this competitor attempted to extract and reconstruct the host system’s reasoning traces.
Anthropic says a third AI model distillation campaign targeting Claude extracted reasoning capabilities and rubric-based grading data through over 150,000 interactions. This group forced the targeted system to map out its internal logic step-by-step, effectively generating massive volumes of chain-of-thought training data. They also extracted censorship-safe alternatives to politically sensitive queries to train their own systems to steer conversations away from restricted topics. The perpetrators generated synchronised traffic using identical patterns and shared payment methods to enable load balancing.
Request metadata for this third campaign traced these accounts back to specific researchers at the laboratory. These requests often appear benign on their own, such as a prompt simply asking the system to act as an expert data analyst delivering insights grounded in complete reasoning. But when variations of that exact prompt arrive tens of thousands of times across hundreds of coordinated accounts targeting the same narrow capability, the extraction pattern becomes clear.
Massive volume concentrated in specific areas, highly repetitive structures, and content mapping directly to training needs are the hallmarks of a distillation attack.
Implementing actionable defences
Protecting enterprise environments requires adopting multi-layered defences to make such extraction efforts harder to execute and easier to identify. Anthropic advises implementing behavioural fingerprinting and traffic classifiers designed to identify AI model distillation patterns in API traffic.
IT leaders must also strengthen verification processes for common vulnerability pathways, such as educational accounts, security research programmes, and startup organisations.
Companies should integrate product-level and API-level safeguards designed to reduce the efficacy of model outputs for illicit distillation. This must be done without degrading the experience for legitimate, paying customers.
Detecting coordinated activity across large numbers of accounts is an absolute necessity. This includes specifically monitoring for the continuous elicitation of chain-of-thought outputs used to construct reasoning training data.
Cross-industry collaboration also remains essential, as these attacks are growing in intensity and sophistication. This requires rapid and coordinated intelligence sharing across AI laboratories, cloud providers, and policymakers.
Anthropic has published its findings about Claude being targeted by AI model distillation campaigns to provide a more holistic picture of the landscape and make the evidence available to all stakeholders. By treating AI architectures with rigorous access controls, technology officers can secure their competitive edge while ensuring ongoing governance.
See also: How disconnected clouds improve AI data governance
Want to learn more about AI and big data from industry leaders? Check out AI & Big Data Expo taking place in Amsterdam, California, and London. The comprehensive event is part of TechEx and is co-located with other leading technology events including the Cyber Security & Cloud Expo. Click here for more information.
AI News is powered by TechForge Media. Explore other upcoming enterprise technology events and webinars here.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み