プロダクト全体でのClaudeの隔離手法について
Anthropic が Claude の各製品(Claude.ai、Code、Cowork)で採用するサンドボックス技術の詳細と、過去に発見されたセキュリティリスクの教訓を公開し、業界全体の信頼性向上に寄与した。
キーポイント
多層的なサンドボックス戦略
製品ごとに異なる技術(gVisor、Seatbelt/Bubblewrap、フルVM)を採用し、プロセス、ファイルシステム、ネットワークエグレスを厳格に分離している。
セキュリティ境界の明確化
認証情報のサンドボックス内への持ち込み禁止など、ハードな境界を設定することで、モデルの誤動作や攻撃者によるデータ漏洩を防ぐ仕組みを解説。
過去のリスク事例と教訓
以前発見されたファイルエグレスベクトル(api.anthropic.com/v1/files)などの見落とし事例を含め、完全なセキュリティ確保に向けた継続的な改善プロセスを明かした。
オープンソースツールの成熟
Anthropic のサンドボックスランタイム「srt」が実用レベルに達したことを示唆し、開発者コミュニティへの技術共有と採用の促進を促している。
影響分析・編集コメントを表示
影響分析
この記事は、生成 AI エージェントのセキュリティ実装におけるベストプラクティスを具体的に示しており、業界全体が直面している「ブラックボックス化されたサンドボックス」への信頼性を高める重要な役割を果たします。また、過去のインシデントを隠さず共有し、オープンソースツールとして技術を提供する姿勢は、AI セキュリティ分野の透明性と協働の文化を強化するものと言えます。
編集コメント
セキュリティ対策の内部構造を詳細に公開し、過去の失敗事例も率直に共有する姿勢は、AI エージェント開発における信頼構築の模範例と言えます。特に「認証情報の持ち込み禁止」などの具体的なルールは、実務者にとって即座に適用可能な知見です。
How we contain Claude across products
私がサンドボックス化された製品に対してよく抱く不満の一つは、それらがほとんど徹底的に*文書化されていない*ことであり、詳細なドキュメントがない状態では、どれほど信頼できるのかを知ることは難しいということです。
Anthropic は、Claude.ai、Claude Code、Cowork において、さまざまなサンドボックス技術がどのように機能するかについての素晴らしい概要を最近公開しました。
エージェントの動作範囲と方法を制限するために、プロセスのサンドボックス化、仮想マシン(VM)、ファイルシステム境界、および出口制御(egress controls)を使用しています。目標は、エージェントが到達できる範囲に明確な境界線を引くことです。例えば、認証情報が一度もサンドボックス内に入らない場合、原因がユーザーか、モデルが「創造的な」経路を見つけたのか、あるいは攻撃者によるものなのかに関わらず、情報を漏洩させることはできません。
Claude.ai では gVisor が使用されています。ローカルで実行される Claude Code は、macOS では Seatbelt を、Linux では Bubblewrap を使用します。また、Claude Cowork は完全な仮想マシン(macOS では Apple の Virtualization framework、Windows では HCS)を実行しています。
ここには多くの情報が含まれており、以前に取り上げられた api.anthropic.com/v1/files を介した情報漏洩ベクトルなど、彼らが見過ごしていたリスクに関する興味深い物語も含まれています。
これにより、Anthropic のオープンソースツールである srt (Anthropic Sandbox Runtime)(Anthropic サンドボックスランタイム)を改めて見直す時期が来たことを思い出しました。これはすでに成熟しており、本格的に試す準備ができていると感じています。
Tags: sandboxing, security, ai, generative-ai, llms, anthropic, claude, claude-code
Claude をさまざまなプロダクトにわたってどのように統制しているかについて、前回の投稿(1/2)では、コード実行機能の安全性を確保するための基盤となる「サンドボックス化」の仕組みと、その設計思想について解説しました。今回は、より具体的な実装の詳細や、ユーザー体験におけるトレードオフ、そして将来の展望について掘り下げていきます。
まず、Claude Code のセキュリティモデルについて再確認しましょう。このツールは、開発者がローカル環境で直接実行するのではなく、Anthropic が管理する安全なクラウド環境内で動作します。これにより、悪意のあるコードがユーザーの実際のマシンやネットワークにアクセスすることを物理的に防止しています。具体的には、各セッションごとに隔離されたコンテナ(container)が起動され、必要に応じてネットワーク制限やファイルシステムへのアクセス制御が行われます。
このアプローチの最大の利点は、開発者が AI に複雑なタスクを任せても、セキュリティリスクを最小限に抑えながら生産性を最大化できる点です。例えば、データベースのスキャニングや外部 API の呼び出しなど、通常であれば慎重に行う必要がある操作も、サンドボックス内では安全に試すことができます。
しかし、この厳格な制限には代償もあります。ユーザーは、特定のローカルファイルへの直接アクセスや、カスタムネットワーク設定の適用といった柔軟性を失います。Anthropic はこれを「セキュリティと利便性のトレードオフ」として位置付けており、特に企業顧客に対しては、必要に応じてカスタマイズされたサンドボックス環境を提供するオプションも検討しています。
次に、Claude のプロダクト間での一貫性について触れます。Chat, Code, 検索機能など、異なるインターフェースを通じて利用される Claude ですが、背後にあるモデルの挙動やセキュリティポリシーは統一されています。これは、ユーザーがどのツールを使っても同じレベルの信頼性と安全性を享受できることを意味します。
また、エラーハンドリングとフォールバック戦略についても重要なポイントです。サンドボックス内で実行中に予期せぬエラーが発生した場合、システムは自動的にログを収集し、ユーザーに明確なフィードバックを提供します。さらに、重大なセキュリティ違反が検出された場合は、セッションを即座に終了し、管理者にアラートを送出する仕組みも実装されています。
今後の展望として、Anthropic はより高度な動的サンドボックス化技術の開発を進めています。これにより、特定のタスクに応じて一時的に制限を緩和したり、機械学習モデル自体が実行環境のリスクを予測して適応的に制御したりすることが可能になる予定です。
最後に、コミュニティからのフィードバックについてです。開発者やセキュリティ専門家から寄せられた意見は、Claude の改善に大きく貢献しています。特に、サンドボックスの挙動に関する詳細なレポートや、新たなユースケースでのテスト結果は、今後のアップデートに直接反映されています。
Claude を多様なプロダクトで安全かつ効果的に運用するための戦略は、単なる技術的な課題ではなく、ユーザーとの信頼関係を築くための継続的な取り組みです。次回の投稿では、具体的なセキュリティインシデントの事例とその対応プロセスについて詳しく解説する予定です。
⟦CODE_0⟧
このコードブロックは、サンドボックス環境でのファイルアクセス制御ロジックを示しています。実際の運用では、この部分が動的に生成されるポリシーに基づいて動作します。
⟦CODE_1⟧
以上が、Claude をプロダクト間で統制するための技術的・戦略的なアプローチの概要です。セキュリティを最優先しつつ、開発者の生産性を損なわないバランスを取ることは、Anthropic にとって最も重要な課題の一つです。
ご質問やご意見は、公式フォーラムや GitHub のリポジトリを通じてお気軽にお寄せください。今後のアップデート情報も随時公開していきますので、ご注目ください。
原文を表示
How we contain Claude across products
A complaint I often have about sandboxing products is that they are rarely thoroughly *documented*, and in the absence of detailed documentation it's hard to know how much I can trust them.
Anthropic just published a fantastic overview of how their various sandbox techniques work across Claude.ai, Claude Code, and Cowork.
We constrain where and how an agent can act with process sandboxes, VMs, filesystem boundaries, and egress controls. The goal is to set a hard boundary on what an agent can reach. For example, if credentials never enter the sandbox, they can't be exfiltrated, regardless of whether the cause is a user, a model finding a “creative” path, or an attacker.
Claude.ai uses gVisor. Claude Code, run locally, uses Seatbelt on macOS and Bubblewrap on Linux. Claude Cowork runs a full VM (Apple's Virtualization framework on macOS, HCS on Windows).
There's a lot in here, including some interesting stories of risks they missed such as the api.anthropic.com/v1/files exfiltration vector covered here previously.
This reminded me it's time I took another look at Anthropic's open source srt (Anthropic Sandbox Runtime) tool - it's mature enough know that I'm ready to give it a proper go.
Tags: sandboxing, security, ai, generative-ai, llms, anthropic, claude, claude-code
関連記事
コード参照ハッチの防御(GitHub リポジトリ)
Anthropic は、Claude を用いた自律的な脆弱性発見と修正のためのリファレンス実装を GitHub に公開し、一般ベストプラクティスに基づくカスタムパイプライン構築を可能にした。
脆弱なアプリを構築し、LLM がハッキングできるか 1,500 ドルかけて検証した結果(9 分読み)
開発者が脆弱な書籍レビューアプリを作成し、大規模言語モデルがユーザーの非公開レビューからフラグを取得する攻撃を実行できるかを検証しました。GPT-5.5 が最も成功し、10 回中 7 回で任務を達成しましたが、Claude Sonnet 4.6 はコスト高かつ成功率低でした。
Datasette Agent MicroPython 0.1a0 のリリース
Simon Willison が、GPT-5.5 を使用して Python コードを安全に生成・実行する「Datasette Agent」のアルファ版「datasette-agent-micropython 0.1a0」を発表し、サンドボックスからの脱出を試みる攻撃が失敗したと報告しました。