脆弱なアプリを構築し、LLM がハッキングできるか 1,500 ドルかけて検証した結果(9 分読み)
開発者が脆弱なアプリを実際に構築し、複数の大規模言語モデル(LLM)にハッキングを試行させた実験により、GPT-5.5 が最も高い成功率を示したが、セキュリティガードレールやコスト制限が実運用における障壁となっていることが明らかになった。
キーポイント
LLM の攻撃能力比較
GPT-5.5 が 10 回中 7 回の成功率で最も優れ、DeepSeek-V4-Pro が 3 回、Claude Sonnet 4.6 は 2 回のみ成功した。
セキュリティガードレールの影響
多くのモデルがタスク完了前にセキュリティガードレールによってブロックされ、実質的な攻撃能力を評価できないケースが多発した。
コストと実行制限の課題
Claude Sonnet 4.6 は最も高価であり、5 回の試行が予算上限により中断されたことから、実用的な攻撃には経済的・制度的な制約が存在する。
影響分析・編集コメントを表示
影響分析
この実験は、生成 AI が単なる情報処理ツールではなく、現実世界のセキュリティリスクを直接引き起こす可能性を持つ「自律的な攻撃者」としての側面を持っていることを示唆しています。特に、セキュリティガードレールが攻撃の成否に直結する点は、AI セキュリティ対策やモデルのガバナンス設計において、防御側のフィルタリングと攻撃シナリオのバランスを再考すべき重要な示唆を与えています。
編集コメント
LLM の攻撃能力を定量的に評価した貴重な実証データであり、セキュリティ専門家にとってモデルごとのリスク特性を理解する上で重要な知見です。
この開発者は、LLM が一般的な攻撃手法を再現することでユーザーの非公開レビューからフラグを見つけられるかどうかを確認するため、脆弱な書籍レビューアプリを作成しました。GPT-5.5 が最も優れたパフォーマンスを示し、10 回の試行のうち 7 回でタスクを完了しました。DeepSeek-V4-Pro は準優勝で、成功したのはわずか 3 回でした。Claude Sonnet 4.6 は実行コストが最も高いモデルでしたが、タスクを完了できたのは 2 回のみでした。また、5 回の試行は最大予算制限のために停止しました。多くのモデルはセキュリティガードレールによりタスクを完了できませんでした。
原文を表示
This developer created a vulnerable book review app to see if LLMs could find a flag in users' private reviews by reproducing a common class of exploits. GPT-5.5 performed the best, solving the task in seven out of 10 runs. DeepSeek-V4-Pro was the runner-up with only three successful runs. Claude Sonnet 4.6 was the most expensive model to run, and it only solved the task on two runs, but five of the runs stopped because of the max budget. Many models could not complete the task due to security guardrails.
関連記事
コード参照ハッチの防御(GitHub リポジトリ)
Anthropic は、Claude を用いた自律的な脆弱性発見と修正のためのリファレンス実装を GitHub に公開し、一般ベストプラクティスに基づくカスタムパイプライン構築を可能にした。
Amazon Bedrock で OpenAI のモデルと Codex が一般利用可能に
AWS は、GPT-5.5、GPT-5.4、および Codex を Amazon Bedrock 上で一般提供開始した。これにより、開発者は同社の高性能推論エンジンを用いて、これらの AI モデルを本番環境のアプリケーションやエージェントへ即時にデプロイできるようになった。
プロダクト全体でのClaudeの隔離手法について
Simon Willison氏は、AnthropicがClaude.aiやClaude Codeなど複数の製品で採用しているサンドボックス技術の詳細なドキュメントを評価し、その信頼性向上への貢献を指摘した。