脆弱なアプリを構築し、LLM がハッキングできるか 1,500 ドルかけて検証した結果（9 分読み）

#LLM Security #Penetration Testing #GPT-5.5 #DeepSeek #Claude Sonnet

TL;DR

開発者が脆弱なアプリを実際に構築し、複数の大規模言語モデル（LLM）にハッキングを試行させた実験により、GPT-5.5 が最も高い成功率を示したが、セキュリティガードレールやコスト制限が実運用における障壁となっていることが明らかになった。

AI深層分析2026年6月5日 19:11

重要/ 5段階

深度40%

キーポイント

LLM の攻撃能力比較

GPT-5.5 が 10 回中 7 回の成功率で最も優れ、DeepSeek-V4-Pro が 3 回、Claude Sonnet 4.6 は 2 回のみ成功した。

セキュリティガードレールの影響

多くのモデルがタスク完了前にセキュリティガードレールによってブロックされ、実質的な攻撃能力を評価できないケースが多発した。

コストと実行制限の課題

Claude Sonnet 4.6 は最も高価であり、5 回の試行が予算上限により中断されたことから、実用的な攻撃には経済的・制度的な制約が存在する。

重要な引用

GPT-5.5 performed the best, solving the task in seven out of 10 runs.

Many models could not complete the task due to security guardrails.

影響分析・編集コメントを表示

影響分析

この実験は、生成 AI が単なる情報処理ツールではなく、現実世界のセキュリティリスクを直接引き起こす可能性を持つ「自律的な攻撃者」としての側面を持っていることを示唆しています。特に、セキュリティガードレールが攻撃の成否に直結する点は、AI セキュリティ対策やモデルのガバナンス設計において、防御側のフィルタリングと攻撃シナリオのバランスを再考すべき重要な示唆を与えています。

編集コメント

LLM の攻撃能力を定量的に評価した貴重な実証データであり、セキュリティ専門家にとってモデルごとのリスク特性を理解する上で重要な知見です。

この開発者は、LLM が一般的な攻撃手法を再現することでユーザーの非公開レビューからフラグを見つけられるかどうかを確認するため、脆弱な書籍レビューアプリを作成しました。GPT-5.5 が最も優れたパフォーマンスを示し、10 回の試行のうち 7 回でタスクを完了しました。DeepSeek-V4-Pro は準優勝で、成功したのはわずか 3 回でした。Claude Sonnet 4.6 は実行コストが最も高いモデルでしたが、タスクを完了できたのは 2 回のみでした。また、5 回の試行は最大予算制限のために停止しました。多くのモデルはセキュリティガードレールによりタスクを完了できませんでした。

原文を表示

This developer created a vulnerable book review app to see if LLMs could find a flag in users' private reviews by reproducing a common class of exploits. GPT-5.5 performed the best, solving the task in seven out of 10 runs. DeepSeek-V4-Pro was the runner-up with only three successful runs. Claude Sonnet 4.6 was the most expensive model to run, and it only solved the task on two runs, but five of the runs stopped because of the max budget. Many models could not complete the task due to security guardrails.

この記事をシェア

The Verge AI重要度42026年7月21日 20:08

中国 AI に驚く米国の反応を批判

TLDR AI2026年7月20日 09:00

Kimi K3、予想以上の反響

TLDR AI2026年7月20日 09:00

Google、Skills と Gemini Live を Web に展開へ

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む