EVMbenchの紹介
OpenAIとParadigmがEVMbenchを発表。AIエージェントがスマートコントラクトの重大な脆弱性を検出・修正・悪用する能力を評価するベンチマークです。
キーポイント
OpenAIとParadigmが共同で、AIエージェントのスマートコントラクト脆弱性検出・修正・悪用能力を評価するベンチマーク「EVMbench」を発表
120件の厳選された脆弱性と、実際の監査プロセスに基づくシナリオを含み、経済的に重要なブロックチェーン環境でのAI能力測定を目指す
検出(Detect)、修正(Patch)、悪用(Exploit)の3つの能力モードを評価し、再現性のある客観的評価をRustベースのハーネスで実現
影響分析・編集コメントを表示
影響分析
このベンチマークは、AIエージェントが現実の金融資産を守るスマートコントラクトのセキュリティ監査において、攻撃的・防御的両面での能力を体系的に評価する初めての枠組みを提供する。AIのコード理解・実行能力が経済的に重大な環境で測定されることで、ブロックチェーンセキュリティとAIエージェント開発の両分野に影響を与える可能性が高い。
編集コメント
AIの「ハッキング能力」を公式にベンチマーク化するという、倫理的にも技術的にも挑戦的な試み。防御目的とはいえ、AIによる悪用シナリオの評価が含まれる点が特徴的。
EVMbenchの紹介:AIエージェントのスマートコントラクト脆弱性対応能力を評価するベンチマーク
スマートコントラクトは、オープンソースの暗号資産で1000億ドル以上を日常的に保護している。AIエージェントがコードの読み書きや実行において進化を続ける中で、経済的に重要な環境下でのAIの能力を測定し、AIシステムを防御的に活用してデプロイ済みコントラクトを監査・強化することを促進することが、ますます重要になっている。
この取り組みの一環として、Paradigmと共同でEVMbenchを導入する。これは、AIエージェントが深刻度の高いスマートコントラクトの脆弱性を検出、修正、悪用する能力を評価するベンチマークである。EVMbenchは、40件の監査から精選された120の脆弱性を基にしており、その多くは公開コード監査コンペティションに由来する。さらに、高スループットで低コストのステーブルコイン決済を実現するために設計されたブロックチェーン「Tempo」のセキュリティ監査プロセスから得られた脆弱性シナリオも含まれている。これにより、決済指向のスマートコントラクトコードという、AIエージェントによるステーブルコイン決済が成長すると見込まれ、実用的重要性が高まっている領域への評価範囲を拡大している。
タスク環境の構築にあたっては、既存の概念実証用のエクスプロイトテストやデプロイスクリプトを可能な限り流用し、ない場合は手動で作成した。修正モードでは、脆弱性が実際に悪用可能であり、かつコンパイルを妨げない形で軽減できることを確認した。悪用モードでは、カスタム採点プログラムを作成し、エージェントが採点者を欺く可能性のある方法を見つけて修正するため、環境に対するレッドチーミング(攻撃側の視点でのテスト)を実施した。Paradigmによる専門知識に加え、自動化されたタスク監査エージェントも活用し、環境の健全性向上を図った。
EVMbenchは以下の3つの能力モードを評価する:
- 検出:エージェントがスマートコントラクトのリポジトリを監査し、既知の脆弱性を正しく想起する割合(リコール)と、それに伴う監査報酬に基づいて採点される。
- 修正:エージェントが脆弱なコントラクトを修正し、意図された機能を維持しながら悪用可能性を排除する。自動テストとエクスプロイトチェックにより検証される。
- 悪用:エージェントがサンドボックス化されたブロックチェーン環境上でデプロイされたコントラクトに対し、資金を流出させるエンドツーエンド攻撃を実行する。トランザクションのリプレイとオンチェーン検証を通じてプログラム的に採点される。
客観的かつ再現性のある評価を支援するため、コントラクトのデプロイ、エージェントのトランザクションを決定的にリプレイ、安全でないRPCメソッドを制限するRustベースのハーネスを開発した。悪用タスクは実際の
原文を表示
Introducing EVMbench | OpenAISwitch toChatGPT(opens in a new window)
API Platform(opens in a new window)
Making smart contracts safer by evaluating AI agents’ ability to detect, patch, and exploit vulnerabilities in blockchain environments.
(opens in a new window)Loading…ShareSmart contracts routinely secure $100B+ in open-source crypto assets. As AI agents improve at reading, writing, and executing code, it becomes increasingly important to measure their capabilities in economically meaningful environments, and to encourage the use of AI systems defensively to audit and strengthen deployed contracts.
Together with Paradigm(opens in a new window), we’re introducing EVMbench, a benchmark evaluating the ability of AI agents to detect, patch, and exploit high-severity smart contract vulnerabilities. EVMbench draws on 120 curated vulnerabilities from 40 audits, with most sourced from open code audit competitions. EVMbench additionally includes several vulnerability scenarios drawn from the security auditing process for the Tempo(opens in a new window) blockchain, a purpose-built L1 designed to enable high-throughput, low-cost payments via stablecoins. These scenarios extend the benchmark into payment-oriented smart contract code, where we expect agentic stablecoin payments to grow, and help ground it in a domain of emerging practical importance.
To create our task environments, we adapted existing proof-of-concept exploit tests and deployment scripts, when they existed, and otherwise manually wrote them. For the patch mode, we ensured that the vulnerabilities are exploitable and that can be mitigated without introducing compilation-breaking changes, which would compromise our setup. For the exploit mode, we wrote custom graders and red-teamed the environments in an attempt to find and patch methods by which an agent might cheat the grader. In addition to task quality control via domain expertise provided by Paradigm, we used automated task auditing agents to help increase the soundness of our environments.
EVMbench evaluates three capability modes:
Detect: Agents audit a smart contract repository and are scored on recall of ground-truth vulnerabilities and associated audit rewards.
Patch: Agents modify vulnerable contracts and must preserve intended functionality while eliminating exploitability, verified through automated tests and exploit checks.
Exploit: Agents execute end-to-end fund-draining attacks against deployed contracts on a sandboxed blockchain environment, with grading performed programmatically via transaction replay and on-chain verification.
To support objective and reproducible evaluation, we developed a Rust-based harness that deploys contracts, replays agent transactions deterministically, and restricts unsafe RPC methods. Exploit tasks run in an isolated local Anvil environment rather than on live networks, and vulnerabilities are historical and publicly documented.
We evaluate frontier agents across all three modes. In the ‘exploit’ mode, GPT‑5.3‑Codex running via Codex CLI achieves a score of 72.2%. This represents a significant gain over previous models, such as GPT‑5, which scores 31.9% and was released just over six months ago. The detect recall and patch success rates remain below full coverage, as a large fraction of vulnerabilities remain difficult for agents to find and fix.
EVMbench also reveals interesting differences in model behavior across tasks. Agents perform best in the exploit setting, where the objective is explicit: continue iterating until funds are drained. In contrast, performance is weaker on detect and patch tasks. In ‘detect’, agents sometimes stop after identifying a single issue rather than exhaustively auditing the codebase. In ‘patch’, maintaining full functionality while removing subtle vulnerabilities remains challenging.
EVMbench does not represent the full difficulty of real-world smart contract security. The vulnerabilities included were drawn from Code4rena auditing competitions. While these are realistic and high-severity, many heavily deployed and widely used crypto contracts undergo significantly more scrutiny and may be harder to exploit.
Our grading system is robust but imperfect. In ‘detect’ mode, we check whether the agent finds the same vulnerabilities identified by human auditors. If the agent identifies additional issues, we do not currently have a reliable way to determine whether they represent true vulnerabilities that humans missed or false positives.
There are also structural limitations in the ‘exploit’ setting. Transactions are replayed sequentially in the grading container, so behaviors that depend on precise timing mechanics are out of scope. The chain state is a clean local Anvil instance rather than a fork of mainnet, and we currently support only single-chain environments. In some cases this requires mock contracts instead of mainnet deployments.
Smart contracts secure billions of dollars in assets, and AI agents are
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み