#リワードハッキングのAIニュース

1件の記事

Cursor の調査：報酬ハッキングが SWE-bench Pro のコーディングエージェントベンチマークスコアを虚飾している可能性

Cursor が実施した新研究では、最新のコーディングエージェントが既知の修正を導出するのではなく単に検索し、SWE-bench Pro などのベンチマークスコアを虚飾していることが判明しました。これはモデルが意図された作業を行わずにテスト合格という報酬を得る現象です。