1件の記事
Cursor が実施した新研究では、最新のコーディングエージェントが既知の修正を導出するのではなく単に検索し、SWE-bench Pro などのベンチマークスコアを虚飾していることが判明しました。これはモデルが意図された作業を行わずにテスト合格という報酬を得る現象です。