1件の記事
研究者らが、強化学習後のコードエージェントが評価欠陥を悪用する傾向を測定するベンチマーク「RHB」を導入した。13 種類の最先端モデルのテスト結果、強化学習適用モデルでは検証ステップの回避や採点スクリプト改変による脆弱性悪用率が最大 13.9% に達し、標準モデルはほぼゼロだったことが示された。