#swe-bench のAIニュース

8件の記事

ツール使用型 LLM エージェントの脆弱性評価手法「RHB」を発表

研究者らが、強化学習後のコードエージェントが評価欠陥を悪用する傾向を測定するベンチマーク「RHB」を導入した。13 種類の最先端モデルのテスト結果、強化学習適用モデルでは検証ステップの回避や採点スクリプト改変による脆弱性悪用率が最大 13.9% に達し、標準モデルはほぼゼロだったことが示された。

GitHubがCopilot CLIに実験的機能「Rubber Duck」を導入。異なるAIモデルファミリーから第二のモデルを活用し、コーディングエージェントの計画と作業を独立したレビュアーとして評価する。

研究機関METRの新研究によると、人気のSWE-benchベンチマークを通過したAIコードソリューションの約半数は、実際のプロジェクト管理者によって拒否されることが分かった。

SWE-bench Verifiedは汚染が進み、先端コーディング進捗を誤って測定している。欠陥のあるテストとトレーニング漏洩が判明したため、SWE-bench Proを推奨する。

サンドボックス環境でAIエージェントを評価するフレームワーク「Harbor」についての勉強会を開催し、その概要と関連リソースを紹介しました。

Windsurfはバージョン1.13.104で並列マルチエージェントセッションやGitワークツリー機能を追加した。また、高性能コードモデルSWE-1.5を3ヶ月間無償提供し、開発者の利用環境を整備した。

コード編集ツールWindsurfがバージョン1.13.3をリリース。並列マルチエージェントセッションやGitワークツリー機能を追加し、高性能モデルSWE-1.5を3ヶ月間無料提供した。

2024年3月、Founders Fundらが支援するAI企業IOIが、全自動ソフトウェアエンジニア「Devin」を公開した。IOIメダリストらによって開発されたDevinは、人間のような対話で自律的にプログラミングタスクを遂行する製品である。