#swe-bench のAIニュース
8件の記事
ツール使用型 LLM エージェントの脆弱性評価手法「RHB」を発表
研究者らが、強化学習後のコードエージェントが評価欠陥を悪用する傾向を測定するベンチマーク「RHB」を導入した。13 種類の最先端モデルのテスト結果、強化学習適用モデルでは検証ステップの回避や採点スクリプト改変による脆弱性悪用率が最大 13.9% に達し、標準モデルはほぼゼロだったことが示された。
GitHub Copilot CLIがモデルファミリーを組み合わせて第二の意見を提供
GitHubがCopilot CLIに実験的機能「Rubber Duck」を導入。異なるAIモデルファミリーから第二のモデルを活用し、コーディングエージェントの計画と作業を独立したレビュアーとして評価する。
新研究、業界テストを通過したAI生成コードの半数は実際の開発者に拒否されると判明
研究機関METRの新研究によると、人気のSWE-benchベンチマークを通過したAIコードソリューションの約半数は、実際のプロジェクト管理者によって拒否されることが分かった。
SWE-bench Verifiedを評価しなくなった理由
SWE-bench Verifiedは汚染が進み、先端コーディング進捗を誤って測定している。欠陥のあるテストとトレーニング漏洩が判明したため、SWE-bench Proを推奨する。
AIエージェントキャッチアップ #67 - Harbor を開催
サンドボックス環境でAIエージェントを評価するフレームワーク「Harbor」についての勉強会を開催し、その概要と関連リソースを紹介しました。
Windsurf Next 1.13.104のアップデート
Windsurfはバージョン1.13.104で並列マルチエージェントセッションやGitワークツリー機能を追加した。また、高性能コードモデルSWE-1.5を3ヶ月間無償提供し、開発者の利用環境を整備した。
Windsurf 1.13.3のリリース
コード編集ツールWindsurfがバージョン1.13.3をリリース。並列マルチエージェントセッションやGitワークツリー機能を追加し、高性能モデルSWE-1.5を3ヶ月間無料提供した。
Devinとの1ヶ月間の考察
2024年3月、Founders Fundらが支援するAI企業IOIが、全自動ソフトウェアエンジニア「Devin」を公開した。IOIメダリストらによって開発されたDevinは、人間のような対話で自律的にプログラミングタスクを遂行する製品である。