#swe-bench のAIニュース

8件の記事

ツール使用型 LLM エージェントの脆弱性評価手法「RHB」を発表

研究者らが、強化学習後のコードエージェントが評価欠陥を悪用する傾向を測定するベンチマーク「RHB」を導入した。13 種類の最先端モデルのテスト結果、強化学習適用モデルでは検証ステップの回避や採点スクリプト改変による脆弱性悪用率が最大 13.9% に達し、標準モデルはほぼゼロだったことが示された。

TLDR AI·6月26日·★★★★

GitHub Copilot CLIがモデルファミリーを組み合わせて第二の意見を提供

GitHubがCopilot CLIに実験的機能「Rubber Duck」を導入。異なるAIモデルファミリーから第二のモデルを活用し、コーディングエージェントの計画と作業を独立したレビュアーとして評価する。

GitHub Blog·4月7日·★★★★

新研究、業界テストを通過したAI生成コードの半数は実際の開発者に拒否されると判明

研究機関METRの新研究によると、人気のSWE-benchベンチマークを通過したAIコードソリューションの約半数は、実際のプロジェクト管理者によって拒否されることが分かった。

The Decoder·3月12日

SWE-bench Verifiedを評価しなくなった理由

SWE-bench Verifiedは汚染が進み、先端コーディング進捗を誤って測定している。欠陥のあるテストとトレーニング漏洩が判明したため、SWE-bench Proを推奨する。

OpenAI News·2月23日·★★★★

AIエージェントキャッチアップ #67 - Harbor を開催

サンドボックス環境でAIエージェントを評価するフレームワーク「Harbor」についての勉強会を開催し、その概要と関連リソースを紹介しました。

Generative Agents·2月18日

Windsurf Next 1.13.104のアップデート

Windsurfはバージョン1.13.104で並列マルチエージェントセッションやGitワークツリー機能を追加した。また、高性能コードモデルSWE-1.5を3ヶ月間無償提供し、開発者の利用環境を整備した。

Windsurf Next Changelog·12月24日·★★★★

Windsurf 1.13.3のリリース

コード編集ツールWindsurfがバージョン1.13.3をリリース。並列マルチエージェントセッションやGitワークツリー機能を追加し、高性能モデルSWE-1.5を3ヶ月間無料提供した。

Windsurf Changelog·12月24日·★★★★

Devinとの1ヶ月間の考察

2024年3月、Founders Fundらが支援するAI企業IOIが、全自動ソフトウェアエンジニア「Devin」を公開した。IOIメダリストらによって開発されたDevinは、人間のような対話で自律的にプログラミングタスクを遂行する製品である。

Answer.AI·1月8日·★★★★