#agent evaluation のAIニュース

7件の記事

マイクロソフト、テキスト記述から AI の動作テストを構築できる新ツールを発表

マイクロソフトは開発者がテキスト記述を用いて AI の動作テストを迅速に構築・実行できる新しいツールの提供を開始した。

TechCrunch AI·6月3日·★★★★

法務エージェント向けの効率的な検証器の設計

LangChain が、法務分野のエージェントが出力する結果の信頼性を高めるための効率的な検証器の設計手法を公開した。

LangChain Blog·6月3日·★★★★

Agent Judge：生産環境向けエージェントの長期コンテキスト評価を解決（10 分読了）

TLDR AI が紹介する「Agent Judge」は、検索・検証・適応に焦点を当て、従来の LLM 判定器が苦手とする長期コンテキストや状態保持アクションの評価精度と一貫性を向上させる手法です。

TLDR AI·5月29日·★★★★

Amazon Bedrock AgentCore のデータセット管理機能を活用し、エージェントの成長に合わせて拡張可能なテストスイートを構築する方法

AWS は Amazon Bedrock AgentCore の新機能として、バージョン管理されたテストケースをデータセットとして管理する機能を公開した。これにより、オンライン信号とオフライン基準を組み合わせた評価が可能となり、エージェントの時間経過に伴う改善を正確に把握できる。

AWS Machine Learning Blog·5月29日·★★★★

DeepSWE：長期的なソフトウェア工学のための新ベンチマーク

DeepSWE は、91 のリポジトリと 5 つの言語にまたがる長期的なソフトウェア工学タスクを対象とした新しいベンチマークです。この手法は、モデルが事前に解決策を見ていないことを保証し、汚染のない課題、現実世界の複雑さの反映、多様なリポジトリのカバー、信頼性の高い検証プロセスという 4 つの主要な改善点を提供します。

TLDR AI·5月27日·★★★★

エージェント評価：詳細ガイド（53 分読了）

LLM の評価は静的ベンチマークから動的な実世界のエージェントシステムへ移行しており、複雑な環境で長時間動作する現実的なハーンズによる厳格な成果指向の評価が重要となっている。

TLDR AI·5月19日·★★★★

ProgramBench：ソースコードなしでソフトウェアを再現するエージェント評価ベンチマーク

ProgramBench は、ドキュメントと実験のみを用いてソースコードなしでソフトウェア実行ファイルを再構築する課題を提供し、200 のタスクにわたる 248,000 以上の動作テストを通じて、外部支援や逆コンパイルを排除した環境でのソフトウェア設計・実装能力を評価します。

TLDR AI·5月7日·★★★★