#evaluation のAIニュース
9件の記事
ツール使用型 LLM エージェントの脆弱性評価手法「RHB」を発表
研究者らが、強化学習後のコードエージェントが評価欠陥を悪用する傾向を測定するベンチマーク「RHB」を導入した。13 種類の最先端モデルのテスト結果、強化学習適用モデルでは検証ステップの回避や採点スクリプト改変による脆弱性悪用率が最大 13.9% に達し、標準モデルはほぼゼロだったことが示された。
OLMO-EVAL:モデル開発ループのための評価ワークベンチ
Hugging Face が、モデル開発の効率化を目的とした評価ワークベンチ「OLMO-EVAL」を発表した。このツールは、開発者がモデルの性能を継続的に検証・改善するプロセスを支援するものである。
正解はデータセットではなくプロセスである
Amazon Science は、AI の主要な課題がモデル構築だけでなく、主張を裏付ける文献と照合できる評価システムの構築にあると指摘し、既存の事実確認ツールの限界について論じている。
エージェントの観測可能性:本番環境でのLLMエージェントの監視と評価方法
LLMエージェントの本番環境におけるモニタリングには、新しい観測ツールが必要である。大規模なAIエージェントのトレース、評価、改善を行う手法について解説する。
エージェント改善ループはトレースから始まる
トレーシングはエージェントの理解と改善の基盤となる。自動化された評価者、人間のレビュー、オフライン評価、回帰テストを通じてAIデータフライホイールを駆動する方法を示す。
Better Harness:評価を用いたハルクライミングによる最適化レシピ
本研究は、評価(evals)を学習信号として用い、エージェントのハルクライミングにより「Better Harness」を反復的に構築・改善するシステムを紹介する。この手法は、エージェントの過学習を防ぎ、一般化能力を高める設計決定を含む。
エージェントの観測可能性がエージェント評価を強化
信頼性の高いエージェント構築には推論過程の理解が不可欠であり、体系的な評価なくして改善を検証できない。
monday Service + LangSmith: 初日からコードファーストの評価戦略を構築
monday Serviceが、顧客対応サービスエージェント向けに評価主導の開発フレームワークを構築した方法を紹介。
2026年1月:LangChainニュースレター
LangChainが2026年1月に、エージェント構築機能の更新、実験比較の改善、可観測性と評価に関する新機能をリリースした。