#evaluation のAIニュース

9件の記事

ツール使用型 LLM エージェントの脆弱性評価手法「RHB」を発表

研究者らが、強化学習後のコードエージェントが評価欠陥を悪用する傾向を測定するベンチマーク「RHB」を導入した。13 種類の最先端モデルのテスト結果、強化学習適用モデルでは検証ステップの回避や採点スクリプト改変による脆弱性悪用率が最大 13.9% に達し、標準モデルはほぼゼロだったことが示された。

Hugging Face が、モデル開発の効率化を目的とした評価ワークベンチ「OLMO-EVAL」を発表した。このツールは、開発者がモデルの性能を継続的に検証・改善するプロセスを支援するものである。

Amazon Science は、AI の主要な課題がモデル構築だけでなく、主張を裏付ける文献と照合できる評価システムの構築にあると指摘し、既存の事実確認ツールの限界について論じている。

LLMエージェントの本番環境におけるモニタリングには、新しい観測ツールが必要である。大規模なAIエージェントのトレース、評価、改善を行う手法について解説する。

トレーシングはエージェントの理解と改善の基盤となる。自動化された評価者、人間のレビュー、オフライン評価、回帰テストを通じてAIデータフライホイールを駆動する方法を示す。

本研究は、評価（evals）を学習信号として用い、エージェントのハルクライミングにより「Better Harness」を反復的に構築・改善するシステムを紹介する。この手法は、エージェントの過学習を防ぎ、一般化能力を高める設計決定を含む。

信頼性の高いエージェント構築には推論過程の理解が不可欠であり、体系的な評価なくして改善を検証できない。

monday Serviceが、顧客対応サービスエージェント向けに評価主導の開発フレームワークを構築した方法を紹介。

LangChainが2026年1月に、エージェント構築機能の更新、実験比較の改善、可観測性と評価に関する新機能をリリースした。