メインコンテンツへスキップ

#評価手法 のAIニュース

6件の記事

Deep Agentsの評価手法の構築方法

LangChain社が、Deep Agentsの評価指標を構築する方法を説明している。同社は、エージェントの行動を直接測定する評価データの収集、指標作成、対象を絞った実験を通じて、エージェントの精度と信頼性を向上させている。

LangChain Blog·3月27日

ARC-AGI-3、未訓練人間と同等のAIに200万ドル提供も、最先端モデルは全て1%未満のスコア

ARC-AGI-3は、人間が簡単に解決する対話型ゲーム環境でAIを評価する新ベンチマークを発表し、AIの最大の利点を排除したため、最先端モデルは全て1%未満のスコアしか達成できなかった。

The Decoder·3月26日·★★★★

実践におけるAIエージェントの評価:ベンチマーク、フレームワーク、および得られた教訓

本記事は、実世界環境で動作するAIエージェントを評価する実践的手法を紹介している。著者らは、信頼性、タスク成功率、多段階エージェント行動を測定するために、ベンチマーク、自動評価パイプライン、人間によるレビューを組み合わせる方法を説明している。

InfoQ·3月16日

スキル評価

LangChain社が、CodexやClaude Codeなどのコーディングエージェント向けに、LangChain/LangSmithエコシステムで動作するスキルを構築している。スキル構築の重要な部分は、実際に機能することを確認する評価プロセスである。

LangChain Blog·3月6日

AIエージェントの評価を解明する

AIエージェントの有用性を評価する難しさと、複雑なシステムに対応するための評価戦略について説明しています。

Anthropic Engineering·1月9日·★★★★

LLMにおける公平性を観察可能・定量化可能・管理可能にする

研究者Weijie Xuらが、FiSCoという新しい評価パイプラインを開発した。このパイプラインは大規模言語モデル(LLM)に潜むバイアスを明らかにし、モデルの進化に合わせて評価枠組みを更新する。

Amazon Science·11月21日·★★★★