#信頼性評価 のAIニュース
2件の記事
トークンで学習、概念で調整:LLMにおける意味的キャリブレーションの出現
研究チームは、大規模言語モデル(LLM)がトークンレベルを超えて回答の意味に対する信頼度を評価できる「意味的キャリブレーション」を発見した。サンプリングベースの手法により、LLMはオープンドメイン質問応答タスクで有意な信頼度推定が可能であることを示した。
Apple Machine Learning·3月24日·★★★★
実践におけるAIエージェントの評価:ベンチマーク、フレームワーク、および得られた教訓
本記事は、実世界環境で動作するAIエージェントを評価する実践的手法を紹介している。著者らは、信頼性、タスク成功率、多段階エージェント行動を測定するために、ベンチマーク、自動評価パイプライン、人間によるレビューを組み合わせる方法を説明している。
InfoQ·3月16日