1件の記事
研究チームは、大規模言語モデル(LLM)がトークンレベルを超えて回答の意味に対する信頼度を評価できる「意味的キャリブレーション」を発見した。サンプリングベースの手法により、LLMはオープンドメイン質問応答タスクで有意な信頼度推定が可能であることを示した。