1件の記事
研究者らは、従来のベンチマークが飽和・主観性・汎化性の問題を抱えると指摘し、モデルの能動的情報獲得能力を評価する「インタラクティブ・ベンチマーク」を提案した。この枠組みは予算制約下での対話的推論能力を測定する。