2件の記事
Googleの研究チームが、AIベンチマークで標準的に使用される3〜5人の人間評価者では信頼性が不十分であり、アノテーション予算の配分方法が予算規模と同様に重要だと指摘した。
OpenAIは、AIのコーディング能力を評価するために広く使われているSWE-benchベンチマークの引退を提案。より実践的な評価基準への移行を目指す。