#人間評価のAIニュース

4件の記事

Googleの研究が発見：AIベンチマークは人間の意見の相違を体系的に無視している

Googleの研究チームが、AIベンチマークで標準的に使用される3〜5人の人間評価者では信頼性が不十分であり、アノテーション予算の配分方法が予算規模と同様に重要だと指摘した。

TikTokが検索結果に影響を与えている状況について、研究者が大規模な人間評価を実施し、ユーザーがクエリとTikTok動画のペアを評価した結果を分析した。

Hugging Faceが1760億パラメータの多言語大規模言語モデルBLOOMを発表し、7つの実世界カテゴリーで人間による評価を実施して他の最先端LLMとの比較を行った。

ゲイリー・マーカスが指摘するAIのミスは、本当の失敗か創造性の兆候か。15人の人間が同じ課題に挑戦し、GPT-3の「失敗」との比較を試みた。