#人間評価 のAIニュース
4件の記事
Googleの研究が発見:AIベンチマークは人間の意見の相違を体系的に無視している
Googleの研究チームが、AIベンチマークで標準的に使用される3〜5人の人間評価者では信頼性が不十分であり、アノテーション予算の配分方法が予算規模と同様に重要だと指摘した。
The Decoder·4月5日
TikTokが次世代の検索をどのように進化させているか
TikTokが検索結果に影響を与えている状況について、研究者が大規模な人間評価を実施し、ユーザーがクエリとTikTok動画のペアを評価した結果を分析した。
Surge AI Blog·10月25日
大規模言語モデルの人間評価:Hugging FaceのBLOOMはどれほど優れているか?
Hugging Faceが1760億パラメータの多言語大規模言語モデルBLOOMを発表し、7つの実世界カテゴリーで人間による評価を実施して他の最先端LLMとの比較を行った。
Surge AI Blog·7月19日·★★★★
人間 vs ゲイリー・マーカス vs スレート・スター・コーデックス:AIの失敗は本当に失敗なのか?
ゲイリー・マーカスが指摘するAIのミスは、本当の失敗か創造性の兆候か。15人の人間が同じ課題に挑戦し、GPT-3の「失敗」との比較を試みた。
Surge AI Blog·6月22日