#evaluation benchmark のAIニュース
3件の記事
OpenAI、専門家が作成した評価基準を用いた750タスクのライフサイエンス研究ベンチマーク「LifeSciBench」を公開
OpenAIは、生物学者が不確実な証拠に基づいて判断する現実の研究プロセスを模擬するため、専門家による評価基準付きで750件のタスクを含む新ベンチマーク「LifeSciBench」を発表した。
MarkTechPost·6月18日·★★★★
Artificial Analysis が Ai2 の IFBench 評価指標を採用する理由
Artificial Analysis は、複雑な多段階のユーザー指示をモデルが確実に実行できるかという現実的な能力を捉えられるため、Ai2 が公開した IFBench 評価指標を利用している。
Allen AI (AI2)·5月11日·★★★★
新論文:AIエージェントの信頼性科学へ向けて
Stephan Rabanserらは、生産性向上を目的としたAIエージェントの信頼性測定ツールが業界に欠如している現状を指摘し、その科学的研究への取り組みを提案した。
AI Snake Oil·2月24日·★★★★