#instruction following のAIニュース
2件の記事
Artificial Analysis が Ai2 の IFBench 評価指標を採用する理由
Artificial Analysis は、複雑な多段階のユーザー指示をモデルが確実に実行できるかという現実的な能力を捉えられるため、Ai2 が公開した IFBench 評価指標を利用している。
Allen AI (AI2)·5月11日·★★★★
本物のAIエージェントと実際の業務
OpenAIは、金融や法務などの専門家が設計した4〜7時間かかる実務タスクでAIを評価する新テストを発表。これにより、AIが経済的に意味のある「実際の業務」を遂行できる段階に達したことが示された。
One Useful Thing·9月30日·★★★★