Artificial Analysis が Ai2 の IFBench 評価指標を採用する理由
Artificial Analysis は、既存のベンチマークが捉えきれない複雑な多段指示への従順性を評価する AI2 の IFBench を採用し、モデルの実用的な能力測定基準を強化した。
キーポイント
IFBench の導入と目的
Artificial Analysis が AI2 のオープンソース評価指標「IFBench」を採用し、複雑で多段階のユーザー指示に対するモデルの信頼性を測定する新たな基準とした。
既存ベンチマークの限界克服
多くの既存ベンチマークが捉え損ねている「頑健な実世界での能力」に焦点を当て、単なる正解率ではなく指示遵守の質を評価する必要性を強調している。
複雑な指示への対応力
モデルが一度に複数の要件や条件付きの指示を正確に実行できるかという、実運用において極めて重要な能力を定量化する手法として IFBench を位置づけている。
影響分析・編集コメントを表示
影響分析
このニュースは、AI モデルの評価基準が単なる知識量や正解率から、実際の業務で求められる複雑な指示遵守能力へとシフトしていることを示唆しています。業界全体において、モデルの実用性を判断する指標の質的転換を促し、開発者やユーザーがより信頼性の高いモデルを選定する際の重要な指針となるでしょう。
編集コメント
モデルの性能評価において、単なる数値スコアだけでなく「指示に従えるか」という実用性が重視される流れは、LLM の産業応用において不可欠な視点です。
2026 年 5 月 11 日
Ai2
有益な AI モデルは、単に妥当な回答を提供するだけでなく、指示を正確に従うものです。これは一見単純に思えますが、実際にはそうではありません。ユーザーは、3 文の要約、カジュアルなトーンでの書き直し、あるいは特定の単語を 1 つ含みつつ別の単語を避けるような回答などを、しばしば同時に求めることがあります。モデルがトピックを理解していても、指示に従うことで失敗することがあります。
NeurIPS 2025 に採択された当社の IFBench ベンチマークは、言語モデルが精密な自然言語の指示をどの程度正確に実行できるかをテストするものです。昨年、独立した AI ベンチマーク機関である Artificial Analysis は、複数の評価を組み合わせてモデルの全体的な能力を測定するスコアである Intelligence Index に IFBench を追加しました。
「開発者がユーザーの指示に従う能力を非常に重視していることがわかりましたので、それを明示的に評価したいと考えました」と、Artificial Analysis の技術スタッフである Declan Jackson は述べています。「IFBench はそのギャップを埋めるために設計されたものであり、最先端モデルにとっても挑戦的なものでした。」
プロンプトへの準拠の測定
IFBench は単に基本的な指示従順性をテストするだけでなく、1 つの回答内で複数のルールへの準拠をモデルに強要します。一部のルールは簡単で、最小単語数や必須キーワードなどです。一方、他のルールはより巧妙です:文長さを一致させる必要があるもの、連続する単語が同じ文字で始まってはいけないもの、あるいは特定のキーワードを正確な位置に配置しなければならないものなどがあります。
「これは、指示の遵守が出力テンプレートや要求された回答構造を通じて間接的にしか捉えられていない多くの他のベンチマークとは異なります」とジャクソンは述べています。
各制約は単独では任意に見えるかもしれませんが、それらを合わせると、よくある状況が反映されています:ユーザーはモデルに一度に複数のことを求めることが多く、一つでも見落とすと回答が台無しになってしまうからです。IFBench を現実世界の用途に基づかせるため、そのプロンプトは研究者がゼロから作成したものではなく、実際のユーザーとの会話から抽出されたものです。
「IFBench は、以前の指示遵守評価よりも現実世界の利用に近い形で指示の遵守を測定します」とジャクソンは述べています。「プロンプトはカジュアルでユーザーらしい言語を使用し、固定されたテンプレートに従うのではなく、幅広いトーンと長さに対応しており、事実的な質問への回答、コンテンツレビューおよび要約、クリエイティブなサポートといった一般的なタスクに焦点を当てています。IFBench のより広範なカバレッジは、指示遵守能力に対する全体的により強力なシグナルにもなります。」
他のベンチマークが見逃す IFBench が示すもの
AI ベンチマークには通常、短い有効期限があります。モデルが上位スコアに達し始めると、システムを区別するための評価としての有用性が失われます。ジャクソンによると、Artificial Analysis のインテリジェンス・インデックスに追加された評価のほとんどは、約 6 ヶ月以内に飽和状態に陥ります。
しかし、IFBench はそうではありません。
「IFBench のスコアは時間とともに改善されていますが、その進捗はモデル間で一様ではなく、新しいフロンティア・モデルでも必ずしも良好なパフォーマンスを示すとは限りません」とジャクソンは述べています。
これにはいくつかの理由があります。
まず、複雑な指示従順性は、多くのラボが現在積極的に訓練している機能とあまり重ならないとジャクソンは述べています。コーディングやツール使用については、そこでの進歩が他のタスクやベンチマークに一般化されやすい傾向があるため、トレーニング後の投資が重点的に行われます。一方、指示従順性は範囲が狭く、これらの分野における進展の副産物として改善されることはめったにありません。
2 つ目の理由は、IFBench が測定する対象の広範さです。その幅広い制約とプロンプトセットにより、よりターゲットを絞ったドメインや機能評価と比較して進歩は緩やかであり、ラボでは集中的なトレーニング後のレシピで少しずつ改善を図ることができます。
これは数値にも表れています。ジャクソンによると、IFBench のスコアはモデルファミリーごとに明確にクラスター化しており、そのランキングは Artificial Analysis が提供するより広範なインテリジェンス指数とは一致しません。
xAI は依然として IFBench で首位を維持しており、Grok 4.20 (0309, Reasoning) が 82.9% のスコアでトップの座にあり、Grok 4.3 も 81.3% と僅差で続いています。最近の Google モデルも好成績を収めています:Gemini 3 Flash Preview (Reasoning) は 78.0% に達し、Gemini 3.1 Flash-Lite Preview と Gemini 3.1 Pro Preview はそれぞれ 77.2% と 77.1% を記録しています。OpenAI の GPT-5.5 (xhigh) と GPT-5.4 (xhigh) は続きで、それぞれ 75.9% と 73.9% です。主要な Claude モデルは IFBench ではやや低い位置にクラスターしており、Claude Opus 4.7、Claude Sonnet 4.6、Claude 4.5 Haiku のスコアは 54.3% から 58.6% の範囲にあります。これは、Claude Opus 4.7 が知能指数 (Intelligence Index) では GPT-5.5 (xhigh) の 60 に次いで 57 ポイントで上位にランクインし、Gemini 3.1 Pro Preview や GPT-5.4 (xhigh) と実質的に同点(どちらも 57)であるにもかかわらずです。
真にオープンな評価アプローチ
IFBench が Artificial Analysis にとって有用なのは、2 つの理由によるものです。それは、何を測定しているかという点と、私たちがこれを公開したという事実です。
オープン化により、Jackson のチームは評価を忠実に実装し、幅広いモデル範囲で実行して、ユーザーが依存するリーダーボードにフィードバックすることができます。また、誰しもが何が、なぜ測定されているのかを見ることができるため、ベンチマーク自体の理解も容易になります。
Artificial Analysis にとって、IFBench はほぼすべての AI インタラクションで発生する事象をテストします。つまり、モデルがユーザーの要求を追跡できるかどうか、特に要求に多くの要素が含まれている場合です。これは現在、Artificial Analysis の評価における恒久的な一部であり、Ai2 のオープンベンチが分野にもたらすものの強力な例となっています。
「評価だけでなく、Ai2 はオープンソースの重要なリーダーでもあります」とジャクソンは述べています。「同社の取り組みは、オープンな研究を通じて業界を前進させるだけでなく、データや手法に関する透明性を保ちながら、ユーザーが研究成果物にアクセスできる機会も提供しています。」
最新の Ai2 ニュースに関する月次更新を受け取るには、購読してください。
原文を表示
May 11, 2026
Ai2
A helpful AI model does more than give a plausible answer—it follows instructions exactly. That sounds simple, but it isn't. A user might ask for a three-sentence summary, a rewrite in a casual tone, or an answer that includes one word and avoids another—often all at once. A model can understand the topic and still get it wrong.
Accepted to NeurIPS 2025, ourIFBench benchmark tests how well language models follow precise natural-language instructions. Last year, Artificial Analysis – an independent AI benchmarking organization – added IFBench to its Intelligence Index, which combines several evaluations into a single score to measure a model’s overall capability.
"We saw that a model's ability to follow user instructions was something developers cared a lot about, so we wanted to assess it explicitly,” says Declan Jackson, a member of the technical staff at Artificial Analysis. “IFBench was designed to fill that gap and was challenging even for the frontier models."
Measuring adherence to a prompt
IFBench doesn't just test basic instruction following—it forces a model to adhere to several rules in a single response. Some are easy, like minimum word counts or required keywords. Others are trickier: sentences that have to match in length, words in a row can't start with the same letter, or a keyword has to land in an exact spot.
"That is different from many other benchmarks, where instruction following is captured only indirectly through output templates or requested answer structures," says Jackson.
Each constraint might seem arbitrary on its own, but together they reflect a familiar situation: users often ask a model for several things at once, and missing even one can ruin the answer. To ground IFBench in real-world use, its prompts are pulled from real user conversations—not written from scratch by researchers.
"IFBench measures instruction following in a way that feels closer to real-world use than earlier instruction following evals,” says Jackson. “The prompts use casual, user-like language, cover a wide range of tones and lengths rather than following a fixed template, and focus on common tasks such as factual question answering, content review and summarization, and creative support. IFBench’s wider coverage also makes it … a stronger overall signal of instruction-following ability."
What IFBench shows that other benchmarks miss
AI benchmarks usually have a short shelf life. Once models start scoring near the top, the evals stop being useful for telling systems apart. Most evaluations added to Artificial Analysis's Intelligence Index saturate within about six months, according to Jackson.
But IFBench hasn't.
"While IFBench scores have improved over time, that progress has not been uniform across models, and new frontier models still do not always perform well on it,” says Jackson.
There are a couple of reasons for this.
The first is that complex instruction following doesn't have much overlap with the capabilities most labs are actively training for, says Jackson. Coding and tool use get heavy post-training investment because gains there tend to generalize across other tasks and benchmarks. Instruction following is narrower, and it rarely improves as a byproduct of progress in those areas.
The second reason is the sheer breadth of what IFBench measures. Its wide set of constraints and prompts means progress has been slower relative to more targeted domain or capability evaluations, which labs can chip away at with focused post-training recipes.
This shows up in the numbers. IFBench scores cluster sharply by model family, says Jackson, and the rankings don't line up with Artificial Analysis's broader Intelligence Index.
xAI still leads IFBench, with Grok 4.20 (0309, Reasoning) taking the top spot at 82.9% and Grok 4.3 close behind at 81.3%. Recent Google models also score well: Gemini 3 Flash Preview (Reasoning) reaches 78.0%, while Gemini 3.1 Flash-Lite Preview and Gemini 3.1 Pro Preview land at 77.2% and 77.1%, respectively. OpenAI’s GPT-5.5 (xhigh) and GPT-5.4 (xhigh) follow at 75.9% and 73.9%. The leading Claude models cluster lower on IFBench, with Claude Opus 4.7, Claude Sonnet 4.6, and Claude 4.5 Haiku scoring between 54.3% and 58.6%—even though Claude Opus 4.7 ranks near the top of the Intelligence Index at 57 points, behind GPT-5.5 (xhigh) at 60 and effectively tied with Gemini 3.1 Pro Preview and GPT-5.4 (xhigh)—which also score 57.
A truly open approach to evals
IFBench is useful to Artificial Analysis for two reasons: what it measures, and the fact that we released it openly.
Openness lets Jackson's team implement the evaluation faithfully and run it across a wide range of models, feeding the leaderboards their users rely on. It also makes the benchmark itself easier to understand, since anyone can see what's being measured and why.
For Artificial Analysis, IFBench tests something that comes up in nearly every AI interaction: whether a model can keep track of what a user is asking, especially when the request has a lot going on. It's a regular part of Artificial Analysis’ evaluations now, and a strong example of what Ai2's open benchmarks bring to the field.
"Beyond evaluations, Ai2 is an important leader in open source," says Jackson. "Their work not only helps advance the industry through open research, but also gives users access to research artifacts with transparency around data and methodology.”
Subscribe to receive monthly updates about the latest Ai2 news.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み