OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proの評価と解釈[2025年4月版]
Algomatic Tech Blog は、2025 年 4 月時点での OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Pro の主要ベンチマークスコアを比較分析し、各モデルの専門性や推論能力の実態を解説している。
キーポイント
高度な専門知識と推論力の評価基準
GPQA diamond や Humanity's Last Exam といった難易度の高いベンチマークを用いて、モデルの科学分野における推論力や限界認識能力(キャリブレーション)を詳細に分析している。
数学的推論とマルチモーダル能力の比較
AIME 2024/2025 や MMMU を通じて、各モデルの数学的問題解決能力や画像・テキスト統合処理における性能差を明確に示している。
コーディングと実務適用能力の検証
SWE-bench Verified や Aider polyglot などのデータセットを用いて、実際のソフトウェア開発タスクや多言語コード生成におけるモデルの実用性を評価している。
ベンチマークスコアに基づくモデル選定の指針
すべてのシナリオで試すことが現実的でない中、共通データセットの成績をベースラインとして利用し、課題や環境に応じた最適なモデル選択を促している。
ベンチマークごとの性能解釈の違い
論理的推論ではo3とGemini 2.5 Proが優位だが、コーディングタスクではo3が最上位となり、ツール利用型タスク(TAU-bench)ではClaude 3.7 Sonnetが相対的に高い評価を得ている。
実務におけるロングコンテキストの重要性
SWE-bench Verifiedなどの既存スコアは単発タスクに偏っており、モノレポなど長文コンテキストを要する実務ではLongBench v2などの結果や独自計測を組み合わせて評価する必要がある。
ベンチマークデータの限界と条件
SWE-bench Verifiedでも依存ライブラリやOSの違いによりテストがパスしないケースがあり、スコア解釈には「scaffolding(事前準備)の有無」を確認することが不可欠である。
影響分析・編集コメントを表示
影響分析
本記事は、次々と登場する最新 LLM の性能を客観的なデータに基づき整理しており、開発者や企業選定担当者が複雑なモデル選択を行う際の重要な判断材料となる。特に「キャリブレーションエラー」や「専門家のスコアとの差」に言及している点は、AI 導入における過信を防ぎ、現実的な期待値管理を促す意義が大きい。
編集コメント
最新モデルの比較記事は数多くありますが、本稿は「キャリブレーション」や「専門家のスコアとの乖離」といった深い洞察を含んでおり、単なる性能羅列を超えた価値があります。

こんにちは。Algomatic AI Transformation(AX) の sergicalsix(@sergicalsix)です。
最近、OpenAI の o3, o4-mini、Anthropic の Claude 3.7 Sonnet、Google の Gemini 2.5 Pro や Gemini 2.5 Flash など、次々と新しい大規模言語モデル(LLM: Large Language Model)が登場しました。あまりのスピードに、最新動向を追い切れず困っている方も多いのではないでしょうか。
モデルを選ぶ際は、実際に触ってみた使用感や解きたい課題・利用環境を重視するのが理想です。しかし、すべてのモデルをあらゆるシナリオで試すのは現実的に難しいです。
そこで役立つのが公開ベンチマークのスコアです。自分で全モデルを試せなくても、共通データセットで測った成績をベースラインとして押さえておけば、おおまかな実力を比較できます。
本記事では OpenAI から o3, o4-mini、Claude からは Claude 3.7 Sonnet、Google から Gemini 2.5 Pro で報告されているベンチマークの結果を整理し、結果から言えることや解釈などをまとめたいと思います。
余談ですが、関連記事として昨年 Algomatic NEO(x) の宮脇(@catshun_)さんが「Claude 3.5 Sonnet の評価に関する備忘録」という記事をまとめられています。合わせてご確認ください。
tech.algomatic.jp
解釈や引用に誤りがありましたらご指摘いただけると幸いです。
本記事では詳細な解説を含みません。詳細な調査等は必ず参照元の論文等をご確認ください。
プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。
本記事の作成では一部 LLM を活用しています。
今回は OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Pro のベンチマークのスコアを見ていきます。
取り扱うベンチマークは OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Pro それぞれの報告で 2 つ以上共通で紹介されている以下のデータセットとします。
GPQA diamond(Rein et al., 2023)
AIME 2024, AIME 2025(Mathematical Association of America)
MMMU(Yue et al., 2024)
Humanity's Last Exam(Phan et al., 2025)
SWE-bench Verified(OpenAI, 2024)
Aider polyglot(Aider, 2024)
TAU-bench(Yau et al., 2024)
まずはベンチマークデータセットそれぞれについて簡単にまとめます。
GPQA diamond(Rein et al., 2023)
GPQA (Graduate-Level Google-Proof Q&A) は、生物学・物理学・化学の分野で大学院レベルの難解な質問を集めた Q&A ベンチマークです。
全問題は専門家が作成した多肢選択式の質問であり、高度な専門知識と推論力が要求されます。インターネット上に公開された答えがない「Google-proof」な問題が多く、モデルの科学分野における推論力や専門知識の応用力を測定できます。人間の専門家でも正解率 65% 程度(明確なミスを除けば 74%)、専門家でない人間が Web 検索を活用したとしても正答率は 34% 程度に留まり、容易には解けない難易度となっています。
2025 年 4 月現在では人の専門家の最高スコア>LLM の最高スコアとなっています。
AIME 2024, AIME 2025(Mathematical Association of America)
AIME 2024, AIME 2025 は American Invitational Mathematics Examination(米国招待数学試験)の問題を収集したベンチマークデータセットです。AIME は米国の高校生向け数学競技試験であり、その問題は非常に難度が高いことで知られています。AIME は LLM の数学的推論力と問題解決能力を評価することを目的とします。
MMMU(Yue et al., 2024)
MMMU(Massive Multimodal Multidiscipline Understanding)は、テキストと画像が混在する大学レベルの問題を多数集め、マルチモーダルな知識理解と推論力を包括的に評価するベンチマークです。
MMMU の目的は、視覚情報とテキストの統合処理能力や専門知識に基づいて推論するという高度な知能を測ることにあります。
MMMU の具体例
mmmu-benchmark.github.io
また余談ですが、直近で日本語版の MMMU である JMMMU(Onohara et al., 2025) が発表されています。
Humanity's Last Exam(Phan et al., 2025)
Humanity’s Last Exam (HLE) は、人類の知識や能力のフロンティアを問う一問一答形式のベンチマークデータセットです。数学・人文・自然科学など対象範囲は多岐に渡ります。2025 年 4 月現在で最も難しいベンチマークデータセットの一つであり、LLM の精度が飽和気味である GPQA や AIME などとは対照的に LLM のスコアに大きな伸び代があります。
Humanity's Last Exam の具体例
Humanity’s Last Exam は精度 (Accuracy) とキャリブレーションエラーで評価されます。キャリブレーションエラーとは、モデルが出力した各回答に対する「正解の確信度(Confidence, 0%~100%)」と実際の正答率とのズレで計算されます。キャリブレーションエラーが大きいほど、モデルが自らの限界を正しく認識できずに誤った情報を出力してしまうリスクが上がります。
Humanity's Last Exam の最新リーダーボードは以下です。
SWE-bench Verified(OpenAI, 2024)
SWE-bench Verified は 2024 年に OpenAI が提案したベンチマークデータセットであり、主にコーディング能力を確かめるために使われています。2025 年 4 月現在では「ソフトウェアエンジニアリングにおける AI 能力」を測る代表的指標として広く認知されています。
データセットは Python プロジェクトから収集した Issue とそれを解決した Pull Request のペアで構成されており、ユニットテストが解決するかどうかで正否が判定されます。
SWE-bench の概要
SWE-bench Verified は SWE-bench (E. Jimenez et al., 2023) の改良版であり、SWE-bench のデータ 2,294 件から解決可能と判断された 500 件で構成されてます。ただ SWE-bench Verified ですら一部のテストは依存ライブラリのバージョンや OS 差異でそもそもパスしない場合があると主張*1されていることもあり、報告されているスコアが scaffolding (足場構築) ありかなしかを確認する必要があります。
SWE-bench の最新リーダーボードは以下です。*2
www.swebench.com
Aider polyglot(Aider, 2024)
Aider polyglot はコード編集タスクのベンチマークで、複数のプログラミング言語 (C++、Go、Java、JavaScript、Python、Rust) の課題に対するモデルの対応力を評価します。既存のコードベースに対して指示どおりの変更を加え、テストを通過するコードを作れるかを試すものです。
モデルには指示に対する理解力の他、コードの文脈理解、言語仕様の知識、さらにバグを検出し修正する反復的な思考力・対応力が求められます。また SWE-bench と異なり、複数プログラミング言語に対応するため、各言語特有の構文・標準ライブラリを使い分けるマルチリンガルなコーディング能力も試されています。*3
Aider polyglot の評価形式には、コード全体を書き換える whole 形式と特定の箇所のみに変更を加える diff 形式があり、多くのモデルにおいて whole 形式の方が精度が高い傾向があります。*4
Aider polyglot の最新リーダーボードは以下です。
TAU-bench(Yau et al., 2024)
TAU-bench は現実世界のユーザ (User) と AI エージェント (Agent) の対話をシミュレートし、ツール (Tool) 使用を伴う複雑なタスク達成能力を評価するデータセットです。TAU はツール (Tool)、エージェント (Agent)、ユーザ (User) も頭文字から取られています。
TAU-bench には航空券予約の変更等の Airline タスクや小売サイトでの注文キャンセルなどの Retail タスクといった実務的な対話タスクが含まれています。
TAU-bench の概要
エージェントはデータベース、各種 API にアクセスすることでタスクを遂行します。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等)は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "翻訳全文"}
TAU-bench のタスク遂行のためのセットアップ
ベンチマークデータセットのスコアと解釈
OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Pro のベンチマークデータセットのスコアは以下の通りです。
表 1: 各モデルのベンチマークスコア
Claude 3.7 Sonnet
Humanity's Last Exam
SWE-bench Verified
without scaffold
TAU-bench (Retail)
TAU-bench (Airline)
注:TAU-bench を除き、ツール未使用の結果を採用しています。それぞれの数値は OpenAI、Anthropic、Google 公式から引用しています。一部の Web サイトで報告されている数値とは異なります。
モデルを比較すると、論理的な推論能力(logical reasoning capability)については、GPQA diamond、AIME、Humanity's Last Exam の結果から「o3 ≒ Gemini 2.5 Pro > Claude 3.7 Sonnet」と解釈できます。この文脈をコーディングタスクまで拡張すると、SWE-bench Verified と Aider polyglot の結果から性能は「o3 > Gemini 2.5 Pro > Claude 3.7 Sonnet」と解釈できます。
また、エージェンティックなツール利用(agent-based tool usage)という観点だと、TAU-bench の結果から性能は「Claude 3.7 Sonnet > o3」と解釈できます。
上記の解釈はベンチマークスコアから読み取れる解釈の一つですが、次にもう少し実践的なレベルで解釈を加えたいと思います。
例えばコーディングについては、大量のコードをプロンプトに入力する必要がある場合があります。例えばモノレポ構成(monorepo structure)で機能開発を行う場合は、フロントエンドとバックエンドのコードの両方をプロンプトに入れる必要があります。
このようにプロンプトが長くなった際の性能は、上記のベンチマークで厳密に測ることができないため、①ロングコンテキストのベンチマークのスコアと SWE-bench Verified の結果を組み合わせるか、②ロングコンテキスト×コーディングのベンチマークデータセットを探してスコアを見るか、あるいはスコアを測定する必要があります。
コーディングはある程度複雑なタスクなので、単純な Needle In A Haystack (Machlab and Battle, 2024) ではなく、ロングコンテキストの横断的な理解が必要な LongBench v2 (Bai et al,. 2025) などの結果を参考にすると良いかなと思います。
そして SWE-bench Verified などの結果と組み合わせて解釈することで、より実務に近い(ここではロングコンテキストに対応した)コーディング性能が確認できます。(一方で LongBench v2 のリーダーボードには上記 3 モデルの結果はないため、各自で計測する必要があります。。)
また他のデータセットに比べて相対的に信憑性は高くないものの、小説の理解度を測るFiction.LiveBench(Fiction.live, 2025)の結果によれば、120kまでのコンテキスト長における性能はo3 > Gemini 2.5 Pro > Claude 3.7 Sonnetの順で高いです。
データセットの信憑性から、あくまで参考値ですが先ほどの結果と合わせて120kまでのコーディングの性能は、o3 > Gemini 2.5 Pro > Claude 3.7 Sonnetと解釈できます。*5
このように公式で発表されているベンチマークの結果よりも一歩踏み込んで解釈を行いたい場合は、複数のベンチマークの結果を組み合わせて解釈すると良いかなと思います。一方でベンチマークスコアの信憑性については注意深く確認する必要があります。
また200kを超えるコンテキストをプロンプトに入れる場合は、そもそもコンテキストウィンドウの観点からGemini 2.5 Proしか取り扱うことができないため、モデルの基礎スペックを合わせて確認することが大切です。
表2: 各モデルのコンテキスト長
Claude 3.7 Sonnet
さらに別の観点でコーディングタスクについて(a)ブラウザでの画面表示を確認する(b)コマンドを打つといった、ある種ツールを使う部分までをエージェントに任せたいと思った場合はSWE-bench VerifiedとAider polyglotの他に、ツール使用というTAU-benchの結果も無視できなくなるため、現状どのモデルが優れているかは、スコアだけでは判別しにくくなります。
このように任せたいタスクの種類や定義によって解釈の結果が異なるため、注意が必要です。
OpenAI o3, Claude 3.7 Sonnet , Gemini 2.5 Proの評価と解釈と題して、2025年現在よく使われているベンチマークセットの紹介と結果を整理し、解釈をまとめました。
冒頭でも述べた通り、実際にモデルを使ってみた結果が最も有効であるものの、ベースラインとしてベンチマークデータセットの結果も確認すると良いのかなと思います。
Algomaticではあらゆる領域で生成AIネイティブな事業を生み出すために多様なスキルを持った仲間を探しています。
recruiting.algomatic.jp
特に私が所属がしているAI Transformation(AX)カンパニーでは「AXで世界における日本のプレゼンスを高める」ことをミッションに生成AIを中心とした最新技術を取り扱っています。
ご興味がある方、カジュアル面談でお待ちしております!
jobs.algomatic.jp
*1:https://www.anthropic.com/news/claude-3-7-sonnet
*2:SWE-bench Verifiedの他にも、SWE-benchの軽量版のSWE-bench Liteやマルチモーダル対応されたSWE-bench Multimodalの結果も確認できます。
*3:厳密に記述するとSWE-benchに関しては、複数のプログラミング言語に対応したMulti-SWE-bench(Zan et al,. 2025)が提案されています。
*4:一方でGPT-4.1はdiffの方が精度が高いです。 https://openai.com/index/gpt-4-1/
*5:Fiction.LiveBench はデータセットとその評価方法が公開されていないため、相対的に信憑性は低いです。
原文を表示

こんにちは。Algomatic AI Transformation(AX) のsergicalsix(@sergicalsix)です。
最近OpenAI の o3, o4-mini、Anthropic の Claude 3.7 Sonnet、Google の Gemini 2.5 Pro や Gemini 2.5 Flash など、次々と新しい大規模言語モデル(LLM)が登場しました。あまりのスピードに、最新動向を追い切れず困っている方も多いのではないでしょうか。
モデルを選ぶ際は、実際に触ってみた使用感や解きたい課題・利用環境を重視するのが理想です。しかし、すべてのモデルをあらゆるシナリオで試すのは現実的に難しいです。
そこで役立つのが公開ベンチマークのスコアです。自分で全モデルを試せなくても、共通データセットで測った成績をベースラインとして押さえておけば、おおまかな実力を比較できます。
本記事ではOpenAIからo3, o4-mini、ClaudeからはClaude 3.7 Sonnet、GoogleからGemini 2.5 Proで報告されているベンチマークの結果を整理し、結果から言えることや解釈などをまとめたいと思います。
余談ですが、関連記事として昨年Algomatic NEO(x) の宮脇(@catshun_)さんが「Claude 3.5 Sonnet の評価に関する備忘録」という記事をまとめられています。合わせてご確認ください。
tech.algomatic.jp
解釈や引用に誤りがありましたらご指摘いただけると幸いです。
本記事では詳細な解説を含みません。詳細な調査等は必ず参照元の論文等をご確認ください。
プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。
本記事の作成では一部 LLM を活用しています。
今回はOpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proのベンチマークのスコアを見ていきます。
取り扱うベンチマークはOpenAI o3、 Claude 3.7 Sonnet、Gemini 2.5 Proそれぞれの報告で2つ以上共通で紹介されている以下のデータセットとします。
GPQA diamond(Rein et al., 2023)
AIME 2024, AIME 2025(Mathematical Association of America)
MMMU(Yue et al., 2024)
Humanity's Last Exam(Phan et al., 2025)
SWE-bench Verified(OpenAI, 2024)
Aider polyglot(Aider, 2024)
TAU-bench(Yau et al., 2024)
まずはベンチマークデータセットそれぞれについて簡単にまとめます。
GPQA diamond(Rein et al., 2023)
GPQA (Graduate-Level Google-Proof Q&A) は、生物学・物理学・化学の分野で大学院レベルの難解な質問を集めたQ&Aベンチマークです。
全問題は専門家が作成した多肢選択式の質問であり、高度な専門知識と推論力が要求されます。 インターネット上に公開された答えがない「Google-proof」な問題が多く、モデルの科学分野における推論力や専門知識の応用力を測定できます。 人間の専門家でも正解率65%程度(明確なミスを除けば74%)、専門家でない人間がWeb検索を活用したとしても正答率は34%程度に留まり、容易には解けない難易度となっています。
2025年4月現在では人の専門家の最高スコア>LLMの最高スコアとなっています。
AIME 2024, AIME 2025(Mathematical Association of America)
AIME 2024, AIME 2025はAmerican Invitational Mathematics Examinationの問題を収集したベンチマークデータセットです。AIMEは米国の高校生向け数学競技試験であり、その問題は非常に難度が高いことで知られています。AIMEはLLMの数学的推論力と問題解決能力を評価を目的とします。
MMMU(Yue et al., 2024)
MMMU(Massive Multimodal Multidiscipline Understanding)は、テキストと画像が混在する大学レベルの問題を多数集め、マルチモーダルな知識理解と推論力を包括的に評価するベンチマークです。
MMMUの目的は、視覚情報とテキストの統合処理能力や専門知識に基づいて推論するという高度な知能を測ることにあります。
MMMUの具体例
mmmu-benchmark.github.io
また余談ですが、直近で日本語版のMMMUであるJMMMU(Onohara et al., 2025)が発表されています。
Humanity's Last Exam(Phan et al., 2025)
Humanity’s Last Exam (HLE) は、人類の知識や能力のフロンティアを問う一問一答形式のベンチマークデータセットです。数学・人文・自然科学など対象範囲は多岐に渡ります。 2025年4月現在で最も難しいベンチマークデータセットの一つであり、LLMの精度が飽和気味であるGPQAやAIMEなどとは対照的にLLMのスコアに大きな伸び代があります。
Humanity's Last Examの具体例
Humanity’s Last Examは精度(Accuracy)とキャリブレーションエラーで評価されます。キャリブレーションエラーとは、モデルが出力した各回答に対する「正解の確信度(Confidence, 0%~100%)」と実際の正答率とのズレで計算されます。 キャリブレーションエラーが大きいほど、モデルが自らの限界を正しく認識できずに誤った情報を出力してしまうリスクが上がります。
Humanity's Last Examの最新リーダーボードは以下です。
SWE-bench Verified(OpenAI, 2024)
SWE-bench Verifiedは2024年にOpenAIが提案したベンチマークデータセットであり、主にコーディング能力を確かめるために使われています。 2025年4月現在では「ソフトウェアエンジニアリングにおけるAI能力」を測る代表的指標として広く認知されています。
データセットはPythonプロジェクトから収集したIssueとそれを解決したPull Requestのペアで構成されており、ユニットテストが解決するかどうかで正否が判定されます。
SWE-benchの概要
SWE-bench VerifiedはSWE-bench(E. Jimenez et al., 2023)の改良版であり、SWE-benchのデータ2,294件から解決可能と判断された500件で構成されてます。 ただSWE-bench Verifiedですら一部のテストは依存ライブラリのバージョンや OS 差異でそもそもパスしない場合があると主張*1されていることもあり、報告されているスコアがscaffoldingありかなしかを確認する必要があります。
SWE-benchの最新リーダーボードは以下です。*2
www.swebench.com
Aider polyglot(Aider, 2024)
Aider polyglotはコード編集タスクのベンチマークで、複数のプログラミング言語(C++、Go、Java、JavaScript、Python、Rust)の課題に対するモデルの対応力を評価します。 既存のコードベースに対して指示どおりの変更を加え、テストを通過するコードを作れるかを試すものです。
モデルには指示に対する理解力の他、コードの文脈理解、言語仕様の知識、さらにバグを検出し修正する反復的な思考力・対応力が求められます。 またSWE-benchと異なり、複数プログラミング言語に対応するため、各言語特有の構文・標準ライブラリを使い分けるマルチリンガルなコーディング能力も試されています。*3
Aider polyglotの評価形式には、コード全体を書き換えるwhole形式と特定の箇所のみに変更を加えるdiff形式があり、多くのモデルにおいてwhole形式の方が精度が高い傾向があります。*4
Aider polyglotの最新リーダーボードは以下です。
TAU-bench(Yau et al., 2024)
TAU-benchは現実世界のユーザ(User)とAIエージェント(Agent)の対話をシミュレートし、ツール(Tool)使用を伴う複雑なタスク達成能力を評価するデータセットです。TAUはツール(Tool)、エージェント(Agent)、ユーザ(User)も頭文字から取られています。
TAU-benchには航空券予約の変更等のAirlineタスクや小売サイトでの注文キャンセルなどのRetailタスクといった実務的な対話タスクが含まれています。
TAU-benchの概要
エージェントはデータベース、各種APIにアクセスすることでタスクを遂行します。
TAU-benchのタスク遂行のためのセットアップ
ベンチマークデータセットのスコアと解釈
OpenAI o3、Claude 3.7 Sonnet , Gemini 2.5 Proのベンチマークデータセットのスコアは以下です。
表1: 各モデルのベンチマークスコア
Claude 3.7 Sonnet
Humanity's Last Exam
SWE-bench Verified
without scaffold
TAU-bench (Retail)
TAU-bench (Airline)
注: TAU-bench除くツール未使用の結果を採用しています。それぞれの数値はOpenAI、Anthropic、Google公式から引用しています。一部のWebサイトで報告されている数値とは異なります。
モデルを比較すると論理的な推論能力はGPQA diamond、AIME、Humanity's Last Examの結果からo3 ≒ Gemini 2.5 Pro > Claude 3.7 Sonnet と解釈できます。論理的な推論能力という文脈をコーディングタスクまで拡張すると、SWE-bench VerifiedとAider polyglotから性能はo3 > Gemini 2.5 Pro > Claude 3.7 Sonnetと解釈できます。
またエージェンティックなツール利用という観点だとTAU-benchの結果から性能はClaude 3.7 Sonnet > o3と解釈できます。
上記解釈はベンチマークスコアから読み取れる解釈の一つですが、次にもう少し実践的なレベルで解釈を加えたいと思います。
例えばコーディングについては、大量のコードをプロンプトに入力する必要がある場合があります。例えばモノレポ構成で、機能開発を行う場合はフロントエンドとバックエンドのコードを両方をプロンプトに入れる必要があります。
このようにプロンプトが長くなった際の性能は、上記のベンチマークで厳密に測ることができないため、①ロングコンテキストのベンチマークのスコアとSWE-bench Verifiedの結果を組み合わせるか②ロングコンテキスト×コーディングのベンチマークデータセットを探してスコアを見る or スコアを測る必要があります。
コーディングはある程度複雑なタスクなので、単純なNeedle In A Haystack(Machlab and Battle, 2024)ではなく、ロングコンテキストの横断的な理解が必要なLongBench v2(Bai et al,. 2025)などの結果を参考にすると良いかなと思います。
そしてSWE-bench Verifiedなどの結果と組み合わせて解釈することで、より実務に近い(ここではロングコンテキストに対応した)コーディング性能が確認できます。 (一方でLongBench v2のリーダーボードには上記3モデルの結果はないため、各自で計測する必要があります。。)
また他のデータセットに比べて相対的に信憑性は高くないものの、小説の理解度を測るFiction.LiveBench(Fiction.live, 2025)の結果によれば、120kまでのコンテキスト長における性能はo3 > Gemini 2.5 Pro > Claude 3.7 Sonnetの順で高いです。
データセットの信憑性から、あくまで参考値ですが先ほどの結果と合わせて120kまでのコーディングの性能は、o3 > Gemini 2.5 Pro > Claude 3.7 Sonnetと解釈できます。*5
このように公式で発表されているベンチマークの結果よりも一歩踏み込んで解釈を行いたい場合は、複数のベンチマークの結果を組み合わせて解釈すると良いかなと思います。一方でベンチマークスコアの信憑性については注意深く確認する必要があります。
また200kを超えるコンテキストをプロンプトに入れる場合は、そもそもコンテキストウィンドドウの観点からGemini 2.5 Proしか取り扱うことができないため、モデルの基礎スペックを合わせて確認することが大切です。
表2: 各モデルのコンテキスト長
Claude 3.7 Sonnet
さらに別の観点でコーディングタスクについて(a)ブラウザでの画面表示を確認する(b)コマンドを打つといった、ある種ツールを使う部分までをエージェントに任せたいと思った場合はSWE-bench VerifiedとAider polyglotの他に、ツール使用というTAU-benchの結果も無視できなくなるため、現状どのモデルが優れているかは、スコアだけでは判別しにくくなります。
このように任せたいタスクの種類や定義によって解釈の結果が異なるため、注意が必要です。
OpenAI o3, Claude 3.7 Sonnet , Gemini 2.5 Proの評価と解釈と題して、2025年現在よく使われているベンチマークセットの紹介と結果を整理し、解釈をまとめました。
冒頭でも述べた通り、実際にモデルを使ってみた結果が最も有効であるものの、ベースラインとしてベンチマークデータセットの結果も確認すると良いのかなと思います。
Algomaticではあらゆる領域で生成AIネイティブな事業を生み出すために多様なスキルを持った仲間を探しています。
recruiting.algomatic.jp
特に私が所属がしているAI Transformation(AX)カンパニーでは「AXで世界における日本のプレゼンスを高める」ことをミッションに生成AIを中心とした最新技術を取り扱っています。
ご興味がある方、カジュアル面談でお待ちしております!
jobs.algomatic.jp
*1:https://www.anthropic.com/news/claude-3-7-sonnet
*2:SWE-bench Verifiedの他にも、SWE-benchの軽量版のSWE-bench Liteやマルチモーダル対応されたSWE-bench Multimodalの結果も確認できます。
*3:厳密に記述するとSWE-benchに関しては、複数のプログラミング言語に対応したMulti-SWE-bench(Zan et al,. 2025)が提案されています。
*4:一方でGPT-4.1はdiffの方が精度が高いです。 https://openai.com/index/gpt-4-1/
*5:Fiction.LiveBenchはデータセットとその評価方法が公開されていないので、相対的に信憑性が低いです。
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み