xAI が Grok 4.3 を発表
xAI は、コスト効率とインテリジェンス指数の両面で前バージョンを改善した「Grok 4.3」を発表し、同レベルモデルの中で最低コストの一つであることを強調しました。
キーポイント
コスト対性能比の大幅向上
Grok 4.20 0309 v2 と比較してインテリジェンス指数が向上し、ベンチマークスイートの実行コストが削減されました。
低コストモデルとしての地位確立
同レベルの知能を持つ他のモデルと比較しても、Grok 4.3 は最も低いコストの一つであることが示されています。
実務タスクでの強力なパフォーマンス
指示従順性の向上に加え、エージェント型カスタマーサポートなどの複雑なタスクにおいて高い性能を発揮します。
影響分析・編集コメントを表示
影響分析
この発表は、大規模言語モデルの開発における「高性能と低コストの両立」という業界最大の課題に対する xAI の解決策を示すものであり、特にコスト敏感な企業や大規模展開を必要とするユースケースにおいて、Grok シリーズの採用拡大に寄与する可能性があります。
編集コメント
「Grok 4.3」というバージョン番号は通常よりも細かく、また「0309 v2」のような特定のビルド名との比較から、同社が継続的な微調整とコスト最適化に注力している様子が伺えます。
More from @ArtificialAnlys
link#goto">
twitter-profile#error" data-retried="true">
Feb 19
Google は再び AI のリーダーシップを握りました:Gemini 3.1 Pro Preview が Artificial Analysis Intelligence Index(人工知能分析インテリジェンス指数)で首位に立ち、Claude Opus 4.6 を 4 ポイント引き離しながら、実行コストは半分以下です。
@GoogleDeepMind は Gemini 3.1 Pro Preview のプレリリース版へのアクセスを我々に提供しました。このモデルは Artificial Analysis Intelligence Index(人工知能分析インテリジェンス指数)を構成する 10 の評価項目のうち 6 つで首位に立ち、Gemini 3 Pro Preview と比較して能力が大幅に向上しています。特に推論力と知識の深さ、コーディング能力、そしてハルシネーション(幻覚現象)の削減において大きな進歩が見られます。
Gemini 3.1 Pro Preview は相対的にトークン効率も高く、Artificial Analysis Intelligence Index(人工知能分析インテリジェンス指数)の実行に約 57M トークンを消費します(Gemini 3 Pro Preview より +1M)。これは最大推論設定での他の最先端モデルである Opus 4.6 (max) や GPT-5.2 (xhigh) よりも低く、トークン単価の低下と相まって、Gemini 3.1 Pro Preview は最先端モデル群の中でコスト効率に優れています。完全なインテリジェンス指数の実行コストは Opus 4.6 (max) の半分以下ですが、依然として主要なオープンウェイトモデルである GLM-5 の約 2 倍となっています。
Key Takeaways(主なポイント):
➤ より低コストでの最先端知能:Gemini 3.1 Pro Preview は、@OpenAI および @AnthropicAI の最前線競合モデルの実行コストの半分未満で、Artificial Analysis Intelligence Index を構成する 10 の評価項目のうち 6 つをリードしています。Terminal-Bench Hard(エージェント型コーディング)、AA-Omniscience(知識とハルシネーション)、Humanity's Last Exam(推論と知識)、GPQA-Diamond(科学的推論)、SciCode(コーディング)、CritPt(研究レベルの物理学)において最高スコアを獲得しています。特に CritPt のスコアは注目すべきもので、未発表の研究レベルの物理学的推論問題において 18% を達成し、次点のモデルを 5 ポイント上回っています。
➤ 実世界におけるエージェント性能の向上だが、トップではない:Gemini 3.1 Pro Preview は、実世界のタスクに焦点を当てたエージェント評価である GDPval-AA で改善を示していますが、この分野では依然として首位ではありません。ELO スコアは Gemini 3 Pro Preview から 100 ポイント以上上昇し 1316 となりましたが、Claude Sonnet 4.6、Opus 4.6、GPT-5.2 (xhigh)、GLM-5 の下位に位置しています。
➤ トップクラスのコーディング能力:Gemini 3.1 Pro Preview は Artificial Analysis Coding Index で首位を維持し、Terminal-Bench Hard(54%)と SciCode(59%)の両方で最高スコアを記録しました。
➤ ハルシネーションの削減:Gemini 3.1 Pro Preview は、答えがわからない場合に誤って推測する傾向に大きな改善が見られ、AA-Omniscience におけるハルシネーション発生率が Gemini 3 Pro Preview から 38 ポイント減少しました。
➤ トークンとコストの効率性を維持:Gemini 3.1 Pro Preview は、コストやトークン使用量に実質的な増加を伴わずに性能が向上しています。Artificial Analysis Intelligence Index の実行には Gemini 3 Pro Preview と比べて約 2% 多いトークンしか使用せず、同じ価格設定(≤200k コンテキストに対して入力/出力トークン 1M あたり $2/$12)を維持しています。その Artificial Analysis Intelligence Index の実行コストは $892 で、Opus 4.6 (max) や GPT-5.2 (xhigh) といった最先端モデルの半分未満ですが、GLM 5 ($547) などの主要なオープンウェイトモデルのコストの約 2 倍です。
➤ マルチモーダル性で Google がトップ 3 を独占:Gemini 3.1 Pro Preview は、マルチモーダルの理解と推論を評価するベンチマークである MMMU-Pro で Gemini 3 Pro Preview や Gemini 3 Flash を上回り、第 1 位を獲得しました。これにより、Google のマルチモーダル推論におけるリーダーシップが再確認されました。
➤ その他のモデル詳細:Gemini 3.1 Pro Preview は、前世代と同じ 100 万トークンのコンテキストウィンドウを維持しており、ツール呼び出し、構造化出力、JSON モードのサポートも含まれています。
Gemini 3.1 Pro Preview は、より高価になったり冗長になったりすることなく改善されており、Gemini 3 Pro Preview と比較して約 100 万トークン多く使用しますが、Artificial Analysis Intelligence Index の実行コストは $72 増に抑えられています。このコストは Opus 4.6 (max) や GPT-5.2 (xhigh) といった最先端の競合モデルの半分未満ですが、GLM 5 や Kimi K2.5 などの主要なオープンウェイトモデルのコストの約 2 倍です。
Gemini 3.1 Pro Preview の平均出力速度は 1 秒あたり 114 トークンです。前作よりわずかに遅い(-10 トークン/秒)ものの、依然として Artificial Analysis Intelligence Index の上位 10 位に入る最速モデルの一つであり、他の Google モデル(Gemini 3 Flash および Gemini 3 Pro Preview)に次いでいます。
8 つのツイートを読む
link#goto">
twitter-profile#error" data-retried="true">
2025 年 12 月 20 日
Xiaomi はこのほど、Artificial Analysis Intelligence Index で 66 のスコアを獲得した 309B パラメータのオープンウェイト推論モデル「MiMo-V2-Flash」を発売しました。これにより、Xiaomi は他の主要な AI モデルラボと肩を並べる立場となりました。
主要なベンチマークからの知見:
➤ エージェントツール使用および競技数学における強み:MiMo-V2-Flash は τ²-Bench Telecom で 95%、AIME 2025 で 96% のスコアを獲得し、エージェントによるツール使用ワークフローや競技形式の数学的推論において高いパフォーマンスを示しています。MiMo-V2-Flash は現在、評価対象モデルの中で τ²-Bench Telecom カテゴリーをリードしています。
➤ コスト競争力:Artificial Analysis 評価スイート全体のテスト実行コストはわずか 53 ドルでした。これは、MiMo-V2-Flash の非常に競争力のある価格設定(入力 100 万トークンあたり 0.10 ドル、出力 100 万トークンあたり 0.30 ドル)によって支えられており、コスト敏感なデプロイや大規模な生産ワークロードにとって特に魅力的です。これは DeepSeek V3.2(実行総コスト 54 ドル)とほぼ同等であり、GPT-5.2(実行総コスト 1,294 ドル)を大きく下回っています。
➤ トークン使用量の多さ:MiMo-V2-Flash は、同じ知能階層内の他のモデルと比較して高い冗長性とトークン使用量を示し、Artificial Analysis Intelligence スuite 全体で約 150M の推論トークンを消費します。
➤ オープンウェイト:MiMo-V2-Flash はオープンウェイトであり、パラメータ数は 309B で、推論時には 15B がアクティブになります。ウェイトは MIT ライセンスの下で公開されており、中国の AI モデルラボが最先端モデルをオープンソース化する傾向が続いています。
詳細な分析については以下をご覧ください:
MiMo-V2-Flash は、エージェントツール使用と競技数学において特に優れた性能を示し、τ²-Bench Telecom で 95%、AIME 2025 で 96% のスコアを記録しています。これはこれらのカテゴリにおける最高パフォーマンスモデルの一つであることを意味します。
MiMo-V2-Flash は、その知能に対して非常にコスト効果の高いモデルであり、入力トークン 100 万あたりわずか$0.10、出力トークン 100 万あたり$0.30 で提供されています。
7 つのツイートを読む
link#goto">
twitter-profile#error" data-retried="true">
2025 年 12 月 10 日
エージェント構築のための新しいオープンソースフレームワーク「Stirrup」を発表します。これは軽量で柔軟性があり、拡張可能であり、Claude Code を含む主要なエージェントからのベストプラクティスを組み込んでいます。
Stirrup は、出力品質を低下させる可能性のある硬直性を避けることで、他のエージェントフレームワークと異なります。Stirrup は Claude Code のようにモデルが自らのワークフローを主導することを可能にしつつ、開発者には構造を提供し、コンテキスト管理、MCP(Model Context Protocol)サポート、コード実行といった必須機能を実装しています。私たちは Artificial Analysis において、本日より公開される GDPval-AA 評価を含むエージェントベンチマークの一部として Stirrup を使用しています。今すぐ『pip install stirrup』を実行して、独自のエージェントの構築を開始してください!
主な利点:
➤ モデルと連携する:Stirrup は後退し、モデルがマルチステップタスクをどのように解決するかを決定させるものであり、既存フレームワークのようにパフォーマンスを制限する厳格なパターンを課すものではありません。
➤ 組み込まれたベストプラクティス:私たちは Claude Code などの主要なエージェントシステムを研究し、コンテキスト処理、ツール設計、ワークフローの安定性に関する実践的なパターンを抽出して、それらをフレームワークに直接埋め込みました。
➤ 完全なカスタマイズ性:Stirrup をパッケージとして使用するか、独自の完全にカスタマイズされたエージェントを構築するためのテンプレートとして利用できます。
機能ハイライト:
➤ すぐに使用可能な必須ツール:オンライン検索・ブラウジング、コード実行(ローカル、Docker、または @e2b サンドボックスを使用)、MCP クライアント、ドキュメント入出力などの事前構築済みツールを同梱しています。
➤ フレキシブルなツールレイヤー:汎用ツールインターフェースにより、カスタムツールの定義と拡張が容易になります。
➤ コンテキスト管理:タスクの忠実度を保ちながらコンテキスト制限内に収まるよう、自動的に要約を行います。
➤ プロバイダーの柔軟性:OpenAI 互換 API(@OpenRouterAI を含む)および LiteLLM のネイティブサポート、または独自のクライアントの導入が可能
➤ マルチモーダル対応:画像、動画、音声の処理を自動フォーマットハンドリングで実行可能
Stirrup エージェントは数行のコードですぐに設定できます
Stirrup にはエージェントの監視とデバッグを支援する組み込みロギング機能が含まれています
4 つのツイートを読む
link#goto">
twitter-profile#error" data-retried="true">
2025 年 12 月 1 日
Artificial Analysis オープンネスインデックスの発表:AI モデルの可用性と透明性におけるオープン性の標準化され、独立して評価された指標
オープン性は単にモデルの重みをダウンロードできる能力だけではありません。ライセンス、データ、そして方法論も含まれます。私たちはこれらの要素を取り込むために Artificial Analysis オープンネスインデックスを支えるフレームワークを開発しました。これにより、開発者、ユーザー、および研究機関は、すべてのオープン性の側面を標準化された基準で比較できるようになり、オープン AI エコシステムを推進する研究機関の活動に可視性をもたらします。
Openness Index で 100 点のモデルとは、重み(weights)を公開し、包括的なライセンスの下、トレーニングコード、事前学習データ、事後学習データをすべて公開するモデルのことです。これにより、ユーザーは単にそのモデルを利用できるだけでなく、トレーニングを完全に再現したり、モデル作成者のアプローチの一部または全部からインスピレーションを得て独自のモデルを構築したりすることが可能になります。私たちはまだ、どのモデルにも 100 点を付与していません!
主要な詳細:
🔒 完全なオープンアプローチを採用するモデルやプロバイダーはごくわずかです。中国の研究所から Kimi K2、Minimax M2、DeepSeek V3.2 など、主要なオープンウェイトモデルを含む、強力で成長中のエコシステムが見られます。しかし、データと方法論の公開ははるかに稀です。OpenAI の gpt-oss ファミリーは、オープンウェイトと Apache 2.0 ライセンスの顕著な例ですが、それ以外の開示は最小限にとどめられています。
🥇 @allen_ai の OLMo が Openness Index で首位に立っています。AI2 のミッションである「真にオープン」な研究を提供するという使命に応えるかたちで、OLMo ファミリーは重み、トレーニングデータ、コード全体における完全な再現性と包括的なライセンスを優先することで、Index において最高得点の 89 点(最大 18 点中 16 点)を獲得しました。最近リリースされた OLMo 3 では、AI2 の最新データ、ユーティリティ、ソフトウェアの詳細、推論モデルのトレーニングに関する完全な情報、そして新しい Dolci 事後学習データセットが含まれています。
🥈 NVIDIA の Nemotron ファミリーも、オープン性の面で強力なパフォーマンスを発揮しています。@NVIDIAAI のモデルである「NVIDIA Nemotron Nano 9B v2」は、トレーニングプロセスを詳細に記した広範な技術レポートの公開、同様のモデル構築のためのオープンソースツール、および Nemotron-CC や Nemotron のポストトレーニング用データセットと共にリリースされたことにより、インデックスで 67 というスコアを獲得しています。
📉 私たちは、オープンウェイトモデルとクローズドウェイトモデルの両方を追跡しています。オープンネス・インデックスは、モデルがどれほどオープンであるかを考える新たなアプローチであり、クローズドモデルのリリースに伴う手法やデータの透明性の範囲を認識するために、クローズドウェイトモデルもオープンウェイトモデルと共にランキング付けしていきます。
手法と背景:
➤ 私たちは、モデルの利用可能性(重み値とライセンス)およびモデルの透明性(データと手法)を網羅する標準化されたフレームワークを用いてオープン性を分析します。これは、モデルがどの程度自由に使用できるかだけでなく、そのトレーニングや知識への可視性、またその機能やデータを複製・拡張する可能性までを含んで捉えることを意味します。
➤ モデルの利用可能性は、モデル自体または重み値へのアクセスとライセンスに基づいて測定されます。一方、透明性は、手法、事前トレーニングデータ、およびポストトレーニングデータのアクセスとライセンスに関するサブコンポーネントで構成されています。
➤ DeepSeek R1 のようなリリースに見られるように、手法を共有することは進歩を加速させます。私たちは、このインデックスが研究機関に対し、競争上の優位性(モート)と、「何を」提供するかと同時に「どのように」提供するかを共有することのメリットとのバランスを取るよう促すことを願っています。
➤ AI モデル開発者は、さまざまな理由からモデルを完全に公開しないことを選ぶかもしれません。私たちは、オープンな AI エコシステムには重要な利点があるという考えに強く賛同しており、このエコシステムを支えることが「Openness Index(開放性指数)」を開発した主要な理由の一つです。しかしながら、より高い開放性が伴うトレードオフの正当性を否定するつもりはなく、「Openness Index」を単に「数値が高いほど良い」という尺度として扱う意図もありません。
詳細な分析と解説は以下をご覧ください 👇
Openness Index は、4 つの下位コンポーネントにわたる合計 18 ポイントを分解し、その全体値を正規化された 0-100 スケールで表しています。モデルエコシステムが発展し新たな要因が現れるにつれて、このフレームワークの継続的な見直しと改善を行っていきます。
今日のモデル環境において、透明性は可用性よりもはるかに稀です。オープンな重み(weights)と寛容なライセンスを持つ幅広いモデルが存在する一方で、それらのほとんどはチャートの左上部に集まっており、そこでは比較的低いレベルの透明性が示されています。これは現在のエコシステムの現状を反映しており、多くのモデルがオープンな重みを持っていますが、データや手法までオープンになっているものはわずかです。
5 つのツイートを読む
link#goto">
twitter-profile#error" data-retried="true">
Nov 25, 2025
Anthropic の新しい Claude Opus 4.5 は、Artificial Analysis Intelligence Index において第 2 位の知能モデルであり、Google の Gemini 3 Pro に僅差で及び、OpenAI の GPT-5.1 (high) と同点です。
Claude Opus 4.5 は、Claude Sonnet 4.5 より大幅な知能の向上(Artificial Analysis Intelligence Index で +7 ポイント)と、Claude Opus 4.1 よりも大きな向上(+11 ポイント)を実現し、@AnthropicAI の新たな主力モデルとして確立されました。Anthropic は Claude Opus 4.5 のトークンあたりの価格を大幅に引き下げ、入力/出力トークン 100 万あたり 5 ドル/25 ドルとしました。しかし、以前の Claude Opus 4.1 モデルと比較すると、知能指数の評価完了に必要なトークン数が 60% 増加し(48M vs. 30M)、これは知能指数評価の実行コストを 3,100 ドルから 1,500 ドルへと大幅に削減しましたが、見出しの価格引き下げが示唆するほど劇的なものではありませんでした。Claude Opus 4.5 は知能指数の評価完了に大幅なトークン数を要したにもかかわらず、Gemini 3 Pro (high)、GPT-5.1 (high)、Claude Sonnet 4.5 (Thinking) を含む他のモデルよりも依然としてコストが高く、すべてのモデルの中で唯一 Grok 4 (Reasoning) よりも安価でした。
主要なベンチマークからの教訓:
➤ 🧠 アンソロピック社で最も知的なモデル:推論モードにおいて、Claude Opus 4.5 は Artificial Analysis Intelligence Index で 70 のスコアを記録しました。これは 2025 年 9 月にリリースされた Claude Sonnet 4.5 (Thinking) より +7 ポイント、Claude Opus 4.1 (Thinking) より +11 ポイントの向上です。Claude Opus 4.5 は現在、第 2 位の知的モデルとなりました。Grok 4 (65) や Kimi K2 Thinking (67) を上回り、GPT-5.1 (high, 70) と同点で、Gemini 3 Pro (73) のみには及びません。Claude Opus 4.5 (Thinking) は研究アシスタント能力を反映したフロンティア物理学評価である CritPt で 5% のスコアを獲得しました。これは Gemini 3 Pro (9%) に次ぐ成績であり、GPT-5.1 (high, 5%) と同点です。
➤ 📈 コーディングおよびエージェントタスクにおける最大の向上:Claude Sonnet 4.5 (Thinking) と比較すると、最も大きな改善が見られるのは、LiveCodeBench (+16 ポイント)、Terminal-Bench Hard (+11 ポイント)、𝜏²-Bench Telecom (+12 ポイント)、AA-LCR (+8 ポイント)、そして Humanity's Last Exam (+11 ポイント) を含むコーディング、エージェントタスク、長文コンテキスト推論の分野です。Claude Opus は Artificial Analysis Intelligence Index の全 10 ベンチマークにおいてアンソロピック社史上最高のスコアを達成しました。また、Terminal-Bench Hard ではどのモデルよりも高い 44% のスコアを獲得し、MMLU-Pro (90%) では Gemini 3 Pro と同点となりました。
➤ 📚 知識と幻覚:最近公開した AA-Omniscience Index(言語モデルの埋め込み知識と幻覚を測定する指標)において、Claude Opus 4.5 はスコア 10 で 2 位にランクインしました。これは Gemini 3 Pro Preview (13) に次ぎ、Claude Opus 4.1 (Thinking, 5) や GPT-5.1 (high, 2) を上回る結果です。Claude Opus 4.5 (Thinking) は精度が 43% と第 2 位の高さを示し、幻覚発生率が 58% で第 4 位の低さとなっています。これは Claude Haiku (Thinking, 26%)、Claude Sonnet 4.5 (Thinking, 48%)、GPT-5.1 (high) に次ぐ成績です。Claude Opus 4.5 は、Grok 4 や Gemini 3 Pro といった一部の最先端モデルよりも低い幻覚発生率を示すことで、AI セーフティにおける Anthropic のリーダーシップを継続して証明しています。
➤ ⚡ 推論非依存性能:推論モードを使用しない場合、Claude Opus 4.5 は Artificial Analysis Intelligence Index でスコア 60 を記録し、最も知的な非推論モデルとなっています。これは Qwen3 Max (55)、Kimi K2 0905 (50)、Claude Sonnet 4.5 (50) を上回る順位です。
➤ ⚙️ トークン効率:Anthropic は引き続き印象的なトークン効率を示しています。Claude Sonnet 4.5(最大推論予算 64k トークンで評価)と比較して、トークン使用量を大幅に増加させることなく知能を向上させました。Claude Opus 4.5 は Artificial Analysis Intelligence Index を実行するために出力トークンを 48M 使用します。これは Gemini 3 Pro (high, 92M)、GPT-5.1 (high, 81M)、Grok 4 (Reasoning, 120M) といった他の最先端モデルよりも低い数値です
➤ 💲 価格設定:Anthropic は、Claude Opus 4.5 のトークンあたりの料金を Claude Opus 4.1 よりも引き下げました。Claude Opus 4.5 の価格は、入力/出力トークン 100 万あたり 5 ドル/25 ドルです(Claude Opus 4.1 は 15 ドル/75 ドル)。これにより、思考モードにおいてより高い知能を提供しつつ、Claude Sonnet 4.5(トークン 100 万あたり 3 ドル/15 ドル)に価格面で大きく近づいています。
主要なモデルの詳細:
➤ 📏 コンテキストウィンドウ:200K トークン
➤ 🪙 最大出力トークン数:64K トークン
➤ 🌐 利用状況:Claude Opus 4.5 は、Anthropic の API、Google Vertex、Amazon Bedrock、Microsoft Azure を通じて利用可能です。また、Claude アプリおよび Claude Code でも利用できます。
Claude モデルの重要な差別化要因は、他のすべての推論モデルと比較して大幅にトークン効率が優れている点です。Claude Opus 4.5 は、出力トークンの大幅な増加なしに知能を著しく向上させており、推論時により多くの推論(つまり、より多くの出力トークン)に依存する他のモデルファミリーとは大きく異なります。Artificial Analysis Intelligence Index の「使用された出力トーク数対インテリジェンス指数」チャートにおいて、Claude 4.5 Opus (Thinking) はパレートフロンティア上に位置しています。
この出力トークンの効率性は、Claude Opus 4.5(思考モード)が、Artificial Analysis Intelligence Index を実行する際の知能とコストのバランスにおいて、Claude Opus 4.1 (Thinking) や Grok 4 (Reasoning) よりも優れたトレードオフを提供することを意味します。
7 つのツイートを閲覧
link#goto">
twitter-profile#error" data-retried="true">
Nov 18, 2025
Gemini 3 Pro は AI の新たなリーダーです。Google が初めて首位の言語モデルを獲得し、Gemini 3 Pro は当社の Artificial Analysis Intelligence Index(人工知能分析インテリジェンス指数)において GPT-5.1 よりも +3 ポイント上回るデビューを果たしました。
@GoogleDeepMind は Gemini 3 Pro Preview のプレリリースアクセスを私たちに提供してくれました。このモデルは、Artificial Analysis Intelligence Index における他のすべてのモデルを上回っています。その能力は全般的に優れており、インテリジェンス指数を構成する 10 の評価項目のうち 5 つで首位を獲得しました。これらの知能面での向上にもかかわらず、Gemini 3 Pro Preview は Gemini 2.5 Pro に比べてトークン効率性が改善されており、Kimi K2 Thinking や Grok 4 などの他の主要モデルと比較して、インテリジェンス指数の評価において大幅に少ないトークン数で済んでいます。ただし、プレミアム価格(<200K コンテキストの場合、入力/出力トークン 100 万あたり $2/$12)を考慮すると、Gemini 3 Pro は当社のインテリジェンス指数評価を実行するモデルの中で最も高価なものの一つです。
主なポイント:
📖 リーディングインテリジェンス:Gemini 3 Pro Preview は、Artificial Analysis Intelligence Index の 10 項目の評価のうち 5 項目で首位を獲得しています。その評価には GPQA Diamond、MMLU-Pro、HLE、LiveCodeBench、SciCode が含まれます。特に「Humanity's Last Exam」におけるスコア 37% は非常に印象的で、前回の最高モデルを 10 ポイント以上上回っています。また、Artificial Analysis の新しい知識とハルシネーション(幻覚)評価である AA-Omniscience でも首位に立っており、「Omniscience Index」(誤答に対して減点を行う当社の主要指標)および「Omniscience Accuracy」(正解率)の両方で 1 位となっています。事実の想起はモデルサイズと密接に関連しているため、これは Gemini 3 Pro が競合他社よりもはるかに大規模なモデルであることを示唆しています。
💻 高度なコーディングおよびエージェント機能:Gemini 3 Pro Preview は、Artificial Analysis Intelligence Index の 3 つのコーディング評価のうち 2 つで首位を獲得しており、その中には SciCode で 56% という驚異的なスコアが含まれます。これは前回の最高スコアを 10 ポイント以上上回る改善です。また、エージェント機能においても強く、「Terminal-Bench Hard」および「Tau2-Bench Telecom」でそれぞれ 2 番目に高いスコアを記録しています。
🖼️ マルチモーダル機能:Gemini 3 Pro Preview はマルチモーダルモデルであり、テキスト、画像、動画、音声を入力として受け付けることができます。これは画像入力を用いた推論能力をテストするベンチマークである MMMU-Pro で、あらゆるモデル中最高のスコアを獲得しています。現在、Google は私たちの MMMU-Pro リーダーボードで 1 位、3 位、4 位の座を占めており(先週まで GPT-5.1 が 2 位だった)、その地位を維持しています。
💲 プレミアム価格設定:コスト測定のため、「Artificial Analysis Intelligence Index」の実行コストを報告します。これは入力および出力トークンの価格とトークン効率を組み合わせて、実際の使用コストを反映する指標です。Gemini 2.5 Pro からトークン効率が向上したにもかかわらず、Gemini 3 Pro Preview の実行コストはより高くなっています。その高いトークン価格(200k トークン以下のコンテキストで入力/出力トークン 100 万あたり 2 ドル/12 ドル)により、Artificial Analysis Intelligence Index の実行コストは前作と比較して 12% 増加し、当インデックス上で最も実行コストの高いモデルの一つとなっています。Google はまた、長文コンテキストのワークロードに対して低コンテキストのワークロードよりも高い価格を設定し続けており、200k トークン以上のコンテキストでは入力/出力トークン 100 万あたり 4 ドル/18 ドルを請求しています。
⚡ 速度:Gemini 3 Pro Preview は Gemini 2.5 Pro と同等の速度を持ち、1 秒間に 128 トークンを生成します。これにより、GPT-5.1(高)、Kimi K2 Thinking、Grok 4 を含む他の最先端モデルよりも優位に立っています。これはおそらく Google の自社製 TPU アクセラレータによるものと考えられます。
その他の詳細:Gemini 3 Pro Preview は 100 万トークンのコンテキストウィンドウを持ち、ツール呼び出し、構造化出力、JSON モードのサポートを含んでいます。
以下の分析を参照してください。
初めて Google が最も知的なモデルを獲得し、Gemini 3 Pro Preview は以前の最優秀モデルである OpenAI の GPT-5.1 (high) を 3 ポイント上回りました。
Gemini 3 Pro Preview は、ドメイン全体にわたる知識とハルシネーション(幻覚)を測定するための新しいベンチマークである Artificial Analysis Omniscience Index で首位を獲得しました。Gemini 3 Pro Preview は、誤答に対して減点を行う主要指標である Omniscience Index と、正解率を示す Omniscience Accuracy の両方で 1 位となりました。
その正解率における勝利は、実際には全体のインデックスでの勝利よりもはるかに大きいです。これは、他のモデルよりも高いハルシネーション率(88%)によるものです。
私たちは以前、Omniscience Accuracy がモデルサイズ(総パラメータ数)と密接に関連していることを示しました。Gemini 3 Pro のこの指標における顕著なリードは、競合他社よりもはるかに大きなモデルである可能性を示唆しています。
10 件のツイートを読む
原文を表示
More from @ArtificialAnlys
link#goto">
twitter-profile#error" data-retried="true">
Feb 19
Google is once again the leader in AI: Gemini 3.1 Pro Preview leads the Artificial Analysis Intelligence Index, 4 points ahead of Claude Opus 4.6 while costing less than half as much to run
@GoogleDeepMind gave us pre-release access to Gemini 3.1 Pro Preview. It leads 6 of the 10 evaluations that make up the Artificial Analysis Intelligence Index and improves significantly over Gemini 3 Pro Preview across capabilities, with the biggest gains in reasoning and knowledge, coding, and hallucination reduction.
Gemini 3.1 Pro Preview also remains relatively token efficient, using ~57M tokens to run the Artificial Analysis Intelligence Index (+1M from Gemini 3 Pro Preview), lower than other frontier models at max reasoning settings such as Opus 4.6 (max) and GPT-5.2 (xhigh). Combined with lower per-token pricing, Gemini 3.1 Pro Preview is cost-efficient among frontier peers, costing less than half as much as Opus 4.6 (max) to run the full Intelligence Index, though still nearly 2x the leading open-weights model, GLM-5.
Key Takeaways:
➤ State-of-the-art intelligence at lower costs: Gemini 3.1 Pro Preview is leading 6 of the 10 evaluations that make up the Artificial Analysis Intelligence Index at less than half the cost to run of frontier peers from @OpenAI and @AnthropicAI. It obtains the highest score in Terminal-Bench Hard (agentic coding), AA-Omniscience (knowledge & hallucination), Humanity’s Last Exam (reasoning & knowledge), GPQA-Diamond (scientific reasoning), SciCode (coding) and CritPt (research-level physics). The CritPt score is particularly notable, scoring 18% on unpublished, research-level physics reasoning problems, over 5 p.p. above the next best model
➤ Improved real-world agentic performance, but not leading: Gemini 3.1 Pro Preview shows an improvement in GDPval-AA, our agentic evaluation focusing on real-world tasks, but is still not the leading model in this area. The model increases its ELO score over 100 points to 1316 (up from Gemini 3 Pro Preview), however still sits behind Claude Sonnet 4.6, Opus 4.6, GPT-5.2 (xhigh), and GLM-5
➤ Leading coding abilities: Gemini 3.1 Pro Preview leads the Artificial Analysis Coding Index, achieving the highest score in both Terminal-Bench Hard (54%) and SciCode (59%)
➤ Reduced hallucinations: Gemini 3.1 Pro Preview shows a major improvement in tendency to guess incorrectly when it doesn’t know the answer, reducing its AA-Omniscience hallucination rate by 38 p.p. from Gemini 3 Pro Preview
➤ Maintained token and cost efficiency: Gemini 3.1 Pro Preview improves without material increases in cost or token usage. It uses only ~2% more tokens to run the Artificial Analysis Intelligence Index than Gemini 3 Pro Preview, and keeps the same pricing ($2/$12 per 1M input/output tokens for ≤200k context). Its cost to run the Artificial Analysis Intelligence Index of $892 is less than half of frontier models such as Opus 4.6 (max) and GPT-5.2 (xhigh), though still ~2x the cost of leading open weights models such as GLM 5 ($547)
➤ Google takes top 3 spots in multi-modality: Gemini 3.1 Pro Preview ranks #1 on MMMU-Pro, our multimodal understanding and reasoning benchmark, ahead of Gemini 3 Pro Preview and Gemini 3 Flash, reinforcing Google’s leadership in multimodal reasoning
➤ Other model details: Gemini 3.1 Pro Preview retains the same 1 million token context window as its predecessor, and includes support for tool calling, structured outputs, and JSON mode
Gemini 3.1 Pro Preview improves without becoming more expensive or much more verbose, using only ~1M more tokens compared to Gemini 3 Pro Preview, representing a $72 increase in cost to run the Artificial Analysis Intelligence Index. This cost is less than half of frontier peers such as Opus 4.6 (max) and GPT-5.2 (xhigh), though still ~2x the cost of leading open-weights models such as GLM 5 and Kimi K2.5.
Gemini 3.1 Pro Preview has an average speed of 114 output tokens/s. Although slightly slower than its predecessor (-10 t/s), it remains one of the fastest models in the top 10 of the Artificial Analysis Intelligence Index, trailing only other Google models (Gemini 3 Flash and Gemini 3 Pro Preview).
Read 8 tweets
link#goto">
twitter-profile#error" data-retried="true">
Dec 20, 2025
Xiaomi has just launched MiMo-V2-Flash, a 309B open weights reasoning model that scores 66 on the Artificial Analysis Intelligence Index. This release elevates Xiaomi to alongside other leading AI model labs.
Key benchmarking takeaways:
➤ Strengths in Agentic Tool Use and Competition Math: MiMo-V2-Flash scores 95% on τ²-Bench Telecom and 96% on AIME 2025, demonstrating strong performance on agentic tool-use workflows and competition-style mathematical reasoning. MiMo-V2-Flash currently leads the τ²-Bench Telecom category among evaluated models
➤ Cost competitive: The full Artificial Analysis evaluation suite cost just $53 to run. This is supported by MiMo-V2-Flash’s highly competitive pricing of $0.10 per million input and $0.30 per million output, making it particularly attractive for cost-sensitive deployments and large-scale production workloads. This is similar to DeepSeek V3.2 ($54 total cost to run), and well below GPT-5.2 ($1,294 total cost to run)
➤ High token usage: MiMo-V2-Flash is demonstrates high verbosity and token usage relative to other models in the same intelligence tier, using ~150M reasoning tokens across the Artificial Analysis Intelligence suite
➤ Open weights: MiMo-V2-Flash is open weights and is 309B parameters with 15B active at inference time. Weights are released under a MIT license, continuing the trend of Chinese AI model labs open sourcing their frontier models
See below for further analysis:
MiMo-V2-Flash demonstrates particular strength in agentic tool-use and Competition Math, scoring 95% on τ²-Bench Telecom and 96% on AIME 2025. This places it amongst the best performing models in these categories.
MiMo-V2-Flash is one of the most cost-effective models for its intelligence, priced at only $0.10 per million input tokens and $0.30 per million output tokens.
Read 7 tweets
link#goto">
twitter-profile#error" data-retried="true">
Dec 10, 2025
Announcing Stirrup, our new open source framework for building agents. It’s lightweight, flexible, extensible and incorporates best-practices from leading agents like Claude Code
Stirrup differs from other agent frameworks by avoiding the rigidity that can degrade output quality. Stirrup lets models drive their own workflow, like Claude Code, while still giving developers structure and building in essential features like context management, MCP support and code execution. We use Stirrup at Artificial Analysis as part of our agentic benchmarks, including as part of our GDPval-AA evaluation being released later today. Just ‘pip install stirrup’ to start building your own agents today!
Key advantages:
➤ Works with the model, not against it: Stirrup steps aside and lets the model decide how to solve multi step tasks, as opposed to existing frameworks which impose strict patterns that limit performance.
➤ Best practices built in: We studied leading agent systems (e.g. Claude Code) to extract practical patterns around context handling, tool design, and workflow stability, and embedded those directly into the framework.
➤ Fully customizable: Use Stirrup as a package or as a starting template to build your own fully customized agents.
Feature highlights:
➤ Essential tools ready to use: Ships with pre built tools such as online search and browsing, code execution (local, docker, or using an @e2b sandbox), MCP client and document IO
➤ Flexible tool layer: A Generic Tool interface makes it simple to define and extend custom tools
➤ Context management: Automatic summarization to stay within context limits while preserving task fidelity
➤ Provider flexibility: Built in support for OpenAI compatible APIs (including @OpenRouterAI) and LiteLLM, or bring your own client
➤ Multimodal support: Process images, video, and audio with automatic format handling
Stirrup agents can be easily set up in just a few lines of code
Stirrup includes built in logging to help you observe and debug agents
Read 4 tweets
link#goto">
twitter-profile#error" data-retried="true">
Dec 1, 2025
Introducing the Artificial Analysis Openness Index: a standardized and independently assessed measure of AI model openness across availability and transparency
Openness is not just the ability to download model weights. It is also licensing, data and methodology - we developed a framework underpinning the Artificial Analysis Openness Index to incorporate these elements. It allows developers, users, and labs to compare across all these aspects of openness on a standardized basis, and brings visibility to labs advancing the open AI ecosystem.
A model with a score of 100 in Openness Index would be open weights and permissively licensed with full training code, pre-training data and post-training data released - allowing users to not just use the model but reproduce its training in full, or take inspiration from some or all of the model creator’s approach to build their own model. We have not yet awarded any models a score of 100!
Key details:
🔒 Few models and providers take a fully open approach. We see a strong and growing ecosystem of open weights models, including leading models from Chinese labs such as Kimi K2, Minimax M2, and DeepSeek V3.2. However, releases of data and methodology are much rarer - OpenAI’s gpt-oss family is a prominent example of open weights and Apache 2.0 licensing, but minimal disclosure otherwise.
🥇 OLMo from @allen_ai leads the Openness Index at launch. Living up to AI2’s mission to provide ‘truly open’ research, the OLMo family achieves the top score of 89 (16 of a maximum of 18 points) on the Index by prioritizing full replicability and permissive licensing across weights, training data, and code. With the recent launch of OLMo 3, this included the latest version of AI2’s data, utilities and software, full details on reasoning model training, and the new Dolci post-training dataset.
🥈 NVIDIA’s Nemotron family also performs strongly for openness. @NVIDIAAI models such as NVIDIA Nemotron Nano 9B v2 reach a score of 67 on the Index due to their release alongside extensive technical reports detailing their training process, open source tooling for building models like them, and the Nemotron-CC and Nemotron post-training datasets.
📉 We’re tracking both open weights and closed weights models. Openness Index is a new way to think about how open models are, and we will be ranking closed weights models alongside open weights models to recognize the scope of methodology and data transparency associated with closed model releases.
Methodology & Context:
➤ We analyze openness using a standardized framework covering model availability (weights & license) and model transparency (data and methodology). This means we capture not just how freely a model can be used, but visibility into its training and knowledge, and potential to replicate or build on its capabilities or data.
➤ Model availability is measured based on the access and licensing of the model/weights themselves, while transparency comprises subcomponents for access and licensing for methodology, pre-training data, and post-training data.
➤ As seen with releases like DeepSeek R1, sharing methodology accelerates progress. We hope the Index encourages labs to balance competitive moats with the benefits of sharing the "how" alongside the "what."
➤ AI model developers may choose not to fully open their models for a wide range of reasons. We feel strongly that there are important advantages to the open AI ecosystem and supporting the open ecosystem is a key reason we developed the Openness Index. We do not, however, wish to dismiss the legitimacy of the tradeoffs that greater openness comes with, and we do not intend to treat Openness Index as a strictly ‘higher is better’ scale.
See below for further analysis and details 👇
The Openness Index breaks down a total of 18 points across the four subcomponents, and we then represent the overall value on a normalized 0-100 scale. We will continue to review and iterate this framework as the model ecosystem develops and new factors emerge.
In today’s model landscape, transparency is much rarer than availability. While we see a wide range of models with open weights and permissive licensing, nearly all are clustered in the top left quadrant of the chart with lower-end transparency. This reflects the current state of the ecosystem - many models have open weights, but few have open data or methodologies.
Read 5 tweets
link#goto">
twitter-profile#error" data-retried="true">
Nov 25, 2025
Anthropic’s new Claude Opus 4.5 is the #2 most intelligent model in the Artificial Analysis Intelligence Index, narrowly behind Google’s Gemini 3 Pro and tying OpenAI’s GPT-5.1 (high)
Claude Opus 4.5 delivers a substantial intelligence uplift over Claude Sonnet 4.5 (+7 points on the Artificial Analysis Intelligence Index) and Claude Opus 4.1 (+11 points), establishing it as @AnthropicAI's new leading model. Anthropic has dramatically cut per-token pricing for Claude Opus 4.5 to $5/$25 per million input/output tokens. However, compared to the prior Claude Opus 4.1 model it used 60% more tokens to complete our Intelligence Index evaluations (48M vs. 30M). This translates to a substantial reduction in the cost to run our Intelligence Index evaluations from $3.1k to $1.5k, but not as significant as the headline price cut implies. Despite Claude Opus 4.5 using substantially more tokens to complete our Intelligence Index, the model still cost significantly more than other models including Gemini 3 Pro (high), GPT-5.1 (high), and Claude Sonnet 4.5 (Thinking), and among all models only cost less than Grok 4 (Reasoning).
Key benchmarking takeaways:
➤ 🧠 Anthropic’s most intelligent model: In reasoning mode, Claude Opus 4.5 scores 70 on the Artificial Analysis Intelligence Index. This is a jump of +7 points from Claude Sonnet 4.5 (Thinking), which was released in September 2025, and +11 points from Claude Opus 4.1 (Thinking). Claude Opus 4.5 is now the second most intelligent model. It places ahead of Grok 4 (65) and Kimi K2 Thinking (67), ties GPT-5.1 (high, 70), and trails only Gemini 3 Pro (73). Claude Opus 4.5 (Thinking) scores 5% on CritPt, a frontier physics eval reflective of research assistant capabilities. It sits only behind Gemini 3 Pro (9%) and ties GPT-5.1 (high, 5%)
➤ 📈 Largest increases in coding and agentic tasks: Compared to Claude Sonnet 4.5 (Thinking), the biggest uplifts appear across coding, agentic tasks, and long-context reasoning, including LiveCodeBench (+16 p.p.), Terminal-Bench Hard (+11 p.p.), 𝜏²-Bench Telecom (+12 p.p.), AA-LCR (+8 p.p.), and Humanity's Last Exam (+11 p.p.). Claude Opus achieves Anthropic’s best scores yet across all 10 benchmarks in the Artificial Analysis Intelligence Index. It also earns the highest score on Terminal-Bench Hard (44%) of any model and ties Gemini 3 Pro on MMLU-Pro (90%)
➤ 📚 Knowledge and Hallucination: In our recently launched AA-Omniscience Index, which measures embedded knowledge and hallucination of language models, Claude Opus 4.5 places 2nd with a score of 10. It sits only behind Gemini 3 Pro Preview (13) and ahead of Claude Opus 4.1 (Thinking, 5) and GPT-5.1 (high, 2). Claude Opus 4.5 (Thinking) scores the second-highest accuracy (43%) and has the 4th-lowest hallucination rate (58%), trailing only Claude Haiku (Thinking, 26%), Claude Sonnet 4.5 (Thinking, 48%), and GPT-5.1 (high). Claude Opus 4.5 continues to demonstrate Anthropic’s leadership in AI safety with a lower hallucination rate than select other frontier models such as Grok 4 and Gemini 3 Pro
➤ ⚡ Non-reasoning performance: In non-reasoning mode, Claude Opus 4.5 scores 60 on the Artificial Analysis Intelligence Index and is the most intelligent non-reasoning model. It places ahead of Qwen3 Max (55), Kimi K2 0905 (50), and Claude Sonnet 4.5 (50)
➤ ⚙️ Token efficiency: Anthropic continues to demonstrate impressive token efficiency. It has improved intelligence without a significant increase in token usage (compared to Claude Sonnet 4.5, evaluated with a maximum reasoning budget of 64k tokens). Claude Opus 4.5 uses 48M output tokens to run the Artificial Analysis Intelligence Index. This is lower than other frontier models, such as Gemini 3 Pro (high, 92M), GPT-5.1 (high, 81M), and Grok 4 (Reasoning, 120M)
➤ 💲 Pricing: Anthropic has reduced the per-token pricing of Claude Opus 4.5 compared to Claude Opus 4.1. Claude Opus 4.5 is priced at $5/$25 per 1M input/output tokens (vs. $15/$75 for Claude Opus 4.1). This positions it much closer to Claude Sonnet 4.5 ($3/$15 per 1M tokens) while offering higher intelligence in thinking mode
Key model details:
➤ 📏 Context window: 200K tokens
➤ 🪙 Max output tokens: 64K tokens
➤ 🌐 Availability: Claude Opus 4.5 is available via Anthropic‘s API, Google Vertex, Amazon Bedrock and Microsoft Azure. Claude Opus 4.5 is also available via Claude app and Claude Code
A key differentiator for the Claude models remains that they are substantially more token-efficient than all other reasoning models. Claude Opus 4.5 has significantly increased intelligence without a large increase in output tokens, differing substantially from other model families that rely on greater reasoning at inference time (i.e., more output tokens). On the Output Tokens Used in Artificial Analysis Intelligence Index vs Intelligence Index chart, Claude 4.5 Opus (Thinking) sits on the Pareto frontier.
This output token efficiency contributes to Claude Opus 4.5 (in Thinking mode) offering a better tradeoff between intelligence and cost to run the Artificial Analysis Intelligence Index than Claude Opus 4.1 (Thinking) and Grok 4 (Reasoning).
Read 7 tweets
link#goto">
twitter-profile#error" data-retried="true">
Nov 18, 2025
Gemini 3 Pro is the new leader in AI. Google has the leading language model for the first time, with Gemini 3 Pro debuting +3 points above GPT-5.1 in our Artificial Analysis Intelligence Index
@GoogleDeepMind gave us pre-release access to Gemini 3 Pro Preview. The model outperforms all other models in Artificial Analysis Intelligence Index. It demonstrates strength across the board, coming in first in 5 of the 10 evaluations that make up Intelligence Index. Despite these intelligence gains, Gemini 3 Pro Preview shows improved token efficiency from Gemini 2.5 Pro, using significantly fewer tokens on the Intelligence Index than other leading models such as Kimi K2 Thinking and Grok 4. However, given its premium pricing ($2/$12 per million input/output tokens for <200K context), Gemini 3 Pro is among the most expensive models to run our Intelligence Index evaluations.
Key takeaways:
📖 Leading intelligence: Gemini 3 Pro Preview is the leading model in 5 of 10 evals in the Artificial Analysis Intelligence Index, including GPQA Diamond, MMLU-Pro, HLE, LiveCodeBench and SciCode. Its score of 37% on Humanity’s Last Exam is particularly impressive, improving on the previous best model by more than 10 percentage points. It also is leading in AA-Omniscience, Artificial Analysis’ new knowledge and hallucination evaluation, coming first in both Omniscience Index (our lead metric that takes off points for incorrect answers) and Omniscience Accuracy (percentage correct). Given that factual recall correlates closely with model size, this may point to Gemini 3 Pro being a much larger model than its competitors
💻 Advanced coding and agentic capabilities: Gemini 3 Pro Preview leads two of the three coding evaluations in the Artificial Analysis Intelligence Index, including an impressive 56% in SciCode, an improvement of over 10 percentage points from the previous highest score. It is also strong in agentic contexts, achieving the second highest score in Terminal-Bench Hard and Tau2-Bench Telecom
🖼️ Multimodal capabilities: Gemini 3 Pro Preview is a multi-modal model, with the ability to take text, images, video and audio as input. It scores the highest of any model on MMMU-Pro, a benchmark that tests reasoning abilities with image inputs. Google now occupies the first, third and fourth position in our MMMU-Pro leaderboard (with GPT-5.1 taking out second place just last week)
💲Premium Pricing: To measure cost, we report Cost to Run the Artificial Analysis Intelligence Index, which combines input and output token prices with token efficiency to reflect true usage cost. Despite the improvement in token efficiency from Gemini 2.5 Pro, Gemini 3 Pro Preview costs more to run. Its higher token pricing of $2/$12 USD per million input/output tokens (≤200k token context) results in a 12% increase in the cost to run the Artificial Analysis Intelligence Index compared to its predecessor, and the model is among the most expensive to run on our Intelligence Index. Google also continues to price long context workloads higher than lower context workloads, charging $4/$18 per million input/output tokens for ≥200k token context.
⚡ Speed: Gemini 3 Pro Preview has comparable speeds to Gemini 2.5 Pro, with 128 output tokens per second. This places it ahead of other frontier models including GPT-5.1 (high), Kimi K2 Thinking and Grok 4. This is potentially supported by Google’s first-party TPU accelerators
Other details: Gemini 3 Pro Preview has a 1 million token context window, and includes support for tool calling, structured outputs, and JSON mode
See below for further analysis
For the first time, Google has the most intelligent model, with Gemini 3 Pro Preview improving on the previous most intelligent model, OpenAI’s GPT-5.1 (high), by 3 points
Gemini 3 Pro Preview takes the top spot on the Artificial Analysis Omniscience Index, our new benchmark for measuring knowledge and hallucination across domains. Gemini 3 Pro Preview comes in first for both Omniscience Index (our lead metric that takes off points for incorrect answers) and Omniscience Accuracy (percentage correct).
Its win in Accuracy is actually much larger than than its overall Index win - this is driven by a higher Hallucination Rate than other models (88%).
We have previously shown that Omniscience Accuracy is closely correlated with model size (total parameter count). Gemini 3 Pro’s significant lead in this metric may point to it being a much larger model than its competitors.
Read 10 tweets
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み