AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
TLDR AI·2026年6月2日 09:00·約5分で読める

NVIDIA、Nemotron 3 Ultra のリリースを発表

#LLM#Reasoning#Anthropic#Claude Opus#Benchmarking
TL;DR

Anthropic が新モデル「Claude Opus 4.5」を発表し、人工知能分析インデックスで Google Gemini 3 Pro に次ぐ世界第2位の性能を達成したが、推論コストの増大により実質的な価格競争力は限定的である。

AI深層分析2026年6月3日 18:05
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
3
革新性10%
4

キーポイント

1

性能ランキングでの躍進

Claude Opus 4.5 は Artificial Analysis Intelligence Index で 70点を記録し、GPT-5.1 と同点で世界第2位となり、特に推論・コーディング・アジェンシータスクで大幅な向上を遂げた。

2

コストと効率性のジレンマ

トークン単価は大幅に引き下げられたが、評価タスク完了に必要なトークン数が前モデル比 60% 増加し、結果として他の主要モデルと比較しても総コストは依然として高水準である。

3

知識とハルシネーションの改善

AA-Omniscience Index で第2位を獲得し、埋め込み知識量とハルシネーション率において GPT-5.1 や旧モデルを大きく上回る精度を示した。

4

知識とハルシネーション性能

Claude Opus 4.5 は AA-Omniscience Index で総合 2 位を獲得し、思考モードでは精度が 43% と高く、ハルシネーション率は 58% と低く抑えられています。

5

非推論性能とトークン効率

非推論モードで最も知的なモデルとなり(スコア 60)、他の主要モデルと比較して出力トークン数(48M)が大幅に少ないため、高いコスト効率を達成しています。

6

価格改定と仕様

入力・出力トークンあたりの料金が前世代の 3 分の 1 に引き下げられ($5/$25)、200K トークンのコンテキストウィンドウと最大 64K トークンの出力をサポートします。

7

トークン効率性の優位性

Claude Opus 4.5 は、推論時の出力トークンを大幅に削減しながら知能を向上させており、他の推論モデルよりも圧倒的に効率的です。

影響分析・編集コメントを表示

影響分析

今回の発表は、Anthropic が性能面でのトップティア維持に成功したことを示す一方で、推論効率の低下が価格競争力を相殺しているというジレンマを浮き彫りにしています。業界にとっては、単なるトークン単価の引き下げだけでなく、モデルの推論効率(tokens per task)がコスト構造において決定的な要素となりつつある重要な転換点を示唆するものです。

編集コメント

性能とコストのバランスにおいて、トークン単価の引き下げだけでは不十分であり、推論効率の向上が次世代モデル開発の鍵となることを示す好例です。開発者はベンチマークスコアだけでなく、実運用時のトークン消費量にも注視する必要があります。

Anthropic の新しい Claude Opus 4.5 は、Artificial Analysis Intelligence Index において第 2 位の知能モデルとなり、Google の Gemini 3 Pro に僅差で並び、OpenAI の GPT-5.1 (high) と同点です。

Claude Opus 4.5 は、Claude Sonnet 4.5 より大幅な知能の向上(Artificial Analysis Intelligence Index で +7 ポイント)と、Claude Opus 4.1 よりも大きな向上(+11 ポイント)を実現し、@AnthropicAI の新たな主力モデルとして確立されました。Anthropic は Claude Opus 4.5 のトークンあたりの価格を大幅に引き下げ、入力/出力トークン 100 万あたり 5 ドル/25 ドルとしました。しかし、先行する Claude Opus 4.1 モデルと比較すると、知能指数の評価を完了させるために使用されるトークン数が 60% 増加しています(48M vs. 30M)。これにより、知能指数評価の実行コストは 3,100 ドルから 1,500 ドルへと大幅に削減されましたが、 headline の価格引き下げが示唆するほど劇的なものではありませんでした。Claude Opus 4.5 は知能指数の完了に大幅なトークン数を要しましたが、それでも Gemini 3 Pro (high)、GPT-5.1 (high)、Claude Sonnet 4.5 (Thinking) を含む他のモデルよりも依然としてコストが高く、すべてのモデルの中で唯一 Grok 4 (Reasoning) よりも安価でした。

主要なベンチマークの要点:

➤ 🧠 Anthropic の最も知的なモデル:推論モードにおいて、Claude Opus 4.5 は Artificial Analysis Intelligence Index で 70 を記録しました。これは 2025 年 9 月にリリースされた Claude Sonnet 4.5 (Thinking) より +7 ポイント、Claude Opus 4.1 (Thinking) より +11 ポイントの向上です。Claude Opus 4.5 は現在、世界で 2 番目に知的なモデルとなりました。Grok 4 (65) や Kimi K2 Thinking (67) を上回り、GPT-5.1 (high, 70) と同点、Gemini 3 Pro (73) にのみ及ばない成績です。Claude Opus 4.5 (Thinking) は CritPt で 5% のスコアを記録しました。これは研究アシスタントの能力を反映した最先端物理学評価であり、Gemini 3 Pro (9%) に次ぎ、GPT-5.1 (high, 5%) と同点です。

➤ 📈 コーディングおよびエージェントタスクにおける最大の向上:Claude Sonnet 4.5 (Thinking) と比較すると、最も大きな改善が見られるのは、LiveCodeBench (+16 ポイント)、Terminal-Bench Hard (+11 ポイント)、𝜏²-Bench Telecom (+12 ポイント)、AA-LCR (+8 ポイント)、Humanity's Last Exam (+11 ポイント) を含むコーディング、エージェントタスク、長文コンテキスト推論の分野です。Claude Opus は Artificial Analysis Intelligence Index の全 10 ベンチマークにおいて Anthropic がこれまで達成した最高スコアを記録しました。また、Terminal-Bench Hard ではどのモデルよりも高い 44% のスコアを獲得し、MMLU-Pro (90%) では Gemini 3 Pro と同点となりました。

➤ 📚 知識と幻覚:最近公開した AA-Omniscience Index(言語モデルの埋め込み知識と幻覚を測定する指標)において、Claude Opus 4.5 はスコア 10 で 2 位にランクインしました。これは Gemini 3 Pro Preview (13) に次ぎ、Claude Opus 4.1 (Thinking, 5) や GPT-5.1 (high, 2) を上回る結果です。Claude Opus 4.5 (Thinking) は、精度が 43% で第 2 位、幻覚発生率が 58% で第 4 位(最も低い方から数えて)という高い評価を得ています。これは Claude Haiku (Thinking, 26%)、Claude Sonnet 4.5 (Thinking, 48%)、GPT-5.1 (high) に次ぐ成績です。Claude Opus 4.5 は、Grok 4 や Gemini 3 Pro といった一部の最先端モデルと比較して幻覚発生率が低く、Anthropic が AI セーフティ(安全性)においてリーダーシップを発揮し続けていることを示しています。

➤ ⚡ 推論非依存性能:推論モードをオフにした状態では、Claude Opus 4.5 は Artificial Analysis Intelligence Index でスコア 60 を記録し、最も知的な非推論モデルとなりました。これは Qwen3 Max (55)、Kimi K2 0905 (50)、Claude Sonnet 4.5 (50) を上回る結果です。

➤ ⚙️ トークン効率:Anthropic は引き続き、印象的なトークン効率を示しています。Claude Sonnet 4.5(最大推論予算 64k トークンで評価)と比較して、トークン使用量を大幅に増やすことなく知能を向上させています。Claude Opus 4.5 は Artificial Analysis Intelligence Index を実行するために出力トークンを 48M 使用しました。これは Gemini 3 Pro (high, 92M)、GPT-5.1 (high, 81M)、Grok 4 (Reasoning, 120M) といった他の最先端モデルよりも低い数値です。

➤ 💲 価格設定:Anthropic は、Claude Opus 4.5 のトークンあたりの料金を Claude Opus 4.1 よりも引き下げました。Claude Opus 4.5 の価格は、入力/出力トークン 100 万あたり $5/$25 です(Claude Opus 4.1 は $15/$75)。これにより、推論モードでより高い知能を提供しつつ、Claude Sonnet 4.5(トークン 100 万あたり $3/$15)に価格面で大きく近づいています。

主要なモデルの詳細:

➤ 📏 コンテキストウィンドウ:200K トークン

➤ 🪙 最大出力トークン数:64K トークン

➤ 🌐 利用状況:Claude Opus 4.5 は、Anthropic の API、Google Vertex、Amazon Bedrock、Microsoft Azure を通じて利用可能です。また、Claude アプリおよび Claude Code でも利用できます。

Claude モデルの重要な差別化要因は、他のすべての推論モデルと比較して大幅にトークン効率が優れている点です。Claude Opus 4.5 は、出力トークンの大幅な増加なしに知能を著しく向上させており、推論時により多くの推論(つまり、より多くの出力トークン)に依存する他のモデルファミリーとは大きく異なります。Artificial Analysis Intelligence Index の「使用された出力トーク数対インテリジェンス指数」チャートにおいて、Claude 4.5 Opus (Thinking) はパレートフロンティア上に位置しています。

この出力トークンの効率性は、Claude Opus 4.5(推論モード)が、Artificial Analysis Intelligence Index を実行する際の知能とコストのバランスにおいて、Claude Opus 4.1 (Thinking) や Grok 4 (Reasoning) よりも優れたトレードオフを提供することを意味しています。

原文を表示

Anthropic’s new Claude Opus 4.5 is the #2 most intelligent model in the Artificial Analysis Intelligence Index, narrowly behind Google’s Gemini 3 Pro and tying OpenAI’s GPT-5.1 (high)

Claude Opus 4.5 delivers a substantial intelligence uplift over Claude Sonnet 4.5 (+7 points on the Artificial Analysis Intelligence Index) and Claude Opus 4.1 (+11 points), establishing it as @AnthropicAI's new leading model. Anthropic has dramatically cut per-token pricing for Claude Opus 4.5 to $5/$25 per million input/output tokens. However, compared to the prior Claude Opus 4.1 model it used 60% more tokens to complete our Intelligence Index evaluations (48M vs. 30M). This translates to a substantial reduction in the cost to run our Intelligence Index evaluations from $3.1k to $1.5k, but not as significant as the headline price cut implies. Despite Claude Opus 4.5 using substantially more tokens to complete our Intelligence Index, the model still cost significantly more than other models including Gemini 3 Pro (high), GPT-5.1 (high), and Claude Sonnet 4.5 (Thinking), and among all models only cost less than Grok 4 (Reasoning).

Key benchmarking takeaways:

➤ 🧠 Anthropic’s most intelligent model: In reasoning mode, Claude Opus 4.5 scores 70 on the Artificial Analysis Intelligence Index. This is a jump of +7 points from Claude Sonnet 4.5 (Thinking), which was released in September 2025, and +11 points from Claude Opus 4.1 (Thinking). Claude Opus 4.5 is now the second most intelligent model. It places ahead of Grok 4 (65) and Kimi K2 Thinking (67), ties GPT-5.1 (high, 70), and trails only Gemini 3 Pro (73). Claude Opus 4.5 (Thinking) scores 5% on CritPt, a frontier physics eval reflective of research assistant capabilities. It sits only behind Gemini 3 Pro (9%) and ties GPT-5.1 (high, 5%)

➤ 📈 Largest increases in coding and agentic tasks: Compared to Claude Sonnet 4.5 (Thinking), the biggest uplifts appear across coding, agentic tasks, and long-context reasoning, including LiveCodeBench (+16 p.p.), Terminal-Bench Hard (+11 p.p.), 𝜏²-Bench Telecom (+12 p.p.), AA-LCR (+8 p.p.), and Humanity's Last Exam (+11 p.p.). Claude Opus achieves Anthropic’s best scores yet across all 10 benchmarks in the Artificial Analysis Intelligence Index. It also earns the highest score on Terminal-Bench Hard (44%) of any model and ties Gemini 3 Pro on MMLU-Pro (90%)

➤ 📚 Knowledge and Hallucination: In our recently launched AA-Omniscience Index, which measures embedded knowledge and hallucination of language models, Claude Opus 4.5 places 2nd with a score of 10. It sits only behind Gemini 3 Pro Preview (13) and ahead of Claude Opus 4.1 (Thinking, 5) and GPT-5.1 (high, 2). Claude Opus 4.5 (Thinking) scores the second-highest accuracy (43%) and has the 4th-lowest hallucination rate (58%), trailing only Claude Haiku (Thinking, 26%), Claude Sonnet 4.5 (Thinking, 48%), and GPT-5.1 (high). Claude Opus 4.5 continues to demonstrate Anthropic’s leadership in AI safety with a lower hallucination rate than select other frontier models such as Grok 4 and Gemini 3 Pro

➤ ⚡ Non-reasoning performance: In non-reasoning mode, Claude Opus 4.5 scores 60 on the Artificial Analysis Intelligence Index and is the most intelligent non-reasoning model. It places ahead of Qwen3 Max (55), Kimi K2 0905 (50), and Claude Sonnet 4.5 (50)

➤ ⚙️ Token efficiency: Anthropic continues to demonstrate impressive token efficiency. It has improved intelligence without a significant increase in token usage (compared to Claude Sonnet 4.5, evaluated with a maximum reasoning budget of 64k tokens). Claude Opus 4.5 uses 48M output tokens to run the Artificial Analysis Intelligence Index. This is lower than other frontier models, such as Gemini 3 Pro (high, 92M), GPT-5.1 (high, 81M), and Grok 4 (Reasoning, 120M)

➤ 💲 Pricing: Anthropic has reduced the per-token pricing of Claude Opus 4.5 compared to Claude Opus 4.1. Claude Opus 4.5 is priced at $5/$25 per 1M input/output tokens (vs. $15/$75 for Claude Opus 4.1). This positions it much closer to Claude Sonnet 4.5 ($3/$15 per 1M tokens) while offering higher intelligence in thinking mode

Key model details:

➤ 📏 Context window: 200K tokens

➤ 🪙 Max output tokens: 64K tokens

➤ 🌐 Availability: Claude Opus 4.5 is available via Anthropic‘s API, Google Vertex, Amazon Bedrock and Microsoft Azure. Claude Opus 4.5 is also available via Claude app and Claude Code

A key differentiator for the Claude models remains that they are substantially more token-efficient than all other reasoning models. Claude Opus 4.5 has significantly increased intelligence without a large increase in output tokens, differing substantially from other model families that rely on greater reasoning at inference time (i.e., more output tokens). On the Output Tokens Used in Artificial Analysis Intelligence Index vs Intelligence Index chart, Claude 4.5 Opus (Thinking) sits on the Pareto frontier.

This output token efficiency contributes to Claude Opus 4.5 (in Thinking mode) offering a better tradeoff between intelligence and cost to run the Artificial Analysis Intelligence Index than Claude Opus 4.1 (Thinking) and Grok 4 (Reasoning).

この記事をシェア

関連記事

TechCrunch AI★32026年6月17日 07:34

トランプ政権との対立がアンソロピックの売上に好影響を与える可能性を示すデータ

販売データは、アンソロピック社がトランプ政権と繰り広げる最新の対立が、同社の売上向上に寄与する可能性があることを示唆している。

MarkTechPost★42026年6月17日 16:44

ミニマックスが109BパラメータMoEモデル向けに開発したスパースアテンション手法「MSA」を発表

中国のAI企業ミニマックスは、長文コンテキストにおける計算コストを削減する新手法「MiniMax Sparse Attention(MSA)」を開発し、109BパラメータのMoEモデルで実証した。同社はさらに推論用カーネルをオープンソース化し、生産環境向けモデル「MiniMax-M3」もリリースした。

Latent Space★42026年6月17日 14:37

[AINews] GLM-5.2:世界最高峰のフロントエンドコーディングモデル、推測型デコーディングのための IndexShare を発表

Z.ai は週末に「GLM-5.2」をリリースし、この新モデルが世界最高のフロントエンドコーディング性能を持つと主張した。また、推測型デコーディング技術の向上を目指す「IndexShare」という仕組みも紹介された。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む