[AINews] Anthropic Claude Opus 4.7 - literally one step better than 4.6 in every dimension｜Anthropic Claude Opus 4.7：全次元で前モデルより一歩進んだ | AIニュース最前線

木曜日の朝は権威あるAIのローンチの日であり、OpenAIがGPT-RosalindやThe New New Codex（優れたコンピュータ操作機能付き）で懸命な努力を払ったものの、今日のタイトルストーリーの勝者が誰かという疑問は残らなかった。もしあなたが過去少なくとも1週間、AINewsのIssueを注意深く目を通していたなら、これに関する噂を見ていたはずだ。しかし、今日のClaude Opus 4.7のリリースは、それらの期待をわずかに上回るものとなった。 主要なチャートはこれである： ![image](https://substackcdn.com/image/fetch/$s_!iEJA!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F7242e5f5-6105-4489-bc8b-143002fe7da6_1344x756.png) 基本的には、4.7-lowは4.6-mediumより厳密に優れており、4.7-mediumは4.6-highより厳密に優れており、4.7-highはもはや4.6-maxより優れている。さらに、Claude Codeのデフォルトとして設定された新しいxhighの試行レベルが存在する。Anthropicによると、新しいトークナイザー（新しい事前学習？）によりトークン使用量が最大35%増加する可能性があるものの、全体的な推論効率が大幅に向上したため、全体的なトークン使用量は以前の同等モデルと比較して依然として最大50%減少している。真のテストは、SWE-Bench Proで現在11ポイント高いデフォルトのClaude Codeが、あなたの独自のユースケースにおいて顕著により良い結果を出すかどうかである。 見て初めて信じられる、非常に顕著な能力として、「大幅に向上したビジョン機能」が挙げられます。Opus 4.7は、高解像度画像に対してより優れたビジョン機能を持ちます。長辺が最大2,576ピクセル（約3.75メガピクセル）の画像を受け取ることができ、これは以前のClaudeモデルの3倍以上です。これにより、細かな視覚的詳細に依存する多様なマルチモーダル用途が開かれます。これには、高密度なスクリーンショットを読み取るコンピュータ操作エージェント（computer-use agents）、複雑な図表からのデータ抽出、ピクセル単位の正確な参照が必要な作業などが含まれます。詳細は以下の注目トピックのまとめをご覧ください。 2026年4月14日〜4月16日のAIニュース。私たちは12のサブレッド、544件のTwitter投稿、および追加のDiscordサーバーを確認しました。AINewsのウェブサイトでは過去のすべての号を検索できます。お知らせですが、現在AINewsはLatent Spaceの一部となっています。メール配信頻度のオプトイン・オプトアウトが可能です！ トップストーリー：Claude Opus 4.7 Anthropicは、Claude Opus 4.7を最新の最高級Opusモデルとして正式にリリースしました。これは、Opus 4.6と比較して長時間のタスク処理、コーディング、指示の遵守、自己検証、コンピュータ操作、知識作業において優れていると位置づけられており、ユーザーのまとめやリリースに関する議論によると、入力/出力トークン100万個あたり5ドル/25ドルというリスト価格は変更されていないとのことです [@claudeai, @kimmonismus]。このリリースにより、ベンチマークの向上、新しいトークナイザー、より高い画像解像度のサポート、新しいxhigh推論エフォート、トークンコストへの影響、そしてOpus 4.7が単なる4.6の後継モデルなのか、新しいベースモデルなのか、あるいは部分的に蒸留された「Mythos関連」システムなのかといった、ベンチマークの向上を巡る非常に活発な技術的な議論が巻き起こりました。 リリース詳細と製品の変更点 公式の位置づけ。Anthropicのリリース発表では、3つの行動面での改善が強調されました：長時間のタスク処理能力の向上、より正確な指示の遵守、そして回答前の強力な自己検証です [@claudeai]。 利用可能性。 Claudeプラットフォーム/アプリは直ちに稼働を開始しました [@dejavucoder]。 Claude Codeはリリース当日からサポートを提供し、xhighをデフォルトの作業レベルに設定しました [@_catwu, @_catwu]。 Anthropicは、パブリックベータ版でのタスク予算の開始、Claude Codeにおける/ultrareview機能の提供、およびClaude Code Maxユーザー向けのより広範なAutoモードへのアクセスも開始または強調しました [@kimmonismus]。 新しい作業レベル。 複数のユーザーが、highとmaxの間に位置する新しいxhigh推論エフォートモードに言及しました [@scaling01, @scaling01]。 Cat Wu 氏は、Opus 4.7 では Claude Code が xhigh をデフォルト設定にしていると明かした [@_catwu]。 ビジョン（画像認識）およびコンピュータ操作に関する変更点。 ユーザーのまとめによると、長辺が 2,576 ピクセルまでの画像（約 3.75 メガピクセル）がサポートされており、これは以前の Claude の画像入力よりも約 3 倍大きいとされている [@kimmonismus]。 Anthropic の社員である Alex Albert 氏は、「高解像度画像のダウンスケール処理が不要になり」、UI、スライド、ドキュメントなどの出力品質も向上したと指摘している [@alexalbert__]。 これは、コンピュータ操作の改善やスクリーンショットを多用するワークフローにおいて繰り返し言及された [@dejavucoder, @omarsar0]。 トークナイザーとトークン経済学。 複数の観察者が、Opus 4.7 が 4.6 とは異なるトークナイザーを使用していることを発見した [@natolambert, @nrehiew_]。 Kimmonismus 氏は、Anthropic の注意書きを要約し、コンテンツの種類によっては同じ入力が 1.0〜1.35 倍のトークン数にマッピングされる可能性があると伝えた [@kimmonismus]。 これにより、4.7 が事実上新しいベースモデルなのか、トークナイザーを差し替えた継続学習版なのか、あるいは Mythos からの中途トレーニング（ミッドトレーニング）や蒸留（ディスティレーション）の橋渡し的な存在なのかについて議論が巻き起こった [@natolambert, @stochasticchasm, @eliebakouch, @maximelabonne]。 その後、Anthropic の社員である Boris Cherny 氏は、トークン使用量の増加を相殺するため、すべてのサブスクライバーに対する制限を引き上げたと語った [@bcherny, @bcherny]。 ベンチマークと測定可能な進捗 Opus 4.6 に対する報告されたベンチマークの向上 最も引用されている起動時の数値は、外部アカウントによって共有されたベンチマークのスクリーンショットおよびまとめに基づくものである： SWE-bench Pro: 64.3%。ユーザーからは Opus 4.6 よりも約 11 ポイントの向上が指摘されている [@scaling01, @kimmonismus] SWE-bench Verified: 87.6%、4.6と比較して約+7ポイント [@scaling01, @scaling01] TerminalBench 2.0: 69.4%、約+4ポイント [@scaling01, @kimmonismus] 文書推論（Document reasoning）: 80.6%、第三者の議論によると57.1%から向上 [@scaling01, @llama_index] GDPval-AA: 1753 Elo [@scaling01, @ArtificialAnlys] ARC-AGI-1: 92%; ARC-AGI-2: 75.83% [@scaling01] Artificial Analysisによると、Opus 4.7はGDPval-AAで新たな#1としてリリースされ、そのタスクセットにおいてGPT-5.4との直接対決で約60%の勝率を有すると示唆されている [@ArtificialAnlys]。 Anthropicは、トークン使用量の増加に対応するため、サブスクライバーの制限を引き上げた [@bcherny, @bcherny]。 Anthropicはベンチマークのトレードオフを認識し、MRCR（Multi-Response Consistency Ranking）を「科学的誠実さ」のためにシステムカードに維持しつつ、Graphwalksを好ましい長期コンテキスト指標とする方向へシフトしていることを示唆した [@bcherny]。 Vals AIによると、Opus 4.7は前回の最高値67.7%から上昇し、Vals Indexで71.4%のスコアを記録して#1を獲得した。また、Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench、Terminal Bench 2においても#1にランクインした [@ValsAI]。 同社は別途、Opus 4.7がVibe Code Benchmarkで71%のスコアを記録し#1となったと述べた。これは、4.5ヶ月前に同ベンチマークが最初にリリースされた際、どのモデルも25%を超えていなかったことと比較しての数字である [@ValsAI]。 パートナーおよび顧客からの製品/評価結果 Cursorによると、Opus 4.7を用いた社内ベンチマークのスコアは58%から70%に跳ね上がった [@cursor_ai, @scaling01]。 別のCursorによる投稿では、500チームにわたって、開発者が今年取り組んでいる高複雑度タスクが68%増加していると報じられている。ただし、これはOpus 4.7に限定されたものではなく、より良いモデル全般に関するものであった [@cursor_ai]。 Notionでは、内部評価において14%の向上が確認され、ツールのエラーは3分の1に減少したと報じられている [@mikeyk]。 GitHubでも同様の改善が見られたが、ツイートスレッドには具体的な数値は含まれていなかった [@scaling01]。 文書理解：進歩はあるが、経済性は混合 LlamaIndexとJerry Liuは有用な独立したニュアンスを提供した。 LlamaIndexのParseBenchスタイルによる比較では、Opus 4.7がチャートにおいて大幅な改善（13.5% → 55.8%）を見せた一方、フォーマット（64.2% → 69.4%）、コンテンツ（89.7% → 90.3%）、表（86.5% → 87.2%）の改善はわずかで、レイアウトについては後退（16.5% → 14.0%）したとされている [@llama_index]。 Jerry Liuは別途、Opus 4.7が「表においてかなり優れており」、チャートでも優れ、コンテンツの忠実度においては最も強力であると述べた。ただし、OCRのような用途では1ページあたり約7セントと高価であり、アジェンティックモードでは約1.25セント、コスト効率重視のモードでは約0.4セントである [@jerryjliu0]。 これは、発売時の楽観論を抑制する独立した評価の明確な例の一つである。全体的な能力は向上したが、特定の企業向け文書パイプラインでは、コストとパフォーマンスの観点から専門的なスタックを好む可能性がある。 意見／解釈 「これはMythosの蒸留版だ」 [@eliebakouch]。 「トークナイザーが変更されたため、これは新しいベースモデルだ」 [@natolambert]。 "Anthropic はトレーニング中にサイバースコアを人為的に低く抑えていた"という主張は、システムカードの記述にある一部の能力を差別的に低下させたことについてユーザーが引用している点で部分的に事実ですが、"nerfed Mythos（機能制限されたミソス）"に関するより広範な主張は解釈に過ぎません [@scaling01, @Yuchenj_UW]。 "ベンチマークは実態を正しく反映していない"および「実際の使用では大幅に改善されている」という主張は主観的なものですが、実際に触ったユーザーの間で広く繰り返されています [@mweinbach, @jeremyphoward]。 "システムプロンプトがモデルの前頭葉を切除した（思考能力を奪った）"という主張は、行動変容に対するユーザーの不満であり、確立された事実ではありません [@theo]。 異なる視点 支持派：意味のある実世界でのアップグレード 技術ユーザーの大きな部分は、これは大幅な反復であり、特にリリース頻度が高くなったことを考慮すればそうだと主張しました。 Scaling01 は「中間的なアップデート」という見解に繰り返し反論し、SWE-bench Verified におけるスコアが約 80% からほぼ 90% に跳ね上がったことを指摘し、これは以前のリリースサイクルでは大きな出来事として見なされただろうと強調しました [@scaling01, @scaling01, @scaling01]。 Alex Albert は、非同期作業の改善、努力レベルの予測可能性の向上、画像処理能力の強化、UI/ドキュメントに対する優れたセンスを挙げました [@alexalbert__]。 Michael Weinbach は、わずか 2 つのプロンプトで、行動と指示の遵守が「かなり大幅に」改善されたと述べました [@mweinbach]。 Jeremy Howard は、これが彼の行っていることを「理解している」最初のモデルであり、押し付けがましい進行よりも議論を好む姿勢を称賛しました [@jeremyphoward, @jeremyphoward]。 Cat Wu は、ユーザーに対してこれをマイクロマネジメントするペアプログラマーではなく、委任されたエンジニアのように扱うよう明確にアドバイスしており、Anthropic は自律的な実行能力においてより強力だと見なしていることを示唆しています [@_catwu]。 中立的・分析的：トレードオフを伴う強力なアップデート 最も優れたコメントの多くは技術的かつ混合したものでした。 Kimmonismus は、Anthropic の主要な購買優先事項であるエージェント型コーディングの信頼性、コンピュータ使用エージェントのためのビジョン、知識労働に焦点を当てた「堅実なアップデート」と呼びましたが、「明らかに Mythos には劣る」とも述べています [@kimmonismus]。 Artificial Analysis は GDPval-AA の向上と 1 位ランクを裏付けましたが、全面的な圧勝として位置づけてはいません [@ArtificialAnlys]。 LlamaIndex と ParseBench の結果は、実価格の制約を伴う目に見えるが不均一なドキュメントの向上を示唆しています [@llama_index, @jerryjliu0]。 懐疑的・批判的：後退、トークン膨張、UX に関する懸念 また、 substantial な反発もありました。 複数のユーザーは、特に MRCR や干し草の山の中の針のような指標において、長文コンテキストのパフォーマンスが悪化しているように見えると述べています [@scaling01, @nrehiew_, @eliebakouch, @kimmonismus]。 Anthropic の Boris Cherny は、MRCR が過剰に干散スタッキングのトリックに重みを置いているため廃止されつつあり、Graphwalks（グラフウォーク）の方が適用された推論の指標として優れていると返信しました。彼は 4.6 から 4.7 への変更で Graphwalks が 38.7% から 58.6% に向上したという数値を示しています [@bcherny, @scaling01]。 トークナイザーの変更により、Opus が「トークンの大食い」となり、リスト価格が横ばいであっても実効コストが上昇する可能性があることについて苦情が寄せられました [@dejavucoder, @madiator]。 Yuchen 氏は、Claude のウェブインターフェースでは「Adaptive」モード（思考しないモード）しか公開されておらず、明示的な「強制的に思考させる」スイッチがないため、一部のユーザーにとってコーディング以外のタスクが実際にはより使いにくく感じられると指摘しました [@Yuchenj_UW]。 Mikhail Parakhin 氏も同様に、コーディング以外の回答に対する第一印象は「賢くない」と感じたと語り、推論を強制できなかったことがその理由だと述べています [@MParakhin]。 Theo 氏は、新しいシステムプロンプトを「前頭葉切除された（lobotomized）」と激しく批判し、その後、「前頭葉切除されたシステムプロンプトなしで」T3 Chat でモデルを試すよう提案しました [@theo, @theo]。 安全 / ガバナンスの観点 Scaling01 氏は、Anthropic がトレーニング中にサイバー攻撃能力を差別的に低減する試みを行ったことを示すシステムカードの記述を強調しました [@scaling01]。 同時に、ユーザーたちは Opus 4.7 が Firefox シェルエクスプロイトなどの一部のエクスプロイト関連評価では 4.6 よりも高いスコアを記録しており、プロンプトインジェクションに対する堅牢性も Mythos に近い水準にあると指摘しました [@scaling01, @scaling01]。 あるユーザーは誇張して「このペースなら Opus は生物兵器のリスクになる」と述べ、これは一般的な能力の飛躍と最悪ケースの悪用シナリオを混同する傾向が現在も続いていることを反映しています [@scaling01]。 Anthropic による Claude Code ワークフローのガイダンス Cat Wu 氏のスレッドは、エンジニアにとって有用な運用上のシグナルです： 委任せよ、細部まで管理するな（Delegate, don’t micromanage）[@_catwu] 完全な目標、制約条件、受入基準を最初に提示する [@_catwu] 変更の検証方法をモデルに伝え、claude.md やスキルでテストワークフローをエンコードする [@_catwu] これは、Anthropic が明示的な検証を中核とする自律型タスクループへの最適化を目指したことを強く示唆しています。 実務における進歩の例 続きを読む

Anthropic Claude Opus 4.7：全次元で前モデルより一歩進んだ

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト

背景や根拠まで確認しますか？

関連記事

ニュースの次に確認する

調べる

選ぶ

サイト