AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Latent Space·2026年4月17日 10:36·約14分で読める

Anthropic Claude Opus 4.7:全次元で前モデルより一歩進んだ

#LLM#Anthropic#Claude#マルチモーダル#トークン効率
TL;DR

AnthropicがClaude Opus 4.7をリリースし、低・中・高のすべての推論レベルで前モデルを上回る性能を実現するとともに、高解像度画像処理の新機能とトークン効率の向上を発表した。

AI深層分析2026年4月27日 01:22
5
最重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

推論性能の段階的向上と新「xhigh」モード

4.7-lowが4.6-mediumを上回るなど、すべての推論レベルで厳密な性能向上を実現し、Claude Codeのデフォルトとして「xhigh」努力レベルが導入された。

2

トークン効率の劇的な改善

新しいトークナイザーにより使用量が最大35%増加する可能性はあるものの、推論効率の向上により、同等のタスクにおける総トークン使用量は最大50%削減されている。

3

高解像度ビジョン機能の強化

長辺2,576ピクセル(約3.75メガピクセル)までの高解像度画像を受け付け可能となり、精密な視覚詳細が必要なマルチモーダル用途が拡大した。

4

SWE-Bench Proでのスコア向上

デフォルト設定のClaude CodeがSWE-Bench Proで11ポイント上昇し、実際のコーディングユースケースでの性能向上が示唆されている。

5

新機能と利用可能性の拡大

Claude CodeはOpus 4.7向けに「xhigh」推論モードをデフォルト設定とし、画像入力解像度が最大2,576px(約3.75MP)へ拡張され、高解像度画像のダウンスケーリングが不要になった。

6

トークナイザーの変更とコスト調整

Opus 4.7は4.6とは異なるトークナイザーを採用し、同じ入力でも1.0〜1.35倍のトークン数になる可能性があるが、Anthropicはサブスクライバーの制限を引き上げてこの増加分を補償した。

7

ベンチマークにおける顕著な性能向上

SWE-bench Proで64.3%、Document reasoningで80.6%など主要ベンチマークで大幅なスコア向上を示し、Artificial AnalysisによるとGDPval-AAではGPT-5.4に対し約60%の勝率を記録した。

影響分析・編集コメントを表示

影響分析

このリリースは、単なるモデルのバージョンアップではなく、推論効率とコストパフォーマンスの両立を実現した重要なマイルストーンです。特に「xhigh」モードの標準化と高解像度ビジョン機能は、実務現場でのClaude Code利用価値を高め、競合他社(OpenAIなど)との差別化要因となります。

編集コメント

価格据え置きでの性能向上とトークン削減は、実務導入において極めて魅力的な要素であり、競合他社に対するAnthropicの競争優位性を強める結果となった。

木曜日の朝は権威あるAIのローンチの日であり、OpenAIがGPT-RosalindやThe New New Codex(優れたコンピュータ操作機能付き)で懸命な努力を払ったものの、今日のタイトルストーリーの勝者が誰かという疑問は残らなかった。もしあなたが過去少なくとも1週間、AINewsのIssueを注意深く目を通していたなら、これに関する噂を見ていたはずだ。しかし、今日のClaude Opus 4.7のリリースは、それらの期待をわずかに上回るものとなった。

主要なチャートはこれである:

image
image

基本的には、4.7-lowは4.6-mediumより厳密に優れており、4.7-mediumは4.6-highより厳密に優れており、4.7-highはもはや4.6-maxより優れている。さらに、Claude Codeのデフォルトとして設定された新しいxhighの試行レベルが存在する。Anthropicによると、新しいトークナイザー(新しい事前学習?)によりトークン使用量が最大35%増加する可能性があるものの、全体的な推論効率が大幅に向上したため、全体的なトークン使用量は以前の同等モデルと比較して依然として最大50%減少している。真のテストは、SWE-Bench Proで現在11ポイント高いデフォルトのClaude Codeが、あなたの独自のユースケースにおいて顕著により良い結果を出すかどうかである。

見て初めて信じられる、非常に顕著な能力として、「大幅に向上したビジョン機能」が挙げられます。Opus 4.7は、高解像度画像に対してより優れたビジョン機能を持ちます。長辺が最大2,576ピクセル(約3.75メガピクセル)の画像を受け取ることができ、これは以前のClaudeモデルの3倍以上です。これにより、細かな視覚的詳細に依存する多様なマルチモーダル用途が開かれます。これには、高密度なスクリーンショットを読み取るコンピュータ操作エージェント(computer-use agents)、複雑な図表からのデータ抽出、ピクセル単位の正確な参照が必要な作業などが含まれます。詳細は以下の注目トピックのまとめをご覧ください。

2026年4月14日〜4月16日のAIニュース。私たちは12のサブレッド、544件のTwitter投稿、および追加のDiscordサーバーを確認しました。AINewsのウェブサイトでは過去のすべての号を検索できます。お知らせですが、現在AINewsはLatent Spaceの一部となっています。メール配信頻度のオプトイン・オプトアウトが可能です!

トップストーリー:Claude Opus 4.7

Anthropicは、Claude Opus 4.7を最新の最高級Opusモデルとして正式にリリースしました。これは、Opus 4.6と比較して長時間のタスク処理、コーディング、指示の遵守、自己検証、コンピュータ操作、知識作業において優れていると位置づけられており、ユーザーのまとめやリリースに関する議論によると、入力/出力トークン100万個あたり5ドル/25ドルというリスト価格は変更されていないとのことです [@claudeai, @kimmonismus]。このリリースにより、ベンチマークの向上、新しいトークナイザー、より高い画像解像度のサポート、新しいxhigh推論エフォート、トークンコストへの影響、そしてOpus 4.7が単なる4.6の後継モデルなのか、新しいベースモデルなのか、あるいは部分的に蒸留された「Mythos関連」システムなのかといった、ベンチマークの向上を巡る非常に活発な技術的な議論が巻き起こりました。

リリース詳細と製品の変更点

公式の位置づけ。Anthropicのリリース発表では、3つの行動面での改善が強調されました:長時間のタスク処理能力の向上、より正確な指示の遵守、そして回答前の強力な自己検証です [@claudeai]。

利用可能性。

Claudeプラットフォーム/アプリは直ちに稼働を開始しました [@dejavucoder]。

Claude Codeはリリース当日からサポートを提供し、xhighをデフォルトの作業レベルに設定しました [@_catwu, @_catwu]。

Anthropicは、パブリックベータ版でのタスク予算の開始、Claude Codeにおける/ultrareview機能の提供、およびClaude Code Maxユーザー向けのより広範なAutoモードへのアクセスも開始または強調しました [@kimmonismus]。

新しい作業レベル。

複数のユーザーが、highとmaxの間に位置する新しいxhigh推論エフォートモードに言及しました [@scaling01, @scaling01]。

Cat Wu 氏は、Opus 4.7 では Claude Code が xhigh をデフォルト設定にしていると明かした [@_catwu]。

ビジョン(画像認識)およびコンピュータ操作に関する変更点。

ユーザーのまとめによると、長辺が 2,576 ピクセルまでの画像(約 3.75 メガピクセル)がサポートされており、これは以前の Claude の画像入力よりも約 3 倍大きいとされている [@kimmonismus]。

Anthropic の社員である Alex Albert 氏は、「高解像度画像のダウンスケール処理が不要になり」、UI、スライド、ドキュメントなどの出力品質も向上したと指摘している [@alexalbert__]。

これは、コンピュータ操作の改善やスクリーンショットを多用するワークフローにおいて繰り返し言及された [@dejavucoder, @omarsar0]。

トークナイザーとトークン経済学。

複数の観察者が、Opus 4.7 が 4.6 とは異なるトークナイザーを使用していることを発見した [@natolambert, @nrehiew_]。

Kimmonismus 氏は、Anthropic の注意書きを要約し、コンテンツの種類によっては同じ入力が 1.0〜1.35 倍のトークン数にマッピングされる可能性があると伝えた [@kimmonismus]。

これにより、4.7 が事実上新しいベースモデルなのか、トークナイザーを差し替えた継続学習版なのか、あるいは Mythos からの中途トレーニング(ミッドトレーニング)や蒸留(ディスティレーション)の橋渡し的な存在なのかについて議論が巻き起こった [@natolambert, @stochasticchasm, @eliebakouch, @maximelabonne]。

その後、Anthropic の社員である Boris Cherny 氏は、トークン使用量の増加を相殺するため、すべてのサブスクライバーに対する制限を引き上げたと語った [@bcherny, @bcherny]。

ベンチマークと測定可能な進捗

Opus 4.6 に対する報告されたベンチマークの向上

最も引用されている起動時の数値は、外部アカウントによって共有されたベンチマークのスクリーンショットおよびまとめに基づくものである:

SWE-bench Pro: 64.3%。ユーザーからは Opus 4.6 よりも約 11 ポイントの向上が指摘されている [@scaling01, @kimmonismus]

SWE-bench Verified: 87.6%、4.6と比較して約+7ポイント [@scaling01, @scaling01]

TerminalBench 2.0: 69.4%、約+4ポイント [@scaling01, @kimmonismus]

文書推論(Document reasoning): 80.6%、第三者の議論によると57.1%から向上 [@scaling01, @llama_index]

GDPval-AA: 1753 Elo [@scaling01, @ArtificialAnlys]

ARC-AGI-1: 92%; ARC-AGI-2: 75.83% [@scaling01]

Artificial Analysisによると、Opus 4.7はGDPval-AAで新たな#1としてリリースされ、そのタスクセットにおいてGPT-5.4との直接対決で約60%の勝率を有すると示唆されている [@ArtificialAnlys]。

Anthropicは、トークン使用量の増加に対応するため、サブスクライバーの制限を引き上げた [@bcherny, @bcherny]。

Anthropicはベンチマークのトレードオフを認識し、MRCR(Multi-Response Consistency Ranking)を「科学的誠実さ」のためにシステムカードに維持しつつ、Graphwalksを好ましい長期コンテキスト指標とする方向へシフトしていることを示唆した [@bcherny]。

Vals AIによると、Opus 4.7は前回の最高値67.7%から上昇し、Vals Indexで71.4%のスコアを記録して#1を獲得した。また、Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench、Terminal Bench 2においても#1にランクインした [@ValsAI]。

同社は別途、Opus 4.7がVibe Code Benchmarkで71%のスコアを記録し#1となったと述べた。これは、4.5ヶ月前に同ベンチマークが最初にリリースされた際、どのモデルも25%を超えていなかったことと比較しての数字である [@ValsAI]。

パートナーおよび顧客からの製品/評価結果

Cursorによると、Opus 4.7を用いた社内ベンチマークのスコアは58%から70%に跳ね上がった [@cursor_ai, @scaling01]。

別のCursorによる投稿では、500チームにわたって、開発者が今年取り組んでいる高複雑度タスクが68%増加していると報じられている。ただし、これはOpus 4.7に限定されたものではなく、より良いモデル全般に関するものであった [@cursor_ai]。

Notionでは、内部評価において14%の向上が確認され、ツールのエラーは3分の1に減少したと報じられている [@mikeyk]。

GitHubでも同様の改善が見られたが、ツイートスレッドには具体的な数値は含まれていなかった [@scaling01]。

文書理解:進歩はあるが、経済性は混合

LlamaIndexとJerry Liuは有用な独立したニュアンスを提供した。

LlamaIndexのParseBenchスタイルによる比較では、Opus 4.7がチャートにおいて大幅な改善(13.5% → 55.8%)を見せた一方、フォーマット(64.2% → 69.4%)、コンテンツ(89.7% → 90.3%)、表(86.5% → 87.2%)の改善はわずかで、レイアウトについては後退(16.5% → 14.0%)したとされている [@llama_index]。

Jerry Liuは別途、Opus 4.7が「表においてかなり優れており」、チャートでも優れ、コンテンツの忠実度においては最も強力であると述べた。ただし、OCRのような用途では1ページあたり約7セントと高価であり、アジェンティックモードでは約1.25セント、コスト効率重視のモードでは約0.4セントである [@jerryjliu0]。

これは、発売時の楽観論を抑制する独立した評価の明確な例の一つである。全体的な能力は向上したが、特定の企業向け文書パイプラインでは、コストとパフォーマンスの観点から専門的なスタックを好む可能性がある。

意見/解釈

「これはMythosの蒸留版だ」 [@eliebakouch]。

「トークナイザーが変更されたため、これは新しいベースモデルだ」 [@natolambert]。

"Anthropic はトレーニング中にサイバースコアを人為的に低く抑えていた"という主張は、システムカードの記述にある一部の能力を差別的に低下させたことについてユーザーが引用している点で部分的に事実ですが、"nerfed Mythos(機能制限されたミソス)"に関するより広範な主張は解釈に過ぎません [@scaling01, @Yuchenj_UW]。

"ベンチマークは実態を正しく反映していない"および「実際の使用では大幅に改善されている」という主張は主観的なものですが、実際に触ったユーザーの間で広く繰り返されています [@mweinbach, @jeremyphoward]。

"システムプロンプトがモデルの前頭葉を切除した(思考能力を奪った)"という主張は、行動変容に対するユーザーの不満であり、確立された事実ではありません [@theo]。

異なる視点

支持派:意味のある実世界でのアップグレード

技術ユーザーの大きな部分は、これは大幅な反復であり、特にリリース頻度が高くなったことを考慮すればそうだと主張しました。

Scaling01 は「中間的なアップデート」という見解に繰り返し反論し、SWE-bench Verified におけるスコアが約 80% からほぼ 90% に跳ね上がったことを指摘し、これは以前のリリースサイクルでは大きな出来事として見なされただろうと強調しました [@scaling01, @scaling01, @scaling01]。

Alex Albert は、非同期作業の改善、努力レベルの予測可能性の向上、画像処理能力の強化、UI/ドキュメントに対する優れたセンスを挙げました [@alexalbert__]。

Michael Weinbach は、わずか 2 つのプロンプトで、行動と指示の遵守が「かなり大幅に」改善されたと述べました [@mweinbach]。

Jeremy Howard は、これが彼の行っていることを「理解している」最初のモデルであり、押し付けがましい進行よりも議論を好む姿勢を称賛しました [@jeremyphoward, @jeremyphoward]。

Cat Wu は、ユーザーに対してこれをマイクロマネジメントするペアプログラマーではなく、委任されたエンジニアのように扱うよう明確にアドバイスしており、Anthropic は自律的な実行能力においてより強力だと見なしていることを示唆しています [@_catwu]。

中立的・分析的:トレードオフを伴う強力なアップデート

最も優れたコメントの多くは技術的かつ混合したものでした。

Kimmonismus は、Anthropic の主要な購買優先事項であるエージェント型コーディングの信頼性、コンピュータ使用エージェントのためのビジョン、知識労働に焦点を当てた「堅実なアップデート」と呼びましたが、「明らかに Mythos には劣る」とも述べています [@kimmonismus]。

Artificial Analysis は GDPval-AA の向上と 1 位ランクを裏付けましたが、全面的な圧勝として位置づけてはいません [@ArtificialAnlys]。

LlamaIndex と ParseBench の結果は、実価格の制約を伴う目に見えるが不均一なドキュメントの向上を示唆しています [@llama_index, @jerryjliu0]。

懐疑的・批判的:後退、トークン膨張、UX に関する懸念

また、 substantial な反発もありました。

複数のユーザーは、特に MRCR や干し草の山の中の針のような指標において、長文コンテキストのパフォーマンスが悪化しているように見えると述べています [@scaling01, @nrehiew_, @eliebakouch, @kimmonismus]。

Anthropic の Boris Cherny は、MRCR が過剰に干散スタッキングのトリックに重みを置いているため廃止されつつあり、Graphwalks(グラフウォーク)の方が適用された推論の指標として優れていると返信しました。彼は 4.6 から 4.7 への変更で Graphwalks が 38.7% から 58.6% に向上したという数値を示しています [@bcherny, @scaling01]。

トークナイザーの変更により、Opus が「トークンの大食い」となり、リスト価格が横ばいであっても実効コストが上昇する可能性があることについて苦情が寄せられました [@dejavucoder, @madiator]。

Yuchen 氏は、Claude のウェブインターフェースでは「Adaptive」モード(思考しないモード)しか公開されておらず、明示的な「強制的に思考させる」スイッチがないため、一部のユーザーにとってコーディング以外のタスクが実際にはより使いにくく感じられると指摘しました [@Yuchenj_UW]。

Mikhail Parakhin 氏も同様に、コーディング以外の回答に対する第一印象は「賢くない」と感じたと語り、推論を強制できなかったことがその理由だと述べています [@MParakhin]。

Theo 氏は、新しいシステムプロンプトを「前頭葉切除された(lobotomized)」と激しく批判し、その後、「前頭葉切除されたシステムプロンプトなしで」T3 Chat でモデルを試すよう提案しました [@theo, @theo]。

安全 / ガバナンスの観点

Scaling01 氏は、Anthropic がトレーニング中にサイバー攻撃能力を差別的に低減する試みを行ったことを示すシステムカードの記述を強調しました [@scaling01]。

同時に、ユーザーたちは Opus 4.7 が Firefox シェルエクスプロイトなどの一部のエクスプロイト関連評価では 4.6 よりも高いスコアを記録しており、プロンプトインジェクションに対する堅牢性も Mythos に近い水準にあると指摘しました [@scaling01, @scaling01]。

あるユーザーは誇張して「このペースなら Opus は生物兵器のリスクになる」と述べ、これは一般的な能力の飛躍と最悪ケースの悪用シナリオを混同する傾向が現在も続いていることを反映しています [@scaling01]。

Anthropic による Claude Code ワークフローのガイダンス

Cat Wu 氏のスレッドは、エンジニアにとって有用な運用上のシグナルです:

委任せよ、細部まで管理するな(Delegate, don’t micromanage)[@_catwu]

完全な目標、制約条件、受入基準を最初に提示する [@_catwu]

変更の検証方法をモデルに伝え、claude.md やスキルでテストワークフローをエンコードする [@_catwu]

これは、Anthropic が明示的な検証を中核とする自律型タスクループへの最適化を目指したことを強く示唆しています。

実務における進歩の例

続きを読む

原文を表示

Thursday mornings are for prestige AI launches, and while OpenAI put in a valiant effort with GPT-Rosalind and The New New Codex (with awesome computer use), there was no question who would win title story today. If you scan past AINews issues closely you would have seen the rumors of this for at least the past week, but today’s Claude Opus 4.7 launch mildly surpassed even those expectations.

The key chart is this one:

image
image

Basically 4.7-low is strictly better than 4.6-medium, 4.7-medium is strictly better than 4.6-high, 4.7-high is now better than 4.6-max, and there is a new xhigh effort level that Claude Code defaults to. While Anthropic says the new tokenizer (new pretrain?) can cause up to 35% more token usage, the overall reasoning efficiency has improved so much that overall token use is STILL down by up to 50% of their former equivalents. The true test is if default Claude Code, now 11 points higher on SWE-Bench Pro, does noticeably better in your own usecases.

The other notable capability that quite literally has to be seen to be believed, is the “substantially better vision”: Opus 4.7 has better vision for high-resolution images: it can accept images up to 2,576 pixels on the long edge (~3.75 megapixels), more than three times as many as prior Claude models. This opens up a wealth of multimodal uses that depend on fine visual detail: computer-use agents reading dense screenshots, data extractions from complex diagrams, and work that needs pixel-perfect references. More details in the focused topic summary below.

AI News for 4/14/2026-4/16/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!

Top Story: Claude Opus 4.7

Anthropic officially launched Claude Opus 4.7 as its newest top-tier Opus model, positioning it as better at long-running work, coding, instruction following, self-verification, computer use, and knowledge work than Opus 4.6, while keeping list pricing unchanged at $5 / $25 per million input/output tokens according to user summaries and launch discussion [@claudeai, @kimmonismus]. The release sparked unusually active technical discussion around benchmark gains, a new tokenizer, higher image resolution support, new xhigh reasoning effort, token-cost implications, and whether Opus 4.7 is a straightforward 4.6 successor, a new base model, or a partially distilled “Mythos-adjacent” system.

Release details and product changes

Official framing. Anthropic’s launch pitch emphasized three behavioral improvements: better handling of long-running tasks, more precise instruction following, and stronger self-verification before responding [@claudeai].

Availability.

Claude platform / app reported live immediately [@dejavucoder].

Claude Code shipped day-one support and set xhigh as the default effort level [@_catwu, @_catwu].

Anthropic also launched or highlighted task budgets in public beta, /ultrareview in Claude Code, and broader Auto mode access for Claude Code Max users [@kimmonismus].

New effort tier.

Multiple users noted a new xhigh reasoning effort mode, positioned between high and max [@scaling01, @scaling01].

Cat Wu said Claude Code now defaults to xhigh for Opus 4.7 [@_catwu].

Vision/computer use changes.

User summaries reported support for images up to 2,576 px on the long edge (~3.75 MP), described as 3x larger than previous Claude image inputs [@kimmonismus].

Anthropic employee Alex Albert highlighted “No more downscaling of high-res images” and better output taste in UI/slides/docs [@alexalbert__].

This was repeatedly linked to better computer use and screenshot-heavy workflows [@dejavucoder, @omarsar0].

Tokenizer and token economics.

Several observers discovered Opus 4.7 uses a different tokenizer from 4.6 [@natolambert, @nrehiew_].

Kimmonismus summarized Anthropic’s caveat that the same input can map to 1.0–1.35x more tokens depending on content type [@kimmonismus].

This triggered debate over whether 4.7 is effectively a new base model, a tokenizer-swapped continuation, or some kind of midtraining/distillation bridge from Mythos [@natolambert, @stochasticchasm, @eliebakouch, @maximelabonne].

Anthropic employee Boris Cherny later said they increased limits for all subscribers to offset increased token use [@bcherny, @bcherny].

Benchmarks and measurable progress

Reported benchmark gains vs Opus 4.6

The most cited launch numbers came from benchmark screenshots and summaries shared by external accounts:

SWE-bench Pro: 64.3%, with users citing roughly +11 points over Opus 4.6 [@scaling01, @kimmonismus]

SWE-bench Verified: 87.6%, roughly +7 points vs 4.6 [@scaling01, @scaling01]

TerminalBench 2.0: 69.4%, around +4 points [@scaling01, @kimmonismus]

Document reasoning: 80.6%, up from 57.1% per third-party discussion [@scaling01, @llama_index]

GDPval-AA: 1753 Elo [@scaling01, @ArtificialAnlys]

ARC-AGI-1: 92%; ARC-AGI-2: 75.83% per [@scaling01]

Artificial Analysis said Opus 4.7 launched as the new #1 on GDPval-AA, with an implied ~60% head-to-head win rate vs GPT-5.4 on that task set [@ArtificialAnlys].

Anthropic increased subscriber limits to compensate for greater token usage [@bcherny, @bcherny].

Anthropic acknowledges benchmark tradeoffs and retained MRCR in the system card “for scientific honesty,” while signaling a shift toward Graphwalks as a preferred long-context metric [@bcherny].

Vals AI said Opus 4.7 took the #1 spot on the Vals Index at 71.4%, up from a previous best 67.7%, and also ranked #1 on Vibe Code Bench, Vals Multimodal, Finance Agent, Mortgage Tax, SAGE, SWE-Bench, and Terminal Bench 2 [@ValsAI].

They separately said Opus 4.7 became #1 on Vibe Code Benchmark at 71%, versus no model above 25% when they first launched the benchmark 4.5 months earlier [@ValsAI].

Product/evals from partners and customers

Cursor said its internal benchmark jumped from 58% to 70% with Opus 4.7 [@cursor_ai, @scaling01].

A separate Cursor post said, across 500 teams, developers are tackling 68% more high-complexity tasks this year, though that was about better models generally, not solely Opus 4.7 [@cursor_ai].

Notion reportedly saw a 14% lift on internal evals with one-third of tool errors [@mikeyk].

GitHub reportedly saw similar improvements, though no hard numbers were included in the tweet thread [@scaling01].

Document understanding: progress, but mixed economics

LlamaIndex and Jerry Liu provided useful independent nuance:

LlamaIndex’s ParseBench-style comparison said Opus 4.7 massively improved charts (13.5% → 55.8%) but only slightly improved formatting (64.2% → 69.4%), content (89.7% → 90.3%), tables (86.5% → 87.2%), and regressed on layout (16.5% → 14.0%) [@llama_index].

Jerry Liu separately said Opus 4.7 is “quite good at tables,” better on charts, and strongest on content faithfulness, but expensive for OCR-like use at ~7¢/page vs their agentic mode at ~1.25¢/page and cost-effective mode around ~0.4¢/page [@jerryjliu0].

This is one of the clearest examples of independent evaluation tempering launch optimism: broad capability improved, but specific enterprise document pipelines may still prefer specialized stacks on cost/performance grounds.

Opinions / interpretations

“This is a distilled version of Mythos” [@eliebakouch].

“This is a new base model because the tokenizer changed” [@natolambert].

“Anthropic artificially kept cyber scores low during training” is partly factual insofar as users quote the system card language about differentially reducing some capabilities, but broader claims about “nerfed Mythos” are interpretation [@scaling01, @Yuchenj_UW].

“Benchmarks don’t do it justice” and “actual usage is massively improved” are subjective but widely repeated by hands-on users [@mweinbach, @jeremyphoward].

“System prompt has lobotomized the model” is a user complaint about behavior changes, not an established fact [@theo].

Different perspectives

Supportive: meaningful real-world upgrade

A large portion of technical users argued this is a substantial iteration, especially given more frequent release cadence.

Scaling01 repeatedly pushed back on “mid update” takes, noting the jump from around 80% to almost 90% on SWE-bench Verified and emphasizing this would have looked huge in prior release cycles [@scaling01, @scaling01, @scaling01].

Alex Albert highlighted better async work, more predictable effort levels, better image handling, and stronger taste in UI/docs [@alexalbert__].

Michael Weinbach said after just two prompts that behavior and instruction following were “pretty massive” improvements [@mweinbach].

Jeremy Howard said it was the first model that “gets” what he’s doing and praised its willingness to discuss rather than bulldoze ahead [@jeremyphoward, @jeremyphoward].

Cat Wu explicitly advised users to treat it like an engineer you delegate to, not a pair programmer you micromanage, suggesting Anthropic sees it as stronger in autonomous execution [@_catwu].

Neutral / analytical: strong update with tradeoffs

Some of the best commentary was technical and mixed.

Kimmonismus called it a “solid upgrade” focused on Anthropic’s core buyer priorities: agentic coding reliability, vision for computer-use agents, and knowledge work—but also “obviously shy to Mythos” [@kimmonismus].

Artificial Analysis validated the GDPval-AA gain and #1 ranking, but did not frame it as an across-the-board blowout [@ArtificialAnlys].

LlamaIndex and ParseBench results suggested noticeable but uneven document gains with real pricing constraints [@llama_index, @jerryjliu0].

Skeptical / critical: regressions, token inflation, and UX concerns

There was also substantial pushback.

Multiple users said long-context performance looked worse, especially on MRCR / needle-in-a-haystack-style metrics [@scaling01, @nrehiew_, @eliebakouch, @kimmonismus].

Anthropic’s Boris Cherny replied that MRCR is being phased out because it overweights distractor-stacking tricks and that Graphwalks is a better applied-reasoning signal; he gave numbers showing Graphwalks 38.7% → 58.6% from 4.6 to 4.7 [@bcherny, @scaling01].

Tokenizer changes led to complaints about Opus becoming a “token guzzler” and potentially raising effective costs despite flat list pricing [@dejavucoder, @madiator].

Yuchen said Claude web only exposed “Adaptive” or non-thinking, with no explicit force-thinking toggle, which for some users made non-coding tasks feel worse in practice [@Yuchenj_UW].

Mikhail Parakhin similarly said first impressions on non-coding replies were “dumber” because he couldn’t force reasoning [@MParakhin].

Theo sharply criticized the new system prompt as “lobotomized,” and later suggested trying the model in T3 Chat “without the lobotomized system prompt” [@theo, @theo].

Safety / governance angle

Scaling01 highlighted a system-card statement that Anthropic experimented with efforts to differentially reduce cyber capabilities during training [@scaling01].

At the same time, users noted Opus 4.7 still scores higher than 4.6 on some exploitation-related evaluations like Firefox shell exploitation, and has prompt-injection robustness close to Mythos [@scaling01, @scaling01].

One user hyperbolically said “Opus is going to be a bioweapon risk at this pace,” reflecting the ongoing tendency to conflate general capability jumps with worst-case misuse narratives [@scaling01].

Claude Code workflow guidance from Anthropic

Cat Wu’s thread is a useful operational signal for engineers:

Delegate, don’t micromanage [@_catwu]

Put full goal + constraints + acceptance criteria up front [@_catwu]

Tell the model how to verify changes; encode testing workflows in claude.md or skills [@_catwu]

That strongly suggests Anthropic optimized toward autonomous task loops where explicit validation is central.

Examples of progress in practice

Read more

この記事をシェア

関連記事

TechCrunch AI★32026年6月11日 12:53

Anthropic のダリオ・アモダイ氏に直属の部下はたった一人だけ

AI 企業 Anthropic の CEO ダリオ・アモダイ氏が、組織運営において直属の部下を一人しか置かないという独自の管理方針を採用していることが明らかになった。

Simon Willison Blog★42026年6月11日 12:45

Anthropic、Claude を利用する AI 研究者を「妨害」しかねない方針を撤回

Anthropic は、最先端大規模言語モデルの開発における Fable 5 のセキュリティ対策を変更し、その内容を可視化すると発表した。同社はバランスの取り方を誤ったとして謝罪している。

Understanding AI★42026年6月11日 04:21

Anthropic、画像理解能力で OpenAI に追いつく

Anthropic は火曜日に「Claude Mythos 5」と「Claude Fable 5」の 2 つの新モデルを公開し、画像理解能力において OpenAI と同等の水準に達したと発表した。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む