AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Smol AI News·2026年4月16日 14:44·約14分

AnthropicのClaude Opus 4.7

#LLM#Anthropic#Claude#Cloud API#Developer Tools
TL;DR

AnthropicはClaude Opus 4.7をリリースし、長文処理やコーディング能力を向上させつつ従来価格を維持した。

AI深層分析2026年4月28日 00:49
4
重要/ 5段階
深度40%
5
関連度30%
4
実用性20%
4
革新性10%
3

キーポイント

1

機能強化と価格据え置き

AnthropicはClaude Opus 4.7を新トップモデルとして発表し、長時間作業やコーディング、指示の追従性を向上させた。価格体系は変更せず、入力・出力ともに100万トークンあたり5ドル/25ドルを維持している。

2

広範なエコシステム展開

Anthropic公式アプリ、APIに加え、AWS Bedrock、Google Vertex AI、Microsoft Foundryなどの主要クラウドプラットフォームで即日利用可能となった。また、CursorやGitHub Copilotなど主要な開発ツールへの統合も迅速に進んでいる。

3

技術的仕様の変更と議論

新しいトークナイザーの採用、高解像度画像サポート、新たな推論努力レベル「xhigh」の実装が確認された。これによりトークンコストへの影響や、単なる後継モデルか新たな基盤モデルかといった技術的な議論が活発化している。

影響分析・編集コメントを表示

影響分析

Claude Opus 4.7のリリースは、ハイエンドLLM市場における価格競争と機能競争の両面での激化を示している。特に主要クラウドプロバイダーや開発ツールとのシームレスな統合は、エンタープライズおよび開発現場での採用加速に寄与する。また、価格据え置きでの性能向上は、ユーザーにとってのコストパフォーマンスを高め、AI導入の障壁を下げる要因となる。

編集コメント

価格据え置きでの性能向上は、特に開発現場におけるコスト意識の高いユーザー層に強いインパクトを与える。主要クラウドとの統合速度が速いため、既存のAI活用基盤を持つ企業は即座に評価・移行を検討すべき局面にある。

静かな一日。

2026 年 4 月 14 日〜16 日の AI ニュース。12 のサブレッド、544 の Twitter、および追加の Discord チャンネルを確認しました。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部となっています。メール配信頻度の オプトイン/オプトアウト も可能です!

トップストーリー:Claude Opus 4.7

何が起きたか

Anthropic は、Claude Opus 4.7 を最新のエントリーモデルとして正式にリリースしました。これは、Opus 4.6 と比較して、長時間のタスク実行、コーディング、指示の遵守、自己検証、コンピュータ操作、知識作業においてより優れていると位置づけられていますが、ユーザーの要約や発表後の議論によると、リスト価格は 100 万トークンあたり入力/出力でそれぞれ 5 ドル/25 ドル のまま据え置かれています [@claudeai, @kimmonismus]。展開範囲は広範で、Anthropic 自身のアプリ/プラットフォーム、API、Claude Code、AWS Bedrock、Google Vertex AI、Microsoft Foundry がすべて初日にユーザーによって言及されました [@dejavucoder, @kimmonismus]。サードパーティ製統合も迅速に導入され、Cursor [@cursor_ai]、GitHub Copilot / @code [@pierceboggan, @code]、Perplexity [@perplexity_ai]、Devin [@cognition]、Cline [@cline]、Replit Agent [@pirroh]、MagicPath [@skirano]、Hermes Agent [@Teknium]、Arena [@arena] などが含まれます。今回のリリースは、ベンチマークでの向上、新しいトークナイザー(tokenizer)、高解像度画像サポート、新しい xhigh リーゾニング・エフォート(xhigh reasoning effort)、トークンコストへの影響、そして Opus 4.7 が単なる 4.6 の後継モデルなのか、それとも新基盤モデルなのか、あるいは部分的に蒸留された「Mythos に隣接する」システムなのかなどについて、例外的に活発な技術議論を巻き起こしました。

リリース詳細と製品変更

公式の見解。 アンソロピックの発表では、3 つの行動面での改善が強調されました。すなわち、長時間実行されるタスクのより良い処理、より正確な指示の遵守、そして回答前の自己検証機能の強化です [@claudeai]。

利用状況。

  • クラウドプラットフォームおよびアプリは、[@dejavucoder] によるとすぐに稼働したと報告されています。
  • API およびクラウドプロバイダーについては、Bedrock、Vertex AI、Microsoft Foundry の各環境で利用可能になったと [@kimmonismus] が報告しています。
  • Claude Code はリリース初日からサポートを開始し、デフォルトの努力レベルを xhigh に設定しました [@_catwu, @_catwu]。
  • また、アンソロピックはパブリックベータ版でタスク予算の導入や強調、Claude Code における /ultrareview の機能追加、および Claude Code Max ユーザー向けのより広範な Auto モードへのアクセス権限を新設・強調しました [@kimmonismus]。

新しい努力レベル。

  • 複数のユーザーが、high と max の間に位置する新しい xhigh 推論努力モードの存在に言及しています [@scaling01, @scaling01]。
  • Cat Wu 氏によると、Claude Code は Opus 4.7 においてデフォルトで xhigh を使用するようになりました [@_catwu]。

ビジョン/コンピューター利用に関する変更。

  • ユーザーの要約報告では、長辺が最大 2,576 ピクセル(約 375 万画素)までの画像サポートが導入されたとされています。これは以前の Claude の画像入力よりも約 3 倍大きいと [@kimmonismus] は説明しています。
  • アンソロピックの社員である Alex Albert 氏は、「高解像度画像のダウンスケール不要化」と、UI、スライド、ドキュメントにおける出力の質的向上を強調しました [@alexalbert__]。
  • この変更は、コンピューター利用能力の向上やスクリーンショット中心のワークフローとの関連性が繰り返し指摘されています [@dejavucoder, @omarsar0]。

トークナイザーとトークン経済。

  • 複数の観察者が、Opus 4.7 が 4.6 とは異なるトークナイザー(tokenizer)を使用していることを発見しました [@natolambert, @nrehiew_]。
  • Kimmonismus は、Anthropic の注意書きを要約し、入力内容の種類によっては同じ入力が 1.0~1.35 倍のトークン数にマッピングされる可能性があることを指摘しました [@kimmonismus]。
  • これにより、4.7 が実質的に新しいベースモデルなのか、トークナイザーを差し替えた継続版なのか、あるいは Mythos からの中間トレーニング(midtraining)や蒸留(distillation)の橋渡し役なのかという議論が巻き起こりました [@natolambert, @stochasticchasm, @eliebakouch, @maximelabonne]。
  • Anthropic の従業員である Boris Cherny は後日、トークン使用量の増加を相殺するため、すべてのサブスクライバーに対して制限を引き上げたと述べました [@bcherny, @bcherny]。

ベンチマークと測定可能な進歩

Opus 4.6 に対する報告されたベンチマークの向上

最も引用されている発表数値は、外部アカウントによって共有されたベンチマークのスクリーンショットや要約に基づいています:

  • SWE-bench Pro: 64.3%。ユーザーは Opus 4.6 よりもおよそ +11 ポイント向上していると指摘しています [@scaling01, @kimmonismus]。
  • SWE-bench Verified: 87.6%。4.6 と比較しておよそ +7 ポイントの向上です [@scaling01, @scaling01]。
  • TerminalBench 2.0: 69.4%。およそ +4 ポイントの向上です [@scaling01, @kimmonismus]。
  • ドキュメント推論(Document reasoning): 80.6%。第三者の議論によると、57.1% から向上しています [@scaling01, @llama_index]。
  • GDPval-AA: 1753 Elo [@scaling01, @ArtificialAnlys]。
  • ARC-AGI-1: 92%; ARC-AGI-2: 75.83%。ユーザーのスクリーンショットや要報に基づく数値です [@scaling01]。

Artificial Analysis によると、Opus 4.7 は新しい GDPval-AA で #1 にランクされ、そのタスクセットにおいて GPT-5.4 との直接比較で 約 60% の勝率 を示唆しています [@ArtificialAnlys]。

Vals AI は、Opus 4.7 が Vals Index で 71.4% のスコアで #1 を獲得し、以前の最高記録である 67.7% から向上したと発表しました。また、Vibe Code Bench(バイブコードベンチ)、Vals Multimodal(ヴァルズマルチモーダル)、Finance Agent(ファイナンスエージェント)、Mortgage Tax(住宅ローン税務)、SAGE、SWE-Bench、Terminal Bench 2 でも #1 にランクされました [@ValsAI]。

同社は別に、Opus 4.7 が Vibe Code Benchmark(バイブコードベンチマーク)で 71% を達成し、このベンチマークを 4.5 ヶ月前に初めて立ち上げた際にはどのモデルも 25% を超えていなかったと報告しました [@ValsAI]。

パートナーおよび顧客からの製品・評価結果

  • Cursor は、Opus 4.7 の導入により社内ベンチマークが 58% から 70% に跳ね上がったと発表しました [@cursor_ai, @scaling01]。
  • 別の Cursor の投稿では、500 チーム全体で今年、開発者が以前より 68% 多い高複雑度タスクに取り組んでいることが示されましたが、これは Opus 4.7 に限らず、モデル全般の向上によるものだとされています [@cursor_ai]。
  • Notion は、ツールのエラーの 3 分の 1 を削減し、社内評価で 14% の改善 を達成したと報じられています [@mikeyk]。
  • GitHub も同様の改善が見られたと報じられていますが、ツイートスレッドには具体的な数値は含まれていませんでした [@scaling01]。

ドキュメント理解:進展はあるが経済性は混在

LlamaIndex と Jerry Liu は、有用な独立したニュアンスを提供しました:

  • LlamaIndex の ParseBench 型比較によると、Opus 4.7 はチャートの生成能力を劇的に向上させた(13.5% → 55.8%)ものの、フォーマット(64.2% → 69.4%)、コンテンツの忠実度(89.7% → 90.3%)、表の処理(86.5% → 87.2%)はわずかな改善にとどまり、レイアウトについてはむしろ後退した(16.5% → 14.0%)と報告されている [@llama_index]。
  • Jerry Liu は個別に、Opus 4.7 が表の処理には「非常に優れており」、チャート生成でも改善が見られるが、コンテンツの忠実度において最も強力である一方で、OCR(光学文字認識)のような用途では高コストになると指摘した。具体的には約 7 セント/ページに対し、エージェントモードでは約 1.25 セント/ページ、コスト効率重視モードでは約 0.4 セント/ページとなる [@jerryjliu0]。

これは、独立した評価がローンチ時の楽観論を抑制する最も明確な事例の一つである。全体的な能力は向上したが、特定の企業向けドキュメントパイプラインにおいては、コストとパフォーマンスの観点から依然として専門的なスタックを好む傾向がある。

事実 vs 意見

ローンチ資料で裏付けられた事実およびほぼ確実な事実

  • Opus 4.7 は Anthropic によって正式にローンチされた [@claudeai]。
  • これは、長時間実行されるタスク、指示の遵守、自己検証においてより優れていると位置づけられている [@claudeai]。
  • 新しい「xhigh」努力レベル(effort tier)が導入された [@scaling01]。
  • Claude Code では、このモデルに対してデフォルトで xhigh が設定されている @_catwu]。
  • 4.6 とは異なるトークナイザーを使用している [@natolambert]。
  • トークン使用量の増加を補うため、Anthropic はサブスクライバーの制限を引き上げた [@bcherny, @bcherny]。
  • Anthropic はベンチマークにおけるトレードオフを認め、システムカードには「科学的誠実さ」のために MRCR を維持しつつ、長文コンテキストの評価指標として Graphwalks への移行を示唆している [@bcherny]。

意見・解釈

  • 「これは『Mythos』の凝縮版です」[@eliebakouch]。
  • 「トークナイザーが変更されたため、これは新しいベースモデルです」[@natolambert]。
  • 「Anthropic はトレーニング中にサイバースコアを人為的に低く保っていた」という主張は、ユーザーがシステムカードの記述(特定の機能を意図的に低下させるなど)を引用している点では事実の一部を含みますが、「弱体化した Mythos」というより広範な主張は解釈に過ぎません [@scaling01, @Yuchenj_UW]。
  • 「ベンチマークではその真価を測りきれない」「実際の使用感では劇的に改善されている」という意見は主観的なものですが、実際に触ったユーザーの間で広く共有されています [@mweinbach, @jeremyphoward]。
  • 「システムプロンプトがモデルの機能を削いでしまった」というのは、行動の変化に対するユーザーの不満であり、確立された事実ではありません [@theo]。

異なる視点

支持派:意味のある実世界でのアップグレード

技術系のユーザーの多くは、特にリリース頻度が高まっていることを踏まえると、これは大規模な改良であると主張しています。

  • Scaling01 は「中間アップデート」という見解に繰り返し異議を唱え、SWE-bench Verified におけるスコアが約 80% からほぼ 90% に跳ね上がった点を指摘し、これが過去のリリースサイクルであれば大きなインパクトとして映っただろうと強調しました [@scaling01, @scaling01, @scaling01]。
  • Alex Albert は、非同期処理の改善、作業負荷レベルの予測可能性向上、画像処理能力の強化、UI やドキュメントに対する審美性の向上を挙げました [@alexalbert__]。
  • Michael Weinbach は、わずか 2 つのプロンプトでさえも、行動と指示従順性が「劇的に改善された」と述べています [@mweinbach]。
  • ジェレミー・ハワード氏は、このモデルが自分が何をしているかを「理解している」最初のモデルだと述べ、突っ走るのではなく議論する姿勢を高く評価しました [@jeremyphoward, @jeremyphoward]。
  • キャット・ウー氏は、これをマイクロマネジメントするペアプログラマーではなく、任せるエンジニアのように扱うようユーザーに明確にアドバイスし、Anthropic 社が自律的な実行能力においてこのモデルをより強力と見なしていることを示唆しました [@_catwu]。

中立/分析的:強力なアップデートとトレードオフ

最も優れたコメントの一部は技術的であり、賛否両論でした。

  • キモンニスム氏は、これを「堅実なアップグレード」と呼び、Anthropic の中核的な購入優先事項に焦点を当てていると指摘しました。具体的には、エージェント型コーディングの信頼性、コンピューター使用エージェントのためのビジョン、そして知識労働です。ただし、「明らかにミソス(Mythos)に対しては控えめ」でもあります [@kimmonismus]。
  • Artificial Analysis は GDPval-AA における向上と第1位のランクを裏付けましたが、これを全面的な大勝とは位置づけませんでした [@ArtificialAnlys]。
  • LlamaIndex と ParseBench の結果は、実用的な価格設定の制約の中で目立つが不均一なドキュメント関連の改善を示唆しました [@llama_index, @jerryjliu0]。

懐疑的/批判的:後退、トークン膨張、および UX への懸念

また、 substantial な反発もありました。

  • 複数のユーザーは、長文コンテキスト(long-context)におけるパフォーマンスが特に MRCR や「干し草の山の中の針」スタイルの指標において悪化しているように見えると述べました [@scaling01, @nrehiew_, @eliebakouch, @kimmonismus]。
  • アンソロピックのボリス・チェルニーは、MRCR が「妨害要素の積み上げ」トリックに過度に重きを置いているため段階的に廃止されつつあり、Graphwalks はより優れた応用推論の指標であると回答しました。彼は 4.6 から 4.7 への移行で Graphwalks のスコアが 38.7% から 58.6% に向上したという数値を示しています [@bcherny, @scaling01]。
  • トークナイザーの変更により、Opus が「トークンの食い込み」を起こすようになり、リスト価格が据え置かれたにもかかわらず実質的なコストが上昇する可能性があると不満の声が上がりました [@dejavucoder, @madiator]。
  • Yuchen は、Claude Web では「Adaptive(適応型)」または思考しないモードしか提供されておらず、明示的に推論を強制する切り替えスイッチがないため、一部のユーザーにとってはコーディング以外のタスクが実際には以前より悪化して感じられたと述べています [@Yuchenj_UW]。
  • ミハイル・パラヒンも同様に、推論を強制できないため、非コーディングに関する回答の第一印象は「愚かになった」と感じたと語っています [@MParakhin]。
  • テオは新しいシステムプロンプトを鋭く批判し、「前頭葉切除された(ロボトミー化された)」と表現しました。その後、このモデルを T3 Chat で「前頭葉切除されたシステムプロンプトなし」で試すことを提案しました [@theo, @theo]。

セーフティ/ガバナンスの観点

  • スケーリング01 は、アンソロピックがトレーニング中にサイバー能力を差別的に低下させるための取り組みを実験したという「システムカード」の記述を強調しました [@scaling01]。

同時に、ユーザーたちは Opus 4.7 が Firefox のシェルエクスプロイトのようなエクスプロイト関連の評価では依然として 4.6 よりも高いスコアを示しており、プロンプトインジェクションに対する堅牢性も Mythos に近い水準にあると指摘しています [@scaling01, @scalin]

原文を表示

a quiet day.

AI News for 4/14/2026-4/16/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!

Top Story: Claude Opus 4.7

What happened

Anthropic officially launched Claude Opus 4.7 as its newest top-tier Opus model, positioning it as better at long-running work, coding, instruction following, self-verification, computer use, and knowledge work than Opus 4.6, while keeping list pricing unchanged at $5 / $25 per million input/output tokens according to user summaries and launch discussion [@claudeai, @kimmonismus]. The rollout appears broad: Anthropic’s own app/platform, API, Claude Code, AWS Bedrock, Google Vertex AI, and Microsoft Foundry were all cited by users on day one [@dejavucoder, @kimmonismus]. Third-party integrations also landed quickly, including Cursor [@cursor_ai], GitHub Copilot / @code [@pierceboggan, @code], Perplexity [@perplexity_ai], Devin [@cognition], Cline [@cline], Replit Agent [@pirroh], MagicPath [@skirano], Hermes Agent [@Teknium], and Arena [@arena]. The release sparked unusually active technical discussion around benchmark gains, a new tokenizer, higher image resolution support, new xhigh reasoning effort, token-cost implications, and whether Opus 4.7 is a straightforward 4.6 successor, a new base model, or a partially distilled “Mythos-adjacent” system.

Release details and product changes

Official framing. Anthropic’s launch pitch emphasized three behavioral improvements: better handling of long-running tasks, more precise instruction following, and stronger self-verification before responding [@claudeai].

Availability.

  • Claude platform / app reported live immediately [@dejavucoder].
  • API and cloud providers reported available across Bedrock, Vertex AI, and Microsoft Foundry [@kimmonismus].
  • Claude Code shipped day-one support and set xhigh as the default effort level [@_catwu, @_catwu].
  • Anthropic also launched or highlighted task budgets in public beta, /ultrareview in Claude Code, and broader Auto mode access for Claude Code Max users [@kimmonismus].

New effort tier.

  • Multiple users noted a new xhigh reasoning effort mode, positioned between high and max [@scaling01, @scaling01].
  • Cat Wu said Claude Code now defaults to xhigh for Opus 4.7 [@_catwu].

Vision/computer use changes.

  • User summaries reported support for images up to 2,576 px on the long edge (~3.75 MP), described as 3x larger than previous Claude image inputs [@kimmonismus].
  • Anthropic employee Alex Albert highlighted “No more downscaling of high-res images” and better output taste in UI/slides/docs [@alexalbert__].
  • This was repeatedly linked to better computer use and screenshot-heavy workflows [@dejavucoder, @omarsar0].

Tokenizer and token economics.

  • Several observers discovered Opus 4.7 uses a different tokenizer from 4.6 [@natolambert, @nrehiew_].
  • Kimmonismus summarized Anthropic’s caveat that the same input can map to 1.0–1.35x more tokens depending on content type [@kimmonismus].
  • This triggered debate over whether 4.7 is effectively a new base model, a tokenizer-swapped continuation, or some kind of midtraining/distillation bridge from Mythos [@natolambert, @stochasticchasm, @eliebakouch, @maximelabonne].
  • Anthropic employee Boris Cherny later said they increased limits for all subscribers to offset increased token use [@bcherny, @bcherny].

Benchmarks and measurable progress

Reported benchmark gains vs Opus 4.6

The most cited launch numbers came from benchmark screenshots and summaries shared by external accounts:

  • SWE-bench Pro: 64.3%, with users citing roughly +11 points over Opus 4.6 [@scaling01, @kimmonismus]
  • SWE-bench Verified: 87.6%, roughly +7 points vs 4.6 [@scaling01, @scaling01]
  • TerminalBench 2.0: 69.4%, around +4 points [@scaling01, @kimmonismus]
  • Document reasoning: 80.6%, up from 57.1% per third-party discussion [@scaling01, @llama_index]
  • GDPval-AA: 1753 Elo [@scaling01, @ArtificialAnlys]
  • ARC-AGI-1: 92%; ARC-AGI-2: 75.83% per user screenshot/summary [@scaling01]

Artificial Analysis said Opus 4.7 launched as the new #1 on GDPval-AA, with an implied ~60% head-to-head win rate vs GPT-5.4 on that task set [@ArtificialAnlys].

Vals AI said Opus 4.7 took the #1 spot on the Vals Index at 71.4%, up from a previous best 67.7%, and also ranked #1 on Vibe Code Bench, Vals Multimodal, Finance Agent, Mortgage Tax, SAGE, SWE-Bench, and Terminal Bench 2 [@ValsAI].

They separately said Opus 4.7 became #1 on Vibe Code Benchmark at 71%, versus no model above 25% when they first launched the benchmark 4.5 months earlier [@ValsAI].

Product/evals from partners and customers

  • Cursor said its internal benchmark jumped from 58% to 70% with Opus 4.7 [@cursor_ai, @scaling01].
  • A separate Cursor post said, across 500 teams, developers are tackling 68% more high-complexity tasks this year, though that was about better models generally, not solely Opus 4.7 [@cursor_ai].
  • Notion reportedly saw a 14% lift on internal evals with one-third of tool errors [@mikeyk].
  • GitHub reportedly saw similar improvements, though no hard numbers were included in the tweet thread [@scaling01].

Document understanding: progress, but mixed economics

LlamaIndex and Jerry Liu provided useful independent nuance:

  • LlamaIndex’s ParseBench-style comparison said Opus 4.7 massively improved charts (13.5% → 55.8%) but only slightly improved formatting (64.2% → 69.4%), content (89.7% → 90.3%), tables (86.5% → 87.2%), and regressed on layout (16.5% → 14.0%) [@llama_index].
  • Jerry Liu separately said Opus 4.7 is “quite good at tables,” better on charts, and strongest on content faithfulness, but expensive for OCR-like use at ~7¢/page vs their agentic mode at ~1.25¢/page and cost-effective mode around ~0.4¢/page [@jerryjliu0].

This is one of the clearest examples of independent evaluation tempering launch optimism: broad capability improved, but specific enterprise document pipelines may still prefer specialized stacks on cost/performance grounds.

Facts vs opinions

Facts and near-facts supported by launch materials or consistent cross-reporting

  • Opus 4.7 was officially launched by Anthropic [@claudeai].
  • It is framed as better for long-running tasks, instruction following, and self-verification [@claudeai].
  • A new xhigh effort tier exists [@scaling01].
  • Claude Code defaulted to xhigh for the model [@_catwu].
  • It uses a different tokenizer from 4.6 [@natolambert].
  • Anthropic increased subscriber limits to compensate for greater token usage [@bcherny, @bcherny].
  • Anthropic acknowledges benchmark tradeoffs and retained MRCR in the system card “for scientific honesty,” while signaling a shift toward Graphwalks as a preferred long-context metric [@bcherny].

Opinions / interpretations

  • “This is a distilled version of Mythos” [@eliebakouch].
  • “This is a new base model because the tokenizer changed” [@natolambert].
  • “Anthropic artificially kept cyber scores low during training” is partly factual insofar as users quote the system card language about differentially reducing some capabilities, but broader claims about “nerfed Mythos” are interpretation [@scaling01, @Yuchenj_UW].
  • “Benchmarks don’t do it justice” and “actual usage is massively improved” are subjective but widely repeated by hands-on users [@mweinbach, @jeremyphoward].
  • “System prompt has lobotomized the model” is a user complaint about behavior changes, not an established fact [@theo].

Different perspectives

Supportive: meaningful real-world upgrade

A large portion of technical users argued this is a substantial iteration, especially given more frequent release cadence.

  • Scaling01 repeatedly pushed back on “mid update” takes, noting the jump from around 80% to almost 90% on SWE-bench Verified and emphasizing this would have looked huge in prior release cycles [@scaling01, @scaling01, @scaling01].
  • Alex Albert highlighted better async work, more predictable effort levels, better image handling, and stronger taste in UI/docs [@alexalbert__].
  • Michael Weinbach said after just two prompts that behavior and instruction following were “pretty massive” improvements [@mweinbach].
  • Jeremy Howard said it was the first model that “gets” what he’s doing and praised its willingness to discuss rather than bulldoze ahead [@jeremyphoward, @jeremyphoward].
  • Cat Wu explicitly advised users to treat it like an engineer you delegate to, not a pair programmer you micromanage, suggesting Anthropic sees it as stronger in autonomous execution [@_catwu].

Neutral / analytical: strong update with tradeoffs

Some of the best commentary was technical and mixed.

  • Kimmonismus called it a “solid upgrade” focused on Anthropic’s core buyer priorities: agentic coding reliability, vision for computer-use agents, and knowledge work—but also “obviously shy to Mythos” [@kimmonismus].
  • Artificial Analysis validated the GDPval-AA gain and #1 ranking, but did not frame it as an across-the-board blowout [@ArtificialAnlys].
  • LlamaIndex and ParseBench results suggested noticeable but uneven document gains with real pricing constraints [@llama_index, @jerryjliu0].

Skeptical / critical: regressions, token inflation, and UX concerns

There was also substantial pushback.

  • Multiple users said long-context performance looked worse, especially on MRCR / needle-in-a-haystack-style metrics [@scaling01, @nrehiew_, @eliebakouch, @kimmonismus].
  • Anthropic’s Boris Cherny replied that MRCR is being phased out because it overweights distractor-stacking tricks and that Graphwalks is a better applied-reasoning signal; he gave numbers showing Graphwalks 38.7% → 58.6% from 4.6 to 4.7 [@bcherny, @scaling01].
  • Tokenizer changes led to complaints about Opus becoming a “token guzzler” and potentially raising effective costs despite flat list pricing [@dejavucoder, @madiator].
  • Yuchen said Claude web only exposed “Adaptive” or non-thinking, with no explicit force-thinking toggle, which for some users made non-coding tasks feel worse in practice [@Yuchenj_UW].
  • Mikhail Parakhin similarly said first impressions on non-coding replies were “dumber” because he couldn’t force reasoning [@MParakhin].
  • Theo sharply criticized the new system prompt as “lobotomized,” and later suggested trying the model in T3 Chat “without the lobotomized system prompt” [@theo, @theo].

Safety / governance angle

  • Scaling01 highlighted a system-card statement that Anthropic experimented with efforts to differentially reduce cyber capabilities during training [@scaling01].

At the same time, users noted Opus 4.7 still scores higher than 4.6 on some exploitation-related evaluations like Firefox shell exploitation, and has prompt-injection robustness close to Mythos [@scaling01, @scalin

この記事をシェア

関連記事

TechCrunch AI重要度42026年6月26日 02:38

Anthropic の Claude が有料消費者層で ChatGPT を凌駕し市場を席巻

The Zvi2026年6月25日 20:34

AI #174:あなた自身こそが重要

TLDR AI重要度42026年6月25日 09:00

ジェミニ研究者らがアンソロピックへ移籍(1 分読了)

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む