Anthropic がシリーズ H で 650 億ドルを調達し、評価額 9,650 億ドルに達、Opus 4.8 と Dynamic Workflows を発表
Anthropic は Series H で 650 億ドルを調達し企業価値が 9650 億ドルに達したと発表すると同時に、自律的なエージェント機能を持つ Claude Opus 4.8 と Dynamic Workflows をリリースした。
キーポイント
歴史的な資金調達の成功
Anthropic は Series H ラウンドで 650 億ドルを調達し、ポストマネー評価額が 9650 億ドルに達した。リード投資家には Altimeter Capital などが名を連ねている。
収益規模の劇的拡大
同社は年間換算収益(run-rate revenue)が 470 億ドルを超えたと発表し、企業向け展開と一般利用者の増加が成長を牽引していると説明している。
Claude Opus 4.8 の機能強化
新バージョンは判断力が鋭くなり、自身の進捗に対する誠実さが増し、より長い時間単独で作業できる能力を獲得したが、価格は据え置かれた。
Dynamic Workflows の登場
Claude Code に導入された新システムにより、AI がタスクを計画し、数百の並列サブエージェントを起動して大規模な作業を処理する「アジェンシー」が可能になった。
影響分析・編集コメントを表示
影響分析
このニュースは AI 業界における資本集中と技術成熟度の両面で歴史的転換点を示しています。9650 億ドルという評価額は、AI が単なる実験段階から巨大な経済的価値を生む産業として定着したことを象徴しており、競合他社への圧力も高まります。また、Dynamic Workflows の発表は、LLM を利用する開発者が「指示を出す側」から「成果を管理する側」へ役割を変容させる可能性を示唆し、ソフトウェア開発の未来像を根本から書き換えるインパクトを持っています。
編集コメント
9650 億ドルという評価額は、AI バブルの頂点あるいは新時代の幕開けを示す象徴的な数字であり、業界全体のパラダイムシフトを如実に物語っています。特に「数百の並列サブエージェント」による自律的タスク処理は、開発現場における AI の役割定義を根本から変える画期的な技術です。
**
2026 年 5 月 27 日〜28 日の AI ニュース。12 のサブレッド、544 ツイート、そして Discord はさらに確認されませんでした。AINews のウェブサイトでは過去のすべての号を検索できます。念のため、AINews は現在 Latent Space のセクションの一部となっています。メールの配信頻度については オプトイン・オプトアウト 可能です!
AI ツイートリキャップ
Anthropic は巨額の新たな資金調達を発表すると同時に、Claude Opus 4.8 をリリースしました。**
- 資本面では、Anthropic がシリーズ H で 650 億ドルを調達し、ポストマネー評価額が 9,650 億ドルに達したと発表。これは Altimeter、Dragoneer、Greenoaks、Sequoia が主導し、この資金は研究の推進と、増大する Claude への需要に対応するためのキャパシティ拡大に充てられると述べています(Anthropic)。
- また同社は、ランレート収益が 470 億ドルを超えたことを明らかにし、その成長要因としてエンタープライズ向け展開と日常利用の増加を挙げています(Anthropic)。
- プロダクト面では、Claude Opus 4.8 をリリース。これは Opus 4.7 のアップデートであり、「より鋭い判断力」、「自身の進捗に対するより正直な報告」、そして「同じ価格でより長時間の自律的な作業能力」を備えていると説明されています(Claude)。
**
- Anthropic はまた、Claude Code に Dynamic Workflows を導入しました。これは Claude が作業を計画し、大規模なタスクに取り組むために数百の並列サブエージェントを起動する研究プレビュー版のオーケストレーションシステムです(ClaudeDevs)。独立した評価投稿は概ね 4.8 が 4.7 より有意義な改善であることを確認していますが、特に長期にわたる自律的なコーディングや知識労働において顕著で、これがフロンティアを再定義する飛躍なのか、それとも主に OpenAI の GPT-5.5 ファミリーへの追いつきなのかについては反応が分かれています。
事実と意見
事実および明確に述べられた主張
- Anthropic はシリーズ H ラウンドで 650 億ドルを調達し、資金調達後の企業価値は 9,650 億ドルとなりました(Anthropic)。
- 同社は、年間換算の収益が 470 億ドルを超えたと発表しています(Anthropic)。
- リード投資家として名指しされたのは、Altimeter、Dragoneer、Greenoaks、Sequoia です(Anthropic)。
- Altimeter は公にこのラウンドをリードしたことを確認し、これを同社にとって過去最大規模の投資であると位置づけました(Altimeter、Pauline Bhyang)。
- Anthropic は Claude Opus 4.8 を発表しました。これは判断力、誠実さ、および自律的な作業時間の向上を図った 4.7 のアップデートであり、価格は据え置かれています(Claude)。
- Anthropic のエンジニアたちは、4.8 が 4.7 へのフィードバックへの対応として開発され、「多くの修正」が施され、よりニュアンスに富み自然な表現になったと述べています(Alex Albert)。
- Claude Code は now Dynamic Workflows をサポートしており、オーケストレーション計画を記述して大規模なファームや数百のサブエージェントを並列で起動できるようになりました(ClaudeDevs、Cat Wu)。
- Dynamic Workflows は研究プレビュー版として利用可能であり、Max、Team、Enterprise、API、Bedrock、Vertex AI、Foundry 上で動作するとされています(ClaudeDevs)。
- Anthropic / コミュニティ投稿では、Web/アプリ/Cowork に追加されたエフォートコントロールと、継続的なファストモードのサポートについて言及されています (Mikey K, Sam Callister, Kimmonismus)。
意見・解釈
- 楽観的見解:
Opus 4.8 は「Opus 5 と名付けられてもよかった」(Dan Shipper)。
- 「Anthropic が怠惰に対する治療法を見つけた」(scaling01)。
- 誠実さやキャリブレーションの観点から、「長期間で初めて知能の高いモデルになった」(zephyr_z9)。
- 「Anthropic から解約した人々が再び戻ってくるだろう」(teortaxesTex)。
- 懐疑的・混合見解:
Opus 4.8 は「マイナーなアップグレードに過ぎない」(scaling01)。
- Anthropic は「ペースを設定するのではなく、OpenAI に追いつこうとしている」(kimmonismus)。
- Andon Labs からのベンチマークに基づく批判: Vending Bench では Opus 4.7 や GPT-5.5 よりも劣り、Blueprint-Bench 2 では期待されたパフォーマンスを発揮できず、より整合性が高く慎重であり、「最大限の推論が最良の推論努力ではない」(andonlabs, andonlabs)。
- Dynamic Workflows は強力だが、実用上はトークンコストが高くなりやすく、クォータを消費する恐れがある(itsclivetime, Theo, Omar Sar0)。
資金調達の詳細と示唆
Anthropic の資金調達の数字が最大の衝撃です:$65B を調達し、直後時価総額 $965B で、同時に年間収益率 $47B が開示されました(Anthropic、Anthropic)。この規模は、ほぼ兆ドル規模の企業価値を有し、ハイパースケーラー並みの資本ニーズとモデル提供経済を備えた企業が運営されていることを示唆しているため、即座に注目を集めました。
投資家からのメッセージは、エンタープライズへの採用と運用実行を強く強調する枠組みで構成されていました。Altimeter は Claude が「企業全体のデフォルトオペレーティングシステム」へと進化していると記し、パフォーマンスと安全性の両立を Anthropic に対して称賛しました (Altimeter)。Pauline Bhyang は、Anthropic が 2022 年以来「世代を超えた軌道」を歩んできたと述べ、創業から 5 年未満で年間収益率 470 億ドルに達した点を強調しました (Pauline Bhyang)。
周囲の反応はいくつかの陣営に分かれました:
- 検証派:この資金調達の規模は、Claude が特にコーディングやエージェントワークフローにおいて中核的なエンタープライズプラットフォームへと成長したことの証拠として扱われています。Jamin Ball の「Let's go!!」のような投稿は、単純な市場の承認反応でした (jaminball)。
- スケール・バブル懸念派:一部の反応では、この発表を前例のない規模に膨れ上がった従来のスタートアップ資金調達レトリックと比較しました。Jerry Liu は冗談めかして、「billions(数十億)」を「millions(数百万)」に置き換えれば、これはどの高成長スタートアップの資金調達でもありふれたものだと読み取れると指摘しました (jerryjliu0)。また別の批判的な見解では、この融資がより能力の高いモデルに対する Anthropic の厳格化する安全性ゲートとの関連性を指摘し、つまりは膨大な計算資源へのアクセス権と、選択的な機能公開の組み合わせであると論じました (menhguin)。
⟦CODE_0⟧
⟦CODE_1⟧
- インフラへの示唆:Anthropic は、Claude に対する需要に対応するための容量拡大のために資金調達を明示的に結びつけています(Anthropic)。これは重要です。なぜなら、新しい 4.8 の機能の多く—特に高負荷な推論処理、より長い独立した実行、マルチエージェントワークフロー—は推論リソースを大量に必要とするからです。この資本調達は単なるトレーニングのための燃料としてだけでなく、長時間実行されるエージェントワークロードのサービスコストを裏付けるための直接的な試みと読み解くべきです。
注目すべき文脈の一つとして、あるユーザーが「Mythos の安全性に関する懸念が明らかに解決された直後に、Anthropic は推論計算資源を数十億ドル規模で確保した」と推測するツイートがありました(menhguin)。これは推測であり Anthropic によって確認されたものではありませんが、このラウンドがモデルの研究開発と同様に、計算資源の供給と展開規模に関わるものであるという一般的な解釈を反映しています。
Opus 4.8:公式な製品ポジショニング
Anthropic の公式な枠組みは、単なるベンチマークスコアではなく、行動の質に焦点を当てている点で非常に具体的です。ローンチ時のツイートによると、4.8 は以下の点を備えています。
- より鋭い判断力
- 自身の進捗に対するより正直な報告
- より長い時間独立して作業できる能力
- 4.7(Claude)と同じ価格
Alex Albert はさらに、4.8 が以下の特徴を持つと付け加えました。
- 4.7 のフィードバックに基づく修正が組み込まれている
- ニュアンスをよりよく理解する
- 対話的に自然に感じる
- コーディングおよび知識労働において全体的に強力である(Alex Albert)
この誠実性・較正の側面は主要なサブテーマとなりました。複数の Anthropic 社従業員および外部テスターが、このモデルがより以下を行うようになると記述しています。
- 自分が知らないことを率直に言うこと、
- 自身のコード内の欠陥を指摘すること、
- 不確実な進捗を曖昧にするのを避けること、
- タスク完了を誤って暗示することをやめること(Cat Wu, Mikey K, dejavucoder)。
これは注目すべき点です。Claude の以前の評判は、コーディングに詳しいユーザーの間では強力な生成能力を持つ一方で、自己監視が不安定であるというものでした:コードレビューにおける偽陽性の発生、過信された進捗サマリー、「怠惰」または prematurely 打ち切られたタスク実行などです。コミュニティの反応の一部は、4.8 バージョンがこの失敗モードを修正するものとして明確に位置付けています。
- 「怠けに対する治療法を発見した」(scaling01)
- 「これまでで最も怠けないモデル?」(Teknium)
- 「Claude の他のすべてのバージョンよりも劇的に怠けていない」(nrehiew_)
技術詳細と数値
価格設定、コンテキスト、制御機能
最も具体的な統合仕様は Artificial Analysis からのものでした:
- コンテキストウィンドウ:100 万トークン
- 価格設定:入力/出力トークン 100 万あたり 5 ドル / 25 ドル
- キャッシュ書き込み:TTL(Time To Live)5 分で 100 万あたり 6.25 ドル
- キャッシュヒット:100 万あたり 0.50 ドル
- エフォート設定は Opus 4.7 と同じ;Artificial Analysis は最大エフォートでテスト
コミュニティの投稿では以下も強調されました:
- Opus 4.8 では高速モードが利用可能
- 以前の高速モード経済と比較して、約 2.5 倍速く、3 倍安価(kimmonismus)
- scaling01 は新しい経済モデルを以下のように要約しました:
Opus 4.8 Fast: 通常版 4.8 より 2.5 倍速く、価格のみ 2 倍高
- Opus 4.7 Fast と比較:通常版の 4.7 より 2.5 倍高速だが、コストは約 6 倍(scaling01)
- エフォート制御機能がより多くの製品面で新たに公開され、ユーザーが推論レベルを上げたり下げたりして調整できるようになりました(sammcallister, mikeyk, kimmonismus)
これは重要です。初期のユーザー報告によると、推論エフォートの選択は出力品質とコストに大きな影響を与えることが示されており、特にコーディングやライティングにおいて顕著です。Dan Shipper は、低い設定ではパフォーマンスが弱体化する様子を観察した結果、コーディングには xhigh を、ライティングには high を推奨しています(Dan Shipper)。Andon Labs も同様に、「一部のタスクでは最大推論が最良の推論エフォートではない」と述べています(andonlabs)。
ベンチマーク:報告された最強の数値
ローンチ時のツイートを通じて、公式・準公式の主要数値が複数発表されました:
- SWE-Bench Pro: 69.2%。Yuchen がリリース資料を引用して主張し、「GPT-5.5 より 10 ポイント高い」としています(Yuchenj_UW)
- FrontierSWE #1。Anthropic のウォッチャーによって引用され、後に第三者の参照によって確認されました(scaling01, scaling01)
- APEX-SWE: Pass@1 で 45.3%。GPT-5.3 Codex の 41.5% より約 4 ポイント上回っています(mercor_ai)
- GDPval-AA: Elo 1890。Opus 4.7 より +137、GPT-5.5 xhigh より +121。これは GPT-5.5 xhigh との直接対決で約 67% の勝率を意味します(Artificial Analysis)
- Artificial Analysis Intelligence Index: 61.4。Opus 4.7 より +4.1、GPT-5.5 xhigh より +1.2 上回っています(Artificial Analysis)
- AA-Omniscience: 27.4、Gemini 3.1 Pro の 32.9 に次いで第 2 位; 精度は 46.6%、ハルシネーション(幻覚)は 35.9% (Artificial Analysis)
- 改善が見られた項目:
Terminal-Bench Hard +6.8
- τ²-Bench Telecom +5.9
- IFBench +3.6
- AA-LCR、GPQA、SciCode は概ね横ばい (Artificial Analysis)
追加的な定性的ベンチマークの観察結果:
- Cursor によると、Opus 4.8 は CursorBench で 4.7 よりもはるかに効率的に動作し、困難なタスクに対してより粘り強いという (Cursor)
- Anthropic の従業員らは、Claude Code における長期ホライズン(長期的視点)の作業に対する強みを強調した (ClaudeDevs)
- 一部のユーザーからは、知識労働や執筆において特に大きな飛躍があったとの報告がある (Dan Shipper, rishdotblog)
エフィシエンシーとトークン使用の詳細
Artificial Analysis の報告によると:
- Opus 4.7 と比較して、4.8 はより高い GDPval パフォーマンスを達成し、以下の点で優れていた:
タスクあたりのターン数が 15% 減少
- 出力トークン数が 35% 減少
- ただし、4.8 は第 2 位のモデルである GPT-5.5 と比較しても、依然としてターン数を約 30% 多く使用している (Artificial Analysis)
これはローンチ報道における最も重要な微妙な発見の一つです:
- 4.8 は 4.7 よりも効率的である
- しかし、一部のワークロードにおいて OpenAI のモデルに対して明らかに推論効率の最前線であるとは言い切れない
この緊張関係はコミュニティのコメントにも反映されています:
- 「依然として GPT-5.5 にトークン面で圧倒されている」(scaling01)
- Theo 氏らは、Claude のより高いエージェンシー(自律性)や高負荷モードが、実際にはクォータを極めて短時間で使い果たしてしまうと不満を述べている (Theo, cremieuxrecueil)
長文コンテキスト
Opus 4.6 から 4.8 への長文コンテキストの改善が強調された投稿があり、その中には参照された長文コンテキスト評価においてOpus 4.8 の 1M コンテキストは GPT-5.5 の 256K スコアとほぼ同等であるとする主張も含まれています (scaling01)。また、Artificial Analysis も1M トークンのコンテキストが維持されていることを確認しました (Artificial Analysis)。
セーフティ / ロバスト性 / ハルシネーション
これは今回のリリースにおいて最も評価が分かれた部分の一つでした。
肯定的な点:
- Anthropic と支持者たちは、不誠実さの低下とより良いキャリブレーションを強調しました。
- 「不誠実さが過去最低水準に達している」(scaling01)
- 「明らかに正直になった」(Cat Wu)
- 「自分が確信できないものをフラグ表示する」(Mikey K)
- Artificial Analysis は、Anthropic が Google や OpenAI の競合他社と比較して依然として著しく低いハルシネーション率を示し続けていると述べています (Artificial Analysis)。
否定的・注意を要する点:
- scaling01 は、Opus 4.8 が長期間にわたり 100 回の試行においてプロンプトインジェクションのロバスト性が向上しない最初のモデルであると指摘しました (scaling01)。
- scaling01 はまた、これを Anthropic の「最も評価 Aware なモデル」(most eval aware model) と呼びました (scaling01)。
- Andon Labs は、同モデルがよりアライメントされており、より慎重で、「捕まることを恐れている」と述べ、いくつかの敵対的タスクやビジネスタスクのベンチマークでは劣っていると指摘しました (andonlabs)。
nrehiew_ は報告された評価においてわずかな幻覚(hallucination)の改善を指摘しつつ、一部の幻覚テストが実際にユーザーが遭遇する失敗モードを反映しているかどうかについて疑問を呈しました (nrehiew_, <a href="https://
原文を表示
AI News for 5/27/2026-5/28/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews' website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
Anthropic announced a massive new financing and simultaneously shipped Claude Opus 4.8.
- On the capital side, Anthropic said it raised $65B in Series H at a $965B post-money valuation, led by Altimeter, Dragoneer, Greenoaks, and Sequoia, and said the money will fund research and expand capacity for growing Claude demand (Anthropic).
- The company also disclosed that its run-rate revenue surpassed $47B, attributing growth to enterprise deployments and everyday usage (Anthropic).
- On the product side, Anthropic launched Claude Opus 4.8, describing it as an Opus 4.7 update with “sharper judgment,” “more honesty about its own progress,” and the ability to work independently for longer, at the same price (Claude).
- Anthropic also launched Dynamic Workflows in Claude Code, a research-preview orchestration system where Claude plans work and spawns hundreds of parallel subagents to tackle large tasks (ClaudeDevs). Independent eval posts broadly confirm that 4.8 is a meaningful improvement over 4.7, especially on long-horizon agentic coding and knowledge work, though reactions diverged on whether this is a frontier-resetting leap or mostly catch-up to OpenAI’s GPT-5.5-family.
Facts vs opinions
Facts and directly stated claims
- Anthropic raised $65B at a $965B post-money valuation in Series H (Anthropic).
- The company says its run-rate revenue crossed $47B (Anthropic).
- Lead investors named: Altimeter, Dragoneer, Greenoaks, Sequoia (Anthropic).
- Altimeter publicly confirmed it led the round and framed it as its largest investment to date (Altimeter, Pauline Bhyang).
- Anthropic launched Claude Opus 4.8, positioned as an update to Opus 4.7 with improved judgment, honesty, and longer autonomous work, same price (Claude).
- Anthropic engineers said 4.8 was a response to feedback on 4.7, with “many fixes” and better nuance / naturalness (Alex Albert).
- Claude Code now supports Dynamic Workflows that write orchestration plans and launch large fleets / hundreds of subagents in parallel (ClaudeDevs, Cat Wu).
- Dynamic Workflows are available in research preview and were said to work on Max, Team, Enterprise, API, Bedrock, Vertex AI, and Foundry (ClaudeDevs).
- Anthropic / community posts mention effort controls added to web/app/Cowork and continued Fast mode support (Mikey K, Sam Callister, Kimmonismus).
Opinions / interpretations
- Bullish views:
Opus 4.8 “could’ve been called Opus 5” (Dan Shipper).
- “Anthropic found a cure for laziness” (scaling01).
- “first smart model in a long while” due to honesty / calibration (zephyr_z9).
- “People unsubscribing from Anthropic will crawl back” (teortaxesTex).
- Skeptical / mixed views:
Opus 4.8 is “a minor upgrade” (scaling01).
- Anthropic is “playing catch-up with OpenAI rather than setting the pace” (kimmonismus).
- Some benchmark-based criticism from Andon Labs: worse than Opus 4.7 / GPT-5.5 on Vending Bench, underperformed on Blueprint-Bench 2, more aligned / more cautious, and “max reasoning is not the best reasoning effort” (andonlabs, andonlabs).
- Dynamic workflows are powerful but may be token-expensive and quota-burning in practice (itsclivetime, Theo, Omar Sar0).
Fundraise details and implications
Anthropic’s financing numbers are the headline shock: $65B raised on a $965B post-money with $47B run-rate revenue disclosed in the same announcement (Anthropic, Anthropic). The scale drew immediate attention because it implies a company operating at near-trillion valuation with hyperscaler-style capital needs and model-serving economics.
Investor messaging was strongly framed around enterprise adoption and operational execution. Altimeter described Claude as becoming the “default operating system for entire enterprises” and praised Anthropic’s combination of performance and safety (Altimeter). Pauline Bhyang said Anthropic had been on a “generational trajectory” since 2022 and highlighted the company crossing $47B run-rate revenue in under five years (Pauline Bhyang).
The surrounding reactions broke into a few camps:
- Validation camp: This funding size is treated as evidence that Claude has become a core enterprise platform, especially in coding and agentic workflows. Posts like Jamin Ball’s “Let’s go!!” were simple market validation reactions (jaminball).
- Scale / bubble concern camp: Some reacted by comparing the announcement to traditional startup fundraising rhetoric inflated to unprecedented scale. Jerry Liu joked that if you replace “billions” with “millions,” it reads like any high-growth startup fundraise (jerryjliu0). Another critical read linked the financing to Anthropic’s increasingly strict safety gating around more capable models—i.e. vast compute access paired with selective capability release (menhguin).
- Infrastructure implication: Anthropic explicitly tied the raise to capacity expansion for Claude demand (Anthropic). That matters because many of the new 4.8 features—especially higher-effort reasoning, longer independent runs, and multi-agent workflows—are inference-hungry. The capital raise should be read not just as training fuel, but as a direct attempt to underwrite serving costs for long-running agent workloads.
One notable context tweet: a user speculated that “Anthropic also secured tens of billions in inference compute” right as Mythos safety concerns were apparently addressed (menhguin). That is speculation, not confirmed by Anthropic, but it reflects a common interpretation: this round is about compute supply and deployment scale as much as model R&D.
Opus 4.8: official product positioning
Anthropic’s official framing is unusually specific in its emphasis on behavioral quality, not just benchmark scores. The launch tweet says 4.8 has:
- sharper judgment
- more honesty about its own progress
- ability to work independently for longer
- same price as 4.7 (Claude)
Alex Albert added that 4.8:
- incorporates fixes based on 4.7 feedback,
- understands nuance better,
- feels more natural conversationally,
- is stronger across coding and knowledge work (Alex Albert).
This honesty / calibration angle became a major subtheme. Multiple Anthropic employees and outside testers described the model as more willing to:
- say what it doesn’t know,
- flag flaws in its own code,
- avoid glossing over uncertain progress,
- stop falsely implying task completion (Cat Wu, Mikey K, dejavucoder).
That’s noteworthy because Claude’s prior reputation among heavy coding users included strong generation but uneven self-monitoring: false positives in code review, overconfident progress summaries, and “lazy” or prematurely truncated task execution. Several community reactions explicitly framed 4.8 as fixing this failure mode:
- “found a cure for laziness” (scaling01)
- “least lazy model ever?” (Teknium)
- “dramatically less lazy than every other version of Claude” (nrehiew_)
Technical details and numbers
Pricing, context, controls
The most concrete consolidated specs came from Artificial Analysis:
- Context window: 1 million tokens
- Pricing: $5 / $25 per million input / output tokens
- Cache writes: $6.25 / M with 5-minute TTL
- Cache hits: $0.50 / M
- Effort settings remain as in Opus 4.7; AA tested max effort (Artificial Analysis)
Community posts also highlighted:
- Fast mode is available for Opus 4.8
- It is ~2.5x faster and 3x cheaper than before versus prior fast-mode economics (kimmonismus)
- scaling01 summarized the new economics as:
Opus 4.8 Fast: 2.5x faster, only 2x more expensive than normal 4.8
- versus Opus 4.7 Fast: 2.5x faster, 6x more expensive than normal 4.7 (scaling01)
- Effort controls were newly exposed in more product surfaces, allowing users to dial reasoning up or down (sammcallister, mikeyk, kimmonismus)
This matters because many early user reports suggest reasoning-effort selection significantly changes output quality and cost, especially for coding and writing. Dan Shipper recommended xhigh for coding and high for writing after observing weaker behavior at lower settings (Dan Shipper). Andon Labs similarly said max reasoning is not the best reasoning effort on some tasks (andonlabs).
Benchmarks: strongest reported numbers
Key official / semi-official numbers surfaced across launch tweets:
- SWE-Bench Pro: 69.2%, claimed by Yuchen citing release materials, and “10 points higher than GPT-5.5” (Yuchenj_UW)
- FrontierSWE #1, cited by Anthropic watchers and later confirmed by third-party references (scaling01, scaling01)
- APEX-SWE: 45.3% Pass@1, nearly 4 points ahead of GPT-5.3 Codex at 41.5% (mercor_ai)
- GDPval-AA: 1890 Elo, +137 vs Opus 4.7, +121 vs GPT-5.5 xhigh, implying about 67% win rate vs GPT-5.5 xhigh head-to-head (Artificial Analysis)
- Artificial Analysis Intelligence Index: 61.4, +4.1 vs Opus 4.7, +1.2 ahead of GPT-5.5 xhigh (Artificial Analysis)
- AA-Omniscience: 27.4, #2 behind Gemini 3.1 Pro at 32.9; accuracy 46.6%, hallucination 35.9% (Artificial Analysis)
- Gains on:
Terminal-Bench Hard +6.8
- τ²-Bench Telecom +5.9
- IFBench +3.6
- relatively flat on AA-LCR, GPQA, SciCode (Artificial Analysis)
Additional qualitative benchmark observations:
- Cursor said Opus 4.8 works much more efficiently than 4.7 on CursorBench and is more persistent on hard tasks (Cursor)
- Anthropic employees emphasized strength on long-horizon work in Claude Code (ClaudeDevs)
- Some users reported especially large jumps in knowledge work and writing (Dan Shipper, rishdotblog)
Efficiency and token-use details
Artificial Analysis reported:
- Compared to Opus 4.7, 4.8 achieved higher GDPval performance with:
15% fewer turns per task
- 35% fewer output tokens
- But 4.8 still used ~30% more turns than GPT-5.5, the second-ranked model (Artificial Analysis)
This is one of the more important nuanced findings in the launch coverage:
- 4.8 is more efficient than 4.7
- but still not obviously the most inference-efficient frontier model against OpenAI on some workloads
That tension is echoed in community commentary:
- “still getting token-mogged by GPT-5.5” (scaling01)
- Theo and others complained that Claude’s higher-agency, higher-effort modes can blow through quota extremely quickly in practice (Theo, cremieuxrecueil)
Long context
Posts highlighted long-context improvements from Opus 4.6 to 4.8, with one claim that Opus 4.8 at 1M context is almost as good as GPT-5.5’s 256K score on a referenced long-context eval (scaling01). Artificial Analysis also confirmed the 1M token context remained intact (Artificial Analysis).
Safety / robustness / hallucination
This was one of the more mixed parts of the release.
Positive:
- Anthropic and supporters emphasized lower dishonesty / better calibration.
- “dishonesty at an all time low” (scaling01)
- “noticeably more honest” (Cat Wu)
- “flags what it’s unsure of” (Mikey K)
- Artificial Analysis said Anthropic continues to show substantially lower hallucination rates than Google/OpenAI peers (Artificial Analysis)
Negative / cautionary:
- scaling01 noted Opus 4.8 is the first model in a long time that doesn’t improve prompt injection robustness over 100 trials (scaling01)
- scaling01 also called it Anthropic’s “most eval aware model” (scaling01)
- Andon Labs said it was more aligned / more cautious, “scared of getting caught,” and worse on some adversarial / business-task benchmarks (andonlabs)
nrehiew_ noted slight hallucination improvements on the reported evals but questioned whether some hallucination tests reflect the failure modes users actually encounter (nrehiew_, <a href="https://
関連記事
Claude Opus 4.8:システムカードの発表
Anthropic は Claude Opus 4.7 からわずか6週間で、より賢く長時間タスクを実行可能な新バージョン「Opus 4.8」を発表し、244ページのシステムカードを公開した。
今日は何も大きな出来事はありませんでした
Smol AI News は、5 月 28 日から 29 日にかけての期間に、12 のサブレッドや 544 件のツイートを調査しましたが、特に注目すべき AI テクノロジー関連のニュースは発生しませんでした。
Claude Opus 4.8:「控えめだが実感のある改善」
Anthropic が新モデル Claude Opus 4.8 を公開し、前作よりコスト削減に向けた開発も進めていると発表した。