Claude Opus 4.8 の紹介
Anthropic は Claude Opus 4.8 を発表し、推論能力やエージェント機能の向上に加え、高速モードのコスト削減と作業負荷制御機能を追加した。
キーポイント
性能と信頼性の向上
Claude Opus 4.7 からベンチマーク全体で改善され、特にエージェントタスクにおける判断力や信頼性が向上し、複雑なマルチサービス探索での自信構築能力が高まっている。
コスト削減と高速化
Opus 4.8 の「高速モード」は前モデルの 2.5 倍の速度で動作するだけでなく、価格が 3 分の 1 に大幅に引き下げられ、コストパフォーマンスが劇的に改善された。
新しい制御機能
ユーザーは claude.ai で Claude がタスクに取り組む際の努力量を制御できるようになり、Claude Code では大規模な問題解決を可能にする「動的ワークフロー」機能が追加された。
影響分析・編集コメントを表示
影響分析
今回のアップデートは、Claude Opus シリーズのエージェントとしての信頼性を確立し、特に大規模かつ複雑な自動化タスクにおける実用性を飛躍的に高めるものです。また、高速モードのコスト削減は、高負荷処理を頻繁に行う企業ユースケースにとって大きな経済的メリットとなり、市場での競争力を強化します。
編集コメント
競合他社との比較で明確な優位性を示し、特に「コスト対効果」の改善は市場への浸透を加速させる重要な転換点と言えます。
Claude Opus を新バージョンの Claude Opus 4.8 にアップグレードします。Opus 4.7 を基盤とし、ベンチマーク全体で改善が図られ、より効果的なコラボレーターとなっています。本モデルは本日、従来と同じ価格で利用可能です。
Opus 4.8 の発表に合わせ、いくつかの新機能も導入されます。claude.ai ユーザーは、Claude がタスクに取り組む際の努力の量を制御できるようになりました。また、Claude Code には「ダイナミックワークフロー (dynamic workflows)」という新機能が追加され、非常に大規模な問題にも対応可能となりました。さらに、Opus 4.8 のファストモード(モデルが従来の 2.5 倍の速度で動作するモード)は、以前のモデルと比較して料金が 3 分の 1 に大幅に引き下げられています。
Opus 4.8 の機能
以下の表では、コーディング、エージェントスキル、推論能力、実務知識に基づくタスクに関するテストにおいて、Opus 4.8 がその前身や他のモデルと比較してどのように評価されているかを示しています。詳細およびより広範な能力評価については、Claude Opus 4.8 システムカードをご参照ください。

Opus 4.8 とのコラボレーション
初期テスターたちは、エージェントタスクを実行する際、Claude Opus 4.8 がより信頼性が高く、判断が鋭いことを発見しました。以下は、Opus 4.8 とのコラボレーション経験について語った多くのテスターからの引用です。
Claude Opus 4.8 は、明らかに優れた判断力を備えています。Claude Code では、適切な質問を行い、自身のミスを検出し、計画が妥当でない場合は反論し、大規模な変更を行う前に複雑で多サービスにわたる探索に対して自信を築きます。これは共に構築できる素晴らしいモデルです。
Super-Agent ベンチマークにおいて、Claude Opus 4.8 はコストを同等に保ちながら、すべてのケースをエンドツーエンドで完了できる唯一のモデルであり、以前の Opus モデルや GPT-5.5 を上回っています。翻訳、深層調査、スライド作成、分析におけるエージェント製品に対して、強力な信頼性を提供します。
CursorBench において、Claude Opus 4.8 はあらゆる難易度レベルで以前の Opus モデルを上回ります。ツール呼び出しは意味あるほど効率的になり、同じ知能をより少ないステップで実現し、エンドツーエンドのタスクを完遂します。
Claude Opus 4.8 は、当社の Legal Agent ベンチマークで記録された最高スコアを達成し、すべてのパス基準において全体で 10% を突破した初のモデルとなりました。実質的な法的業務においては、この精度の向上が、顧客が自信を持って任せることができる実際の弁護士業務の量に直接反映されるようなものです。
Claude Opus 4.8 は、Opus 4.7 と比較すると、生活の質を大幅に向上させるアップデートのように感じられます。より高速で、協働が容易になり、長いセッションを通じて文脈やスタイルの指示を引き継ぐ能力も優れています。私は、声のトーン、審美眼、技術的な実行力がすべて同時に求められる業務において、Claude Opus 4.8 を信頼し続けてきました。
Claude Opus 4.8 は、私たちがテストした中で最も強力なコンピュータ操作およびブラウザエージェントモデルであり、Online-Mind2Web(オンラインマインド・ウェブ)で 84% のスコアを記録しました。これは、Opus 4.7 や GPT-5.5 を大きく上回る画期的な進歩です。顧客のエージェントワークロードがエンドツーエンドで信頼性を持つために必要なように、このモデルは常に自己省察を行い、タスクに集中し続けます。
Claude Opus 4.8 はツールを明確に使用し、自律型エンジニアリングワークロードが無人で稼働し続けるために必要な一貫性を持って指示に従います。Opus 4.6 を改善し、Opus 4.7 で見られたコメントの冗長性とツール呼び出しの問題を修正しました。Anthropic のこのリリースは、Devin(デビン)上で構築するエンジニアにとって、即座に能力向上へとつながります。
長期にわたる評価において、Claude Opus 4.8 の分析は以前の Opus モデルと比較して一貫して高品質でした。処理がより速く完了し、より豊かで情報密度の高い出力を生成しました。全体として、信号対雑音比が明らかに向上しています。最大の差別化要因は、Opus 4.8 が分析の入力と出力に関する問題を積極的に指摘する傾向がある点で、他のモデルでは通常見落とされ、ユーザーに発見させることになっていたものです。
CoCounsel Legal 全体において、Claude Opus 4.8 は以前の Opus モデルと比較して一貫性と推論の質において意味のある改善をもたらしました。顧客が依存する高リスクな専門ワークフローにおいては、この信頼性が重要です。法律家や税理士向けの信託義務レベルの AI システムを構築するにあたり、このような進展は、実世界のワークフローにおける信頼できる AI パフォーマンスの基準を引き上げることに貢献します。
Claude Opus 4.8 は、エンタープライズ AI の新たな基準を打ち立てました。データと知識作業のための Databricks の AI エージェントである Genie において、新しい Opus モデルはエージェント推論における段階的な飛躍を実現し、以前のどの Opus よりも深く複雑な多段階の質問をより速く処理します。そのマルチモーダル能力により、Genie は PDF、図表、その他の非構造化コンテンツに対して直接推論を行うことができ、Opus 4.7 と比較してトークンコストが 61% 削減されています。
Hebbia のオーケストレーターにおける財務文書ワークフローでは、Claude Opus 4.8 は Opus 4.7 と同等の高い品質を提供しつつ、検索においてより顕著な引用精度とトークン効率性を発揮します。これは、顧客が毎日処理しているような高密度の提出書類に対して非常に効果的に機能します。
01 /
11
Opus 4.8 における最も目立った改善点の一つは、その「誠実性」です。私たちはすべてのモデルを誠実に訓練しており、例えば、裏付けのない主張を行わないようにしています。しかし、AI モデルに共通する一般的な問題として、証拠が乏しいにもかかわらず作業の進捗があったと自信を持って主張し、結論に飛びついてしまうことがあります。初期テストユーザーからの報告によると、Opus 4.8 は自身の作業に関する不確実性を指摘する可能性が高く、裏付けのない主張を行う可能性は低くなっています。これは 私たちの評価 によって裏付けられており、Opus 4.8 がその前に作成したコードの欠陥を指摘せずに見過ごす確率が、先行モデルと比較して約 4 分の 1 に低下していることが示されています。
いつも通り、リリース前にモデルに対して詳細なアライメント評価を実施しました。肯定的な特性については、当社のアライメントチームは Opus 4.8 が「ユーザーの自律性を支援し、ユーザーの最善の利益のために行動するといった社会的に有益な特性に関する測定において新たな高みに達した」と結論付けました。また、評価結果では、Opus 4.8 の誤ったアライメント(例えば、欺瞞や悪用の協力など)の発生率が Opus 4.7 よりも大幅に低く、当社の最も適切にアライメントされたモデルである Claude Mythos Preview と同程度であることが示されました。詳細なアライメント評価および事前展開安全性テストの一連の結果は、『Claude Opus 4.8 システムカード』に記載されています。

今日同時にリリースされるもの
Claude Opus 4.8 のほか、以下の更新も本日実施します:
- ダイナミックワークフロー。この新機能は研究プレビュー版で利用可能で、Claude Code においてさらに大規模なタスクを Claude に任せることを可能にします。Claude は作業の計画を立てた後、単一のセッション内で数百もの並列サブエージェントを実行し(Opus 4.8 ではエージェントがより長時間実行可能)、その出力を検証してからユーザーへ報告を行います。例えば、既存のテストスイートを基準として、Claude Code with Opus 4.8 は、数千万行規模のコードベースに対する移行を、開始からマージまで一貫して実行できるようになりました。ダイナミックワークフローの詳細については、Enterprise、Team、Max プランで利用可能な Claude Code のこちらの記事をご覧ください。
- claude.ai および Cowork におけるエフォート制御。モデルセレクターに隣接する新しいコントロールにより、ユーザーは Claude が回答に費やすリソースの量を選択できるようになりました。高エフォート設定では、より質の高い回答を提供するために、Claude はより頻繁かつ深く思考を行います。一方、低エフォート設定では、応答速度が向上し、ユーザーのレート制限をよりゆっくりと消費します。この選択肢はすべてのプランで利用可能です。
- Messages API がメッセージ配列内のシステムエントリーを受け付けるようになりました。開発者は、プロンプトキャッシュを破損させたり、ユーザーターンを経由して更新を送信したりすることなく、タスク実行中に Claude の指示を更新できます。これにより、エージェントの実行中に権限やトークン予算、環境コンテキストなどを更新するハーン(harness)で利用することが可能です。
エフォートに関する注記
Opus 4.8 はデフォルトで高エフォート設定にされており、これは品質とユーザーエクスペリエンスの最適なバランスであると我々が判断したものです。コーディングタスクにおいては、このエフォートレベルは Opus 4.7 のデフォルトと同程度のトークン数を消費しますが、より優れたパフォーマンスを発揮します。ユーザーは「extra」(Claude Code では"xhigh")または"max"を選択でき、モデルはより良い結果を得るためにより多くのトークンを消費します。困難なタスクや長時間実行される非同期ワークフローには"extra"の使用を推奨しています。高エフォートレベルによるトークン使用量の増加に対応するため、Claude Code のレートリミットを引き上げました。ユーザーは自身のプロジェクトに最も適した設定を選択できます。
今後の展望
ユーザーは Opus 4.8 を、その先行モデルに対する控えめながらも実感のある改善として捉えるでしょう。まだ取り組むべき課題は残されています:我々は現在、Opus と同様の多くの機能を備えつつもより低コストで提供できるモデルの開発とリリースに取り組んでいます。
それだけでなく、Opus よりもさらに高い知能を有する新クラスのモデルのリリースも計画しています。Project Glasswing の一部として、少数の組織が現在、サイバーセキュリティ業務のために Claude Mythos Preview を使用しています。この能力レベルのモデルは、一般公開前により強力なサイバー防護策を必要とします。これらの防護策の開発については急速に進捗しており、今後数週間で Mythos クラスのモデルをすべての顧客に提供できるようになる見込みです。
利用開始
Claude Opus 4.8 は本日、どこでも利用可能です。通常利用の料金は Opus 4.7 と変わらず、入力トークン 100 万あたり 5 ドル、出力トークン 100 万あたり 25 ドルです。高速モードの料金は、入力トークン 100 万あたり 10 ドル、出力トークン 100 万あたり 50 ドルとなります。開発者は Claude API を通じて claude-opus-4-8 を利用できます。
関連コンテンツ
Anthropic、シリーズ H ラウンドで 650 億ドルを調達、事後評価額 9,650 億ドルに到達
イタリアの企業・研究機関・開発者支援のためミラノ事務所を開設
ヨーロッパにおける当社の六番目の拠点として、ミラノに新しい事務所を開設します。
ソウル事務所開設に先立ち、Anthropic が Choi KiYoung 氏を韓国代表取締役に任命
原文を表示
We’re upgrading Claude Opus to a new version: Claude Opus 4.8. It builds on Opus 4.7 with improvements across benchmarks, and is a more effective collaborator. It’s available today for the same price.
Opus 4.8 launches alongside several new features. Users on claude.ai now have control over the amount of effort Claude puts into a task. Claude Code has a new “dynamic workflows” feature that allows it to tackle very large-scale problems. And fast mode for Opus 4.8—where the model can work at 2.5× the speed—is now three times cheaper than it was for previous models.
Opus 4.8’s capabilities
The table below shows how Opus 4.8 compares to its predecessor and to other models on tests of coding, agentic skills, reasoning, and practical knowledge work tasks. More details and a much wider range of capability evaluations are provided in the Claude Opus 4.8 System Card.

Collaborating with Opus 4.8
Early testers have found Claude Opus 4.8 to be more reliable and sharper in its judgement when it’s performing agentic tasks. Below are quotes from many of these testers about their experience collaborating with Opus 4.8:
Claude Opus 4.8 has noticeably better judgment. In Claude Code, it asks the right questions, catches its own mistakes, pushes back when a plan isn’t sound, and builds up confidence around complex, multi-service explorations before making big changes. It’s a great model to build with.
On our Super-Agent benchmark, Claude Opus 4.8 is the only model to complete every case end-to-end, beating prior Opus models and GPT-5.5 at parity on cost. For agent products in translation, deep research, slide-building, and analysis, it delivers powerful reliability.
On CursorBench, Claude Opus 4.8 exceeds prior Opus models across every effort level. Tool calling is meaningfully more efficient, using fewer steps for the same intelligence, and it carries end-to-end tasks through.
Claude Opus 4.8 delivers the highest score recorded on our Legal Agent Benchmark, and is the first model to break 10% overall on the all-pass standard. For substantive legal work, that’s the kind of accuracy lift that translates directly into how much real attorney work our customers can hand off with confidence.
Claude Opus 4.8 feels like a major quality-of-life update over Opus 4.7: faster, easier to collaborate with, and better at carrying context and style direction across a long session. Opus 4.8 is the model I kept trusting for work where voice, taste, and technical execution all have to happen side-by-side.
Claude Opus 4.8 is the strongest computer-use and browser-agent model we’ve tested, scoring 84% on Online-Mind2Web, which is a meaningful jump over both Opus 4.7 and GPT-5.5. It stays reflective and on-task in the way our customers’ agent workloads need to be reliable end-to-end.
Claude Opus 4.8 uses tools cleanly and follows instructions with the consistency our autonomous engineering workloads need to keep running unattended. It improves on Opus 4.6 and fixes the comment-verbosity and tool-calling issues we saw with Opus 4.7. This release from Anthropic translates directly into faster capability gains for engineers building on Devin.
On our long-running evals, Claude Opus 4.8’s analysis was consistently higher quality than prior Opus models. It finished faster and produced richer, more information dense outputs. Overall, a noticeably better signal to noise ratio. The biggest differentiator was Opus 4.8’s tendency to proactively flag issues with the inputs and outputs of an analysis, something other models routinely missed and left to the users to catch.
Across CoCounsel Legal, Claude Opus 4.8 delivered meaningful improvements in consistency and reasoning quality compared to prior Opus models. For the high-stakes professional workflows our customers depend on, that reliability matters. As we build fiduciary-grade AI systems for legal and tax professionals, advances like these help raise the standard for trusted AI performance in real-world workflows.
Claude Opus 4.8 sets a new bar for enterprise AI. In Genie, Databricks’ AI agent for data and knowledge work, the new Opus model unlocks a step change in agentic reasoning, tackling deeper, multistep questions faster than any prior Opus. Its multimodal strength also lets Genie reason directly over PDFs, diagrams, and other unstructured content at 61% cheaper token cost than Opus 4.7.
For financial-document workflows in Hebbia’s orchestrator, Claude Opus 4.8 delivers the same strong quality as Opus 4.7 with noticeably better citation precision and more token efficiency on retrieval, which works incredibly well for the kinds of dense filings our customers run every day.
01 /
11
One of the most prominent improvements in Opus 4.8 is its *honesty*. We train all our models to be honest—for instance, to avoid making claims that they can’t support. But a general problem with AI models is that they sometimes jump to conclusions, confidently claiming to have made progress in their work despite the evidence being thin. Early testers report that Opus 4.8 is more likely to flag uncertainties about its work and less likely to make unsupported claims. This is borne out in our evaluations, which show that Opus 4.8 is around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked.
As always, we ran a detailed alignment assessment on the model before release. In terms of positive traits, our Alignment team concluded that Opus 4.8 “reaches new highs on our measures of prosocial traits like supporting user autonomy and acting in the user’s best interest.” The assessment also showed Opus 4.8 to have rates of misaligned behavior (such as deception or cooperation with misuse) that are substantially lower than Opus 4.7, and similar to our best-aligned model, Claude Mythos Preview. The full alignment assessment, accompanied by a suite of pre-deployment safety tests, is reported in the Claude Opus 4.8 System Card.

Also launching today
In addition to Claude Opus 4.8, we’re making the following updates:
- Dynamic workflows. This new feature, available in research preview, allows Claude to take on even bigger tasks in Claude Code. Claude can plan the work and then run hundreds of parallel subagents in a single session (and with Opus 4.8, the agents can run for even longer). It then verifies its outputs before reporting back to the user. For example, Claude Code with Opus 4.8 can now carry out codebase-scale migrations across hundreds of thousands of lines of code from kickoff to merge, with the existing test suite as its bar. You can read more about dynamic workflows—available in Claude Code for Enterprise, Team, and Max plans—in this post.
- Effort control in claude.ai and Cowork. A new control alongside the model selector lets users choose how much effort Claude puts into a response. On higher effort settings, Claude will think more frequently and more deeply to give better responses. On lower effort settings, Claude will respond faster and use up a user’s rate limits more slowly. Users now have this choice—the effort control is available on all plans.
- The Messages API now accepts system entries inside the messages array. Developers can update Claude’s instructions mid-task without breaking the prompt cache or routing the update through a user turn. This can be used in a given harness to update permissions, token budgets, or environment context as an agent runs.
A note on effort
Opus 4.8 defaults to high effort, which we judge to be the best overall balance of quality and user experience. On coding tasks, this effort level spends a similar number of tokens as Opus 4.7’s default, but with better performance. Users can choose “extra” (“xhigh” in Claude Code) or “max,” and the model will spend more tokens to get better results; we recommend using “extra” for difficult tasks and long-running asynchronous workflows. We have increased rate limits in Claude Code to accommodate the higher token usage of higher effort levels; users can select whichever makes sense for their particular project.
What’s next?
Users will find Opus 4.8 to be a modest but tangible improvement on its predecessor. There’s still more to be done: we’re working on developing and releasing models that provide many of the same capabilities as Opus at a lower cost.
Not only that, but we plan to release a new class of model with even higher intelligence than Opus. As part of Project Glasswing, a small number of organizations are currently using Claude Mythos Preview for cybersecurity work. Models of this capability level require stronger cyber safeguards before they can be generally released. We’re making swift progress on developing these safeguards and expect to be able to bring Mythos-class models to all our customers in the coming weeks.
Availability
Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens. Developers can use claude-opus-4-8 via the Claude API.
Related content
Anthropic raises $65B in Series H funding at $965B post-money valuation
Anthropic opens Milan office to support Italian enterprise, research, and developers
We're opening a new office in Milan, our sixth in Europe.
Anthropic appoints KiYoung Choi as Representative Director of Korea ahead of Seoul office opening
関連記事
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
Claude Fable 5 と Mythos 5 の能力に関する記事
Anthropic は、Claude Fable 5 が米政府から不正アクセス(ジャイルブレイク)の懸念によりリリース後わずか3日で利用停止を命じられたと報じています。この措置により、多くのユーザーが失った機能への愛着を表明しています。
OpenAI や Anthropic の安価な代替案に賭ける 130 億ドル規模の AI スタートアップ
TLDR AI が報じた記事によると、OpenAI や Anthropic に代わる低コストソリューションへ巨額の投資を行う 130 億ドル規模の AI スタートアップが注目されています。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み