Claude Sonnet 4.6の紹介
Claude Sonnet 4.6の新バージョンがリリースされました。AIモデルの性能向上と新機能を提供します。
キーポイント
Claude Sonnet 4.6は、コーディング、コンピュータ使用、長文脈推論などで全面的な能力向上を達成したAnthropicの最新主力モデル
従来Opusクラスが必要だった実用的な業務タスクの性能を、より低価格なSonnetクラスで実現し、経済的価値を高めた
100万トークンのコンテキストウィンドウ(ベータ版)と、人間と同様の方法でコンピュータを操作する汎用能力の大幅な進歩を特徴とする
OSWorldベンチマークと早期ユーザー評価で、特にコンピュータ使用スキルにおいて顕著な進化を確認。複雑なスプレッドシート操作や多段階Webフォーム入力で人間レベルの能力を示す
Anthropicの安全性評価では、以前のモデルと同等かそれ以上の安全性を確認し、社会的に好ましい性格特性を維持していると報告
影響分析・編集コメントを表示
影響分析
Claude Sonnet 4.6のリリースは、高価な最上位モデル(Opus)の性能を中位モデル(Sonnet)で実現する「性能の民主化」を加速させる。特に汎用コンピュータ操作能力の向上は、APIが存在しないレガシーシステムの自動化を可能にし、企業の業務効率化に大きな実用インパクトを与える可能性がある。
編集コメント
「性能の民主化」が進み、高機能AIの実用コストが低下。特にレガシーシステムの自動化という企業の長年の課題にAIが本格的に取り組める段階に入ったことを示す重要なアップデート。
アンソロポジー社は、新たなAIモデル「Claude Sonnet 4.6」を発表した。これは同社の「Sonnet」モデルシリーズにおいて最も高性能なバージョンであり、コーディング、コンピュータ操作、長文脈推論、エージェント計画、知識作業、デザインなど、あらゆる技能が全面的にアップグレードされている。主な特徴として、ベータ版では100万トークンという非常に長いコンテキストウィンドウを備えている。
価格は従来のSonnet 4.5と変わらず、無料プランおよびプロプランのユーザーに対して、claude.aiとClaude Coworkのデフォルトモデルとして提供が開始された。トークン単価は100万トークンあたり3ドル(入力)/15ドル(出力)からとなっている。
特に強調されているのは、大幅に強化されたコーディング能力とコンピュータ使用技能である。早期アクセスした開発者からの評価は高く、一貫性や指示への従順さが向上した前モデルSonnet 4.5を大きく上回り、2025年11月リリースの最上位モデル「Claude Opus 4.5」よりも好まれることさえあるという。これまで高価なOpusクラスのモデルが必要だった、現実的で経済的価値の高い事務作業のパフォーマンスが、Sonnet 4.6でも達成可能になった。
安全性については、他の最近のClaudeモデルと同等かそれ以上に安全であるとの評価を得ており、研究チームは「全体的に温かく、誠実で、親社会的、時にユーモアのある性格、非常に強力な安全行動を示し、重大な不整合の兆候は見られない」と結論付けている。
本モデルの最大の進歩点の一つは、「コンピュータ使用能力」の飛躍的向上である。同社は2024年10月に汎用コンピュータ使用モデルを初めて発表したが、当時は実験段階で煩雑でエラーも多かった。しかし、標準ベンチマーク「OSWorld」での評価によれば、16か月で着実な進歩を遂げている。このベンチマークは、ChromeやLibreOffice、VS Codeなどの実在するソフトウェアを用いた数百のタスクをシミュレートした環境で、特別なAPIや専用コネクタなしで、仮想マウスのクリックやキーボード入力により人間と同じ方法でコンピュータと対話する能力を測るものである。
その結果、早期ユーザーは、複雑なスプレッドシートの操作や多段階のウェブフォーム入力、複数のブラウザタブを跨いだ情報の統合といった作業において、人間並みの能力を確認しつつある。最も熟練した人間にはまだ及ばないものの、進歩の速度は顕著であり、APIが存在しない旧来の専門システムやツールを、特別な接続手段なしにAIが自動化できる可能性を大きく広げた。これは、多くの組織が抱える「自動化が困難なソフトウェア」という課題に対する解決策として、非常に実用的な段階に近づいたことを意味している。
原文を表示
ProductIntroducing Claude Sonnet 4.6
Claude Sonnet 4.6 is our most capable Sonnet model yet. It’s a full upgrade of the model’s skills across coding, computer use, long-context reasoning, agent planning, knowledge work, and design. Sonnet 4.6 also features a 1M token context window in beta.
For those on our Free and Pro plans, Claude Sonnet 4.6 is now the default model in claude.ai and Claude Cowork. Pricing remains the same as Sonnet 4.5, starting at $3/$15 per million tokens.
Sonnet 4.6 brings much-improved coding skills to more of our users. Improvements in consistency, instruction following, and more have made developers with early access prefer Sonnet 4.6 to its predecessor by a wide margin. They often even prefer it to our smartest model from November 2025, Claude Opus 4.5.
Performance that would have previously required reaching for an Opus-class model—including on real-world, economically valuable office tasks—is now available with Sonnet 4.6. The model also shows a major improvement in computer use skills compared to prior Sonnet models.
As with every new Claude model, we’ve run extensive safety evaluations of Sonnet 4.6, which overall showed it to be as safe as, or safer than, our other recent Claude models. Our safety researchers concluded that Sonnet 4.6 has “a broadly warm, honest, prosocial, and at times funny character, very strong safety behaviors, and no signs of major concerns around high-stakes forms of misalignment.”
Almost every organization has software it can’t easily automate: specialized systems and tools built before modern interfaces like APIs existed. To have AI use such software, users would previously have had to build bespoke connectors. But a model that can use a computer the way a person does changes that equation.
In October 2024, we were the first to introduce a general-purpose computer-using model. At the time, we wrote that it was “still experimental—at times cumbersome and error-prone,” but we expected rapid improvement. OSWorld, the standard benchmark for AI computer use, shows how far our models have come. It presents hundreds of tasks across real software (Chrome, LibreOffice, VS Code, and more) running on a simulated computer. There are no special APIs or purpose-built connectors; the model sees the computer and interacts with it in much the same way a person would: clicking a (virtual) mouse and typing on a (virtual) keyboard.
Across sixteen months, our Sonnet models have made steady gains on OSWorld. The improvements can also be seen beyond benchmarks: early Sonnet 4.6 users are seeing human-level capability in tasks like navigating a complex spreadsheet or filling out a multi-step web form, before pulling it all together across multiple browser tabs.
The model certainly still lags behind the most skilled humans at using computers. But the rate of progress is remarkable nonetheless. It means that computer use is much more useful for a range of work tasks—and that substantially more capable models are within reach.
At the same time, computer use poses risks: malicious actors can attempt to hijack the model by hiding instructions on websites in what’s known as a prompt injection attack. We’ve been working to improve our models’ resistance to prompt injections—our safety evaluations show that Sonnet 4.6 is a major improvement compared to its predecessor, Sonnet 4.5, and performs similarly to Opus 4.6. You can find out more about how to mitigate prompt injections and other safety concerns in our API docs.
Beyond computer use, Claude Sonnet 4.6 has improved on benchmarks across the board. It approaches Opus-level intelligence at a price point that makes it more practical for far more tasks. You can find a full discussion of Sonnet 4.6’s capabilities and its safety-related behaviors in our system card; a summary and comparison to other recent models is below.
In Claude Code, our early testing found that users preferred Sonnet 4.6 over Sonnet 4.5 roughly 70% of the time. Users reported that it more effectively read the context before modifying code and consolidated shared logic rather than duplicating it. This made it less frustrating to use over long sessions than earlier models.
Users even preferred Sonnet 4.6 to Opus 4.5, our frontier model from November, 59% of the time. They rated Sonnet 4.6 as significantly less prone to overengineering and “laziness,” and meaningfully better at instruction following. They reported fewer false claims of success, fewer hallucinations, and more consistent follow-through on multi-step tasks.
Sonnet 4.6’s 1M token context window is enough to hold entire codebases, lengthy contracts, or dozens of research papers in a single request. More importantly, Sonnet 4.6 reasons effectively across all that context. This can make it much better at long-horizon planning. We saw this particularly clearly in the Vending-Bench Arena evaluation, which tests how well a model can run a (simulated) business over time—and which includes an el
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み