Anthropic、エージェント実行をより安価にする「Claude Sonnet 5」を発表
Anthropic はエージェント実行コストの削減を目的とした新モデル「Claude Sonnet 5」の提供を開始し、実用化における経済的障壁の低減をもたらした。
キーポイント
エージェント実行コストの削減
新モデル「Claude Sonnet 5」は、特に複雑なタスクを実行する AI エージェントのコストを大幅に削減するように設計されている。
実用化への貢献
コスト効率の向上により、企業や開発者が大規模かつ持続的なエージェント運用を行う際の経済的障壁が低下する。
Anthropic の戦略的展開
単なる性能競争から、実社会での採用を加速させる「コスト対効果」への注力へシフトを示す重要な一歩となる。
影響分析・編集コメントを表示
影響分析
この発表は、AI エージェントの実装において最大の課題の一つであるランニングコストの問題に直接アプローチしており、大規模な自動化システムの普及を後押しする可能性が高い。特に、コスト敏感なユースケースやスケールした運用を目指す企業にとって、Claude Sonnet 5 の登場は戦略的な選択肢を広げる重要な転換点となる。
編集コメント
性能競争が激化する中、コスト効率を前面に押し出したこのモデルは、AI エージェントの実社会への浸透速度を加速させる鍵となるでしょう。
エージェント機能の提供が基盤モデル企業間での標準的な要件となりつつある中、Anthropic は同社のミドルサイズモデルのより強力かつエージェント機能を持つバージョンである Claude Sonnet 5 をリリースしました。
「このモデルは計画を立て、ブラウザやターミナルのようなツールを使用し、数ヶ月前まではより大規模で高価なモデルを必要としていたレベルで自律的に動作できます」と Anthropic は ブログ投稿 で述べています。
この表現は、OpenAI と Google が自身の最近のリリースについて語ってきた内容と一致しています。先週プレビュー版として発売された OpenAI の GPT-5.6 Sol も同社にとって最もエージェント機能を持つモデルであり、ユーザーがより長い自律的なタスクのために作業をサブエージェント間で分割できるようにしています。5 月に発売された Google の Gemini 3.5 Flash は、最小限の人間の介入で現実的な作業に対して計画を立て、構築し、反復するエージェント機能を持つツールへと、会話型チャットボットからの転換として売り出されました。
Sonnet 5 の訴求点は、エージェント機能があらゆる価格帯における新たな標準的な期待値であることを確認したものです。今後は差別化要因は、誰が最も優れたエージェント作業を行えるかではなく、いかに安価に、また人間の監視なしでいかに信頼性高くそれを実行できるかとなります。
Sonnet 5 は、Opus 4.8 とほぼ同等のパフォーマンスを提供しつつ、はるかに低コストで実行可能であることを約束しています。火曜日から、Claude Sonnet 5 は無料プランと Pro プランのデフォルトモデルとなり、すべてのサブスクリプションで利用可能です。
ローンチ時点では、Sonnet 5 の料金は 8 月 31 日まで、入力トークン 100 万あたり 2 ドル、出力トークン 100 万あたり 10 ドルです。その後、料金は入力トークン 100 万あたり 3 ドル、出力トークン 100 万あたり 10 ドルに引き上げられます。これにより、Sonnet 5 は Opus 4.8 や OpenAI の GPT-5.5、Google の Gemini 3.1 Pro よりも安価になります(ただし、Gemini 3.5 Flash よりはまだ高価です)。
Anthropic によると、この新モデルは、推論、ツール使用、ソフトウェアコーディング、知識作業におけるエージェント性能において、前作の Sonnet 4.6 2 月にリリース よりも顕著な改善を示しています。
例えば、あるベンチマークでは、Sonnet 5 のエージェントコーディングスコアは 63.2% で、Opus 4.8 の 69.2% や Sonnet 4.6 の 58.1% を上回ります。知識作業のベンチマークでは、Sonnet 5 は微妙な判断や深い調査など最も困難な問題解決で知られる Opus 4.8 よりもわずかに優れたパフォーマンスを発揮します。
「Opus 4.8 は、これらのタスクにおいてより高い精度を必要とする場合に依然としてモデルの選択肢ですが、Sonnet 5 は開発者に、以前に利用可能だったものよりもはるかに高品質な低価格オプションを提供します」と Anthropic は述べています。「Sonnet 5 と Opus 4.8 の間では、ユーザーはコストとパフォーマンスの適切なバランスを見つけるために努力レベルを調整できます。」
ブログ記事で引用されたテスターによると、Sonnet 5 は以前のモデルバージョンが途中で止まっていた複雑なタスクの完了においても卓越しており、「明示的に求められなくても自身の出力をチェックする」ことができます。
「Claude Sonnet 5 に Salesforce アカウントティアの更新とエンタープライズ連絡先へのローンチ発表送信という 2 つの部分からなる仕事を任せたところ、エンドツーエンドで完了しました」と Zapier のシニアエンジニアである Daniel Shepard は声明の中で述べています。「以前は途中で立ち止まることがありました。日常の自動化においては、これは言うまでもなく最適な選択です。」
安全性に関しては、Sonnet 5 はその前世代と比較して、悪用や欺瞞への協力といった「望ましくない行動」の発生率が低く、エージェントコンテキストでの使用がより安全であることを示しています。また、悪意のあるリクエストを拒否したり、プロンプトインジェクション攻撃における乗っ取り試みを回避したりする能力に優れています。さらに、Sonnet 4.6 に比べてハルシネーション(幻覚)や迎合的な行動の発生率も低くなっています。
ただし、ミスマッチした行動に関しては、Opus 4.8 や Claude Mythos Preview と同じレベルではありません。「評価結果によると、現在の Opus モデルと比較して危険なサイバーセキュリティタスクを実行する能力は大幅に低いことも示されています」とブログ記事には記載されています。
Lovable の共同創業者であるファビアン・ヘディンは声明の中で、Claude Sonnet 5 は「安全でないリクエストを明確かつ一貫して拒否する」と述べました。
「Lovable では、何百万人ものビルダーが強力なツールを活用できるようにしています」とヘディン氏は語りました。「『ノー』と言うべき時を知るモデルは、『どのように構築するか』を知っているモデルと同じくらい重要です。」
*当記事内のリンクを通じてご購入いただいた場合、私たちは少額のコミッションを受け取る可能性があります。これは当社の編集の独立性には影響しません。
Rebecca Bellan 氏は TechCrunch のシニア記者であり、人工知能を形成するビジネス、政策、および新興トレンドについて報道しています。彼女の作品はまた、Forbes、Bloomberg、The Atlantic、The Daily Beast、その他の出版物にも掲載されています。
Rebecca への連絡や、彼女からのアウトリーチの検証については、rebecca.bellan@techcrunch.com へメールを送るか、Signal の rebeccabellan.491 で暗号化メッセージを送信してください。
原文を表示
As shipping agentic capabilities becomes table stakes among foundation model companies, Anthropic is releasing Claude Sonnet 5, a more powerful and agentic version of the lab’s midsize model.
“It can make plans, use tools like browsers and terminals, and run autonomously at a level that, just a few months ago, required larger and more expensive models,” Anthropic said in a blog post.
That framing mirrors what OpenAI and Google have said about their own recent releases. OpenAI’s GPT-5.6 Sol was launched in preview last week, and it is also the firm’s most agentic model yet, allowing users to split work across subagents for longer autonomous tasks. Google’s Gemini 3.5 Flash, which launched in May, was pitched as a shift from a conversational chatbot to an agentic tool that plans, builds, and iterates on real work with minimal human input.
Sonnet 5’s pitch is confirmation that agentic capability is the new baseline expectation at every price tier. Now the differentiator isn’t going to be who can do agentic work best, but how cheaply they can do it and how reliably without human oversight.
Sonnet 5 promises performance close to that of Opus 4.8, but for much lower costs. Starting Tuesday, Claude Sonnet 5 will be the default model for free and Pro plans and is available for every subscription.
At launch, Sonnet 5 is priced at $2 per million input tokens and $10 per million output tokens through August 31, after which the price will jump to $3 per million input tokens and $10 per million output tokens. That makes Sonnet 5 cheaper than Opus 4.8, as well as OpenAI’s GPT-5.5 and Google’s Gemini 3.1 Pro. (It’s still more expensive than Gemini 3.5 Flash.)
The new model also demonstrates significant improvements over its predecessor Sonnet 4.6, released in February, on agentic performance like reasoning, tool use, software coding, and knowledge work, according to Anthropic.
For example, on one benchmark, Sonnet 5 scores a 63.2% on agentic coding, compared to Opus 4.8’s 69.2% and Sonnet 4.6’s 58.1%. On a knowledge work benchmark, Sonnet 5 actually slightly outperforms Opus 4.8, which is known for winning on solving the hardest problems like making subtle judgment calls and deep research.
“Opus 4.8 is still the model of choice for higher accuracy on these tasks, but Sonnet 5 provides developers with lower-priced options that are of much higher quality than what was previously available,” Anthropic says. “Between Sonnet 5 and Opus 4.8, users can adjust the effort level to find the right balance of cost and performance.”
According to testers cited in the blog post, Sonnet 5 also excels at finishing complex tasks where previous model versions would have stopped short and “checks its own output without explicitly being asked.”
“We handed Claude Sonnet 5 a two-part job — update Salesforce account tiers, send a launch announcement to enterprise contacts — and it finished end to end,” Daniel Shepard, a senior engineer at Zapier, said in a statement. “That used to stall halfway. For day-to-day automation, it’s a no-brainer. ”
On safety, Sonnet 5 also demonstrates a lower rate of “undesirable behaviors” like cooperation with misuse and deception than its predecessor, making it safer to use in agentic contexts. It’s better at refusing malicious requests and sidestepping hijack attempts in prompt-injection attacks. It also hallucinates and engages in sycophantic behavior at a lower rate than Sonnet 4.6.
That said, it’s not on the same level as Opus 4.8 and Claude Mythos Preview when it comes to misaligned behavior. “Evaluations also show that it has a much lower ability to perform dangerous cybersecurity tasks than our current Opus models,” reads the blog post.
Lovable co-founder Fabian Hedin said in a statement that Claude Sonnet 5 “refuses unsafe requests cleanly and consistently.”
“At Lovable, we’re putting powerful tools in the hands of millions of builders,” Hedin said. “A model that knows when to say no is just as important as one that knows how to build.”
*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*
Rebecca Bellan is a senior reporter at TechCrunch where she covers the business, policy, and emerging trends shaping artificial intelligence. Her work has also appeared in Forbes, Bloomberg, The Atlantic, The Daily Beast, and other publications.
You can contact or verify outreach from Rebecca by emailing rebecca.bellan@techcrunch.com or via encrypted message at rebeccabellan.491 on Signal.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み