Anthropic、Claude Codeの品質問題を認め、より厳格な品質管理を約束
AnthropicはClaude Codeの品質低下を公式に認めた上で、3つのエラーソースを特定・修正し、今後はより厳格な品質管理プロセスを導入すると発表した。
キーポイント
品質低下の公式認容
ユーザーから報告されていたClaude Codeの性能・精度低下に関する懸念をAnthropicが公式に受け止め、対応方針を示した。
3つのエラーソースの特定と修正
問題の原因を技術的に調査し、すでに3つの個別のエラーパターンを特定して修正済みであることを明らかにした。
厳格な品質管理の約束
今後はリリース前のテストプロセスを強化し、再発防止と品質安定化を図るための厳格なQC基準を導入すると表明した。
影響分析・編集コメントを表示
影響分析
本ニュースはClaude Codeの直接利用者にとって即座の改善効果をもたらすが、業界全体を再編する大規模な技術革新ではない。ただし、AI開発ツールの品質基準が高まる中、Anthropicの対応は競合他社にも厳格なテストパイプラインの見直しを促す波及効果を持つ。
編集コメント
技術的な新発見はないものの、AIツールの実用化段階では「品質管理とユーザーフィードバックの迅速な反映」が信頼構築の鍵となる。今後はClaude Codeの改善効果を実際のコーディングワークフローで検証する必要がある。
Claude Codeの品質低下についてユーザーから苦情が寄せられた。Anthropicは3つの独立したエラーの原因を特定し、修正を行った。同社は今後の品質管理をより厳格に行うことを約束している。
過去1ヶ月の間、AnthropicのコーディングツールClaude Codeが明らかに悪化した結果を生成しているというユーザーからの報告が増え続けていた。Anthropicは詳細なポストモーテム(post-mortem)でその原因を明らかにした。Claude Code、Claude Agent SDK、Claude Coworkへの3つの独立した変更が組み合わさり、広く感じられる品質の低下を引き起こしていた。Anthropicによれば、API自体には影響がなかったという。これら3つの問題はすべて、4月20日付のバージョン2.1.116で修正済みである。
推論負荷の低下、キャッシュバグ、プロンプト制限が問題の原因
最初の問題は3月4日にさかのぼる。Anthropicは、一部のユーザーが「high」モードで極端なレイテンシ(latency)を経験していたため、デフォルトの推論負荷(reasoning effort)を「high」から「medium」に引き下げた。社内テストでは、ほとんどのタスクでmediumモードがわずかに劣る結果しか生み出さない一方で、レイテンシを大幅に削減できることが示されていた。このトレードオフは報われず:ユーザーからClaude Codeが知能が低下したように感じられるという報告がすぐに寄せられた。4月7日、Anthropicはこの変更を恒久的にロールバックした。
2番目の問題は、3月26日にリリースされたキャッシュ最適化(caching optimization)機能のバグだった。計画では、セッションを再開する際のレイテンシを削減するため、1時間の非活動状態後に古い推論セクションを一度削除するものだった。しかし、コーディングエラーにより、その後のすべてのターンで推論履歴が完全に消去されてしまった。
Claudeは自身の判断に関するコンテキストを段階的に失っていった。ユーザーからは、忘却や繰り返しの発生、奇妙なツールの選択が観察された。加えて、その結果生じたキャッシュミス(cache miss)により、使用制限が予想より速く消費されてしまった。Anthropicによれば、このバグはレビューをすり抜けて検出されず、4月10日になってようやく修正された。
3番目の問題は4月16日に発生した。それは、よく知られたOpus 4.7の冗長性を抑制する目的で設けられたシステムプロンプト(system prompt)の指示だった。その行には「Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.」と記載されていた。その後のより広範なevalスイート(eval suite)を用いたテストで、品質が3%低下することが判明した。Anthropicは4月20日に変更をロールバックした。
Anthropicが品質管理を強化
各変更が異なる時期に異なるユーザーグループに影響を与えたため、複合的な効果は当初、通常のばらつきとは見分けがつかない、曖昧で緩やかな品質低下として感じられた。
今後、Anthropicはより多くの従業員が内部テスト版ではなく、正確な公開ビルドのClaude Codeを使用するようになるという。すべてのシステムプロンプトの変更は、今では広範なモデル固有のevalスイート(eval suite)を通過しなければならない。
知能に影響を与える可能性のある変更については、Anthropicはソーク期間(soak period)と段階的ロールアウト(gradual rollout)を導入する計画だ。補償として、同社はすべてのサブスクライバーの使用制限をリセットした。
THE DECODERの購読特典として、広告なしでの閲覧、週刊AIニュースレター(AI newsletter)、年6回発行の限定「AI Radar」最前線レポート、アーカイブへの完全アクセス、コメント欄への利用権が含まれます。
原文を表示
Users complained about declining quality in Claude Code. Anthropic identified and fixed three separate sources of error. The company promises stricter quality controls going forward.
Over the past month, a growing number of users reported that Anthropic's coding tool Claude Code was producing noticeably worse results. Anthropic has now laid out the causes in a detailed post-mortem: three independent changes to Claude Code, the Claude Agent SDK, and Claude Cowork combined to create a widely felt quality drop. The API itself was not affected, according to Anthropic. All three issues have been fixed as of April 20 with version 2.1.116.
Lower reasoning effort, caching bugs, and prompt restrictions caused the problems
The first issue dates back to March 4. Anthropic lowered the default reasoning effort from "high" to "medium" because some users were experiencing extreme latency in high mode. Internal testing had shown that medium mode delivered only slightly worse results on most tasks while significantly reducing latency. The trade-off didn't pay off: users quickly reported that Claude Code felt less intelligent. On April 7, Anthropic permanently rolled back the change.
The second problem was a bug in a caching optimization shipped on March 26. The plan was to delete older reasoning sections once after an hour of inactivity to reduce latency when resuming a session. A coding error caused the reasoning history to be wiped on every subsequent turn instead.
Claude progressively lost context about its own decisions. Users noticed forgetfulness, repetition, and strange tool choices. On top of that, the resulting cache misses burned through usage limits faster than expected. According to Anthropic, the bug slipped through reviews undetected and wasn't fixed until April 10.
A third issue appeared on April 16: a system prompt instruction meant to curb the well-known verbosity of Opus 4.7. The line read: "Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail." Later testing with a broader eval suite revealed a 3 percent quality drop. Anthropic rolled back the change on April 20.
Anthropic tightens quality controls
Because each change affected different user groups at different times, the combined effect felt like a vague, gradual decline that was initially hard to distinguish from normal variation.
Going forward, Anthropic says more employees will use the exact public build of Claude Code instead of internal test versions. Every system prompt change will now have to pass a broad, model-specific eval suite.
For changes that could impact intelligence, Anthropic plans to introduce soak periods and gradual rollouts. As compensation, the company has reset usage limits for all subscribers.
Anthropic also set up the X account @ClaudeDevs to communicate product decisions more transparently.
Perceived quality drops remain a recurring theme across the AI industry
This isn't the first time users have complained about declining AI quality. Back in the second half of 2023, users accused OpenAI of making GPT-4 "dumber" over time. OpenAI denied making significant changes to its models after release.
Claude has faced similar complaints before, with infrastructure bugs as the culprit. The current case reinforces a pattern: what users perceive as model regressions often turns out to be changes in the tooling layer or infrastructure rather than the models themselves. In real-world use, users benefit from scaffolding like Claude Code because it steers model capabilities and provides the right context. When that scaffolding breaks, the opposite happens. Add in vendor-side tweaks like Anthropic's reasoning depth adjustment, and the effect compounds.
The motivation behind such changes increasingly ties back to an industry-wide compute crunch. Anthropic's API availability recently sat at just 98.95 percent - well below the cloud industry standard of 99.99 percent. GPU hourly prices on the spot market rose 48 percent according to the Ornn Compute Price Index, and Bank of America analysts expect demand to outstrip supply through at least 2029. OpenAI is shutting down its video generation app Sora to free up compute for coding and enterprise products. GitHub also paused new signups for several Copilot tiers.
This pressure is also shaking up pricing models. Anthropic's head of growth recently acknowledged that the existing Pro and Max plans weren't built for current agentic workloads since they were created before compute-intensive tools like Claude Code existed. The company even briefly tested removing Claude Code access for new Pro subscribers but reversed course after backlash.
OpenAI, meanwhile, doubled API prices with GPT-5.5 compared to its predecessor, charging $5 per million input tokens and $30 per million output tokens. The era of cheap flat rates for the most powerful agentic AI tools appears to be coming to an end.
AI News Without the Hype – Curated by Humans
Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.
関連記事
アンストロピック「強力なAIモデルはより良い取引を実現し、劣るモデルを使う利用者は気づかない」
アンストロピックは社内市場で69のAIエージェントに取引をさせ、強力なモデルがより良い結果を出した。利用者は劣るモデルの差に気づかず、AIの実取引化は経済格差を拡大させる可能性がある。
Claude Codeの品質報告に関する最新アップデート
アンソロピックは、Claude Codeの品質に関するユーザー報告を調査した。その結果、3つの変更が原因であることを特定し、同社は該当する変更を修正して品質を改善すると発表した。
Claude Codeの品質報告に関する最新アップデート
アンソロピックはClaude Codeの品質低下苦情を調査し、AIモデル自体に問題はなく、ツール環境内の3つの不具合が原因であることを明らかにし、詳細な事後報告を公開した。