最近発生した3つの問題の事後分析
Claudeの応答を断続的に低下させた3つのバグについて、発生原因、修正に時間がかかった理由、改善策を技術的に報告する。
キーポイント
AnthropicのClaudeで8月から9月初旬にかけて3つのインフラバグが発生し、応答品質が断続的に低下した
バグはコンテキストウィンドウのルーティングエラー、トークン化の不具合、ロードバランサーの設定問題が重複して発生
複数のハードウェアプラットフォーム(AWS Trainium、NVIDIA GPU、Google TPU)での展開が診断を困難にした
Anthropicは透明性を高めるため技術的詳細を公開し、監視システムと検証プロセスの改善を約束
影響分析・編集コメントを表示
影響分析
大規模LLMサービスの運用における複雑なインフラ課題を浮き彫りにし、マルチクラウド・マルチハードウェア環境での品質保証の難しさを示した。AI企業の透明性向上と信頼構築のための事例として、業界全体のベストプラクティス形成に寄与する可能性がある。
編集コメント
AIサービスの信頼性を損なう複合的なインフラ障害の実例として、大規模展開時の品質保証プロセスの重要性を再認識させる内容。技術的透明性の高い報告は業界の健全な発展に貢献。
Anthropic社によるClaudeの応答品質低下に関する技術的事後分析報告の要約
2024年8月から9月初旬にかけて、AIアシスタントClaudeの応答品質を間欠的に低下させた三つのインフラストラクチャ上の不具合(バグ)について、開発元のAnthropic社が技術的事後分析を公表した。同社は、問題の原因、解決に時間を要した理由、再発防止策を詳細に説明している。
問題の概要と発覚までの経緯
8月初旬、一部ユーザーからClaudeの応答品質低下の報告が寄せられ始めた。当初は通常のフィードバックの変動との区別が難しかったが、8月下旬までに報告の頻度と持続性が増したため、本格的な調査を開始。その結果、三つの独立したインフラストラクチャのバグが判明した。同社は明確に、「需要や時間帯、サーバー負荷に応じて意図的にモデル品質を低下させることは一切ない」とし、問題の原因は純粋に技術的な不具合のみであったと述べている。
複雑なシステム環境と問題の背景
Claudeは、自社のAPI、Amazon Bedrock、Google Cloud Vertex AIを介して数百万人のユーザーに提供されている。また、AWS Trainium、NVIDIA GPU、Google TPUなど複数のハードウェアプラットフォーム上にデプロイされており、世界的な容量と地理的分散を実現している。各プラットフォームは特性が異なり個別の最適化が必要だが、同社はモデル実装に厳密な等価性基準を設け、どのプラットフォームで処理されても同じ品質の応答が得られることを目指している。この複雑さゆえ、インフラストラクチャの変更には全てのプラットフォームと構成にわたる慎重な検証が必須であった。
三つのバグの内容と影響
- コンテキストウィンドウルーティングエラー(8月5日導入):一部のSonnet 4へのリクエストが誤ってルーティングされ、約0.8%のリクエストに影響。
- 動的バッチングの不具合(8月25日導入):特定の条件下でモデルの推論パフォーマンスが低下。
- プロンプトキャッシュのエラー(8月26日導入):キャッシュの無効化ロジックに問題が生じた。
これらのバグは重複して発生し、診断を特に困難にした。初期の影響は限定的だったが、8月29日の負荷分散設定変更により影響を受けるトラフィックが増加。その結果、多くのユーザーが問題を経験する一方で、他のユーザーは正常な性能を維持するという状況が生まれ、報告が錯綜することとなった。
検出と解決が遅れた理由及び今後の対策
同社は、自らが掲げる「インフラ変更がモデル出力に影響を与えない」という極めて高い基準を今回満たせなかったと認めている。検出と解決に時間がかかった要因として、①問題の報告が通常の変動と区別しづらかったこと、②複数のバグが重なり、根本原因の特定が難しかったこと、を挙げている。
再発防止
原文を表示
A postmortem of three recent issues \ AnthropicEngineering at AnthropicA postmortem of three recent issues
This is a technical report on three bugs that intermittently degraded responses from Claude. Below we explain what happened, why it took time to fix, and what we're changing.
Between August and early September, three infrastructure bugs intermittently degraded Claude's response quality. We've now resolved these issues and want to explain what happened.
In early August, a number of users began reporting degraded responses from Claude. These initial reports were difficult to distinguish from normal variation in user feedback. By late August, the increasing frequency and persistence of these reports prompted us to open an investigation that led us to uncover three separate infrastructure bugs.
To state it plainly: We never reduce model quality due to demand, time of day, or server load. The problems our users reported were due to infrastructure bugs alone.
We recognize users expect consistent quality from Claude, and we maintain an extremely high bar for ensuring infrastructure changes don't affect model outputs. In these recent incidents, we didn't meet that bar. The following postmortem explains what went wrong, why detection and resolution took longer than we would have wanted, and what we're changing to prevent similar future incidents.
We don't typically share this level of technical detail about our infrastructure, but the scope and complexity of these issues justified a more comprehensive explanation.
We serve Claude to millions of users via our first-party API, Amazon Bedrock, and Google Cloud's Vertex AI. We deploy Claude across multiple hardware platforms, namely AWS Trainium, NVIDIA GPUs, and Google TPUs. This approach provides the capacity and geographic distribution necessary to serve users worldwide.
Each hardware platform has different characteristics and requires specific optimizations. Despite these variations, we have strict equivalence standards for model implementations. Our aim is that users should get the same quality responses regardless of which platform serves their request. This complexity means that any infrastructure change requires careful validation across all platforms and configurations.
The overlapping nature of these bugs made diagnosis particularly challenging. The first bug was introduced on August 5, affecting approximately 0.8% of requests made to Sonnet 4. Two more bugs arose from deployments on August 25 and 26.
Although initial impacts were limited, a load balancing change on August 29 started to increase affected traffic. This caused many more users to experience issues while others continued to see normal performance, creating confusing and contradictory reports.
Below we describe the three bugs that caused the degradation, when they occurred, and how we resolved them:
- Context window routing error
On August 5, some Sonnet 4 requests were misrouted to servers configured for the upcoming 1M token context window. This bug initially affected 0.8% of requests. On August 29, a routine load balancing change unintentionally increased the number of short-context requests routed to the 1M context servers. At the worst impacted hour on August 31, 16% of Sonnet 4 requests were affected.
Approximately 30% of Claude Code users who made requests during this period had at least one message routed to the wrong server type, resulting in degraded responses. On Amazon Bedrock, misrouted traffic peaked at 0.18% of all Sonnet 4 requests from August 12. Incorrect routing affected less than 0.0004% of requests on Google Cloud's Vertex AI between August 27 and September 16.
However, some users were affected more severely, as our routing is "sticky". This meant that once a request was served by the incorrect server, subsequent follow-ups were likely to be served by the same incorrect server.
Resolution: We fixed the routing logic to ensure short- and long-context requests were directed to the correct server pools. We deployed the fix on September 4. Rollout to our first-party platform and Google Cloud's Vertex AI was completed by September 16, and to AWS Bedrock by September 18.
On August 25, we deployed a misconfiguration to the Claude API TPU servers that caused an error during token generation. An issue caused by a runtime performance optimization occasionally assigned a high probability to tokens that should rarely be produced given the context, for example producing Thai or Chinese characters in response to English prompts, or producing obvious syntax errors in code. A small subset of users that asked a question in English might have seen "สวัสดี" in the middle of the response, for example.
This corruption affected requests made to Opus 4.1 and Opus 4 on August 25-28, and requests to Sonnet 4 August 25–September 2. Third-party platforms were not affected by this issue.
Resolution: We identified the issue and roll
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み