GitHub 可用性レポート:2026 年 5 月
GitHub は AI ベースの開発ワークフローの急増に対応するためインフラを大規模改修中だが、5 月に 9 件の障害が発生し、特にプルリクエスト機能に深刻な影響を与えたことを報告した。
キーポイント
AI 需要によるトラフィック急増とインフラ転換
AI 支援およびエージェント型開発ワークフローの拡大によりトラフィックが急増しており、GitHub はモノリシックアーキテクチャから Azure を活用した弾力的な分散型へ移行を進めている。
5 月の障害発生と影響範囲
5 月に 9 件のインシデントが発生し、特に 4 日の-schema 移行ミスによる障害ではプルリクエスト機能が停止し、Copilot や Codespaces など依存サービスも影響を受けた。
アーキテクチャの構造的改善と将来の目標
データベースクラスタの分離やステートレス認証の実装により単一障害点を排除する取り組みが進んでおり、優先順位は「可用性→キャパシティ→機能」としている。
Schema Migration が引き金となったサービス障害
大規模データベースへのスキーマ移行とピーク時のトラフィックが重なり接続容量を飽和させ、カスケードタイムアウトが発生しました。
GitHub Actions の連続した障害とその原因
5 月 5 日の障害に対する修復作業が設定ミスを引き起こし、翌 6 日に同様の障害を再発させました。
再発防止のための技術的改善策
低トラフィック時間帯への移行計画の調整、動的スロットリング、自動サーキットブレーカー、および監視機能の強化を実施します。
East US リージョンのホストランナー障害
スケールアップ操作中の VM 作成負荷が内部レート制限に達し、バックオフロジックが作動しなかったことが原因で、最大 0.5% のジョブに影響が出た。
影響分析・編集コメントを表示
影響分析
このレポートは、AI 開発ツールの爆発的普及がクラウドインフラに与える負荷の実態と、その過渡期におけるシステム不安定性を如実に示しています。GitHub が直面しているのは単なるトラフィック増加ではなく、従来のアーキテクチャでは対応しきれない「AI エージェント型ワークフロー」への適応課題であり、開発者コミュニティにとってはサービスの信頼性確保に向けた技術的転換点の重要性を再認識させる内容です。
編集コメント
AI 開発の普及がインフラ設計そのものを再定義するフェーズに入ったことを示す重要な事例です。GitHub が掲げる「可用性最優先」の方針は、急成長する AI ツール市場において不可欠な戦略と言えます。
3 月と 4 月に、GitHub の可用性およびインフラ投資に関する更新情報を共有しました。その取り組みは継続しており、主要なマイルストーンに近づいていることから、今後は毎月の可用性レポートでより定期的な更新情報を提供していくことにします。5 月のインシデントの詳細に入る前に、GitHub をより信頼性の高いものにするための継続的な取り組みにおける進捗状況をご紹介します。
GitHub のレジリエンス向上に向けた進捗
要約すると:AI 支援型およびエージェント型の開発ワークフローに牽引され、GitHub のトラフィックは急速に増加しており、これに対応するためにインフラの転換を進めています。具体的には、弾力的なキャパシティを実現するために Azure への移行、モノリシックアーキテクチャを分離されたサービスへと分解し、過去のインシデントを引き起こしてきた共有障害ポイントの排除を行っています。
現在の状況は以下の通りです。現在、モノリシックトラフィックの 40% を Azure で処理しており(2 月は 8%)、Git トラフィックは 30%、リポジトリレプリケーションは 99% に達しています。有効キャパシティは 4 ヶ月間で倍以上に増加しました。同時に、主要なデータベースクラスターの分離も完了しつつあり、ユーザー、認証、認可を独立したドメインに分割することで、ある領域での問題がプラットフォーム全体に連鎖するリスクを排除しています。新しいユーザーサービスは完全に移行が完了し、トラフィックは 2 倍処理しながらも、大幅に低いデータベースコストで運用されています。また、ステートレスな認証トークンの展開も進んでおり、トラフィックの急増時に圧力を増幅させていたリクエストごとのデータベース参照を排除しています。
私たちは、永続的に障害モードを除去する構造的変更を行っています。取り組むべき課題があることを認識していますが、それを完了し、必要な時に必要な場所で GitHub が信頼できるようにすることにコミットしています。私たちの判断の根拠となる原則はシンプルです:可用性、次に容量、そして機能です。
GitHub の信頼性と回復力を構築し続ける中で、ご協力いただきありがとうございます。
5 月には、GitHub サービス全体のパフォーマンス低下を招くインシデントが 9 件発生しました。
5 月 4 日 15:45 UTC(継続時間 55 分)
2026 年 5 月 4 日、UTC 時間で 15:34 から 16:40 の間に github.com でサービス障害が発生し、広範な顧客向けサービスにおいてレイテンシの上昇とリクエスト失敗率の増加が引き起こされました。顧客への影響は合計で約 1 時間 6 分続きました。
最も深刻な影響を受けたのはプルリクエスト(Pull Requests)であり、ピーク時の影響期間中ずっとステータスが「Red」と表示されていました。Issues、Actions、Webhooks、Git オペレーションではレイテンシの上昇と断続的なエラーが発生しました。また、Codespaces、Pages、Packages、OAuth、GitHub Apps、Marketplace、Copilot といった多くの依存サービスも、共有データへの依存関係により、不同程度的なパフォーマンス低下を経験しました。ピーク時には約 1.3% のリクエストが 5xx レスポンスを返し、インシデント全体を通じて平均すると約 0.46% となりました。
この障害は、大規模かつ頻繁にアクセスされるデータベーステーブルに対して実行された通常のオンラインスキーママイグレーションによって引き起こされました。マイグレーションは数時間にわたり問題なく進行していましたが、週次ピークに向けてトラフィックが増加するにつれ、マイグレーションと通常のプロダクショントラフィックの負荷が組み合わさり、データベース接続容量を飽和させました。これにより、プライマリデータベースでクエリ競合が発生し、それに依存するサービス全体に連鎖的なタイムアウトが生じました。
影響の最初の兆候から約 3 分以内に、自動化された監視とオンコール担当者の観察を組み合わせた結果、このインシデントが検知されました。原因となったマイグレーションが特定されると即座に一時停止され、依存するサービスは直後に回復しました。緩和までの所要時間は約 33 分で、完全な解決にはさらに約 30 分かかりました
フォローアップとして、同様の事象の発生確率と影響範囲を縮小するため、いくつかの改善策を実装しています。大規模かつ高トラフィックのテーブルに対するマイグレーションは、低トラフィックの時間帯により厳密に合わせるようになり、ライブクラスタ負荷に応じて動的にスロットリングを行うようになります。また、基盤となるデータベースのレイテンシや接続利用率が安全閾値を超えた際に、進行中のマイグレーションを一時停止する自動的なサーキットブレーカーを追加し、移行による圧力(すなわち書き込みレート、ロック時間、接続飽和)が顧客への影響が発生する前にアラートを発令できるよう監視機能を拡張しています。並行して、マイグレーション実行中に十分な余裕が維持されるよう、接続プールの容量を見直しています。
5 月 05 日 13:37 UTC(継続時間:3 時間 49 分)
5 月 06 日 07:19 UTC(継続時間:2 時間 25 分)
5 月 5 日および 5 月 6 日に、GitHub Actions はホストランナーに影響を与える 2 つの関連するインシデントにより機能低下が発生しました。この 2 つの事象は相互に関連しており、5 月 5 日のインシデント後の復旧作業で導入された設定不備が、5 月 6 日のインシデントを引き起こすトリガーとなりました。
2026 年 5 月 5 日、UTC 時間 13:22 から 17:05 の間、GitHub Actions が提供するホストランナーが米国東部リージョンで性能低下を起こしました。標準ランナーを要求したジョブの約 13.5% が失敗し、米国東部に固定されたプライベートネットワーク機能を備えた大型ランナーの要求では約 16% が失敗するか、5 分以上遅延しました。Copilot のコードレビューリクエストも影響を受けました。この期間中に約 8,500 件のコードレビューリクエストがタイムアウトしました。影響を受けたユーザーはプルリクエストにエラーコメントが表示され、レビューを再依頼することで再試行が可能でした。ほとんどのランナー要求は他のリージョンによって自動的に引き継がれましたが、依然として米国東部へルーティングされる一部の要求には影響が残りました。
これは米国東部リージョンにおけるホストランナー VM のスケールアップ操作に起因するものです。この操作自体は定期的に行われるものですが、VM 作成時の負荷がストレージからのイメージ取得時に内部レート制限に達しました。この場合のレスポンスコードにより、既存のバックオフロジックが発動しませんでした。レート制限と VM 作成の失敗は、回復を可能にするために負荷を軽減し、キューされた作業の処理を許可することで緩和されました。UTC 時間 15:34 までに、キューされていたジョブや失敗したジョブの割り当ては主に解消され、15:34 から完全復旧となる 17:05 の間、ランナー割り当てへの影響は 0.5% 未満となりました。
2026 年 5 月 6 日、UTC 時間 06:45 から 09:15 の間、GitHub Actions の標準 Ubuntu ホストランナーが再び劣化し、標準ランナーを要求したジョブの約 17.1% が失敗しました。この問題は、前日のインシデントに対する修復作業中に導入された予期せぬ設定データが原因で、日中の負荷が増加するにつれて新しい割り当てがブロックされたことによるものです。問題のあるデータは UTC 時間 08:51 に削除され、割り当ての再開とランナープールの拡大および回復が可能となりました。
私たちは、制限が発生した際のシステムのスロージング(速度制御)動作を改善し、同様の状況をより迅速に緩和するための制御を強化し、類似のオペレーションに関するすべての制限をエンドツーエンドで見直す取り組みを行っています。さらに、この割り当てデータに対するフィルタリングロジックを更新して異常なデータ形状に対して耐性を持たせ、割り当てがブロックされた際にアラートが鳴るよう監視を改善することで、顧客への影響が始まる前にチームが対応できるようにします。
5 月 6 日 UTC 11:21(38 分間継続)
2026 年 5 月 6 日、UTC 時間 11:02 から 11:13 の間、ユーザーは Copilot クラウドエージェント(Copilot cloud agent)やリモートセッションを開始または表示することができませんでした。この期間中、セッション API へのすべてのリクエストがエラーを返し、新規セッションの作成や既存セッションの閲覧が阻止されました。この問題は、サービスのネットワークルーティングに対する設定変更により、意図せずしてサービスのイングレスパス(ingress path)が削除されたことが原因でした。チームは UTC 時間 11:13 にその変更を元に戻し、サービス復旧を果たしました。完全な回復を確認するまで、このインシデントは UTC 時間 11:59 まで継続しました。今後、同様の設定変更が生産トラフィックに影響を与えないよう、デプロイメント検証プロセスの改善に取り組んでいます。
2026 年 5 月 6 日 UTC 15:25(3 時間 39 分間継続)
2026 年 5 月 6 日、UTC 時間 15:12 から 19:02 の間に、github.com における新規プルリクエストレビュースレッドの作成に失敗しました。これには、プルリクエストに対する新規行コメントおよびファイルコメントが含まれます。既存のプルリクエストや以前に作成されたコメントへの影響はありませんでした。
このインシデントは、プルリクエストスレッド作成時に使用される Vitess ルックアップテーブル内の 32 ビット整数キーが最大値に達したことが原因でした。プライマリテーブルは 64 ビット整数キーへ移行されましたが、Vitess ルックアップテーブルは 32 ビットのまま残っていました。プライマリテーブルの値が利用可能な 32 ビット ID スペースを超えたことで、新しいレビュースレッドの作成試行が失敗し、結果として新規スレッド作成リクエストのほぼ 100% が失敗する事態となりました。この問題は、影響を受けたすべてのシャードにおけるルックアップテーブル定義を 64 ビット整数カラムタイプへ更新して利用可能な ID リンジを増やし、正常な運用を回復させることで緩和されました。スキーマ変更がグローバルに完了した時点でサービスは完全に復旧しました。
同様のインシデントを防ぐため、データベースカラムの既存監視を Vitess ルックアップテーブルにも拡大し、いずれのカラムサイズ制限に近づいているテーブルについても早期検出を可能にする措置を講じています。
5 月 7 日 05:02 UTC(継続時間:1 時間 54 分)
2026 年 5 月 7 日の 04:12 から 06:13 UTC の間、Copilot cloud エージェントおよび Copilot コードレビューエージェントのセッションがプルリクエストに対して遅延したり、開始できなかったりしました。
影響を受けた期間中、プルリクエストによってトリガーされた新しい Copilot コーディングエージェントセッションは作成されず、レビューエージェントセッションはベースラインから約 50% 減少しました。
この問題は、別のプルリクエストインシデントからのフォローアップ復旧作業に起因していました。その復旧の一環として大規模なデータベースマイグレーションを実行した結果、いくつかのレプリカホストでレプリケーション遅延が発生しました。
これらのレプリカはユーザートラフィックを処理していませんでしたが、安全装置が正しく機能し、増大したレプリケーションラグを信号として検知して、影響を受けたデータベースクラスターへの書き込み速度を低下させました。その結果、一部のプルリクエストのバックグラウンド処理が一時的に遅延しました。この処理は Copilot エージェントが作業を開始するために使用する内部イベントを送信する役割を担っているため、影響を受けたエージェントはデータベースレプリカが追いつくまで起動しませんでした。
システムはレプリケーションラグが正常値に戻り、プルリクエストの処理が再開されたことで復旧しました。現在、バックグラウンド処理の耐性を高めており、レプリケーションラグに対してより堅牢に動作させ、負荷下でも重要なイベントの流れを維持して、将来の復旧作業中に同様の二次的な影響が発生する可能性を低減しています。
5 月 15 日 08:13 UTC(継続時間:35 分)
2026 年 5 月 15 日、UTC 時間 07:43 から 08:48 の間、GitHub Actions で障害が発生し、一部の顧客においてワークフローの実行が失敗したり、開始が遅延したりしました。このインシデントは、GitHub Actions が使用するサポート用インフラの計画的なフェイルオーバー(切り替え)によって引き起こされました。その操作中に、自動化されたサービスディスカバリの更新が正しく伝播せず、トラフィックが誤ってルーティングされる結果となり、ワークフローオーケストレーションの中核となる依存関係においてリクエストタイムアウトが増加しました。
最大影響時には、Actions の実行の 42% が失敗しました。Actions ワークフローの実行に依存する下流サービスも影響を受け、GitHub Pages や Copilot クラウドサービスが含まれていました。UTC 08:12 にレスポンダーが手動でサービスディスカバリのルーティング問題を修正しました。タイムアウトと失敗率は直後に回復し、影響を受けたすべてのサービスで完全な安定化が確認されるまで監視を継続しました。インシデントは UTC 08:48 に解決済みとしてマークされました。
再発防止のため、私たちはいくつかの措置を講じています。まず、フェイルオーバー操作を完了する前にサービスディスカバリの状態を検証するフェイルオーバーガードレールを実装します。次に、検証チェックを強化します。最後に、インフラストラクチャイベント発生時のタイムアウトのカスケード(連鎖)を減らすために依存関係のレジリエンスを向上させます。
5 月 26 日 10:57 UTC(継続時間:2 時間 21 分)
2026 年 5 月 26 日、UTC 時間 10:40 から 12:56 の間に、GitHub Actions のジョブに障害が発生しました。UTC 時間 10:40 から 12:16 の間は、新たにキューされたすべての実行が開始されませんでした。UTC 時間 12:16 から 12:56 の間は、ワークフローでアクションのダウンロードを必要とする実行が引き続き失敗しました。GitHub Pages、Copilot コードレビュー、Copilot コーディングエージェント、Octoshift、および GitHub Enterprise Importer も、GitHub Actions への依存関係により影響を受けました。
これは、GitHub Actions がワークフローの実行を認証し、アクションをダウンロードするために使用するサービスアカウントを、自動化されたアカウント審査システムが誤って停止させたことが原因です。
対策として、UTC 時間 12:16 にアカウントを復元し、12:20 にさらに自動審査の対象外とマークし、キャッシュされたアカウント状態をクリアするために関連するサービスを 12:48 に再デプロイしました。完全な回復は UTC 時間 12:56 に確認されました。
今回のインシデント中、サービスアカウントが無効化された際に、少数の課題(issues)、プルリクエスト、コメント、およびディスカッションが非表示としてマークされました。データが失われることはありませんでした。このインシデントのために非表示にされていたすべてのコンテンツは復元され、完全な検索インデックスの復元も完了しました。
再発を防ぐため、自動化システムによって停止できないすべてのサービスアカウントをホワイトリストに登録し、これらの保護措置がすべてのアカウント管理ツールで一貫して適用されるようにしました。また、アカウント用の診断ツールの改善とキャッシュ伝播遅延の短縮を行い、将来的に同様のインシデントが発生した際の対応時間を短縮することを目指しています。
5月28日 19:01 UTC(1時間40分間継続)
2026年5月28日の18時27分から20時41分の間、GitHub Copilot サービスが、上位プロバイダーのResponses API の不具合により低下しました。この影響はGPT-5.2、GPT-5.3-Codex、GPT-5.4、およびGPT-5.5モデルに及んでいます。Responses API を経由してこれらのモデルへルーティングされたリクエストでエラー率が上昇し、Copilot コーディングエージェントやCopilotコードレビューにも影響が出ました。他のモデルへの影響はありませんでした。
私たちは、上位プロバイダーが修正を適用している間、影響を受けたモデルからのトラフィックを迂回させることで事態を収束させました。
GitHub は、影響を受けたモデルに対する自動フェイルオーバーの改善と、同様の事象を防ぐための監視強化に取り組んでいます。
ステータスページで、ステータス変更に関するリアルタイム更新や事後報告をご覧ください。私たちが取り組んでいる内容の詳細については、GitHub Blog のエンジニアリングセクションをご参照ください。
本記事「GitHub availability report: May 2026」は、The GitHub Blog に最初に投稿されました。
原文を表示
In March and April we shared updates on GitHub’s availability and infrastructure investments. As that work continues and we approach some major milestones, we wanted to start sharing more regular updates in our monthly availability reports. So before we dive into incidents from May, here’s how we’re tracking with our ongoing work to make GitHub more reliable.
Our progress in making GitHub more resilient
The short version: GitHub’s traffic is growing rapidly, driven in large part by AI-assisted and agentic development workflows, and we’ve been transforming our infrastructure to keep up with it. That means moving to Azure for elastic capacity, breaking our monolith apart into isolated services, and eliminating the shared failure points that have driven past incidents.
Here’s where we stand. We’re now serving 40% of monolith traffic from Azure (up from 8% in February), with Git traffic at 30% and repository replication at 99%. We’ve more than doubled our effective capacity in four months. At the same time, we’re completing the isolation of our primary database cluster: splitting users, authentication, and authorization into independent domains so that a problem in one can no longer cascade across the platform. Our new users service is fully cut over, and handling double the traffic at substantially lower database cost. Stateless authentication tokens are also rolling out, eliminating per-request database lookups that amplified pressure during traffic spikes.
We are making structural changes that permanently remove failure modes. We acknowledge that we have work to do, but we’re committed to getting it done and making GitHub reliable when and where you need it. The principle guiding our decision is simple: availability, then capacity, then features.
Thanks for your partnership as we keep building GitHub’s reliability and resilience.
In May, we experienced nine incidents that resulted in degraded performance across GitHub services.
May 04 15:45 UTC (lasting 55 minutes)
On May 4, 2026, between 15:34 and 16:40 UTC, github.com experienced a service disruption that produced elevated latency and an increased rate of request failures across a broad set of customer-facing services. Total customer impact lasted approximately one hour and six minutes.
The most significantly impacted service was pull requests, which was statused Red for the duration of peak impact. Issues, actions, webhooks, and Git operations experienced elevated latency and intermittent errors. A number of dependent services—including Codespaces, Pages, Packages, OAuth and GitHub Apps, Marketplace, and Copilot—also saw varying degrees of degraded performance due to shared data dependencies. At peak, approximately 1.3% of requests returned a 5xx response, averaging around 0.46% across the duration of the incident.
The disruption was triggered by a routine online schema migration running against a large, heavily-accessed database table. The migration had been progressing without issue for several hours, but as traffic ramped up toward the weekly peak, the combined load from the migration and normal production traffic saturated database connection capacity. This produced query contention on a primary database and cascading timeouts across services that depend on it.
The incident was detected within approximately three minutes of the first signs of impact through a combination of automated monitoring and on-call observation. Once the contributing migration was identified, it was paused, and dependent services recovered shortly thereafter. Time to mitigation was approximately 33 minutes, and full resolution followed approximately 30 minutes later
As follow-up, we are implementing several improvements to reduce the likelihood and blast radius of a similar event. Migrations against large, high-traffic tables will be more tightly aligned with low-traffic windows and will use dynamic throttling that adapts to live cluster load. We are adding automated circuit breakers that will pause in-flight migrations when latency or connection utilization on the underlying database crosses safe thresholds, and we are extending our monitoring so that migration-induced pressure (i.e., write rate, lock time, and connection saturation) triggers alerts before customer impact occurs. In parallel, we are reviewing connection-pool capacity to ensure adequate headroom is maintained while migrations are running.
May 05 13:37 UTC (lasting 3 hours and 49 minutes)
May 06 07:19 UTC (lasting 2 hours and 25 minutes)
On May 5 and May 6, GitHub Actions was degraded across two related incidents affecting hosted runners. The two events were connected: remediation work performed after the May 5 incident introduced the configuration issue that triggered the May 6 incident.
On May 5, 2026, from 13:22 to 17:05 UTC, GitHub Actions hosted runners in the East US region were degraded. Approximately 13.5% of jobs requesting a standard runner failed and ~16% of requested larger runners with private networking pinned to East US failed or were delayed by more than five minutes. Copilot code review requests were also impacted. Approximately 8,500 code review requests timed out during this window. Affected users saw an error comment on their pull requests and were able to retry by rerequesting a review. Most runner requests were picked up by other regions automatically, but a portion of requests still routing to East US were impacted.
This was triggered by a scale-up operation for hosted runner VMs in the East US region. This is a regular operation, but the VM create load hit an internal rate limit when VM creates pull images from storage. Existing backoff logic was not triggered because of the response code returned in this case. The rate limiting and VM creation failures were mitigated by reducing load to allow for recovery and allowing queued work to be processed. By 15:34 UTC, queued and failed job assignments were mostly mitigated, with less than 0.5% of runner assignments impacted between 15:34 and full recovery at 17:05.
On May 6, 2026, from 06:45 to 09:15 UTC, GitHub Actions Standard Ubuntu hosted runners were again degraded, and approximately 17.1% of jobs requesting a standard runner failed. The issue was caused by unexpected configuration data introduced during remediation work for the previous day’s incident, which blocked new allocations as daily load ramped up. We removed the problematic data at 08:51 UTC, allowing allocations to resume and runner pools to scale back up and recover.
We are improving our system’s throttling behavior when limits occur, improving our controls to more quickly mitigate similar situations in the future, and reviewing all limits end-to-end for similar operations. In addition, we are updating the filter logic for this allocation data to be resilient to abnormal data shapes and improving monitoring to alert when allocations are blocked, allowing the team to respond before customer impact starts.
May 06 11:21 UTC (lasting 38 minutes)
On May 6, 2026, between 11:02 and 11:13 UTC, users were unable to start or view Copilot cloud agent or remote sessions. During this time, all requests to the session API returned errors, preventing users from creating new sessions or viewing existing ones. The issue was caused by a configuration change to the service’s network routing that inadvertently removed the ingress path for the service. The team reverted the change at 11:13 UTC which restored service. The incident remained open until 11:59 UTC while the team verified full recovery. We are taking steps to improve our deployment validation process to prevent similar configuration changes from impacting production traffic in the future.
May 06 15:25 UTC (lasting 3 hours and 39 minutes)
On May 6, 2026, between 15:12 and 19:02 UTC, creation of new pull request review threads on github.com failed. This included new line comments and file comments on pull requests. Existing pull requests and previously created comments were unaffected.
This incident was caused by a 32-bit integer key reaching its maximum value in a Vitess lookup table used during pull request thread creation. The primary table was migrated to a 64-bit integer key, but the Vitess lookup table remained 32-bit. Once the values in the primary table passed the available 32-bit ID space attempts to create new review threads began failing, resulting in a near 100% failure rate for new thread creation requests. We mitigated the issue by updating the impacted lookup table definitions across all shards to use 64-bit integer column types, increasing the available ID range, and restoring normal operation. Service was fully restored once the schema changes competed globally.
To help prevent similar incidents, we are expanding existing monitoring of database columns to include Vitess lookup tables and enabling earlier detection of any tables approaching a column size limit.
May 07 05:02 UTC (lasting 1 hour and 54 minutes)
On May 7, 2026, between 04:12 and 06:13 UTC, Copilot cloud agent and Copilot code review agent sessions for pull requests were delayed or failed to start.
During the impact window, new Copilot coding agent sessions triggered by pull requests were not created, while review agent sessions dropped by ~50% from the baseline.
The issue was caused by follow-up recovery work from a separate pull request incident. As part of that recovery, we ran a large database migration, which caused replication delays on several replica hosts.
Although those replicas were not serving user traffic, our safeguards correctly treated the elevated replication lag as a signal to slow down writes to the affected database cluster. As a result, some pull request background processing was temporarily delayed. That processing is responsible for sending the internal events that Copilot agents use to begin work, so affected agents did not start until the database replicas caught up.
The system recovered once replication lag returned to normal and pull request processing resumed. We are making critical background processing more resilient to replication lag so it degrades gracefully and keeps essential events flowing under strain, reducing the chance of similar secondary impact during future recovery work.
May 15 08:13 UTC (lasting 35 minutes)
On May 15, 2026, from 07:43 to 08:48 UTC, GitHub Actions experienced a degradation that caused workflow runs to fail or experience delayed starts for a subset of customers. The incident was triggered by a planned failover of supporting infrastructure used by GitHub Actions. During that operation, an automated service discovery update did not propagate correctly, which caused traffic to be routed incorrectly and increased request timeouts in a core dependency for workflow orchestration.
At peak impact, 42% of Actions runs failed. Downstream services that depend on Actions workflow execution were also impacted, including GitHub Pages and Copilot cloud services. At 08:12 UTC, responders manually corrected the service discovery routing issue. Timeout and failure rates recovered shortly after, and we continued monitoring until full stabilization was confirmed across all affected services. The incident was marked resolved at 08:48 UTC.
To prevent recurrence, we are taking several steps. First, we are implementing failover guardrails that validate service discovery state before completing failover operations. Second, we are strengthening verification checks. Finally, we are improving dependency resilience to reduce timeout cascades during infrastructure events.
May 26 10:57 UTC (lasting 2 hours and 21 minutes)
On May 26, 2026, between 10:40 and 12:56 UTC, GitHub Actions jobs were degraded. From 10:40 to 12:16 UTC, all newly queued runs failed to start. From 12:16 to 12:56 UTC, runs that required downloading actions for their workflows continued to fail. GitHub Pages, Copilot code review, Copilot coding agent, Octoshift, and GitHub Enterprise Importer were also impacted due to their dependency on GitHub Actions.
This was caused by our automated account review system incorrectly suspending the service account used by GitHub Actions to authenticate workflow runs and download actions.
We mitigated by restoring the account at 12:16 UTC, marking it exempt from further automated review at 12:20 UTC, and redeploying a related service at 12:48 UTC to flush cached account state. Full recovery was confirmed at 12:56 UTC.
During this incident, a small number of issues, pull requests, comments, and discussions were marked as hidden when the service account was disabled. No data was lost. All content hidden because of this incident has been restored and full search index restoration was completed.
To prevent a recurrence, we have added an allowlist of all service accounts that cannot be suspended by automated systems, and ensuring these protections are enforced consistently across all account management tooling. We are also improving diagnostic tooling for accounts and reducing cache propagation delays to shorten time to mitigate similar incidents in the future.
May 28 19:01 UTC (lasting 1 hour and 40 minutes)
On May 28, 2026, between 18:27 and 20:41 UTC, the GitHub Copilot service was degraded due to an issue with the Responses API of an upstream provider affecting the GPT-5.2, GPT-5.3-Codex, GPT-5.4, and GPT-5.5 models. Requests routed to these models via the Responses API returned elevated error rates, which also affected Copilot coding agent and Copilot code review. No other models were impacted.
We mitigated the incident by shifting traffic away from the affected models while the upstream provider deployed a fix.
GitHub is working to improve automated failover for the affected models and strengthen monitoring to prevent similar incidents in the future.
Follow our status page for real-time updates on status changes and post-incident recaps. To learn more about what we’re working on, check out the engineering section on the GitHub Blog.
The post GitHub availability report: May 2026 appeared first on The GitHub Blog.
関連記事
プルリクエスト制限がノイズを削減する方法について
GitHub は、オープンソースへの貢献者増加に伴う大量の低品質なプルリクエストによる混乱を防ぐため、新規に「プルリクエスト制限」機能を導入した。これにより、重要な貢献が埋もれるのを防ぎ、レビュー効率を向上させる。
各トークンからより多くを引き出す:Copilot のコンテキスト処理とモデルルーティングの改善方法
GitHub は、Copilot が計画やデバッグなど長期間にわたるエージェントタスクを遂行する際、トークンの使用効率を高めるため、コンテキストの重複削減と用途に応じた適切なモデル選択機能を強化した。
GitHub Copilot CLI 初心者向け:一般的なスラッシュコマンドの概要
GitHub は、GitHub Copilot CLI の初心者向けシリーズで、スラッシュコマンドの意味や重要性、効率的な使用方法を解説し、モデル切り替えやトークン使用量の確認などのタスクを紹介した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み