#システム信頼性 のAIニュース
5件の記事
コードオレンジ:小規模障害対策完了によりクラウドフレアネットワークが強化
クラウドフレアは過去2四半期にわたり「コードオレンジ」と呼ぶ内部プロジェクトを通じてインフラの耐障害性とセキュリティを向上させる取り組みを行い、11月18日の障害回避に必要な作業を完了した。
Cloudflare Blog·5月2日·★★★★
GitHubがeBPFを活用してデプロイメントの安全性を向上させる方法
GitHubは、自社のソースコードをgithub.comでホストしており、サービス障害時にデプロイメントが困難になる循環依存問題を、eBPF技術を用いて解決している。
GitHub Blog·4月17日
QCon London 2026:本番AIシステムのための信頼性のある検索
RabobankのAIテックリードLan Chu氏が、1万文書・300ユーザー以上で運用するAI検索システムの導入経験を共有。RAGシステムの失敗の多くは言語モデル自体ではなく、インデックス作成と検索に起因することを示した。
InfoQ·3月18日
変化を指標として:変更配信シグナルによるシステム信頼性の測定
InfoQの記事が、システム変更は本番環境インシデントの主な要因であり、変更関連指標が信頼性の重要なシグナルであると指摘している。変更リードタイム、変更成功率、インシデント漏洩率の最小指標セットが、実用的な技術指標とイベント中心のデータウェアハウスによって支えられ、配信効率と信頼性を評価する。
InfoQ·3月9日
AI Gatewayでプロバイダーごとのカスタムタイムアウト機能が利用可能に
AI Gatewayが推論プロバイダーごとのタイムアウト設定を導入し、応答が遅い場合に次のプロバイダーへ自動的にフェイルオーバーする機能を提供した。現在はBYOK認証でのみベータ版として利用可能。
Vercel Blog·3月5日